• <u id="saeeq"><wbr id="saeeq"></wbr></u>
  • <s id="saeeq"><div id="saeeq"></div></s>
  • <u id="saeeq"></u>
  • <u id="saeeq"><noscript id="saeeq"></noscript></u>
  • <s id="saeeq"></s>
  • 軟件所在時間戳監督下視頻時序動作分割方面取得進展

    文章來源:  |  發布時間:2023-04-27  |  【打印】 【關閉

      

       近日,軟件所天基綜合信息系統重點實驗室研究團隊的論文Timestamp-Supervised Action Segmentation from the Perspective of Clustering被人工智能領域頂級學術會議International Joint Conference on Artificial Intelligence(IJCAI)接收,第一作者為碩士生杜大釗,通訊作者為徐帆江研究員。論文就時間戳監督下的視頻時序動作分割任務,提出了一種全新的基于特征聚類的動作分割框架TSASPC,包括偽標簽集成和迭代聚類算法。該框架直接建模靠近動作邊界的動作語義模糊區間,避免了其對訓練過程的負面影響。相比于其他動作分割算法,TSASPC框架在多個公開數據集上有著顯著的動作分割性能提升。 

      視頻時序動作分割旨在將包含多個動作的長視頻分割為若干個動作段,是視頻理解領域中的重要任務。由于全監督下獲取長視頻逐幀標注的成本很高,研究團隊希望尋求弱監督下的解決方法。新興的弱監督方法之一是時間戳監督下的算法,它通常采用的做法僅為訓練視頻中每個動作段隨機標注一幀,然后根據視頻幀的視覺特征為每幀都生成偽標簽,形成完整的偽標簽序列來訓練分割模型。然而,處于動作變化區域的幀的動作語義信息一般不夠明確(研究團隊將這部分區域稱為“語義模糊區間”),在語義模糊區間內,時間戳監督算法為視頻幀賦予低質量的偽標簽會誤導模型訓練、影響訓練過程。 

      研究團隊為解決上述問題,顯式建模語義模糊區間,設計了一個新的時間戳監督時序動作分割框架TSASPC,將每個動作段視為一個類簇,將動作分割視為一個特殊的聚類問題。該框架由兩個主要算法組成,分別是偽標簽集成和迭代聚類。偽標簽集成算法綜合三種時域聚類算法生成偽標簽的結果,得到帶有未標注區間的偽標簽序列,即包含語義模糊區間的偽標簽序列。迭代聚類算法以偽標簽集成算法生成的偽標簽序列為初始化,通過特征聚類迭代地為語義模糊區間的幀生成偽標簽。此過程縮小了語義模糊區間,并能利用不斷更新的偽標簽序列訓練分割模型。研究團隊還通過在訓練過程中引入聚類損失,提高了學習獲取特征的質量。 

      研究團隊將設計的TSASPC框架與多種不同監督設置下的動作分割算法在GTEA50SaladsBreakfast三個重要數據集上進行了對比。結果表明,TSASPC框架在衡量分割性能的多個指標上均有提升,例如 F1分數指標、編輯距離指標和分割準確率指標。TSASPC框架甚至在Breakfast數據集上超過了全監督方法的分割性能。團隊還通過大量的消融實驗說明了偽標簽集成和迭代聚類算法的作用,并證明了所提出框架的合理性。

    基于特征聚類的時間戳監督動作分割框架TSASPC的流程圖

  • <u id="saeeq"><wbr id="saeeq"></wbr></u>
  • <s id="saeeq"><div id="saeeq"></div></s>
  • <u id="saeeq"></u>
  • <u id="saeeq"><noscript id="saeeq"></noscript></u>
  • <s id="saeeq"></s>
  • 久久久综合香蕉尹人综合网