機器之心發布
機器之心編輯部
全球計算機視覺頂會 CVPR 2020 上,百度共計有 22 篇論文被接收。這篇 Oral 論文中,百度提出了 ActBERT,該模型可以學習敘述性視頻進行無監督視頻文本關系,并提出糾纏編碼器對局部區域、全局動作與語言文字進行編碼。最終在 5 項相關測評任務上取得了 SOTA 結果。
ActBERT 在下游視頻和語言任務上,即文本視頻片段檢索、視頻描述生成、視頻問答、動作步驟定位等任務上明顯優于其他技術,展示了其在視頻文本表示方面的學習能力。
論文:《ActBERT: Learning Global-Local Video-Text Representations》
論文鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf
現有利用 BERT 訓練方式進行視頻語言建模一般通過量化視頻幀特征的方式,通過聚類離散化將視覺特征轉化為視覺單詞。但是,詳細的局部信息,例如,互動對象,在聚類過程中可能會丟失,防止模型進一步發現細粒度的視頻和文字對應關系。本文提出 ActBERT 從配對視頻序列中挖掘全局和局部視覺線索和文字描述,它利用豐富的上下文信息和細粒度的關系進行視頻 - 文本聯合建模,其貢獻有三點:
首先,ActBERT 整合了全局動作,局部區域與文本描述。諸如「剪切」、「切片」之類的動作對于各種視頻相關的下游任務是有益處的。除了全局動作信息,結合本地區域信息以提供細粒度的視覺提示,區域提供有關整個場景的詳細視覺線索,包括區域對象特征,對象的位置。語言模型可以從區域信息中受益以獲得更好的語言和視覺一致性。
其次,糾纏編碼器模塊對來自三個要素進行編碼,即全局動作,局部區域和語言描述。新的糾纏編碼模塊從三個來源進行多模態特征學習,以增強兩個視覺提示和語言之間的互動功能。在全局動作信息的指導下,對語言模型注入了視覺信息,并將語言信息整合到視覺模型中。糾纏編碼器動態選擇合適的上下文以促進目標預測。
此外,提出四個訓練任務來學習 ActBERT。預訓練后的 ActBERT 被轉移到五個與視頻相關的下游任務,并定量地顯示 ActBERT 達到了最先進的性能。
算法
糾纏編碼器
糾纏編碼器包括三個編碼器, 三個編碼器的輸入來自三個來源。為了加強視覺和語言特征之間的互動,糾纏編碼器將視覺信息注入語言編碼器,并將語言信息整合到視覺編碼器中。具體來說,糾纏編碼器利用動作信息催化相互交流。
C_w 是混合后的語言表示形式,而 C_r 是引導后的區域特征。然后,C_w 使用一個線性層獲得新的鍵值對。產生的鍵值對與原始的 a 編碼器和 r 編碼器鍵值對堆疊在一起。通過這種方式,視覺和語言特征更進一步聯系在一起。
訓練方式
本文提出四個訓練方式進行模型學習。第一、有掩碼的語言建模任務。本文利用區域物體和全局動作中的視覺信號,發現視覺和語言實體之間的關系。該任務迫使模型從上下文描述中學習,同時提取相關的視覺特征以協助文本預測。當動詞被去除時,模型應該利用動作特征來更準確預測。當描述局部的名詞被去除時,本地區域特征可以提供更多的上下文信息。
第二、有掩碼的動作分類任務。這個任務是根據語言和物體特征,預測被去除的動作標簽。明確的動作預測可以有兩方面的好處。1)長時期動作序列線索可以被挖掘,該任務可以更好地分辨執行動作時的時間順序;2)利用區域物體和語言文本可以獲得更好的跨模態建模,該任務可以增強預訓練模型中的動作識別能力,可以進一步推廣到許多下游任務。
第三、有掩碼的物體分類任務。在該任務中,局部區域對象特征被隨機去除。其目標分布為將該區域輸入到相同的目標檢測模型得到的激活值。優化目標是最小化兩種分布之間的 KL 差異。
第四、跨模式匹配。與下一個句子預測(NSP)任務類似,在第一個符號 [ CLS ] 的輸出后加入了一個線性分類器,用來指示語言與視覺特征的相關性。如果分數較高,表明文本很好地描述了視頻剪輯。
實驗
實驗設置
ActBERT 在 HowTo100M 數據集上進行預訓練。該數據集涵蓋了總計 23,611 項任務,例如維護和修理、動物營救、準備食材等。在五個任務上評測了 ActBERT 的性能。
視頻描述生成實驗結果
ActBERT 在所有指標上均優于 VideoBERT,表明預訓練學習到更好的視頻表示,也表明 ActBERT 對視頻序列建模的有效性。
動作分割實驗結果
ActBERT 明顯優于基準方法。它表明預訓練的 ActBERT 可以僅處理視覺。當刪除區域信息時,可以觀察到性能下降了,表明詳細的局部線索對于密集視頻幀標記任務有重要作用。
動作步驟定位實驗結果
ActBERT 的表現明顯優于 TVJE,即平均提升有 7%。這個結果甚至比監督學習的性能還要好。為了與 TVJE 有公平的對比,本文刪除了局部區域信息,這個結果也明顯優于 TVJE,證明 ActBERT 預訓練的有效性。完整 ActBERT 模型進一步提高了 4%。
文本視頻片段檢索與視頻問答實驗結果
不需要復雜的聯合視頻文本建模,ActBERT 明顯優于現有其他方法。表明 ActBERT 在大規模數據集上的強大學習能力。
結論
ActBERT 以一種自我監督的方式進行聯合視頻文本建模。該方法直接為全局和局部視覺信息建模,以進行細粒度的視覺和語言關系學習。ActBERT 將信息的三個來源作為輸入,并使用了新穎的糾纏編碼器進一步增強三個源之間的交互。五個視頻文本基準測試的定量結果證明了 ActBERT 的有效性。未來可以通過設計更強大的視頻和文本學習模塊來提升 ActBERT,并將其應用到視頻動作識別和檢測中。
參考文獻:
Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2020.
Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.
Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019
Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.
本文為機器之心發布,轉載請聯系本公眾號獲得授權。
------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報道:content@jiqizhixin.com
廣告 & 商務合作:bd@jiqizhixin.com
網站名稱:刷新五項SOTA,百度ActBERT:基于動作和局部物體的視頻文本特征學習模型
轉載注明:http://m.kartarina.com/article2/cpccoc.html
成都網站建設公司_創新互聯,為您提供域名注冊、網頁設計公司、外貿網站建設、定制開發、商城網站、網站內鏈
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯