刷新五項SOTA,百度ActBERT:基于動作和局部物體的視頻文本特征學習模型

機器之心發布

內鄉網站建設公司成都創新互聯公司,內鄉網站設計制作,有大型網站制作公司豐富經驗。已為內鄉上千家提供企業網站建設服務。企業網站搭建\成都外貿網站制作要多少錢,請找那個售后服務好的內鄉做網站的公司定做!

機器之心編輯部

全球計算機視覺頂會 CVPR 2020 上,百度共計有 22 篇論文被接收。這篇 Oral 論文中,百度提出了 ActBERT,該模型可以學習敘述性視頻進行無監督視頻文本關系,并提出糾纏編碼器對局部區域、全局動作與語言文字進行編碼。最終在 5 項相關測評任務上取得了 SOTA 結果。

ActBERT 在下游視頻和語言任務上,即文本視頻片段檢索、視頻描述生成、視頻問答、動作步驟定位等任務上明顯優于其他技術,展示了其在視頻文本表示方面的學習能力。

論文:《ActBERT: Learning Global-Local Video-Text Representations》

論文鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

現有利用 BERT 訓練方式進行視頻語言建模一般通過量化視頻幀特征的方式,通過聚類離散化將視覺特征轉化為視覺單詞。但是,詳細的局部信息,例如,互動對象,在聚類過程中可能會丟失,防止模型進一步發現細粒度的視頻和文字對應關系。本文提出 ActBERT 從配對視頻序列中挖掘全局和局部視覺線索和文字描述,它利用豐富的上下文信息和細粒度的關系進行視頻 - 文本聯合建模,其貢獻有三點:

首先,ActBERT 整合了全局動作,局部區域與文本描述。諸如「剪切」、「切片」之類的動作對于各種視頻相關的下游任務是有益處的。除了全局動作信息,結合本地區域信息以提供細粒度的視覺提示,區域提供有關整個場景的詳細視覺線索,包括區域對象特征,對象的位置。語言模型可以從區域信息中受益以獲得更好的語言和視覺一致性。

其次,糾纏編碼器模塊對來自三個要素進行編碼,即全局動作,局部區域和語言描述。新的糾纏編碼模塊從三個來源進行多模態特征學習,以增強兩個視覺提示和語言之間的互動功能。在全局動作信息的指導下,對語言模型注入了視覺信息,并將語言信息整合到視覺模型中。糾纏編碼器動態選擇合適的上下文以促進目標預測。

此外,提出四個訓練任務來學習 ActBERT。預訓練后的 ActBERT 被轉移到五個與視頻相關的下游任務,并定量地顯示 ActBERT 達到了最先進的性能。

算法

糾纏編碼器

糾纏編碼器包括三個編碼器, 三個編碼器的輸入來自三個來源。為了加強視覺和語言特征之間的互動,糾纏編碼器將視覺信息注入語言編碼器,并將語言信息整合到視覺編碼器中。具體來說,糾纏編碼器利用動作信息催化相互交流。

C_w 是混合后的語言表示形式,而 C_r 是引導后的區域特征。然后,C_w 使用一個線性層獲得新的鍵值對。產生的鍵值對與原始的 a 編碼器和 r 編碼器鍵值對堆疊在一起。通過這種方式,視覺和語言特征更進一步聯系在一起。

訓練方式

本文提出四個訓練方式進行模型學習。第一、有掩碼的語言建模任務。本文利用區域物體和全局動作中的視覺信號,發現視覺和語言實體之間的關系。該任務迫使模型從上下文描述中學習,同時提取相關的視覺特征以協助文本預測。當動詞被去除時,模型應該利用動作特征來更準確預測。當描述局部的名詞被去除時,本地區域特征可以提供更多的上下文信息。

第二、有掩碼的動作分類任務。這個任務是根據語言和物體特征,預測被去除的動作標簽。明確的動作預測可以有兩方面的好處。1)長時期動作序列線索可以被挖掘,該任務可以更好地分辨執行動作時的時間順序;2)利用區域物體和語言文本可以獲得更好的跨模態建模,該任務可以增強預訓練模型中的動作識別能力,可以進一步推廣到許多下游任務。

第三、有掩碼的物體分類任務。在該任務中,局部區域對象特征被隨機去除。其目標分布為將該區域輸入到相同的目標檢測模型得到的激活值。優化目標是最小化兩種分布之間的 KL 差異。

第四、跨模式匹配。與下一個句子預測(NSP)任務類似,在第一個符號 [ CLS ] 的輸出后加入了一個線性分類器,用來指示語言與視覺特征的相關性。如果分數較高,表明文本很好地描述了視頻剪輯。

實驗

實驗設置

ActBERT 在 HowTo100M 數據集上進行預訓練。該數據集涵蓋了總計 23,611 項任務,例如維護和修理、動物營救、準備食材等。在五個任務上評測了 ActBERT 的性能。

視頻描述生成實驗結果

ActBERT 在所有指標上均優于 VideoBERT,表明預訓練學習到更好的視頻表示,也表明 ActBERT 對視頻序列建模的有效性。

動作分割實驗結果

ActBERT 明顯優于基準方法。它表明預訓練的 ActBERT 可以僅處理視覺。當刪除區域信息時,可以觀察到性能下降了,表明詳細的局部線索對于密集視頻幀標記任務有重要作用。

動作步驟定位實驗結果

ActBERT 的表現明顯優于 TVJE,即平均提升有 7%。這個結果甚至比監督學習的性能還要好。為了與 TVJE 有公平的對比,本文刪除了局部區域信息,這個結果也明顯優于 TVJE,證明 ActBERT 預訓練的有效性。完整 ActBERT 模型進一步提高了 4%。

文本視頻片段檢索與視頻問答實驗結果

不需要復雜的聯合視頻文本建模,ActBERT 明顯優于現有其他方法。表明 ActBERT 在大規模數據集上的強大學習能力。

結論

ActBERT 以一種自我監督的方式進行聯合視頻文本建模。該方法直接為全局和局部視覺信息建模,以進行細粒度的視覺和語言關系學習。ActBERT 將信息的三個來源作為輸入,并使用了新穎的糾纏編碼器進一步增強三個源之間的交互。五個視頻文本基準測試的定量結果證明了 ActBERT 的有效性。未來可以通過設計更強大的視頻和文本學習模塊來提升 ActBERT,并將其應用到視頻動作識別和檢測中。

參考文獻:

Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2020.

Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.

Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019

Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.

本文為機器之心發布,轉載請聯系本公眾號獲得授權。

------------------------------------------------

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

網站名稱:刷新五項SOTA,百度ActBERT:基于動作和局部物體的視頻文本特征學習模型
轉載注明:http://m.kartarina.com/article2/cpccoc.html

成都網站建設公司_創新互聯,為您提供域名注冊網頁設計公司外貿網站建設定制開發商城網站網站內鏈

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

成都seo排名網站優化
主站蜘蛛池模板: 亚洲精品9999久久久久无码| 亚洲AV综合色区无码一区爱AV | 久久亚洲中文字幕无码| 日韩精品无码中文字幕一区二区| 久久久久精品国产亚洲AV无码| 亚洲精品av无码喷奶水糖心| 久久精品无码一区二区日韩AV| 日韩精品人妻系列无码专区免费| 国产午夜无码视频免费网站| 精品少妇人妻av无码久久| 曰韩无码AV片免费播放不卡| 精品无码日韩一区二区三区不卡| 亚洲一级特黄大片无码毛片| 亚洲精品无码久久久久秋霞| 欧洲精品无码一区二区三区在线播放| 97久久精品亚洲中文字幕无码| 国产综合无码一区二区辣椒| 免费无码黄十八禁网站在线观看| 无码国产精品一区二区免费式芒果| 成人免费无码大片A毛片抽搐| 免费无码又爽又刺激高潮视频| 亚洲无码在线播放| 国产亚洲情侣一区二区无码AV| 免费A级毛片无码视频| 亚洲人成人无码网www电影首页| 18禁网站免费无遮挡无码中文| 成在人线av无码免费高潮水| 无码视频一区二区三区| 中文字幕av无码一二三区电影| 777爽死你无码免费看一二区| 亚洲AV综合色区无码另类小说| 下载天堂国产AV成人无码精品网站 | 日韩AV无码一区二区三区不卡 | 亚洲中文字幕无码中文字在线 | 久久亚洲AV成人无码电影| 国产精品无码久久久久久久久久 | 亚洲youwu永久无码精品| 久久老子午夜精品无码| 无码人妻品一区二区三区精99| 久久久无码精品亚洲日韩蜜桃| 无码日韩精品一区二区免费暖暖 |