亚州天堂爱爱,做爱视频国产全过程在线观看,成人试看30分钟免费视频,女人无遮挡裸交性做爰视频网站

? ? ?

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

寫在前面

視覺語言預(yù)訓(xùn)練提高了許多下游視覺語言任務(wù)的性能,例如:圖文檢索、基于圖片的問答或推理。有朋友要問了,除了在公開的學(xué)術(shù)任務(wù)上使用更大的模型/更多的數(shù)據(jù)/技巧把指標刷得很高,多模態(tài)預(yù)訓(xùn)練模型有什么實際應(yīng)用呢?

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

為此,字節(jié)跳動 AI Lab Research 團隊提出了X-VLM,首次提出學(xué)習(xí)多粒度的視覺和語言對齊。實驗證明,這種預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多, 僅216M參數(shù)量的X-VLM就能在廣泛的多模態(tài)任務(wù)上獲得了十分優(yōu)秀的表現(xiàn),例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前,X-VLM 在字節(jié)跳動的真實應(yīng)用場景上超過了業(yè)界常用的多個模型,完成了上線,服務(wù)于如今日頭條等業(yè)務(wù)。相關(guān)論文已被ICML 2022接收。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

論文:https://arxiv.org/abs/2111.08276
代碼:https://github.com/zengyan-97/X-VLM

比如,X-VLM 學(xué)到了多粒度的視覺和語言對齊,能為圖片生成更正確的描述物體和物體間關(guān)系的句子,這項能力被應(yīng)用到了字節(jié)跳動的公益項目上。有視覺障礙的趙先生常用今日頭條了解時事新聞,他一直有個期待:“希望和普通人一樣‘看’到全部資訊內(nèi)容。” 今日頭條上超過三分之二的資訊內(nèi)容帶有圖片,為了解決視障人士的讀圖難題,今日頭條App最近應(yīng)用了 X-VLM 的生成能力,可以自動識別圖片并為它們配上描述。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

為了讓他們“看”見每張圖片,我們做了個小改進。

此外,X-VLM的理解和生成能力還被使用在大力智能學(xué)習(xí)燈的自動批改功能上。下圖展示了補全短語題型以及模型預(yù)測的結(jié)果:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

搭配了自動解題功能的大力智能學(xué)習(xí)燈廣受家長好評,這項能力還在持續(xù)優(yōu)化中。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

研究背景

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

現(xiàn)有的多模態(tài)預(yù)訓(xùn)練模型大致分為兩類:

1)依賴目標檢測器提取基于物體(例如:車、人、樹、背包)的特征來表示圖片,這種方法可以學(xué)習(xí)到物體級別的視覺和語言對齊,如圖1中(a)所示。這些方法要么直接利用預(yù)先訓(xùn)練的目標檢測器,要么將目標檢測過程合并到多模態(tài)預(yù)訓(xùn)練中;

2)用 ResNet 或者 Vision Transformer 編碼整張圖片,只學(xué)習(xí)圖片和文本之間的對齊,如圖1(b)所示。

這兩種方法都存在一定的問題。首先,基于目標檢測的方法會識別圖片中所有可能的物體,其中不乏一些與配對文本無關(guān)的。此外,這種方法所提取的基于物體的視覺特征可能會丟失物體之間的信息(可以認為是一種上下文信息)。而且,這種方法只能識別有限種類的物體,我們很難預(yù)先定義合適的物體類別。而第二種方法則比較簡單直接,但是較難學(xué)習(xí)到細粒度的視覺和語言對齊,例如:物體級別的對齊。這種細粒度的對齊關(guān)系被之前的工作證實對于視覺推理 (visual reasoning) 和視覺定位 (visual grounding) 任務(wù)很有幫助。

實際上,對于多模態(tài)預(yù)訓(xùn)練,有以下公開數(shù)據(jù)以供模型使用:1)圖片和圖片標題;2)區(qū)域標注,例如:圖1中的文本 “man crossing the street” 關(guān)聯(lián)到了圖片中的某個具體區(qū)域。然而,之前的工作卻粗略地將區(qū)域標注與整張圖片對齊;3)物體標簽,例如 “backpack”,這些標注被之前的工作用來訓(xùn)練目標檢測器。

與之前的做法不同,本文中作者提出X-VLM,以統(tǒng)一的方式利用上述數(shù)據(jù)高效地學(xué)習(xí)多粒度的視覺和語言對齊,能夠避免高開銷的目標檢測過程,也不局限于學(xué)習(xí)圖像級別或物體級別的對齊。具體來說,作者提出可以使用基于 Vision Transformer 的 patch embeddings 來靈活表示各種粒度大小的視覺概念,如圖1(c)所示:例如,視覺概念 “backpack” 由2個patch組成,而視覺概念 “man crossing the street” 由更多的patch組成。

因此,X-VLM學(xué)習(xí)多粒度視覺和語言對齊的秘訣在于:

1)使用 patch embeddings 來靈活表示各種粒度的視覺概念,然后直接拉齊不同粒度的視覺概念和對應(yīng)文本,這一過程使用常用的對比學(xué)習(xí)損失、匹配損失、和MLM損失優(yōu)化;

2)更進一步,在同一張圖片中,給出不同的文本,要求模型能預(yù)測出對應(yīng)粒度的視覺概念的坐標,以邊界框坐標的回歸損失和交并比損失優(yōu)化。實驗證明,這種預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多,X-VLM 就能在下游多種多模態(tài)理解/生成任務(wù)上獲得非常優(yōu)秀的表現(xiàn)。

方法

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

X-VLM 由一個圖像編碼器,一個文本編碼器,一個跨模態(tài)編碼器組成。

圖2左側(cè)給出了視覺概念 (可以是物體/區(qū)域/圖片)的編碼過程:該圖像編碼器基于Vision Transformer,將輸入圖片分成patch編碼。然后,給出任意一個邊界框,靈活地通過取框中所有patch表示的平均值獲得區(qū)域的全局表示。再將該全局表示和原本框中所有的patch表示按照原本順序整理成序列,作為該邊界框所對應(yīng)的視覺概念的表示。通過這樣的方式獲得圖片本身(I)和圖片中視覺概念(V1,V2,V3)的編碼。與視覺概念對應(yīng)的文本,則通過文本編碼器一一編碼獲得,例如圖片標題、區(qū)域描述、或物體標簽。

X-VLM采用常見的模型結(jié)構(gòu),其不同之處在于預(yù)訓(xùn)練的方法。作者通過以下兩類損失進行優(yōu)化:

第一,在同一張圖片中,給出不同的文本,例如:T(text)、T1(text1)、T2(text2)、T3(text3),要求模型預(yù)測圖片中對應(yīng)視覺概念的邊界框:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

xjcls是跨模態(tài)編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數(shù)是為了標準化預(yù)測的邊界框。Ground-truth bj對應(yīng)了 ,依次是標準化后的的中心橫坐標、中心縱坐標、寬、高。最后,該損失是邊界框坐標的回歸損失(L1)和交并比損失(GIoU)之和。作者認為在同一張圖片中,給不同文字,要求模型預(yù)測出對應(yīng)的視覺概念,能使模型更有效地學(xué)習(xí)到多粒度的視覺語言對齊。該損失也是首次被使用在多模態(tài)預(yù)訓(xùn)練中。

第二,使用patch embeddings來靈活表示各種粒度的視覺概念,然后直接優(yōu)化模型去拉齊不同粒度的文本和視覺概念,包括了物體/區(qū)域/圖片與文本的對齊。作者使用多模態(tài)預(yù)訓(xùn)練中常見的三個損失優(yōu)化,依次是:

1)對比學(xué)習(xí)損失:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

yv2t,yt2v ∈ Rbsz x bsz是ground-truth相似度, 對角線為1,其余為0。

pv2t, pt2v ∈ Rbsz x bsz是模型基于文字編碼器輸出和圖像編碼器輸出所計算的相似度。

2)匹配損失:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

pmatch是基于跨模態(tài)編碼器計算,預(yù)測所給 對是否匹配(換句話說,0/1分類)。對于每對正例,作者采樣一對負例。

3)Masked Language Modeling損失:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

T(估計值)中的一些詞已經(jīng)被隨機替換成了 [MASK],pj(V, T(估計值))是跨模態(tài)編碼器在詞tj位置的輸出向量所計算的詞表概率分布

實驗

作者使用多模態(tài)預(yù)訓(xùn)練中常見的中等規(guī)模的4M和16M圖片數(shù)據(jù)集進行實驗,如下表所示:

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

其中,標注(# Ann)是區(qū)域標注和物體標簽的總和。可以看出,有些數(shù)據(jù)集沒有圖片標題,例如Visual Genome(VG),有些數(shù)據(jù)集沒有圖片標注,例如CC-3M/12M。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

表2展示了在圖像文本檢索任務(wù) (MSCOCO和Flickr30K) 上的表現(xiàn)。即使,之前的方法在更大量的內(nèi)部數(shù)據(jù)上預(yù)訓(xùn)練或者模型規(guī)模更大,在4M圖片數(shù)據(jù)集下訓(xùn)練的X-VLM就已經(jīng)可以超過之前的方法。

字節(jié)跳動 AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語言多粒度對齊(字節(jié)跳動lite模型)

表3展示了在視覺推理 (VQA2.0和NLVR2)、視覺定位 (RefCOCO ) 、圖片描述生成 (COCO Caption) 上的模型表現(xiàn)。為了公平的對比,X-VLM 沿用了之前工作的 fine-tune 方法,沒有進行額外的調(diào)整。結(jié)合表2和表3,可以看出,相比之前的方法,X-VLM支持更多種類的下游任務(wù),并且在這些常見的視覺語言任務(wù)上都取得了十分優(yōu)秀的表現(xiàn)。

總結(jié)和討論

在本文中,作者提出了X-VLM以學(xué)習(xí)多粒度的視覺和語言對齊,能夠避免高開銷的目標檢測過程,也不局限于學(xué)習(xí)圖像級別或物體級別的對齊。X-VLM 的秘訣在于:

1)基于 patch embeddings 靈活表示各種粒度的視覺概念,然后直接拉齊不同粒度的視覺概念和對應(yīng)文本;

2)更進一步,在同一張圖片中,給出不同的文本,要求模型能預(yù)測出對應(yīng)視覺概念的坐標。實驗證實這種預(yù)訓(xùn)練方法十分高效。

在實驗部分,作者使用常用的4M和16M數(shù)據(jù),訓(xùn)練總參數(shù)量216M的 X-VLM ,就能超過更大規(guī)模的模型或使用大量預(yù)訓(xùn)練數(shù)據(jù)的模型,在下游多種多模態(tài)理解/生成任務(wù)上取得非常優(yōu)秀的表現(xiàn)。并且,字節(jié)跳動的工程師們也把 X-VLM 用在了真實的業(yè)務(wù)場景上,例如:為視障人群描述圖片內(nèi)容,小學(xué)生作業(yè)的自動批改。實際上,X-VLM 還十分擅長細粒度的 retrieval,visual grounding 等任務(wù)。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。

(0)
上一篇 2023年10月28日 上午9:45
下一篇 2023年10月28日 上午10:01

相關(guān)推薦

  • 企業(yè)科研項目標題有哪些

    企業(yè)科研項目標題有哪些 企業(yè)科研項目是推動企業(yè)發(fā)展的重要力量。隨著科技的不斷發(fā)展,企業(yè)科研項目的標題也在不斷更新和變化。下面,我們來列舉一些常見的企業(yè)科研項目標題。 1. \&#8…

    科研百科 2025年4月30日
    1
  • 科研項目可以延期幾次(科研項目延期申請能兩次嗎)

    科研項目延期申請能兩次嗎 科研項目是科學(xué)研究的重要成果之一,也是科技創(chuàng)新的重要支撐。然而,由于各種原因,科研項目可能會遭遇延期。對于研究人員來說,遇到延期是一種難以避免的情況,但如…

    科研百科 2024年8月4日
    39
  • 廣西科研項目目錄

    廣西科研項目目錄 廣西是中國的一個省份,擁有豐富的自然資源和人文歷史。近年來,廣西政府高度重視科技創(chuàng)新,積極推動科研項目的發(fā)展。本文將介紹廣西目前的科研項目目錄,包括項目名稱、研究…

    科研百科 2025年2月24日
    1
  • 大創(chuàng)項目簡歷怎么寫

    大創(chuàng)項目簡歷怎么寫 隨著科技的不斷進步,大學(xué)生創(chuàng)新項目的發(fā)展也越來越成熟。大創(chuàng)項目是一種以學(xué)生為主,教師為輔的創(chuàng)新實踐形式,旨在培養(yǎng)學(xué)生的創(chuàng)新意識和實踐能力。對于想要在求職過程中獲…

    科研百科 2024年10月19日
    0
  • 科研項目英文怎么說

    The Science Project: A Journey of Discovery The science project is a unique opportunity fo…

    科研百科 2025年4月21日
    1
  • 三亞商務(wù)區(qū)開發(fā)建設(shè)有限公司招聘

    三亞商務(wù)區(qū)開發(fā)建設(shè)有限公司招聘 三亞商務(wù)區(qū)是中國海南省的一個著名商業(yè)區(qū),位于三亞市東北方向,是三亞市的重要經(jīng)濟發(fā)展區(qū)域。三亞商務(wù)區(qū)的建設(shè)旨在打造一個現(xiàn)代化的國際商務(wù)街區(qū),為國內(nèi)外企…

    科研百科 2024年11月12日
    1
  • 網(wǎng)上聊黃的軟件

    網(wǎng)上聊黃的軟件 近年來,隨著互聯(lián)網(wǎng)的普及,人們可以通過各種平臺進行交流和社交。其中,一些用戶喜歡在網(wǎng)上聊天室中與其他用戶進行色情聊天。這些聊天室通常被稱為“聊黃”軟件。 然而,這些…

    科研百科 2024年11月16日
    3
  • 鄭州冷庫管理系統(tǒng)項目

    鄭州冷庫管理系統(tǒng)項目 隨著經(jīng)濟的發(fā)展,鄭州冷庫的建設(shè)和發(fā)展也越來越迅速。然而,在庫內(nèi)存儲和配送貨物的過程中,管理起來并不容易。因此,我們開發(fā)了鄭州冷庫管理系統(tǒng)項目,旨在提高庫內(nèi)貨物…

    科研百科 2024年12月25日
    0
  • 科技創(chuàng)新項目管理系統(tǒng)

    科技創(chuàng)新項目管理系統(tǒng) 隨著科技的不斷發(fā)展,科技創(chuàng)新已經(jīng)成為推動社會進步的重要力量。然而,科技創(chuàng)新項目管理系統(tǒng)卻成為了一個相對較新的話題。本文將介紹科技創(chuàng)新項目管理系統(tǒng)的概念、特點以…

    科研百科 5天前
    1
  • 西安理工大學(xué)科研突破(西安理工大學(xué)科研項目)

    西安理工大學(xué)科研項目 近年來,隨著信息技術(shù)的不斷發(fā)展,科研項目已經(jīng)成為現(xiàn)代大學(xué)中的重要組成部分。作為一所歷史悠久、聲譽卓著的高校,西安理工大學(xué)一直注重科研項目的開展,旨在推動教學(xué)和…

    科研百科 2024年8月6日
    40