<mark id="ydn7q"><label id="ydn7q"></label></mark>

產(chǎn)品系列

行業(yè)應(yīng)用

技術(shù)支持

關(guān)于創(chuàng)澤

創(chuàng)澤機(jī)器人

CHUANGZE ROBOT

當(dāng)前位置：首頁(yè) > 新聞資訊 > 電商 > FashionBERT 電商領(lǐng)域多模態(tài)研究：如何做圖文擬合

FashionBERT 電商領(lǐng)域多模態(tài)研究：如何做圖文擬合

來(lái)源：阿里機(jī)器智能編輯：創(chuàng)澤時(shí)間：2020/6/2 主題：其他 [加盟]

隨著 Web 技術(shù)發(fā)展，互聯(lián)網(wǎng)上包含大量的多模態(tài)信息（包括文本，圖像，語(yǔ)音，視頻等）。從海量多模態(tài)信息搜索出重要信息一直是學(xué)術(shù)界研究重點(diǎn)。多模態(tài)匹配核心就是圖文匹配技術(shù) (Text and Image Matching)，這也是一項(xiàng)基礎(chǔ)研究，在非常多的領(lǐng)域有很多應(yīng)用，例如圖文檢索 (Cross-modality IR)，圖像標(biāo)題生成 (Image Caption)，圖像問(wèn)答系統(tǒng) (Vision Question Answering)，圖像知識(shí)推理 (Visual Commonsense Reasoning)。但是目前學(xué)術(shù)界研究重點(diǎn)放在通用領(lǐng)域的多模態(tài)研究，針對(duì)電商領(lǐng)域的多模態(tài)研究相對(duì)較少，然而電商領(lǐng)域也非常需要多模態(tài)匹配模型，應(yīng)用場(chǎng)景特別多。本文重點(diǎn)關(guān)注電商領(lǐng)域圖文多模態(tài)技術(shù)研究。

多模態(tài)匹配研究簡(jiǎn)史

跨模態(tài)研究核心重點(diǎn)在于如何將多模態(tài)數(shù)據(jù)匹配上，即如何將多模態(tài)信息映射到統(tǒng)一的表征空間。早期研究主要分成兩條主線：Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通過(guò)分析圖像和文本的 correlation，然后將圖像和文本到同一空間。這一系列的問(wèn)題論文完美，但是效果相對(duì)深度學(xué)習(xí)方法還是有待提高的。雖然后期也有基于深度學(xué)習(xí)的方案 (DCCA)，但是對(duì)比后面的 VSE 方法還有一定差距。

VSE 系統(tǒng)方法

將圖像和文本分別表示成 Latent Embedding，然后將多模態(tài) Latent Embedding 擬合到同一空間。VSE 方法又延伸出來(lái)非常多的方法例如 SCAN，PFAN。這些方法在通用圖文匹配上已經(jīng)拿到不錯(cuò)效果。

隨著 pre-training 和 self-supervised 技術(shù)在 CV 和 NLP 領(lǐng)域的應(yīng)用。2019 年開(kāi)始，有學(xué)者開(kāi)始嘗試基于大規(guī)模數(shù)據(jù)，使用預(yù)訓(xùn)練的 BERT 模型將圖文信息擬合同一空間。這些方法在通用領(lǐng)域取得很好的效果，這一系列的方法可以參看 VLBERT 這篇 Paper。

基于 BERT 的預(yù)訓(xùn)練圖文模型的主要流程：

1）利用圖像目標(biāo)檢測(cè)技術(shù)先識(shí)別圖像中的 Region of Interests(RoIs)。

2）把 ROI 當(dāng)做圖像的 token，和文本 token 做 BERT 多模態(tài)融合，這里面有兩個(gè)方案：

Single-stream：以 VLBERT 為代表，直接將圖像 token 和文本 token 放入到 BERT 做多模態(tài)融合。

Cross-stream：以 ViLBERT 為代表，將圖像 token 和文本 token 先做初步的交互，然后在放入到 BERT。

我們嘗試了 ViLBERT 方法，發(fā)現(xiàn)在通用領(lǐng)域效果確實(shí)不錯(cuò)。但是在電商領(lǐng)域，由于提取的 ROI 并不理想，導(dǎo)致效果低于預(yù)期。主要原因在于：

1）電商圖像 ROI 太少

電商圖像產(chǎn)品單一，背景簡(jiǎn)單提取 ROI 很少，如圖 1(c)。統(tǒng)計(jì)來(lái)看，通用領(lǐng)域 MsCoCo 數(shù)據(jù)，每張圖像可以提取 19.8 個(gè) ROI，但是電商只能提取 6.4 個(gè) ROI。當(dāng)然我們可以強(qiáng)制提取最小的 ROI，比如 ViLBERT 要求在 10~36 個(gè)，VLBERT 要求 100 個(gè)。但是當(dāng)設(shè)定最小提取的 ROI 后，又提取了太多了重復(fù)的 ROI，可以看圖 1(e)。

2）電商 ROI 不夠 fine-grained

電商圖像單一，提取的 RoIs 主要是 object-level 的產(chǎn)品 (例如，整體連衣裙，T-shirt 等) 。相對(duì)文本來(lái)說(shuō)，不夠細(xì)粒度 fine-grain，比如文本里面可以描述主體非常細(xì)節(jié)屬性 (如，圓領(lǐng)，九分褲，七分褲等等)。這就導(dǎo)致圖像 ROI 不足以和文本 token 匹配，大家可以對(duì)比一下電商領(lǐng)域的圖 1(c) 和圖 1(d)。再看下通用領(lǐng)域的圖 1(a) 和圖 1(b)，你會(huì)發(fā)現(xiàn)通用領(lǐng)域簡(jiǎn)單一些，只要能將圖像中的主體和文本 token alignment 到一起，基本不會(huì)太差。

3）電商圖像 ROI 噪音太大

如圖 1(f) 中提取的模特頭，頭發(fā)，手指，對(duì)于商品匹配來(lái)說(shuō)用處不大。

這也就解釋了，電商領(lǐng)域也采用現(xiàn)有的 ROI 方式，并不能得到非常理想的結(jié)果。如果說(shuō)，針對(duì)電商領(lǐng)域重新訓(xùn)練一個(gè)電商領(lǐng)域的 ROI 提取模型，需要大量的數(shù)據(jù)標(biāo)注工作。那么有沒(méi)有簡(jiǎn)單易行的方法做圖文匹配擬合。

FashionBERT 圖文匹配模型

本文我們提出了 FashionBERT 圖文匹配模型，核心問(wèn)題是如何解決電商領(lǐng)域圖像特征的提取或者表達(dá)。Google 在 2019 年年中發(fā)表了一篇文章圖像自監(jiān)督學(xué)習(xí)模型 selfie，主要思路是將圖像分割成子圖，然后預(yù)測(cè)子圖位置信息。從而使模型達(dá)到理解圖像特征的目的，這個(gè)工作對(duì)我們啟發(fā)很大。我們直接將圖像 split 相同大小的 Patch，然后將 Patch 作為圖像的 token，和文本進(jìn)行擬合，如圖二所示。使用 Patch 的好處：

圖像 Patch 包含了所有圖像的細(xì)節(jié)信息。

圖像 Patch 不會(huì)出現(xiàn)重復(fù)的 ROI 或者太多無(wú)用的 ROI。

圖像 Patch 是天然包含順序的，所以解決 BERT 的 sequence 問(wèn)題。

FashionBERT 整體結(jié)構(gòu)如圖 2，主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT，以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一樣，先將句子分成 Token，然后我們采用 Whole Word Masking 技術(shù)將整個(gè) Token 進(jìn)行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 類(lèi)似，這里我們將圖片平均分成 8*8 個(gè) patch。每個(gè) Patch 經(jīng)過(guò) ResNet 提取 patch 的圖像特征，我們提取 2048 維圖像特征。Patch mask 策略，我們隨機(jī) masked 10% 的 patch，masked 的 patch 用 0 代替。同時(shí)在 Segment 字段我們分別用 "T" 和 "I" 區(qū)分文本token 輸入和圖像 patch 輸入。

Cross-modality FashionBERT

采用預(yù)訓(xùn)練的 BERT 為網(wǎng)絡(luò)，這樣語(yǔ)言模型天然包含在 FashionBERT 中。模型可以更加關(guān)注圖文匹配融合。

FashionBERT 模型在 pretrain 階段，總共包含了三個(gè)任務(wù)：

1 Masked Language Modeling (MLM)

預(yù)測(cè) Masked Text Token，這個(gè)任務(wù)訓(xùn)練和參數(shù)我們保持和原始的 BERT 一致。

2 Masked Patch Modeling (MPM)

預(yù)測(cè) Masked Patch，這個(gè)任務(wù)和 MLM 類(lèi)似。但是由于圖像中沒(méi)有 id 化的 token。這里我們用 patch 作為目標(biāo)，希望 BERT 可以重構(gòu) patch 信息，這里我們選用了 KLD 作為 loss 函數(shù)。

3 Text and Image Alignment

和 Next Sentence Prediction 任務(wù)類(lèi)似，預(yù)測(cè)圖文是否匹配。正樣本是產(chǎn)品標(biāo)題和圖片，負(fù)樣本我們隨機(jī)采樣同類(lèi)目下其他產(chǎn)品的圖片作為負(fù)樣本。

這是一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題，如何平衡這些任務(wù)的學(xué)習(xí)權(quán)重呢？另外，還有一個(gè)問(wèn)題，目前很多實(shí)驗(yàn)指出 BERT 中 NSP 的效果并不一定非常有效，對(duì)最終的結(jié)果的影響不是特別明朗。但是對(duì)于圖文匹配來(lái)說(shuō)，Text and Image Alignment 這個(gè) loss 是至關(guān)重要的。那么如何平衡這幾個(gè)任務(wù)的學(xué)習(xí)呢？這里我們提出 adaptive loss 算法，我們將學(xué)習(xí)任務(wù)的權(quán)重看做是一個(gè)新的優(yōu)化問(wèn)題，如圖 3 所示。FashionBERT 的 loss 是整體 loss 的加和，由于只有三個(gè)任務(wù)，其實(shí)我們可以直接得到任務(wù)權(quán)重 W 的解析解(具體的求解過(guò)程可以參考我們論文，這里不再贅述)。

整個(gè) w 的學(xué)習(xí)過(guò)程可以看做是一個(gè)學(xué)生想學(xué)習(xí)三門(mén)功課，w 的作用是控制學(xué)習(xí)的關(guān)注度，一方面控制別偏科，一方面總成績(jī)要達(dá)到最高。具體 adaptive loss 算法，可以參看論文。從實(shí)際的效果來(lái)看 w，隨著訓(xùn)練的迭代關(guān)注不同的任務(wù)，達(dá)到對(duì)任務(wù)做平衡的目的。

業(yè)務(wù)應(yīng)用

目前 FashionBERT 已經(jīng)開(kāi)始在 Alibaba 搜索多模態(tài)向量檢索上應(yīng)用，對(duì)于搜索多模態(tài)向量檢索來(lái)說(shuō)，匹配任務(wù)可以看成是一個(gè)文文圖匹配任務(wù)，即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配關(guān)系。FashionBERT 從上面的模型可以看到是一個(gè)基礎(chǔ)的圖文匹配模型，因此我們做了 Continue Pretrain 工作，同時(shí)加入 Query，Title，Image Segment 區(qū)分，如圖四所示。和 FashionBERT 最大的區(qū)別在于我們引入三個(gè) segment 類(lèi)型，“Q”，“T”，“I” 分別代表 Query，Title，Image。

浙江制定全國(guó)首個(gè)直播電商行業(yè)規(guī)范標(biāo)準(zhǔn)

據(jù)直播電商的不同參與角色，分別確立了從主體資格、亮證亮照、商家和主播入駐審核、規(guī)則建立、直播監(jiān)控、違規(guī)處置以及消費(fèi)者權(quán)益保障等全流程的規(guī)范體系

直播電商需規(guī)范首部全國(guó)性“直播帶貨”標(biāo)準(zhǔn)立項(xiàng)制定

首部全國(guó)性社團(tuán)標(biāo)準(zhǔn)《視頻直播購(gòu)物運(yùn)營(yíng)和服務(wù)基本規(guī)范》和《網(wǎng)絡(luò)購(gòu)物誠(chéng)信服務(wù)體系評(píng)價(jià)指南》兩項(xiàng)標(biāo)準(zhǔn)（以下簡(jiǎn)稱(chēng)《標(biāo)準(zhǔn)》），預(yù)計(jì)將于7月份正式發(fā)布執(zhí)行

德勤攜手谷歌聯(lián)合發(fā)布《2020中國(guó)時(shí)尚跨境電商發(fā)展報(bào)告》

不同發(fā)展階段、不同規(guī)模和資源稟賦的企業(yè)選擇了不同的出海策略和演進(jìn)路徑,通過(guò)對(duì)國(guó)內(nèi)企業(yè)的實(shí)地調(diào)研，總結(jié)其發(fā)展模式有三類(lèi)：流量導(dǎo)向型、產(chǎn)品導(dǎo)向型和品牌導(dǎo)向型

電商平臺(tái)必須的十大商標(biāo)核心類(lèi)別

第9類(lèi)：APP、計(jì)算機(jī)程序、電子設(shè)備（產(chǎn)品） ;第16類(lèi)：印刷物、雜志，包裝物;第35類(lèi)：廣告服務(wù)、電子商務(wù)、營(yíng)銷(xiāo)策劃;第42類(lèi)：計(jì)算機(jī)編程服務(wù)

帶貨的邏輯：直播電商產(chǎn)業(yè)鏈研究報(bào)告

2020年直播電商更火了，預(yù)計(jì)在2020年將達(dá)到8570億元，近三年年復(fù)合增長(zhǎng)率高達(dá)314%，行業(yè)處于高速發(fā)展階段

2020年中國(guó)直播電商生態(tài)研究報(bào)告

直播電商帶來(lái)的增量與機(jī)會(huì)主要在于為產(chǎn)業(yè)鏈提效降本及為參與者帶來(lái)新機(jī)會(huì)點(diǎn)。

全球最大B2B跨境電商平臺(tái)阿里國(guó)際站，未來(lái)三年GMV如何突破1000億美元

阿里巴巴國(guó)際站作為最大的B2B跨境電商平臺(tái)以流量服務(wù)與跨境供應(yīng)鏈服務(wù)賦能外貿(mào)出口企業(yè)，為其提供跨境出口的一站式解決方案

巨量引擎聯(lián)合抖音電商首次發(fā)布《抖音直播營(yíng)銷(xiāo)實(shí)戰(zhàn)經(jīng)驗(yàn)手冊(cè)第一期》

對(duì)抖音上半年的商業(yè)直播案例進(jìn)行了全盤(pán)梳理和分析，針對(duì)“品牌宣傳+電商帶貨”兩大最具代表性的開(kāi)播目的，圍繞人、貨、場(chǎng)三個(gè)層面分享實(shí)戰(zhàn)經(jīng)驗(yàn)

電商AI客服機(jī)器人《樂(lè)語(yǔ)助人》模擬金牌客服的回復(fù)

面向淘寶、天貓等平臺(tái)的AI客服機(jī)器人，具備高精準(zhǔn)的語(yǔ)言理解能力，可模擬金牌客服的回復(fù)邏輯，輔助人工客服進(jìn)行客服咨詢(xún)接待、業(yè)務(wù)問(wèn)題處理、智能推薦、客情維系等

GrowingIO推出《私域電商數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)白皮書(shū)》

電商正經(jīng)歷由“粗放式獲取流量”到“精細(xì)化運(yùn)營(yíng)用戶(hù)”的轉(zhuǎn)變，而私域構(gòu)建則是這一轉(zhuǎn)變的關(guān)鍵點(diǎn)

艾瑞咨詢(xún)：2020年中國(guó)企業(yè)采購(gòu)電商市場(chǎng)研究報(bào)告

報(bào)告首先通過(guò)對(duì)中國(guó)企業(yè)采購(gòu)電商市場(chǎng)發(fā)展方向的研究，揭示出疫情不改變行業(yè)發(fā)展長(zhǎng)期向好態(tài)勢(shì)，中小微企業(yè)數(shù)字化速度加快，聚焦中小微企業(yè)采購(gòu)的電商平臺(tái)將在未來(lái)獲得更大優(yōu)勢(shì)

阿里：邁向萬(wàn)億市場(chǎng)的直播電商

了解直播電商的發(fā)展現(xiàn)狀、機(jī)遇和挑戰(zhàn)，助力可持續(xù)發(fā)展，畢馬威聯(lián)合阿里研究院，實(shí)地走訪了大量業(yè)內(nèi)專(zhuān)家和從業(yè)人員，并針對(duì) MCN 機(jī)構(gòu)、品牌商家發(fā)放調(diào)研問(wèn)卷

資料獲取

電商

== 最新資訊 ==

ChatGPT：又一個(gè)“人形機(jī)器人”主題

ChatGPT快速流行，重構(gòu) AI 商業(yè)

中國(guó)機(jī)器視覺(jué)產(chǎn)業(yè)方面的政策

中國(guó)機(jī)器視覺(jué)產(chǎn)業(yè)聚焦于中國(guó)東部沿海地區(qū)(

從CHAT-GPT到生成式AI：人工智能

工信部等十七部門(mén)印發(fā)《機(jī)器人+應(yīng)用行動(dòng)實(shí)

全球人工智能企業(yè)市值/估值 TOP20

創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司第十一期上

諧波減速器和RV減速器比較

機(jī)器人減速器：諧波減速器和RV減速器

人形機(jī)器人技術(shù)難點(diǎn) 高精尖技術(shù)的綜合

機(jī)器人大規(guī)模商用面臨的痛點(diǎn)有四個(gè)方面

青島市機(jī)器人產(chǎn)業(yè)概況：機(jī)器人企業(yè)多布局在

六大機(jī)器人產(chǎn)業(yè)集群的特點(diǎn)

機(jī)械臂-高度非線性強(qiáng)耦合的復(fù)雜系統(tǒng)

== 機(jī)器人推薦 ==

迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人開(kāi)發(fā)平臺(tái)

機(jī)器人開(kāi)發(fā)平臺(tái)

機(jī)器人招商 Disinfection Robot 機(jī)器人公司機(jī)器人應(yīng)用智能醫(yī)療物聯(lián)網(wǎng) 機(jī)器人排名機(jī)器人企業(yè) 機(jī)器人政策教育機(jī)器人迎賓機(jī)器人機(jī)器人開(kāi)發(fā) 獨(dú)角獸消毒機(jī)器人品牌消毒機(jī)器人合理用藥地圖

版權(quán)所有 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 中國(guó)運(yùn)營(yíng)中心：北京清華科技園九號(hào)樓5層中國(guó)生產(chǎn)中心：山東日照太原路71號(hào)
銷(xiāo)售1：4006-935-088 銷(xiāo)售2：4006-937-088 客服電話(huà)： 4008-128-728

<samp id="f7qwm"></samp>

<samp id="f7qwm"><label id="f7qwm"><u id="f7qwm"></u></label></samp>