基于信息互補與交叉注意力的跨模態(tài)檢索方法
關(guān)鍵詞:信息互補;交叉注意力;圖卷積網(wǎng)絡(luò);跨模態(tài)檢索
中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)07-015-2032-07
doi:10.19734/j.issn.1001-3695.2025.01.0003
Abstract:WiththerapidgrowthofmultimodaldataontheInternet,cross-modalretrievaltechnologyhasatractedwidespread atention.However,some multimodaldataoftenlacksemanticinformation,whichleadstotheinabilityof modelstoaccurately extracttheinherentsemanticfeatures.Aditionally,somemultimodaldatacontainredundantinformationunrelatedtosemantics,whichinterfereswiththemodelextractionofkeyinformation.Toaddresstis,thispaperproposedacrossmodalretrieval methodbasedoninformationcomplementarityandcross-atention(ICCA).The methodusedaGCN tomodeltherelationships betweenmulti-labelsanddata,supplementing the mising semantic informationinmultimodaldataandthe missing sampledetailinformationinmulti-bels.Moreover,acrossattntionsubmoduleusedulti-labelinformationtoflerouttedudant semantic-irelevantdata.Toachievebetter matchingofsemanticallysimilarimagesand textsinthecommonrepresentation space,this paperproposed asemantic matching lossThislossintegrated multi-labelembeddings intothe image-text matching process,further enhancingthesemanticqualityof thecommonrepresentation.Experimentalresultsonthree widelyuseddatasets NUS-WIDE,MIRFlickr-25K,and MS-COCO demonstrate that ICCA achieves mAPvaluesof0.808,0.859,and0.837, respectively, significantly outperforming existing methods.
KeyWords:informationcomplementarity;cross-attention;graph convolutional network(GCN);cros-modalretrieval
0 引言
近年來,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,視頻、圖像、文本等多媒體數(shù)據(jù)呈現(xiàn)出急劇增長的趨勢。(剩余18541字)
-
-
- 計算機應(yīng)用研究
- 2025年07期
- 多模態(tài)行人重識別研究綜述...
- 語義通信在邊緣算力網(wǎng)絡(luò)中的應(yīng)用...
- 基于同態(tài)加密和零知識證明的區(qū)塊...
- HyperledgerFabr...
- PMoE:在P-tuning中...
- 基于大語言模型的多任務(wù)生成式重...
- 基于圖文對比融合的圖像人物情感...
- 基于深度特征交互與層次化多模態(tài)...
- 反向聚焦細粒度多模態(tài)語義對齊的...
- 基于CLIP文本特征增強的剪紙...
- 基于完整超圖神經(jīng)網(wǎng)絡(luò)的捆綁推薦...
- 基于高階鄰域信息交互的自監(jiān)督異...
- 基于超圖和分層頻譜濾波器的序列...
- 針對圖像指代分割的訓(xùn)練后量化策...
- 基于信息互補與交叉注意力的跨模...
- 基于強化學(xué)習(xí)協(xié)同進化算法求解柔...
- 融合實體鄰域信息的時序知識圖譜...
- 互補盲點策略和U型Transf...
- SP-POMDP:堆疊物體抓取...
- 基于果蠅協(xié)同算法求解雙目標(biāo)混裝...
- 優(yōu)化時間窗改進Dijkstra...
- 帶頻繁區(qū)域的空間并置模式挖掘方...
- 輔助任務(wù)增強的知識追蹤方法...
- 基于沖突避讓的多智能體有效旁路...
- 基于特征融合的音頻偽造檢測方法...
- 基于多視圖舌象特征融合的中醫(yī)證...
- 多元異構(gòu)耦合網(wǎng)絡(luò)中競爭性輿情信...
- 基于增強控制流圖與孿生網(wǎng)絡(luò)架構(gòu)...
- 獎勵回溯DQN驅(qū)動的多QoS工...
- 基于QUIC的擁塞控制算法動態(tài)...
- CN2Conv:面向物聯(lián)網(wǎng)設(shè)備...
- 面向物流數(shù)據(jù)共享的可撤銷屬性加...
- 一種具有多級安全目標(biāo)的動態(tài)對稱...
- 基于雙向數(shù)據(jù)流分析與圖抽象嵌入...
- 基于比特切片技術(shù)與指令集的LE...
- 基于隨機投影與改進min-ma...
- 結(jié)合自適應(yīng)局部圖卷積與多尺度時...
- 基于圖元變換的建筑彩繪紋樣圖像...
- 雙流特征增強與融合的弱監(jiān)督時序...
- 多尺度降噪自編碼器的遮擋行人重...
- 基于深度正則化的三維高斯人體重...
- 基于雙曲空間的無監(jiān)督視頻異常檢...