反向聚焦細(xì)粒度多模態(tài)語義對齊的視頻字幕模型
中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)07-009-1986-08
doi:10.19734/j. issn.1001-3695.2024.11.0492
Abstract:Existingvideocaptioningoftenintroducemultimodal informationtoassistmodelsinextractingcriticalandfinegrained details fromcomplex anddynamic visual content.However,these methods tendtooverlook thesemantic gapscaused by representationaldiferencesamong modalities.Tobridgethesegaps,facilitateefectivecross-modalalignmentandeficientfusion,andenancetheextractionoffine-grainedsmanticinformatio,thispperproposedareverse-focusfingranedultio dal semanticalignmentforvideocaptioning(RM4Cap).Thismodelcombinedanimage-textpaircorpusand facilitatedsemanticalignmentbetweenvideoandimage,indirectlyaligningvideorepresentationswithtextintheimage-textpairs.Anditdesignedareverse attention focusing algorithm to suppress redundant scene informationwhile highlighting inconspicuous objects and their interactions.Experimentsconductedonthe MSVDand MSRVTTdatasetsshow thatthe model significantlyoutperforms existing methods in metricssuch as CIDErand BLEU-4.It efectivelyresolves thealignmentchallenges andredundancy issues in multimodal fusion,further demonstrating its ability to narrow the cross-modal semantic gap.
Key words:video captioning;multimodal; reverse attention;semantic alignment; semantic gap
0 引言
視頻字幕是一個連接視覺和語言并將視覺內(nèi)容以自然語言描述的跨模態(tài)任務(wù)。(剩余21688字)
-
-
- 計算機應(yīng)用研究
- 2025年07期
- 多模態(tài)行人重識別研究綜述...
- 語義通信在邊緣算力網(wǎng)絡(luò)中的應(yīng)用...
- 基于同態(tài)加密和零知識證明的區(qū)塊...
- HyperledgerFabr...
- PMoE:在P-tuning中...
- 基于大語言模型的多任務(wù)生成式重...
- 基于圖文對比融合的圖像人物情感...
- 基于深度特征交互與層次化多模態(tài)...
- 反向聚焦細(xì)粒度多模態(tài)語義對齊的...
- 基于CLIP文本特征增強的剪紙...
- 基于完整超圖神經(jīng)網(wǎng)絡(luò)的捆綁推薦...
- 基于高階鄰域信息交互的自監(jiān)督異...
- 基于超圖和分層頻譜濾波器的序列...
- 針對圖像指代分割的訓(xùn)練后量化策...
- 基于信息互補與交叉注意力的跨模...
- 基于強化學(xué)習(xí)協(xié)同進化算法求解柔...
- 融合實體鄰域信息的時序知識圖譜...
- 互補盲點策略和U型Transf...
- SP-POMDP:堆疊物體抓取...
- 基于果蠅協(xié)同算法求解雙目標(biāo)混裝...
- 優(yōu)化時間窗改進Dijkstra...
- 帶頻繁區(qū)域的空間并置模式挖掘方...
- 輔助任務(wù)增強的知識追蹤方法...
- 基于沖突避讓的多智能體有效旁路...
- 基于特征融合的音頻偽造檢測方法...
- 基于多視圖舌象特征融合的中醫(yī)證...
- 多元異構(gòu)耦合網(wǎng)絡(luò)中競爭性輿情信...
- 基于增強控制流圖與孿生網(wǎng)絡(luò)架構(gòu)...
- 獎勵回溯DQN驅(qū)動的多QoS工...
- 基于QUIC的擁塞控制算法動態(tài)...
- CN2Conv:面向物聯(lián)網(wǎng)設(shè)備...
- 面向物流數(shù)據(jù)共享的可撤銷屬性加...
- 一種具有多級安全目標(biāo)的動態(tài)對稱...
- 基于雙向數(shù)據(jù)流分析與圖抽象嵌入...
- 基于比特切片技術(shù)與指令集的LE...
- 基于隨機投影與改進min-ma...
- 結(jié)合自適應(yīng)局部圖卷積與多尺度時...
- 基于圖元變換的建筑彩繪紋樣圖像...
- 雙流特征增強與融合的弱監(jiān)督時序...
- 多尺度降噪自編碼器的遮擋行人重...
- 基于深度正則化的三維高斯人體重...
- 基于雙曲空間的無監(jiān)督視頻異常檢...