近日,中國科學院合肥物質科學研究院研究員王紅強團隊提出了一種基于非對稱孿生Transformer的全局-局部對齊注意力模型(AST-GLAA),顯著提升了可見光-X光跨模態包裹重識別任務的性能。研究成果發表于《IEEE信息取證與安全匯刊》。
可見光-X光跨模態包裹重識別是安檢領域的核心技術,其難點在于兩種模態圖像存在顯著的像素級差異,導致傳統方法難以捕捉不同模態間的共性特征。
此次工作中,研究團隊創新性地將非對稱設計思想引入孿生Transformer架構,提出跨模態非對稱孿生Transformer結構,通過在一側分支嵌入LayerNorm層和模態感知編碼,有效增強了模型對跨模態不變特征的提取能力。同時,團隊設計了全局-局部跨模態對齊注意力模塊,通過建模全局與局部特征的交互關系,在提升細粒度特征表征的同時,解決了跨模態圖像空間錯位問題。
該研究工作首次將Transformer架構引入跨模態包裹重識別任務,突破了現有方法依賴對稱卷積網絡的局限。實驗表明,該模型在跨模態包裹重識別專用數據集上的關鍵指標較現有最優方法提升顯著,為安檢智能化提供了可靠技術支撐。
相關論文信息:https://doi.org/10.1109/TIFS.2025.3592540
報道鏈接:https://news.sciencenet.cn/htmlnews/2025/8/550091.shtm