所屬欄目:核心期刊 更新日期:2025-06-16 13:06:51
中國圖象圖形學報最新期刊目錄
多元軟混合樣本驅動的圖文對齊人臉偽造檢測————作者:王詩雨;馮才博;劉春曉;金逸勝;
摘要:目的 隨著人臉圖像合成技術的快速發展,基于深度學習的人臉偽造技術對社會信息安全的負面影響日益增長。然而,由于不同偽造方法生成的樣本之間的數據分布存在較大差異,現有人臉偽造檢測方法準確性不高,泛化性較差。為了解決上述問題,提出一種多元軟混合樣本驅動的圖文對齊人臉偽造檢測新方法,充分利用圖像與文本的多模態信息對齊,捕捉微弱的人臉偽造痕跡。方法 考慮到傳統人臉偽造檢測方法僅在單一模式的偽造圖像上訓練,難...
結構感知增強與跨模態融合的文本圖像超分辨率————作者:朱仲杰;張磊;李沛;屠仁偉;白永強;王玉兒;
摘要:目的 場景文本圖像超分辨率是一種新興的視覺增強技術,用于提升低分辨率文本圖像的分辨率,從而提高文本可讀性。然而,現有方法無法有效提取文本結構動態特征,導致形成的語義先驗無法與圖像特征有效對齊并融合,進而影響圖像重建質量并造成文本識別困難。為此,提出一種基于文本結構動態感知的跨模態融合超分辨率方法以提高文本圖像質量和文本可讀性。方法 首先,構建文本結構動態感知模塊,通過方向感知層和上下文關聯單元,分...
融合特征增強與互補的手物姿態估計方法————作者:顧思遠;高曙;
摘要:目的 從單個RGB圖像進行聯合手物姿態估計極具挑戰性,當手與物體交互時,經常會發生嚴重的遮擋。現有的手物特征提取網絡通常使用特征金字塔網絡(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丟失的問題。為此,提出手物特征增強互補模型(hand-object feature enhancement complementary,HOFEC)。方法...
邊界線索深度融合息肉圖像分割網絡————作者:章東平;李錚;謝亞光;王都洋;湯斯亮;卜玉真;王夢婷;
摘要:目的 在醫療保健領域,復雜多變的背景分布、息肉形態與尺寸的顯著差異以及邊界定義的模糊性為實現息肉的精確分割造成諸多挑戰。為應對上述難題,創新性地提出一種針對結腸鏡檢查過程中息肉分割問題的深度學習模型,即息肉邊界線索深度融合網絡(polyp boundary cues deep fusion network,PBCDF-Net)。方法 PBCDF-Net網絡使用Res2Net-50作為骨干網絡,并設...
漸進特征提取和頻域信息補充的多模態醫學圖像融合————作者:李夫辰;高珊珊;劉崢;張彩明;周元峰;
摘要:目的 如何充分保留各模態獨有特征的細節以及有效整合模態間共有特征是多模態醫學圖像融合領域亟待突破的共性問題。目前常用的雙分支圖像編碼方法存在對模態間相互依賴、相互關聯的共有特征信息交互方式不夠完善、過程不夠充分的問題,影響了多模態成像間特征相關性的建立。對此,設計了基于漸進特征提取、頻域信息補充以及Swin Transformer結合卷積神經網絡(convolutional neural netw...
《中國圖象圖形學報》視覺及多模態大模型專欄簡介————作者:方樂緣;賈偉;林倞;譚明奎;王耀威;吳慶耀;韓向娣;
摘要:<正>視覺大模型和多模態大模型是當前人工智能領域新的研究熱點和國際研究前沿,受到學術界和工業界的極大關注。視覺大模型可以更好地解決復雜視覺任務,應用潛力巨大;多模態大模型則可通過融合文本、圖像、音頻、視頻、雷達等不同類型的數據,實現更豐富、更全面的場景理解和信息處理。迅速發展的視覺及多模態大模型,有望為智能感知、人機交互、具身智能等提供全新思路和途徑,在智慧城市、智慧交通、無人駕駛、智...
視覺模型及多模態大模型推進圖像復原增強研究進展————作者:韋炎炎;毛天一;李柏昂;王飛;李鋒;張召;趙洋;
摘要:圖像在拍攝、傳輸和存儲過程中常會出現退化情況,影響視覺感知和信息理解。圖像復原增強旨在將降質圖像恢復為干凈圖像,以提升視覺感知體驗,并提高如語義分割和目標檢測等計算機視覺任務的精度,在自動駕駛和智能醫療等數據敏感的應用場景有重要作用。視覺及多模態大模型在多個領域取得重要進展,并在圖像復原增強任務中展現出巨大潛力。對此,本文系統總結并分析近年國內外圖像復原增強領域應用視覺(大)模型和多模態大模型的重...
基于聯合嵌入空間的視頻文本檢索研究綜述————作者:董闖;栗偉;巴聰;覃文軍;
摘要:視頻在人們日常生活中扮演著重要角色,面對爆炸式增長的視頻數據,視頻文本檢索為用戶提供便捷的方式檢索感興趣的信息。視頻文本檢索旨在利用用戶輸入的文本或視頻查詢,在視頻或文本庫中檢索出與輸入內容最相關的視頻或文本。對基于聯合嵌入空間的視頻文本檢索工作進行系統梳理和綜述,以便認識和理解視頻文本檢索的發展。首先從基于聯合嵌入空間的視頻文本檢索的4個步驟:視頻特征表示提取、文本特征表示提取、視頻文本特征對齊...
以神經輻射場和三維高斯潑濺為基礎的文本指導三維編輯綜述————作者:盧麗華;張曉輝;魏輝;李茹楊;杜國光;王斌強;
摘要:文本引導的三維編輯可以根據目標文本的引導,改變現有三維資產的幾何形狀和外觀,從而創建多樣化和高質量的三維資產。先進三維神經表示、文本引導圖像生成與編輯等一系列關鍵技術的出現和發展,推動了文本引導三維編輯的進步。本文主要聚焦于基于神經輻射場和三維高斯潑濺的文本指導三維編輯的最新進展,并從方法本質與編輯能力兩個維度對現有研究進行梳理與總結。具體地,本文將現有研究按照編輯約束,分為無約束、隱式約束和顯式...
大語言模型引導的視頻檢索數據迭代優化————作者:曾潤浩;李嘉梁;卓奕深;段海涵;陳奇;胡希平;
摘要:目的 視頻文本跨模態檢索旨在從視頻庫或給定視頻中檢索出語義上與給定查詢文本最相似的視頻或視頻片段,是視頻理解的重要應用之一。現有方法主要聚焦于如何通過跨模態交互提高模態間的語義匹配,但忽略了目前數據集存在一個查詢文本對應多個視頻片段或視頻的問題。該問題在訓練過程中可能導致模型混淆,制約模型性能。為此,提出一種大語言模型引導的視頻檢索數據迭代優化方法。方法 通過視覺文本相似度定位出數據集中存在一對多...
信息解耦式自監督預訓練語音大模型————作者:王龍標;江宇;王天銳;王曉寶;黨建武;
摘要:目的 探討了一種基于語音信息解耦策略的語音預訓練大模型,利用海量無標注語音數據提取獨立的語言信息、副語言信息和非語言信息,為下游的大語言模型和生成模型提供完備且可控的語音信息,推動言語交互系統的發展。方法 提出了一種基于信息解耦的自監督語音表征學習大模型,以高效解耦韻律、說話人及內容特征。在編碼器風格的自監督預訓練策略基礎上,引入兩個輕量化模塊,增強韻律和說話人特征提取。同時為避免已提取的信息干擾...
語義微調和跨模態檢索增強的中文醫學報告生成————作者:李恒泰;劉慧;陳公冠;閆子申;盛玉瑞;張彩明;
摘要:目的 醫學報告生成旨在根據醫學影像生成準確的診斷結果,以減輕醫生負擔、提高臨床工作效率。然而,中文醫學報告生成在準確理解醫學影像及規范描述醫學報告方面仍存在局限,并存在幻覺問題。為應對上述挑戰,提出一種基于語義微調和跨模態檢索增強的中文醫學報告生成模型FRCM。方法 基于多模態大模型LLaVA,對其視覺編碼器和大語言模型進行領域適配與微調,并提出一種通用數據與垂域數據協同訓練策略:利用通用數據提高...
結合反事實提示與級聯解碼SAM的超聲圖像分割————作者:霍一儒;封筠;劉娜;史屹琛;殷夢瑩;
摘要:目的 分割一切模型(segment anything model,SAM)在自然圖像分割領域已取得顯著成就,但應用于醫學成像尤其是涉及對比度低、邊界模糊和形狀復雜的超聲圖像時,分割過程往往需要人工干預,并且會出現分割性能下降情況。針對上述問題,提出一種結合反事實提示與級聯解碼SAM的改進方法(SAM combined wihongth counterfactual prompt and casca...
視覺語言模型引導的青瓷跨模態知識圖譜構建————作者:肖剛;方靜雯;張豪;劉瑩;周曉峰;徐俊;
摘要:目的 青瓷是中華民族文化瑰寶中的璀璨明珠,也是中外交流的文化使者。在文化數智化背景下,構建青瓷跨模態知識圖譜是推動青瓷文化保護傳承的關鍵技術之一。在此過程中,實現不同模態間相同實體的匹配至關重要,涉及到對齊等價實體的不同模態特征。為最大程度地提升青瓷圖像與文本間的匹配度,提出了一種基于視覺語言預訓練(vision-language pretraining,VLP)模型的圖像多特征映射的跨模態實體對...
結合雙重對比嵌入學習的生成式零樣本圖像識別————作者:張桂梅;閆文尚;黃軍陽;
摘要:目的 零樣本學習(zero-shot learning,ZSL)是解決樣本數據缺失情況下目標識別的有效方法。傳統的零樣本識別是通過對帶標簽的可見類數據訓練,實現對無標簽的未見類新數據的識別。根據任務設置的不同,分為傳統零樣本學習(conventional zero-shot learning,CZSL)和廣義零樣本學習(generalized zero-shot learning,GZSL)。生成...
特征擾動池融合機制的多類工業缺陷檢測————作者:楊杰;胡文軍;臧影;
摘要:目的 多類缺陷檢測是工業檢測領域中的重要應用場景,現有方法因需訓練多個模型而導致其耗時耗內存嚴重,同時多類之間因存在特征擾動導致現有模型魯棒性欠佳。為此,本文聯合特征擾動池和多層特征融合提出一種多類缺陷檢測的新網絡。方法 一方面通過特征擾動池強化模型對特征的魯棒性,另一方面將各層網絡輸出特征進行融合,從而降低模型對數據分布的依賴性和提升對特征間復雜關系的捕捉能力。結果 與SOTA(state of...
雙分支注意和特征交互的小樣本細粒度學習————作者:文浪;茍光磊;白瑞峰;繆宛諭;
摘要:目的 細粒度圖像分類旨在區分視覺上高度相似但語義不同的類別。在實際應用中,獲取大規模標注數據成本昂貴且需要專業技能。傳統分類方法難以捕捉圖像中的細微差異,導致在少量樣本環境下,細粒度圖像分類性能較差。因此,研究如何應用小樣本學習方法來解決細粒度問題顯得尤為重要。為此,提出一種雙分支注意和特征交互的小樣本細粒度圖像分類方法。方法 設計雙分支注意力模塊嵌入特征提取網絡,通過并行空間與通道路徑動態調節模...
一致性約束引導的零樣本三維模型分類網絡————作者:晏浩;白靜;鄭虎;
摘要:目的 零樣本三維模型分類任務自提出起,始終面臨大規模數據集與高質量語義信息的短缺問題。為應對這些問題,現有方法引入二維圖像領域中蘊含豐富的數據集和語義信息的大規模預訓練模型,這些方法基于語言—圖像對比學習預訓練網絡,取得了一定的零樣本分類效果。但是,現有方法對三維信息捕捉不全,無法充分利用來自三維領域的知識,針對這一問題,提出一致性約束引導的零樣本三維模型分類網絡。方法 一方面,在保留來自預訓練網...
結合深度殘差與多特征融合的步態識別方法————作者:羅亞波;梁心語;張峰;李存榮;
摘要:目的 步態識別是交通管理、監控安防領域的關鍵技術,為了解決現有步態識別算法無法充分捕捉和利用人體生物特征,在協變量干擾下模型精度降低的問題,本文提出一種深度提取和融合步態特征與身形特征的高精度步態識別方法。方法 首先使用高分辨率網絡(high resolution network,HRNet)提取出人體骨架關鍵點;以殘差神經網絡ResNet-50 (residual network)為主干,利用深...
融合自適應稀疏變換學習的磁共振指紋重建方法————作者:李敏;劉洋;蔡慶瑞;朱旭元;
摘要:目的 磁共振指紋成像(magnetic resonance fingerprinting,MRf)是一種快速高效的定量成像技術。本研究旨在提出一種融合自適應稀疏變換學習的MRf重建方法,以提高參數反演的準確性、改善折疊噪聲的抑制效果,并保護圖像的邊緣特征。方法 基于盲壓縮感知(blind compress sensing,BCS)理論,將稀疏變換學習重建模型引入MRf模型,通過數據驅動的自適應學習...
中國圖象圖形學報來自網友的投稿評論:
常見問題及解答
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識網 冀ICP備15021333號-3