領(lǐng)學(xué)術(shù)科研之先,創(chuàng)食品科技之新
—— 中國食品雜志社
期刊集群
基于增強(qiáng)視覺Transformer的哈希食品圖像檢索
來源:導(dǎo)入 閱讀量: 178 發(fā)表時(shí)間: 2024-06-24
作者: 曹品丹,閔巍慶,宋佳駿,盛國瑞,楊延村,王麗麗,蔣樹強(qiáng)
關(guān)鍵詞: 食品圖像檢索;食品計(jì)算;哈希檢索;Vision Transformer網(wǎng)絡(luò);深度哈希學(xué)習(xí)
摘要:

作為食品計(jì)算的一個(gè)主要任務(wù),食品圖像檢索近年來受到了廣泛的關(guān)注。然而,食品圖像檢索面臨著兩個(gè)主要的挑戰(zhàn)。首先,食品圖像具有細(xì)粒度的特點(diǎn),這意味著不同食品類別之間的視覺差異可能很小,這些差異只能在圖像的局部區(qū)域中觀察到。其次,食品圖像包含豐富的語義信息,如食材、烹飪方式等,這些信息的提取和利用對(duì)于提高檢索性能至關(guān)重要。為解決這些問題,本實(shí)驗(yàn)基于預(yù)訓(xùn)練的視覺Transformer(Vision Transformer,ViT)模型提出了一種增強(qiáng)ViT的哈希網(wǎng)絡(luò)(enhanced ViT hash network,EVHNet)。針對(duì)食品圖像的細(xì)粒度特點(diǎn),EVHNet中設(shè)計(jì)了一個(gè)基于卷積結(jié)構(gòu)的局部特征增強(qiáng)模塊,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具有代表性的特征。為更好地利用食品圖像的語義信息,EVHNet中還設(shè)計(jì)了一個(gè)聚合語義特征模塊,根據(jù)類令牌特征來聚合食品圖像中的語義信息。本實(shí)驗(yàn)提出的EVHNet模型在貪婪哈希、中心相似量化和深度極化網(wǎng)絡(luò)3 種流行的哈希圖像檢索框架下進(jìn)行評(píng)估,并與AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 種主流網(wǎng)絡(luò)模型進(jìn)行比較,在Food-101、Vireo Food-172、UEC Food-256 3 個(gè)食品數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,EVHNet模型在檢索精度上的綜合性能優(yōu)于其他模型。

電話: 010-87293157 地址: 北京市豐臺(tái)區(qū)洋橋70號(hào)

版權(quán)所有 @ 2023 中國食品雜志社 京公網(wǎng)安備11010602060050號(hào) 京ICP備14033398號(hào)-2

垣曲县| 康保县| 苏尼特左旗| 阳泉市| 乌兰浩特市| 黎川县| 高碑店市| 永宁县| 平谷区| 闸北区| 木里| 玉屏| 平遥县| 彰化县| 呼图壁县| 晋城| 天峨县| 固安县| 江西省| 富锦市| 阿勒泰市| 新绛县| 西昌市| 三门县| 霸州市| 蓝山县| 邢台县| 贵阳市| 永春县| 类乌齐县| 扎赉特旗| 克东县| 隆尧县| 克东县| 托克逊县| 泸州市| 汕尾市| 门头沟区| 客服| 定兴县| 宝丰县|