作為食品計(jì)算的一個(gè)主要任務(wù),食品圖像檢索近年來受到了廣泛的關(guān)注。然而,食品圖像檢索面臨著兩個(gè)主要的挑戰(zhàn)。首先,食品圖像具有細(xì)粒度的特點(diǎn),這意味著不同食品類別之間的視覺差異可能很小,這些差異只能在圖像的局部區(qū)域中觀察到。其次,食品圖像包含豐富的語義信息,如食材、烹飪方式等,這些信息的提取和利用對(duì)于提高檢索性能至關(guān)重要。為解決這些問題,本實(shí)驗(yàn)基于預(yù)訓(xùn)練的視覺Transformer(Vision Transformer,ViT)模型提出了一種增強(qiáng)ViT的哈希網(wǎng)絡(luò)(enhanced ViT hash network,EVHNet)。針對(duì)食品圖像的細(xì)粒度特點(diǎn),EVHNet中設(shè)計(jì)了一個(gè)基于卷積結(jié)構(gòu)的局部特征增強(qiáng)模塊,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具有代表性的特征。為更好地利用食品圖像的語義信息,EVHNet中還設(shè)計(jì)了一個(gè)聚合語義特征模塊,根據(jù)類令牌特征來聚合食品圖像中的語義信息。本實(shí)驗(yàn)提出的EVHNet模型在貪婪哈希、中心相似量化和深度極化網(wǎng)絡(luò)3 種流行的哈希圖像檢索框架下進(jìn)行評(píng)估,并與AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 種主流網(wǎng)絡(luò)模型進(jìn)行比較,在Food-101、Vireo Food-172、UEC Food-256 3 個(gè)食品數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,EVHNet模型在檢索精度上的綜合性能優(yōu)于其他模型。
2023年第44卷 2022年第43卷 2021年第42卷 2020年第41卷 2019年第40卷 2018年第39卷 2017年第38卷 2016年第37卷 2015年第36卷 2014年第35卷 2013年第34卷 2012年第33卷 2011年第32卷 2010年第31卷 2009年第30卷 2008年第29卷 2007年第28卷 2006年第27卷 2005年第26卷 2004年第25卷 2003年第24卷 2002年第23卷 2001年第22卷 2000年第21卷 1999年第20卷 1998年第19卷 1997年第18卷 1996年第17卷 1995年第16卷 1994年第15卷 1993年第14卷 1992年第13卷 1991年第12卷 1990年第11卷 1989年第10卷 1988年第09卷 1987年第08卷 1986年第07卷 1985年第06卷 1984年第05卷 1983年第04卷 1982年第03卷 1981年第02卷 1980年第01卷
電話: 010-87293157
地址: 北京市豐臺(tái)區(qū)洋橋70號(hào)
版權(quán)所有 @ 2023 中國食品雜志社 京公網(wǎng)安備11010602060050號(hào) 京ICP備14033398號(hào)-2