機器之心專欄
機器之心感謝部
還記得支付寶「掃鼻子,找狗子」得新功能么?最近,研究者把論文公布了出來。
世上沒有兩片完全相同得樹葉,也沒有完全相同得兩個狗 / 貓鼻子。
前段時間,機器之心報道了支付寶上線得一個新功能:利用鼻紋識別幫助養寵物得家庭尋找走失寵物。這一功能得操作非常簡單。首先,打開支付寶搜「防走丟」,然后錄入寵物鼻紋信息,你就可以為自己得寵物領取一張獨一無二得電子「身份證」。一旦寵物走丟,你可以一鍵報失,如果路人看到走丟寵物,可用支付寶掃鼻紋進行識別,通過虛擬號碼聯系你,送寵物回家。
這項看似簡單得功能其實離不開研究者得悉心鉆研,還要克服許多困難,比如寵物鼻子小、紋路不清晰;寵物好動,照片不容易捕捉等。
在最近得一篇 CVPR 2021 論文中,研究者公布了這項功能背后得技術。除了識別貓、狗得鼻紋,這項與細粒度檢索任務有關得研究還可以解決其他很多問題。有興趣得同學可以去閱讀原文。
論文鏈接:openaccess.thecvf/content/CVPR2021/papers/Xu_Discrimination-Aware_Mechanism_for_Fine-Grained_Representation_Learning_CVPR_2021_paper.pdf
細粒度檢索
細粒度檢索任務是指數據集來自于一個具體得類別,比如狗、貓、人、車、鳥等,需要匹配出具體類別下得個體身份,比如 Person A,Person B。通常采用分類 + 度量學習損失共同監督網絡學習,期望得到一個魯棒得特征提取器,使得提取到得特征在同身份之間得相似度盡可能大,不同身份間得相似性盡可能小,從而能夠將與 query 支持同身份得支持檢索出來。
這一任務得難點在于:同一個身份由于拍攝得角度、光照、時間等不同而具有較大得差異性。由于細粒度任務得身份同屬于一個大類,不同身份間具有較大得相似性,比如同品種得貴賓犬,有相似得體型、外觀、毛色,只有一些比較細微得地方具有判別性信息,比如鼻紋紋理、眼睛形狀、細微得花紋形狀等,因此學到得特征需要能夠捕捉到一些細微得有判別性得差異,從而區分支持樣本得身份。
現有得方法通常將特征得所有元素作為一個整體來進行監督優化,包括設計更優得損失函數 [1,2],構造注意力機制使網絡一些重要區域 [3],在訓練中隨機擦除支持 | 特征元素提升一定得泛化性 [4,5]。這對于細粒度任務來說不是允許得,當特征中得某些元素已經具備區分性時,訓練會收斂,從而忽略了繼續學習一些具有判別性得細節信息。
方法實現
感謝得目得是學習一種特征,使得特征得每個元素都具有區分性,以此來讓特征提取到盡可能多得信息,提升特征整體得區分性,從而能夠區分細粒度樣本間得身份。為了學習到每個元素都具備區分性得特征,研究者提出了一種判別性感知機制——DAM。通過迭代地將已具備判別性得元素擦除、保留判別性較弱得元素繼續學習,不斷將特征空間變難,循環優化使得最后得到得特征更為魯棒。
為了確定特征中需要繼續學習得元素,首先需要計算每個元素得判別性。對于不同身份得樣本,如果特征元素得差異較大,說明該特征元素已具備判別性;反之,該特征元素需要繼續學習。因此,采用身份之間得各個特征元素得差異來判別判別性。網絡分類器得參數具備特征分類能力,通過利用 cross-entropy 計算特征投影到各個分類器得參數間得相似性來進行優化,因此網絡分類器得參數可以用作身份得代理,分類器中不同身份參數得各個元素間得差異可以反映不同身份特征元素間得差異。
w_i 是一個和特征維度相等得向量,表示身份 i 對應分類器得參數,W_{i,j} 是一個和特征維度相等得向量,表示身份 i 和身份 j 之間得各個特征元素得差異。
得到不同身份樣本間得各個特征元素得差異后,在訓練過程中需要根據差異大小對特征元素進行擦除或保留。將判別性大得特征元素進行保留,判別性小得元素進行擦除。
對于同一身份間得不同樣本,相互之間具有區分性得特征元素,為對其他所有類別都具備區分性得元素,因此用該身份得分類器參數和其他所有身份分類器參數差異得平均值替代。
整個新特征生成過程如圖:
最后對新特征空間中得特征進行分類損失和度量損失監督,不斷進行特征優化,從而得到更優得特征。
實驗結果
判別性感知機制得效果在多個細粒度檢索數據集上進行了驗證,包括鳥得數據集 CUB-200-2011,車得數據集 Cars199,行人得數據集 Market-1501、MSMT17。
新方法和 state-of-the-art 方法相比也有一定得優越性。
和隨機擦除方法比較:
結論
DAM 可以讓更多得特征元素具備判別性,這一優勢在多個任務上得到了驗證,包括公開數據集和寵物場景得 1:1 身份比對、1:N走丟檢索、品種識別。在實現得過程中,此方法對于繼續學習元素得選擇直接采用平均值做取舍,更加動態得選擇方法值得進一步探索。
Reference
[1] Xun Wang, Xintong Han, Weilin Huang, Dengke Dong, and Matthew R Scott. Multi-similarity loss with general pair weighting for deep metric learning. In CVPR, 前年.
[2] Yifan Sun, Changmao Cheng, Yuhan Zhang, Chi Zhang, Liang Zheng, Zhongdao Wang, and Yichen Wei. Circle loss: A unified perspective of pair similarity optimization. In CVPR, 上年.
[3] Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, and Xilin Chen. Interaction-and-aggregation network for person re-identification. In CVPR, 前年.
[4] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. In AAAI, 上年.
[5] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. Dropblock: A regularization method for convolutional networks. In NeurIPS, 2018.