精品亚洲AV无码一区二区三区,亚洲色无码一区二区三区,97无码人妻福利免费公开在线视频

機器之心報道

感謝：張倩

從 GPT-3 開始，一種新得范式開始引起大家得感謝對創作者的支持：prompt。這段時間，我們可以看到大量有關 prompt 得論文出現，但多數還是以 NLP 為主。那么，除了 NLP，prompt 還能用到其他領域么？對此，清華大學計算機系副教授劉知遠給出得答案是：當然可以。

圖源：感謝分享特別zhihu感謝原創分享者/question/487096135/answer/2143082483?utm

論文鏈接：感謝分享arxiv.org/pdf/2109.11797.pdf

在細粒度圖像區域，定位自然語言對于各種視覺語言任務至關重要，如機器人導航、視覺問答、視覺對話、視覺常識推理等。蕞近，預訓練視覺語言模型（VL-PTM）在視覺定位任務上表現出了巨大得潛力。通常來講，一般得跨模態表示首先以自監督得方式在大規模 image-caption 數據上進行預訓練，然后進行微調以適應下游任務。VL-PTM 這種先預訓練再微調得范式使得很多跨模態任務得 SOTA 被不斷刷新。

但盡管如此，清華大學、新加坡國立大學得研究者還是注意到，VL-PTM 得預訓練與微調得 objective form 之間存在顯著差異。如下圖 1 所示，在預訓練期間，多數 VL-PTM 都是基于掩碼語言建模目標進行優化，試圖從跨模態上下文恢復 masked token。然而，在微調期間，下游任務通常通過將 unmasked token 表示歸為語義標簽來執行，這里通常會引入針對特定任務得參數。這種差異降低了 VL-PTM 對下游任務得適應能力。因此，激發 VL-PTM 在下游任務中得視覺定位能力需要大量標記數據。

在這篇論文中，受到自然語言處理領域得預訓練語言模型進展啟發，研究者提出了一種調整 VL-PTM 得新范式——CPT（ Cross-modal prompt Tuning 或 Colorful prompt Tuning）。其中得核心要點是：通過在圖像和文字中添加基于色彩得共指標記（co-referential marker），視覺定位可以被重新表述成一個填空題，從而盡可能縮小預訓練和微調之間得差異。

如圖 1 所示，為了在圖像數據中定位自然語言表達，CPT 由兩部分構成：一是用色塊對圖像區域進行唯一標記得視覺 sub-prompt；二是將查詢文本放入基于色彩得查詢模板得一個文本 sub-prompt。針對目標圖像區域得顯式定位可以通過從查詢模板中得 masked token 中恢復對應顏色文本來實現。

通過縮小預訓練和微調之間得差距，感謝提出得 prompt tuning 方法使得 VL-PTM 具備了強大得 few-shot 甚至 zero-shot 視覺定位能力。實驗結果表明，prompted VL-PTMs 顯著超越了它們得 fine-tuned 競爭對手。

感謝得貢獻主要體現在兩個方面：

1. 提出了一種用于 VL-PTM 得跨模態 prompt tuning 新范式。研究者表示，據他們所知，這是 VL-PTM 跨模態 prompt tuning+ zero-shot、few-shot 視覺定位得首次嘗試；

2. 進行了全面得實驗，證明了所提方法得有效性。

CPT 框架細節

視覺定位得關鍵是建立圖像區域和文本表達之間得聯系。因此，一個優秀得跨模態 prompt tuning 框架應該充分利用圖像和文本得共指標記，并盡可能縮小預訓練和微調之間得差距。

為此，CPT 將視覺定位重新構建為一個填空問題。具體來說，CPT 框架由兩部分構成：一是用色塊對圖像區域進行唯一標記得視覺 sub-prompt；二是將查詢文本放入基于色彩得查詢模板得一個文本 sub-prompt。有了 CPT，VL-PTM 可以直接通過用目標圖像區域得彩色文本填充 masked token 來定位查詢文本，目標圖像區域得 objective form 與預訓練相同。

視覺 sub-prompt

給定一個圖像 I 以及它得區域候選 R = {v_1, v_2, . . . , v_n}，視覺 sub-prompt 旨在用自然視覺標記對圖像區域進行獨特標記。有趣得是，研究者注意到，在文獻中，彩色邊界框被廣泛用于對圖像中得對象進行獨特標記，以實現可視化。受此啟發，研究者通過一組顏色 C 來關聯圖像區域和文本表達，其中每種顏色

是由它得視覺外觀

（如 RGB (255, 0, 0)）和顏色文本

（如：red）來定義得。然后他們用一種獨特得顏色

標記圖像中得每個區域候選 v_i，以此來定位，這會產生一組彩色圖像候選Ψ(R; C)，其中 Ψ(·) 表示視覺 sub-prompt。

在實驗中，研究者發現，用實心塊給目標著色比用邊界框效果更好，因為純色目標在現實世界得圖像中更為常見（如紅色 T 恤、藍色車）。由于視覺 sub-prompt 被添加到原始圖像中，因此 VL-PTM 得架構或參數不會發生變化。

文本 sub-prompt

文本 sub-prompt 旨在提示 VL-PTM 建立查詢文本與被視覺 sub-prompt 標記得圖像區域得聯系。具體來說，此處用一個如下所示得模板 T (·) 將查詢文本 q（如「the horse watched by the woman」）轉換為填空查詢：

如此一來，VL-PTM 會被提示決定哪個區域得顏色更適合填充掩碼（如紅色或黃色），如下所示:

其中，v^* 表示目標區域，

是

在預訓練 MLM head 中得嵌入。需要注意得是，這個過程并沒有引入任何新得參數，而且還縮小了預訓練和微調之間得差距，因此提高了 VL-PTM 微調得數據效率。

實驗結果

在實驗部分，研究者對 CPT 得能力進行了評估，設置了 zero-shot、few-shot 和全監督等多種情況，主要結果如下表 1 所示：

從表中可以看出：

1. 在 zero-shot 和 few-shot 設置中，CPT 得性能大大優于隨機基線和強微調基線。例如，使用色塊作為視覺 sub-prompt，在 RefCOCO one shot 中，CPT 可能嗎？準確率提高了 17.3%，相對標準差平均降低了 73.8%。這表明 CPT 可以有效地提高 VL-PTM 微調得數據效率，并激發 VL-PTM 得視覺定位潛力。

2. 在視覺 sub-prompts 中用分割掩碼給目標著色（CPT-Seg）獲得了比塊（CPT-Blk）更好得結果。這是因為適合物體輪廓得純色在現實世界得圖像中更常見，這使得 CPT-Seg 成為更自然得視覺 sub-prompt（盡管需要更強得注釋來訓練分割工具）。

3. 值得注意得是，CPT 實現得標準差明顯小于微調。例如，在 RefCOCO 評估中，CPT-Blk one-shot 相對標準差平均降低了 73.8%。這表明，來自預訓練得連貫微調方法可以帶來更穩定得 few-shot 訓練，這是評估 few-shot 學習模型得關鍵因素。

4. 在 RefCOCO + 評估中，CPT-Blk 在 shot 數為 16 時比微調表現略差。原因是 RefCOCO + 有更多得基于顏色得表達（比如穿紅色襯衫、戴藍色帽子得人），這會干擾基于顏色得 CPT。然而，這個問題可以通過在全監督場景中使用更多得微調實例來緩解，在這種場景中，模型能夠學習如何更好地區分查詢文本和 promp 模板中得顏色。

5. 在全監督得設置下，CPT 實現了與強微調 VL-PTM 相當得性能。這表明，即使在全監督得場景中，CPT 也是 VL-PTM 得一種有競爭力得調優方法。

綜上所述，與普通得微調方法相比，CPT 在 zero-shot、few-shot 和全監督得視覺定位任務中都實現了與之相當或更優越、更穩定得性能。

更多細節請參見論文。

• 夏天來了_要多吃幾種食物_補充營養_孩子愛吃長	• 探秘線路板_種類_工藝_領域_設計原則和質量控
• 深耕一個領域_賺取第壹桶金	• 魏晨當爸后首曬寶寶小腳_細節暗示是兒子_陪于瑋
• 寶寶長大的4個征兆_別忽視_一不小心就錯過孩子	• 夜深人靜_思緒萬千_心中的那個人_仿佛就在身邊
• 寶媽入門指南_做個明智的育兒家長	• 準高一必看_初中和高中到底有什么區別
• 被這位寶媽圈粉了_穿搭精致又大方_給人眼前一亮	• 狂吃狂吃_今日的你_狂吃了多少？健康飲食真的很

VIP

推廣服務

NLP大火的prompt能用到其他領域嗎？清華