選自arXiv
作者:Hangfeng He等
機(jī)器之心編譯
編輯:王楷
該研究提出的 RR(Rethinking with Retrieval)方法不需要額外的訓(xùn)練或微調(diào),也不受大型語(yǔ)言模型(LLM)輸入長(zhǎng)度限制,在常識(shí)推理、時(shí)間推理和表格推理任務(wù)中顯著提高了 LLM 性能。
大型語(yǔ)言模型 (LLM) 已通過(guò) In-context Learning 在各種復(fù)雜任務(wù)上展現(xiàn)出卓越的性能,并且無(wú)需針對(duì)特定任務(wù)進(jìn)行訓(xùn)練或微調(diào),近期 prompt 和解碼方面取得的進(jìn)展也使 LLM 解決復(fù)雜推理任務(wù)變成了現(xiàn)實(shí)。
然而,LLM 可能會(huì)存儲(chǔ)過(guò)時(shí)、不全面或不正確的知識(shí),要將 LLM 成功部署到實(shí)際應(yīng)用中,外部知識(shí)來(lái)源(例如維基百科)至關(guān)重要。此前,人們嘗試將知識(shí)用于較小的語(yǔ)言模型 (LM),例如 T5、BERT 和 RoBERTa,但這些方法通常需要額外的訓(xùn)練或微調(diào),成本高昂,對(duì)于 LLM 來(lái)說(shuō)完全不切實(shí)際。
基于此,來(lái)自羅徹斯特大學(xué)、騰訊 AI Lab 和賓夕法尼亞大學(xué)的研究者聯(lián)合提出了一種稱(chēng)為 Rethinking with Retrieval (RR) 的后處理方法,以在 LLM 中利用外部知識(shí)。
論文地址:https://arxiv.org/pdf/2301.00303v1.pdf
該研究的思路是首先使用思維鏈 (chain-of-thought,CoT) prompting 方法生成一組不同的推理路徑,類(lèi)似于 Wang et al. (2022) 的方法。然后該研究使用這些路徑中的每個(gè)推理步驟來(lái)檢索相關(guān)的外部知識(shí),讓 RR 方法可以提供更合理的解釋和更準(zhǔn)確的預(yù)測(cè)。
該研究使用 GPT-3 175B 和幾種常見(jiàn)的外部知識(shí)源(維基百科、維基數(shù)據(jù)、WordNet 和 Conceptnet)來(lái)評(píng)估 RR 方法在三個(gè)復(fù)雜推理任務(wù)上的有效性,包括常識(shí)推理、時(shí)序推理和表格推理。實(shí)驗(yàn)結(jié)果表明,無(wú)需額外的訓(xùn)練或微調(diào),RR 在這三項(xiàng)任務(wù)上始終優(yōu)于其他方法,這表明 RR 方法在利用外部知識(shí)來(lái)提高 LLM 性能方面具有很大優(yōu)勢(shì)。
利用檢索進(jìn)行重新思考
實(shí)際上,盡管 LLM 已準(zhǔn)確捕捉了回答問(wèn)題所需的要素,但這些模型有時(shí)還是會(huì)生成錯(cuò)誤的結(jié)果。這種現(xiàn)象說(shuō)明 LLM 存儲(chǔ)和檢索知識(shí)的方式存在一些問(wèn)題,包括:
RR 方法的大致思路如下:給定一個(gè)輸入問(wèn)題 Q,RR 方法先利用思維鏈(chain-of though)prompting 生成一組不同的推理路徑 R_1、R_2、……、R_N,其中每個(gè)推理路徑 R_i 由解釋 E_i 和跟在其后的預(yù)測(cè) P_i 組成,然后再?gòu)暮线m的知識(shí)庫(kù) KB 中檢索相關(guān)知識(shí) K_1、……、K_M 來(lái)支持每個(gè)推理路徑中的解釋?zhuān)⑦x擇最符合該知識(shí)的預(yù)測(cè)
。
思維鏈(CoT)prompting。與標(biāo)準(zhǔn) prompting 明顯不同,CoT prompting 包括在 prompting 中進(jìn)行分步推理實(shí)例演示來(lái)生成一系列捕獲推理過(guò)程的短句。
例如,給定輸入問(wèn)題:「亞里士多德使用筆記本電腦嗎?」CoT prompting 旨在生成完整的推理路徑:
CoT prompting 的推理過(guò)程為:「亞里士多德死于公元前 322 年。第一臺(tái)筆記本電腦于 1980 年發(fā)明。因此,亞里士多德沒(méi)有使用筆記本電腦。所以答案是 no。」而非簡(jiǎn)單地輸出「No」。
對(duì)不同的推理路徑采樣。與 Wang et al. (2022) 相似,該研究對(duì)一組不同的推理路徑 R_1、R_2、……、R_N 進(jìn)行了采樣,而不是像 Wei et al. (2022) 那樣只考慮最優(yōu)比例路徑(greedy path)。對(duì)于「亞里士多德是否使用筆記本電腦?」這一問(wèn)題,可能的推理路徑如下:
(R_1) 亞里士多德死于 2000 年。第一臺(tái)筆記本電腦發(fā)明于 1980 年。因此,亞里士多德使用過(guò)筆記本電腦。所以該問(wèn)題的答案為是。
(R_2) 亞里士多德于公元前 322 年去世。第一臺(tái)筆記本電腦發(fā)明于 2000 年。因此,亞里士多德沒(méi)有使用過(guò)筆記本電腦。所以答案為否。
知識(shí)檢索。不同的知識(shí)庫(kù)可以用來(lái)處理不同的任務(wù)。例如,為了解決「亞里士多德使用筆記本電腦了嗎?」這個(gè)問(wèn)題,我們可以使用維基百科作為外部知識(shí)庫(kù) KB。信息檢索技術(shù)可用于基于分解的推理步驟從維基百科中檢索相關(guān)知識(shí) K_1、……K_M。理想情況下,針對(duì)此問(wèn)題我們可以從維基百科中獲得以下兩段內(nèi)容:
(K_1) 亞里士多德(公元前 384 至公元前 322 年)是古希臘古典時(shí)期的希臘哲學(xué)家和博學(xué)大師
(K_2) 第一臺(tái)筆記本電腦 Epson HX-20 于 1980 年發(fā)明……
忠實(shí)的推理。我們可以使用函數(shù) f_KB(R_i)來(lái)估算每個(gè)推理路徑 R_i 的置信度,該函數(shù)建立在從知識(shí)庫(kù) KB 檢索的相關(guān)知識(shí) K_1、……、K_M 基礎(chǔ)之上。最終的預(yù)測(cè)可以通過(guò)運(yùn)用以下推斷過(guò)程來(lái)獲得:
實(shí)驗(yàn)評(píng)估
本節(jié)中,該研究介紹了 RR 在三個(gè)復(fù)雜推理任務(wù)上的評(píng)估:常識(shí)推理、時(shí)序推理和表格推理。
實(shí)驗(yàn)設(shè)置。在所有實(shí)驗(yàn)中,除非另有說(shuō)明,該研究都使用 GPT-3 text-davinci-002。實(shí)驗(yàn)完成期間生成的最大 token 數(shù)量被設(shè)置為 256,zero-shot、few-shot 以及 chain-of-thought prompting,溫度參數(shù)(temperature)固定設(shè)置為 0。
結(jié)果。如表 1 所示,本文提出的方法 RR,在所有三個(gè)推理任務(wù)上始終優(yōu)于所有基準(zhǔn),而無(wú)需額外的訓(xùn)練或微調(diào)。這些結(jié)果凸顯出了 RR 在利用外部知識(shí)提高 LLM 表現(xiàn)方面的有效性。
該研究在 StrategyQA 數(shù)據(jù)集上展示了帶有 CoT prompting 方法的關(guān)于 GPT-3 的分析。在仔細(xì)檢查 GPT-3 的輸出后,該研究觀察到 RR 可以為許多問(wèn)題提供合理的解釋和正確的預(yù)測(cè)。例如,當(dāng)給出「佐治亞州的奧爾巴尼會(huì)在紐約州的奧爾巴尼之前先達(dá)到十萬(wàn)名住戶(hù)嗎?」這個(gè)問(wèn)題時(shí),GPT-3 產(chǎn)生了以下輸出:
總體來(lái)看對(duì)于問(wèn)題的輸出答案質(zhì)量很高。然而,該研究也觀察到 GPT-3 可能偶爾會(huì)為其解釋提供不正確的事實(shí)支持,或?yàn)槠漕A(yù)測(cè)做出不正確的推理,盡管它通常能夠識(shí)別出合適的觀點(diǎn)。
錯(cuò)誤的支持事實(shí)。如表 2 所示,GPT-3 為 Lil Jon 在 Billboard 榜單中排名最高的歌曲提供了錯(cuò)誤的事實(shí)支持,指出排名最高的歌曲是 Get Low 而非正確答案 Yeah。另外,GPT-3 還做出了錯(cuò)誤的推理,即富士山的山頂不會(huì)高于日本海,而不是正確答案會(huì)高于。
更多技術(shù)細(xì)節(jié)請(qǐng)參閱原論文。