人工智能模型能從圖像中找出規(guī)律,其效果往往比人眼更好,但并不總是如此。如果放射科醫(yī)生使用人工智能模型來(lái)幫助她判斷病人的 X 光片是否顯示出肺炎的跡象,那么她什么時(shí)候應(yīng)該相信模型的建議,什么時(shí)候應(yīng)該忽略它呢?
美國(guó)麻省理工學(xué)院和麻省理工學(xué)院-IBM 沃森人工智能實(shí)驗(yàn)室的研究人員表示,定制的入職流程可以幫助這位放射科醫(yī)生回答這個(gè)問(wèn)題。他們?cè)O(shè)計(jì)了一個(gè)系統(tǒng),教用戶(hù)何時(shí)與人工智能助手合作。
在這種情況下,訓(xùn)練方法可能會(huì)發(fā)現(xiàn)放射科醫(yī)生相信模型建議的情況--但她不應(yīng)該相信,因?yàn)槟P褪清e(cuò)的。系統(tǒng)會(huì)自動(dòng)學(xué)習(xí)她應(yīng)該如何與人工智能合作的規(guī)則,并用自然語(yǔ)言進(jìn)行描述。
在入職培訓(xùn)期間,放射科醫(yī)生會(huì)根據(jù)這些規(guī)則通過(guò)訓(xùn)練練習(xí)與人工智能進(jìn)行協(xié)作,并獲得有關(guān)她的表現(xiàn)和人工智能表現(xiàn)的反饋。
研究人員發(fā)現(xiàn),當(dāng)人類(lèi)和人工智能合作完成一項(xiàng)圖像預(yù)測(cè)任務(wù)時(shí),這種入職程序可將準(zhǔn)確率提高約 5%。他們的研究結(jié)果還表明,僅僅告訴用戶(hù)何時(shí)信任人工智能,而不進(jìn)行培訓(xùn),會(huì)導(dǎo)致性能下降。
重要的是,研究人員的系統(tǒng)是完全自動(dòng)化的,因此它可以根據(jù)人類(lèi)和人工智能執(zhí)行特定任務(wù)的數(shù)據(jù),學(xué)習(xí)創(chuàng)建入職流程。它還能適應(yīng)不同的任務(wù),因此可以擴(kuò)大規(guī)模,用于人類(lèi)和人工智能模型共同工作的許多場(chǎng)合,例如社交媒體內(nèi)容管理、寫(xiě)作和編程。
"很多時(shí)候,人們?cè)跊](méi)有任何培訓(xùn)的情況下就會(huì)得到這些人工智能工具,以幫助他們弄清這些工具何時(shí)會(huì)有幫助。我們?cè)谑褂脦缀跛衅渌ぞ邥r(shí)都不會(huì)這樣做--幾乎總是會(huì)有一些附帶的教程。但對(duì)于人工智能來(lái)說(shuō),這似乎是缺失的。我們正試圖從方法論和行為學(xué)的角度來(lái)解決這個(gè)問(wèn)題。"MIT數(shù)據(jù)、系統(tǒng)與社會(huì)研究所(IDSS)社會(huì)與工程系統(tǒng)博士項(xiàng)目的研究生、有關(guān)這一訓(xùn)練過(guò)程的論文的第一作者侯賽因-莫扎納爾(Hussein Mozannar)說(shuō)。
研究人員設(shè)想,這種入職培訓(xùn)將成為醫(yī)療專(zhuān)業(yè)人員培訓(xùn)的重要組成部分。
"例如,我們可以想象,醫(yī)生在人工智能的幫助下做出治療決定時(shí),首先必須進(jìn)行類(lèi)似于我們建議的培訓(xùn)。"資深作者大衛(wèi)-桑塔格(David Sontag)說(shuō):"我們可能需要重新思考從繼續(xù)醫(yī)學(xué)教育到臨床試驗(yàn)設(shè)計(jì)方式的一切問(wèn)題。"他是電子電子工程學(xué)教授、麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室和麻省理工學(xué)院賈米爾診所的成員,也是計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)臨床機(jī)器學(xué)習(xí)小組的負(fù)責(zé)人。
Mozannar 也是臨床機(jī)器學(xué)習(xí)小組的研究員,與他共同完成論文的還有電子工程和計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的本科生 Jimin J. Lee、IBM Research 的高級(jí)研究科學(xué)家 Dennis Wei 以及 MIT-IBM Watson AI 實(shí)驗(yàn)室的研究人員 Prasanna Sattigeri 和 Subhro Das。論文可在 arXiv 預(yù)印本服務(wù)器上查閱,并將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。
不斷發(fā)展的培訓(xùn)
現(xiàn)有的人機(jī)協(xié)作入職培訓(xùn)方法通常由人類(lèi)專(zhuān)家針對(duì)特定用例制作的培訓(xùn)材料組成,因此很難推廣。一些相關(guān)技術(shù)依賴(lài)于解釋?zhuān)慈斯ぶ悄芨嬖V用戶(hù)它對(duì)每個(gè)決策的信心,但研究表明,解釋很少有幫助,Mozannar 說(shuō)。
"人工智能模型的能力在不斷發(fā)展,因此人類(lèi)有可能從中受益的用例也在不斷增加。與此同時(shí),用戶(hù)對(duì)模型的感知也在不斷變化。因此,我們需要一種也能隨時(shí)間不斷發(fā)展的訓(xùn)練程序。"他補(bǔ)充道。
為了實(shí)現(xiàn)這一目標(biāo),他們的上機(jī)方法是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)的。它由一個(gè)包含許多任務(wù)實(shí)例的數(shù)據(jù)集構(gòu)建而成,例如從模糊的圖像中檢測(cè)交通信號(hào)燈的存在。
系統(tǒng)的第一步是收集執(zhí)行這項(xiàng)任務(wù)的人類(lèi)和人工智能的數(shù)據(jù)。在這種情況下,人類(lèi)將在人工智能的幫助下嘗試預(yù)測(cè)模糊圖像中是否包含交通信號(hào)燈。
系統(tǒng)會(huì)將這些數(shù)據(jù)點(diǎn)嵌入一個(gè)潛在空間,這是一種數(shù)據(jù)表示方式,其中相似的數(shù)據(jù)點(diǎn)之間距離較近。它使用一種算法來(lái)發(fā)現(xiàn)人類(lèi)與人工智能錯(cuò)誤合作的空間區(qū)域。這些區(qū)域捕捉了人類(lèi)信任人工智能的預(yù)測(cè)但預(yù)測(cè)錯(cuò)誤的情況,反之亦然。
也許當(dāng)圖像顯示夜間的高速公路時(shí),人類(lèi)錯(cuò)誤地相信了人工智能。
發(fā)現(xiàn)區(qū)域后,第二種算法利用大型語(yǔ)言模型,使用自然語(yǔ)言將每個(gè)區(qū)域描述為一條規(guī)則。算法通過(guò)尋找對(duì)比示例對(duì)規(guī)則進(jìn)行迭代微調(diào)。它可以將該區(qū)域描述為 "當(dāng)夜間是高速公路時(shí),忽略人工智能"。
這些規(guī)則被用來(lái)建立訓(xùn)練練習(xí)。上機(jī)系統(tǒng)會(huì)向人類(lèi)展示一個(gè)示例,在本例中是一個(gè)模糊的夜間高速公路場(chǎng)景,以及人工智能的預(yù)測(cè),并詢(xún)問(wèn)用戶(hù)圖像中是否有交通信號(hào)燈。用戶(hù)可以回答 "是"、"否 "或使用人工智能的預(yù)測(cè)。
如果人類(lèi)回答錯(cuò)誤,系統(tǒng)會(huì)向他們顯示正確答案以及人類(lèi)和人工智能在這些任務(wù)實(shí)例中的性能統(tǒng)計(jì)。系統(tǒng)對(duì)每個(gè)區(qū)域都會(huì)這樣做,并在訓(xùn)練過(guò)程結(jié)束時(shí)重復(fù)人類(lèi)出錯(cuò)的練習(xí)。
"Mozannar說(shuō):"在這之后,人類(lèi)就學(xué)到了一些關(guān)于這些區(qū)域的知識(shí),我們希望他們將來(lái)能從中學(xué)到一些東西,從而做出更準(zhǔn)確的預(yù)測(cè)。
上機(jī)操作提高準(zhǔn)確性
研究人員對(duì)該系統(tǒng)的用戶(hù)進(jìn)行了兩項(xiàng)任務(wù)測(cè)試--檢測(cè)模糊圖像中的紅綠燈和回答多個(gè)領(lǐng)域(如生物學(xué)、哲學(xué)、計(jì)算機(jī)科學(xué)等)的選擇題。
他們首先向用戶(hù)展示了一張卡片,上面有人工智能模型的相關(guān)信息、訓(xùn)練方法以及在大類(lèi)問(wèn)題上的具體表現(xiàn)。用戶(hù)被分成五組:有些人只看了卡片,有些人通過(guò)了研究人員的上機(jī)程序,有些人通過(guò)了基線上機(jī)程序,有些人通過(guò)了研究人員的上機(jī)程序,并得到了關(guān)于何時(shí)應(yīng)該或不應(yīng)該信任人工智能的建議,還有一些人只得到了建議。
只有研究人員的入職程序沒(méi)有提供建議,用戶(hù)的準(zhǔn)確率才有顯著提高,在交通信號(hào)燈預(yù)測(cè)任務(wù)中的表現(xiàn)提高了約 5%,而速度卻沒(méi)有減慢。然而,在回答問(wèn)題的任務(wù)中,上機(jī)操作的效果并不明顯。研究人員認(rèn)為,這是因?yàn)槿斯ぶ悄苣P?ChatGPT 在每個(gè)答案中都提供了解釋?zhuān)员磉_(dá)是否應(yīng)該信任該答案。
但是,在沒(méi)有上機(jī)的情況下提供建議卻產(chǎn)生了相反的效果--用戶(hù)不僅表現(xiàn)更差,而且花了更多的時(shí)間來(lái)進(jìn)行預(yù)測(cè)。
"當(dāng)你只給別人提供建議時(shí),他們似乎會(huì)感到困惑,不知道該怎么做。這會(huì)破壞他們的進(jìn)程。人們也不喜歡別人告訴他們?cè)撟鍪裁?,所以這也是一個(gè)因素。"Mozannar 說(shuō)。
他補(bǔ)充說(shuō),如果建議是錯(cuò)誤的,僅僅提供建議可能會(huì)對(duì)用戶(hù)造成傷害。另一方面,入職培訓(xùn)的最大限制在于可用數(shù)據(jù)的數(shù)量。他說(shuō),如果沒(méi)有足夠的數(shù)據(jù),入職階段就不會(huì)那么有效。
未來(lái),他和他的合作者希望開(kāi)展更大規(guī)模的研究,以評(píng)估入職培訓(xùn)的短期和長(zhǎng)期效果。他們還希望在入職過(guò)程中利用未標(biāo)記的數(shù)據(jù),并找到既能有效減少區(qū)域數(shù)量又不遺漏重要示例的方法。
2024-06-24 07:48
2024-06-24 07:41
2024-06-19 11:06
2024-06-18 09:56
2024-06-17 08:17
2024-06-15 10:06
2024-06-12 09:28
2024-06-11 09:44
2024-06-10 09:48