大型語言和多模態(tài)模型的訓(xùn)練計算量也在穩(wěn)步增加(圖1.2.16)。用于訓(xùn)練Minerva(540B)的計算量大約是OpenAI的GPT-3(2022年6月發(fā)布)的9倍,是GPT-2(2019年2月發(fā)布)的1839倍。Minerva是谷歌于2022年6月發(fā)布的一個大型語言和多模模型,在定量推理問題上表現(xiàn)出了令人印象深刻的能力。
2019-22年選擇大型語言和多模態(tài)模型的訓(xùn)練計算(FLOP)
圖1.2.16
訓(xùn)練費用
圍繞大型語言和多模態(tài)模型的話語的一個特殊主題與它們的假設(shè)成本有關(guān)。盡管人工智能公司很少公開談?wù)撚?xùn)練成本,但人們普遍猜測,這些模型的訓(xùn)練成本為數(shù)百萬美元,而且隨著規(guī)模的擴(kuò)大,成本將變得越來越昂貴。本小節(jié)介紹了一種新的分析,其中人工智能索引研究團(tuán)隊對各種大型語言和多模態(tài)模型的訓(xùn)練成本進(jìn)行了估計(圖1.2.17)。這些估計是基于模型的作者所披露的硬件和訓(xùn)練時間。在沒有透露訓(xùn)練時間的情況下,我們根據(jù)硬件速度、訓(xùn)練計算和硬件利用率效率進(jìn)行計算。考慮到估計值的可能可變性,我們用中、高或低的標(biāo)簽來限定每個估計值:中估計值被認(rèn)為是中級估計值,高被認(rèn)為是高估估計值,低被認(rèn)為是低估估計值。在某些情況下,沒有足夠的數(shù)據(jù)來估計特定的大型語言和多模態(tài)模型的訓(xùn)練成本,因此這些模型在我們的分析中被省略了。
選擇大型語言和多模態(tài)模型的估計訓(xùn)練成本
圖1.2.17
大型語言和多模態(tài)模型的成本與其規(guī)模之間也有明顯的關(guān)系。如圖1.2.18和1.2.19所示,具有更多參數(shù)的大型語言和多模態(tài)模型以及使用大量計算的訓(xùn)練往往更昂貴。
選擇大型語言和多模態(tài)模型的估計訓(xùn)練成本和參數(shù)數(shù)
圖1.2.18
選擇大型語言和多模態(tài)模型的估計訓(xùn)練成本及訓(xùn)練計算(FLOP)
圖1.2.19
人工智能會議是研究人員分享其工作、與同行和合作者建立聯(lián)系的關(guān)鍵場所。出席會議表明了人們對一個科學(xué)領(lǐng)域的更廣泛的工業(yè)和學(xué)術(shù)興趣。在過去的20年里,人工智能會議的規(guī)模、數(shù)量和聲望都有所增長。本節(jié)介紹了參加主要人工智能會議的趨勢數(shù)據(jù)。
2024-09-03 09:08
2024-09-01 08:20
2024-09-01 08:07
2024-08-30 09:30
2024-08-28 11:13
2024-08-26 10:28
2024-08-25 09:29
2024-08-23 09:38
2024-08-23 09:28
2024-08-23 09:16