參數(shù)是由機器學習模型在訓練過程中學習到的數(shù)值。機器學習模型中的參數(shù)值決定了模型如何解釋輸入數(shù)據并做出預測。調整參數(shù)是確保機器學習系統(tǒng)的性能得到優(yōu)化的一個必要步驟。圖1.2.9按部門突出顯示了Epoch數(shù)據集中包含的機器學習系統(tǒng)的參數(shù)數(shù)量。隨著時間的推移,參數(shù)的數(shù)量一直在穩(wěn)步增加,自2010年代初以來,這個增長尤為急劇。人工智能系統(tǒng)正在迅速增加其參數(shù)的事實反映了它們被要求執(zhí)行的任務的復雜性增加,數(shù)據的可用性增加,底層硬件的進步,最重要的是,更大的模型的性能演示。
1950-22年按部門劃分的重要機器學習系統(tǒng)的參數(shù)數(shù)量
圖1.2.9
圖1.2.10按領域展示了機器學習系統(tǒng)的參數(shù)。近年來,參數(shù)豐富的系統(tǒng)數(shù)量不斷增加。
1950-22年重要的機器學習系統(tǒng)按領域劃分的參數(shù)數(shù)
圖1.2.10
計算趨勢
人工智能系統(tǒng)的計算能力,或稱“計算能力”,是指訓練和運行機器學習系統(tǒng)所需的計算資源量。通常,一個系統(tǒng)越復雜,所訓練它的數(shù)據集越大,所需的計算量就越大。在過去的五年里,重要的人工智能機器學習系統(tǒng)使用的計算量呈指數(shù)級增長(圖1.2.11)。對人工智能計算需求的增長有幾個重要的影響。例如,更密集型計算的模型往往對環(huán)境的影響更大,而工業(yè)參與者往往比大學等其他模型更容易獲得計算資源。
1950-22年重要機器學習系統(tǒng)的分部門訓練計算(FLOP)
圖1.2.11
自2010年以來,在所有的機器學習系統(tǒng)中,語言模型需要的計算資源越來越多。
1950-22年重要機器學習系統(tǒng)的分域訓練計算(FLOP)
圖1.2.12
大型語言和多模態(tài)模型
大型語言和多模態(tài)模型,有時被稱為基礎模型,是一種新興的、日益流行的人工智能模型,它對大量數(shù)據進行訓練,并適應各種下游應用程序。像ChatGPT、DALL-E 2和MakeA-Video這樣的大型語言和多模態(tài)模型-Video模型已經展示了令人印象深刻的能力,并開始在現(xiàn)實世界中廣泛應用。今年,人工智能指數(shù)對負責發(fā)布新的大型語言和多模態(tài)模型的作者的國家隸屬關系進行了分析。10這些研究人員中的大多數(shù)來自美國的研究機構(54.2%)(圖1.2.13)。2022年,來自加拿大、德國和印度的研究人員首次為大型語言和多模式模型的發(fā)展做出了貢獻。
2019-22年按國家選擇大型語言和多模態(tài)模型(占總數(shù)的%)的作者
圖1.2.13
圖1.2.14提供了自GPT-2以來發(fā)布的大型語言和多模態(tài)模型的時間軸視圖,以及產生這些模型的研究人員的國家附屬機構。2022年發(fā)布的一些著名的美國大型語言和多模態(tài)模型包括OpenAI的DALL-E 2和谷歌的PaLM(540B)。2022年發(fā)布的唯一一種中國大型語言和多模式模式是GLM-130B,這是清華大學的研究人員創(chuàng)建的一種令人印象深刻的雙語(英語和中文)模式。同樣于2022年底推出的布魯姆計劃,由于它是1000多名國際研究人員合作的結果,因此被列為不確定計劃。
選擇大型語言和多語言模式模型發(fā)布的時間軸和國家歸屬
圖1.2.14
參數(shù)計數(shù)
隨著時間的推移,新發(fā)布的大型語言和多模態(tài)模型的參數(shù)數(shù)量大幅增加。例如,GPT-2是2019年發(fā)布的第一個大型語言和多模式模型,它只有15億個參數(shù)。由谷歌于2022年推出的PaLM擁有5400億美元,是GPT-2的近360倍。在大型語言和多模態(tài)模型中,參數(shù)的中位數(shù)隨著時間的推移呈指數(shù)級增長(圖1.2.15)。
2019-22年選擇大型語言和多模態(tài)模型的參數(shù)數(shù)
圖1.2.15
2024-09-03 09:08
2024-09-01 08:20
2024-09-01 08:07
2024-08-30 09:30
2024-08-28 11:13
2024-08-26 10:28
2024-08-25 09:29
2024-08-23 09:38
2024-08-23 09:28
2024-08-23 09:16