(資料圖)
科技日報記者 吳長鋒
6月3日,以“AI大模型時代的長三角數(shù)字化之路”為主題的長三角企業(yè)家聯(lián)盟產(chǎn)業(yè)數(shù)字化峰會在安徽合肥舉行。記者從會上了解到,由認知智能全國重點實驗室、中科院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟和長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟三方共同發(fā)布了《通用認知智能大模型評測體系》,旨在形成一套覆蓋多任務(wù)的大模型能力客觀評測體系,引導(dǎo)認知大模型技術(shù)和產(chǎn)業(yè)健康發(fā)展。
當前,伴隨著認知大模型帶來的技術(shù)階段躍升和快速進化,通用認知大模型領(lǐng)域逐步“百花齊放”,效果度量和評價成為重要關(guān)注點,而覆蓋多維度多任務(wù)的客觀評測,成為驗證通用大模型能力的有效方法。
據(jù)了解,由認知智能全國重點實驗室牽頭設(shè)計,并與中國科學(xué)院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟和長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟一起協(xié)調(diào),從產(chǎn)學(xué)研源頭技術(shù)創(chuàng)新和產(chǎn)業(yè)鏈應(yīng)用落地兩方面出發(fā),組織多輪測評標準研討,共同探討形成了《通用認知智能大模型評測體系》。評測體系根據(jù)底層認知智能能力的智能涌現(xiàn)對通用認知智能大模型的能力進行分析,從而制定生成類通用認知智能大模型的評測標準與評測方法,實現(xiàn)更科學(xué)地衡量通用認知智能大模型各個方面的能力和水平。
據(jù)介紹,本次發(fā)布的評測體系覆蓋內(nèi)容生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力、編程能力、多模態(tài)7大能力維度,共計481個細分任務(wù)類型,力求為大模型的研究、行業(yè)標準的制定提供參考和借鑒。未來,該評測體系將致力于讓認知大模型技術(shù)真正解決社會剛需,助力通用人工智能產(chǎn)業(yè)聚集。
(認知智能全國重點實驗室供圖)
關(guān)鍵詞: