11月12日,由成都市經(jīng)信局市新經(jīng)濟委主辦,雨前顧問承辦的2024人工智能產(chǎn)業(yè)CEO大會暨人工智能賦能新型工業(yè)化供需對接活動在成都舉行。
大會上,清華大學教授、人工智能研究院視覺智能研究中心主任鄧志東以“AI源動力·解析產(chǎn)業(yè)發(fā)展新趨勢”為題進行了精彩的演講,其中特別對如何聚焦大模型應用、發(fā)展具身智能面臨的挑戰(zhàn)以及L4自動駕駛與通用人形機器人的協(xié)同演進等,闡述了自己的思考。
鄧志東強調(diào),大模型的價值在于其實際應用。大模型只有在多樣化的實際應用場景中賦能智能經(jīng)濟與智能社會的發(fā)展,才能找到真正的產(chǎn)業(yè)價值,也才能成就大模型自身性能的迭代演進。在大模型與智能體的應用及落地過程中,我國在應用場景多樣性、應用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構建上的優(yōu)勢,才會充分體現(xiàn)出來,形成可持續(xù)發(fā)展的大模型新應用、新業(yè)態(tài)、新模式,以此重建我們在AI大模型時代下的新優(yōu)勢。
鄧志東還認為,生成式人工智能正從數(shù)字領域拓展至真實物理世界,賦能智能制造、自動駕駛、人形機器人、智能座艙、無人機、個人電腦及手機等物理系統(tǒng),強力推動制造業(yè)與實體經(jīng)濟的發(fā)展。
以下為鄧志東演講精華版:
一、聚焦大模型應用,形成中國人工智能發(fā)展新優(yōu)勢
人工智能的發(fā)展路徑經(jīng)歷了從單模態(tài)的文本大型語言模型,迭代到如今快速發(fā)展的多模態(tài)大型語言模型,再到多模態(tài)的具身智能,這里的具身是指增加了移動與操作等動作能力。最后會進一步發(fā)展到交互式的通用人工智能,增加與世界的交互。在這個發(fā)展路徑中,最重要的問題是要通過大模型的實際應用來發(fā)展。
大模型的價值在于其實際應用。只有通過多樣化的應用場景,賦能智能經(jīng)濟與智能社會的發(fā)展,才能找到大模型真正的產(chǎn)業(yè)價值,同時也才能成就大模型自身的迭代演進。生成式人工智能目前正在從數(shù)字空間或互聯(lián)網(wǎng)空間走向真實的物理世界,賦能包括智能制造、自動駕駛、人形機器人、智能座艙、無人機、個人電腦、手機等在內(nèi)的真實物理系統(tǒng),從聊天問答等互聯(lián)網(wǎng)空間的任務走到真實的世界里,可以助力制造業(yè)與實體經(jīng)濟的發(fā)展。
大模型應用有三條較為現(xiàn)實的實現(xiàn)路徑。一是大模型的應用需要不斷提升基座大型語言模型,特別是多模態(tài)通用大語言模型的能力上限,同時聚焦行業(yè)原生多模態(tài)大模型的發(fā)展,實現(xiàn)原始創(chuàng)新。但這需要巨頭企業(yè)的長期持續(xù)投入,原因是基礎與通用大模型需要超大規(guī)模的數(shù)據(jù)和算力支撐。
二是大模型的應用需要特別關注利用現(xiàn)有的高性能多模態(tài)通用大型語言模型進行微調(diào)。通過不斷的微調(diào)和產(chǎn)業(yè)部署,用較小的AI算力,構建針對特定任務的專用模型,從而解決成千上萬種不同類型的任務。人工智能的核心在于完成一個個從簡單到復雜的具體任務。因此,我們需要選擇合適的高性能多模態(tài)通用大型語言模型,并掌握各種高效的微調(diào)方法。具體而言,微調(diào)方法包括監(jiān)督微調(diào)(SFT)、人類反饋強化學習(RLHF)和AI反饋強化學習(RLAI)等,也根據(jù)范式的不同,一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。我們需要根據(jù)不同的任務挑戰(zhàn)性,選擇合適的高效微調(diào)方法。
三是大模型的應用需要聚焦智能體新技術新范式新導向的發(fā)展。例如,通過積極的創(chuàng)新實踐和產(chǎn)業(yè)落地,利用性能先進的原生多模態(tài)通用大模型,探索智能體一體化端到端的新范式,比如自動駕駛、通用人形機器人,就在不斷創(chuàng)新實踐這些新范式,也必將進一步增強制造業(yè)的競爭能力。
通過這些路徑,推動人工智能賦能新型工業(yè)化,形成新應用、新業(yè)態(tài)、新優(yōu)勢。大模型應用既需要頭部企業(yè)直接發(fā)展行業(yè)原生多模態(tài)大語言模型,形成基礎能力,同時更需要眾多制造企業(yè)或中小型創(chuàng)新企業(yè),面向垂域或特定任務,基于現(xiàn)有的多模態(tài)通用大模型微調(diào)訓練出專用模型,大力推動千行百業(yè)垂域?qū)S媚P偷漠a(chǎn)業(yè)落地,從而通過場景應用創(chuàng)新與產(chǎn)品研發(fā),打造國際一流的大模型應用生態(tài),賦能智能制造與新型工業(yè)化的發(fā)展。
在大模型的應用落地過程中,我國在應用場景多樣性、應用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構建上的優(yōu)勢,才會充分體現(xiàn)出來,形成可持續(xù)發(fā)展的大模型新應用、新業(yè)態(tài)、新模式,以此重建我們在AI大模型時代下的新優(yōu)勢。
從更大尺度上看,人工智能可分成弱人工智能-通用人工智能-強人工智能-超級人工智能等不同的演化階段,目前我們正處于通用人工智能的早期階段,全球范圍的大模型應用,一切才剛剛開始!
二、挑戰(zhàn)與機遇:賦能智能制造的具身智能體
聚焦具身智能發(fā)展面臨的挑戰(zhàn),尤其是如何通過具身智能賦能智能制造,我想在這里分享一下我的看法。
首先是實現(xiàn)路徑的選擇。具身智能的實現(xiàn)路徑已經(jīng)從單純的感知空間或觀察空間,進一步延伸到了動作空間,尤其是感知空間與動作空間之間的相互關系和相互作用。這就涉及到從感知空間到動作空間的決策推理能力,涉及到所謂的單段式一體化具身智能體研發(fā)范式。
具體來說,通過對兩大空間、三大任務的模型微調(diào),可賦予具身智能體聽、說等感知與理解能力,決策推理能力以及移動與操作能力。換句話說,首先要進行具身的理解,然后進行具身的推理,最后進行具身的動作生成。有了這三大微調(diào)模型,可以進一步生成更多的下游微調(diào)模型。顯然這里的核心能力是決策或邏輯推理能力。微調(diào)的訓練方法需要選擇合適的技術路線,主要包括監(jiān)督微調(diào)(SFT)、人類反饋強化學習(RLHF)和人工智能大模型反饋學習(RLAI)。此外,根據(jù)不同的范式,高效微調(diào)方法一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。提示微調(diào)既有以自然語言方式進行的,如思維鏈(CoT),也有在連續(xù)隱含空間基于學習方式進行的,而參數(shù)微調(diào)則對模型的全部或部分參數(shù)進行微小調(diào)整,目前研究更多更深入。
其次是物理AI面臨的技術挑戰(zhàn)。大模型在實際應用中可能會遇到一些技術難題。具身智能在完成任務時,不僅有成功率的問題,還會出現(xiàn)幻覺現(xiàn)象。這包括事實性幻覺和上下文不一致幻覺。事實性幻覺?是指大模型生成的內(nèi)容不符合常識,甚至捏造信息;上下文不一致幻覺是指大模型生成的回復或下文與用戶上文的指令不一致,也就是答非所問。
對于具身智能而言,這些幻覺可能會導致時空錯亂,特別是在自動駕駛和人形機器人等實際應用場景中,可能會給用戶帶來安全風險。目前這一領域正迎來新的發(fā)展,各種方法層出不窮。但大模型的幻覺或許只能緩解,不能說已經(jīng)完全消滅了。
為了緩解幻覺問題,可以采取以下三種措施:一是提高訓練數(shù)據(jù)的質(zhì)量?。在預訓練和微調(diào)階段通過數(shù)據(jù)清洗和篩選,確保數(shù)據(jù)的準確性和一致性,但制造業(yè)中高質(zhì)量訓練數(shù)據(jù)的采集效率,是一個較大的技術挑戰(zhàn)。二是引入糾錯機制?。在大模型的生成過程中需要加入糾錯機制,以防止錯誤信息的傳播與積累。三是優(yōu)化模型結(jié)構?。通過不斷改進模型結(jié)構,使其能夠更好地處理各種復雜任務和多種輸入類型?。
最后是改變研發(fā)范式的新機遇。我們看到了具身智能體在新范式和新導向方面的一些重要機遇。第一個機遇是從視覺-(文本)語言模型(VLM)發(fā)展到視覺-語言-動作模型(VLA)。傳統(tǒng)的VLM主要依賴視覺和文本語言,而現(xiàn)在的VLA不僅增添了深度視覺和語音能力,還增加了動作能力,也就是從感知空間或觀察空間延伸到了動作空間。這種擴展使模型能夠真正基于高級的決策推理,從而更好地賦能落地應用與產(chǎn)業(yè)發(fā)展。具體來說,智能體的輸入端包括一幀一幀的圖像和(文本)任務要求;輸出端則是各種動作。例如在自動駕駛中,輸入是圖像幀與本體感知,而大模型與智能體可以直接生成方向盤的轉(zhuǎn)角、油門的開度和剎車的制動量。這些都特別像人類的大腦跟小腦的關系,所以也稱之為大腦模型與小腦模型。這里大腦皮層模型負責視覺與體感處理,擁有類似人類的視覺通路和本體感知。本體感知是指智能體對自己狀態(tài)的感知,包括導航信息等。通過視覺與本體感知獲取多模態(tài)信息后,智能體會在前額葉進行決策推理,然后將決策結(jié)果輸入到運動皮層,運動皮層再將信號傳遞給小腦模型。小腦模型負責維持具身智能體的精細平衡和協(xié)調(diào),對應于我們這里的動作空間。
第二個機遇是從多段式方法向單段式方法的轉(zhuǎn)變。傳統(tǒng)的多段式方法將感知、預測、決策、規(guī)劃和控制人為地分段處理,以此構成多個閉環(huán)。然而,最新的發(fā)展范式不再采用人為分段的方式,而是采用單段式方法,就像人的大腦一樣,一個大腦可以解決所有問題,最多與小腦合體,成為一個一體化的單一模型。這種最新的智能體范式被稱為自動駕駛2.0,其特點是引入了基于學習的決策與規(guī)劃。
三、產(chǎn)業(yè)發(fā)展新趨勢:L4自動駕駛與通用人形機器人的協(xié)同演進
人工智能產(chǎn)業(yè)的發(fā)展新趨勢在于通用與泛化,這是所有具身智能體追求的最高目標。“通用”意味著能夠應對各種環(huán)境與任務的變化,而不是局限于固定的操作對象與某一特定任務。人是這方面的最高標桿。泛化則指跨場景、跨領域的廣泛應用,能夠在任何環(huán)境中適應和可靠運作。本質(zhì)上這是一個什么問題呢?其實就是一個環(huán)境的適應性和自主性問題,也就是什么樣的環(huán)境都可以自主適應。時空大變化之后,如何提高智能體的復雜邏輯推理能力是當前研究的重點。這里需要研究各種增強技術,如提示增強、檢索增強(RAG)、知識增強和邏輯增強技術等,以提升多模態(tài)大模型與智能體的性能。
通用人形機器人與L4自動駕駛是典型的具身智能代表,二者可以相互協(xié)同演進。我們看到像Cybercab(特斯拉無人駕駛出租車)與Optimus(特斯拉人形機器人)的問世,至少表明了目前最新發(fā)展的這種單段式的或者叫單模型的端到端的自動駕駛技術在真實世界的成功實踐,證明了這條路徑是可以走得通的。未來能夠完全進行大規(guī)模產(chǎn)業(yè)落地,我相信只是一個時間的問題。
首先是高級別的自動駕駛的規(guī)?;涞貞茫创竽P?自動駕駛。采用徹底的端到端解決方案,基于視覺大模型VLA,通過少量編程,實現(xiàn)類似人類的駕駛技巧學習。其次是高級別自動駕駛的降維應用,也就是大模型+通用機器人。把大語言模型帶入通用人形機器人,必將加速通用人形機器人的大發(fā)展,后者的產(chǎn)業(yè)化應用,也會反過來助推L4自動駕駛的技術進步。更多的人形機器人會首先走向制造業(yè)的生產(chǎn)線,實現(xiàn)無人化的自動化車間與工廠,即所謂的“黑燈工廠”,也就是可實現(xiàn)完全無人化生產(chǎn)的工廠。另外自動駕駛的大規(guī)模商業(yè)化落地,可望推動人形機器人的加速發(fā)展,催生人類-機器人共融社會的形成與演進,為未來智能生產(chǎn)與智能生活的發(fā)展,構建出新的無限可能。
總之,應該說我們現(xiàn)在的大模型應用其實做的事情就是在模仿學習。模仿人類,把人類所有寫的小說、產(chǎn)生的圖像都作為一個標桿來模仿,模仿以后進行所謂的強化學習。長上眼睛了,長上耳朵了,有了手,有了腳,就可以進入到生產(chǎn)與生活的實踐角色之中。進入這些社會角色后,通過與環(huán)境、與其他智能體和與人類進行交互式學習,就可以催生出超強的交互式多模態(tài)智能體,就可能產(chǎn)生出“青出于藍而勝于藍”這么一個效果?;旧衔覀儸F(xiàn)在看人工智能的發(fā)展,這個路徑就是在模仿學習的基礎之上,利用深度強化學習等交互式學習方法,在虛實平行世界中實現(xiàn)更高效率的自主探索學習,獲得接近或?qū)R人類智能的能力,從而實現(xiàn)人-機共融,賦能智能經(jīng)濟與智能社會的大發(fā)展。
關鍵詞: