每經記者 朱成祥⠦𗨨文多⠀
3月10日,智元發布首個通用具身基座大模型——智元啟元大模型(GO-1)。據了解,該架構由VLM(多模態大模型)+MoE(混合專家)組成。其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。三者環環相扣,可以利用人類視頻學習、完成小樣本快速泛化並且降低具身智能門檻。其已成功部署到智元多款本體,而且還會持續進化,將具身智能推上一個新台階。
對於多模態大模型與混合專家大模型的具體分工,智元具身研究中心常務主任任廣輝回複《每日經濟新聞》記者問題時表示:“我們多模態大模型本身,自帶了一個專家。Latent Planner負責我們互聯網規模的圖文錄像訓練,它來理解視頻中的動作,比如倒水這個動作,肯定需要手腕旋轉。而Action Expert(動作專家),則是在看了很多理論,看了很多視頻動作後,負責在機器人本體(上的)執行。”
任廣輝補充表示:“各個模型分工明確,各司其職,並且是分層的。就如人類學東西一樣,先學理論,再看別人如何操作,再自己操作。這樣分層次(學習),也令整個學習、訓練相對而言更容易一點。”
标签: 制造业
版权声明:内容均来源于互联网 如有侵权联系删除