1月,OpenAI宣布進軍AI智能體領(lǐng)域,中國公司智譜也推出了新版的GLM-PC 1.1。從回答問題到執(zhí)行任務(wù),AI智能體的發(fā)展進入了新的階段。
當(dāng)?shù)貢r間1月23日,美國人工智能公司OpenAI推出了首款A(yù)I智能體Operator。這款智能體能夠模擬人類操作瀏覽器完成購物、訂餐、論文整理等任務(wù),通過融合視覺識別與高級推理的CUA模型實現(xiàn)復(fù)雜步驟規(guī)劃。工作流程中,Operator會依據(jù)需求捕獲屏幕畫面,通過GPT-4o的視覺能力理解界面內(nèi)容,再依靠強化學(xué)習(xí)制定下一步計劃,并使用虛擬鼠標(biāo)和鍵盤執(zhí)行點擊、滾動或輸入等操作,直至任務(wù)完成或需要用戶輸入。目前,Operator將以每月200美元的訂閱費面向美國ChatGPT Pro用戶開放測試。
同一天,中國公司智譜AI發(fā)布了去年12月公布的AI智能體GLM-PC 1.0的升級版——GLM-PC 1.1。本次更新優(yōu)化了多種任務(wù)流程,不僅能夠自動處理文件、發(fā)送定制化微信內(nèi)容,還借鑒了人類左右腦分工的概念,以“左腦邏輯+右腦感知”的雙引擎架構(gòu)實現(xiàn)多模態(tài)交互,甚至生成代碼與視頻內(nèi)容,展示了超越文本生成的操作層突破。智譜公眾號文章演示了在淘寶中一鍵加購辣條等產(chǎn)品、截取小紅書春節(jié)檔圖片轉(zhuǎn)發(fā)微信群聊并詢問觀看意愿、以及給群聊成員每人單獨發(fā)送一段2025年新春祝福語和AI自動生成的蛇年主題圖片。這些新春祝福甚至可以按照每個人的名字進行定制發(fā)送。
新版GLM-PC的背后是智譜自主研發(fā)的多模態(tài)模型CogAgent與代碼模型CodeGeex的深度融合。該系統(tǒng)以代碼形式指揮工作流程和工具調(diào)用,強化了深度思考模式下的規(guī)劃、推理、反思能力,從而能夠穩(wěn)定高效地應(yīng)對復(fù)雜場景與任務(wù)。實際執(zhí)行時,GLM-PC能感知多層環(huán)境反饋,協(xié)助反思,以有效自我糾正與優(yōu)化。
目前,通用人工智能技術(shù)已進入L3級(智能體)階段,核心競爭圍繞各家企業(yè)模型的自主操作能力展開。除了OpenAI和智譜,谷歌、微軟、Anthropic以及國內(nèi)多家AI公司也都相繼推出類似產(chǎn)品。上海人工智能產(chǎn)業(yè)研究院院長朱兆穎預(yù)測,AI智能體將是生成式AI的下一個前沿,預(yù)計2025年市場規(guī)模將達(dá)100億美元以上,2025年將成為AI智能體大放異彩的應(yīng)用元年。