吳恩達:
我很期待與大家分享我在 AI 智能體中看到的令人興奮的趨勢,我認為每個 AI 從業(yè)者都應(yīng)該關(guān)注這個趨勢。
我要分享的主題是 AI 智能體?,F(xiàn)在,我們大多數(shù)人使用大語言模型的方式是這樣的:我們在一個非智能體工作流中,把提示輸入到對話框中并生成答案。這有點像我們讓一個人寫一篇文章,讓他請坐到鍵盤前,從頭到尾打出一篇文章,中間不使用退格鍵。盡管這很難,AI 大模型還是做得非常好。
智能體工作流長這個樣子(下圖右側(cè))。有一個 AI 大模型,我們讓它寫一份論文大綱。需要上網(wǎng)查資料嗎?如果需要,就聯(lián)網(wǎng)。然后寫初稿、讀初稿,并思考哪些部分需要修改。繼續(xù)修改初稿并推進。
這樣的工作流程更容易迭代。你可以讓 AI 大模型進行一些思考,然后修改這篇文章,然后繼續(xù)思考,再按照這個步驟迭代多次。
很多人都沒有意識到的是,這么做的效果會更好。對于這樣的工作決策流程和優(yōu)秀表現(xiàn),我自己也很驚訝。除了這些個案研究,我的團隊也分析了一些數(shù)據(jù),基于 OpenAI 幾年前發(fā)布的名為 HumanEval 的編程評估基準。這上面有一些編程問題,比如給定一個非空整數(shù)列表,返回位于偶數(shù)位置的所有奇數(shù)元素的和。AI 生成的答案是像這樣的代碼片段:
事實證明,如果你使用 GPT-3.5,在零樣本提示的條件下,GPT-3.5 的準確率是 48%。GPT-4 要好得多,達到了 67%。但如果你采用的是智能體工作流,并將其打包,GPT-3.5 實際上能表現(xiàn)更好,甚至比 GPT-4 還好。
如果你圍繞 GPT-4 構(gòu)建這樣的工作流,GPT-4 也能表現(xiàn)得很好。注意,處于智能體工作流中的 GPT-3.5 實際上優(yōu)于 GPT-4。這是一個信號。
所有人都在圍繞智能體這個術(shù)語和任務(wù)開始大量討論。有很多咨詢報告,關(guān)于智能體、AI 的未來,等等。接下來,我想具體分享我在智能體中看到的四種模式:
反思(Reflection):LLM 檢查自己的工作,以提出改進方法。
使用工具(Tool use):LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動或處理數(shù)據(jù)。
規(guī)劃(Planning):LLM 提出并執(zhí)行一個多步驟計劃來實現(xiàn)目標。
多智能體協(xié)作(Multi-agent collaboration):多個 AI 智能體一起工作,分配任務(wù)并討論和辯論想法,提出比單個智能體更好的解決方案。
接下來我將詳細解釋這四種模式。
首先是 Reflection。舉個例子:假設(shè)我讓一個代碼智能體為某個任務(wù)寫代碼,它會根據(jù) prompt 寫出一個如圖所示的函數(shù)。
如果你寫一段 prompt,把你剛剛生成的代碼給它,告訴它這是用于執(zhí)行某個任務(wù)的代碼,讓它檢查這段代碼的正確性、效率等問題。結(jié)果根據(jù)你的 prompt 寫出代碼的那個大模型,可能會發(fā)現(xiàn)代碼里的問題,比如第五行的 bug。它還會告訴你怎么修改。
如果你現(xiàn)在采納了它的反饋,并再次給它提示,它可能會給出一個比第一個版本更好的第二版代碼。不能保證一定如此,但這是有效的。
第二種模式是 Tool use(使用工具)。許多人可能已經(jīng)見過基于大模型的系統(tǒng)使用工具。左邊是一個截圖,來自 Copilot。右邊的截圖來自 GPT-4。左邊的問題是,網(wǎng)上最好的咖啡機是哪個?Copilot 會通過上網(wǎng)檢索來解決一些問題。GPT-4 將會生成代碼并運行代碼。有很多不同的工具,可以用于分析、收集信息以采取行動、提高個人生產(chǎn)力。
很多關(guān)于 Tool use 的工作都是在計算機視覺社區(qū)。因為之前,大型語言模型對圖像無能為力,所以唯一的選擇就是大模型生成一個函數(shù)調(diào)用,可以用來操作圖像,比如生成圖像或目標檢測。Tool use 擴展了大型語言模型的能力。
接下來是 Planning(規(guī)劃)。對于沒有大量接觸過規(guī)劃算法的人來說,他們會覺得,「哇,從未見過這樣的東西」。同樣,很多人看到 AI 智能體會很驚訝,「哇,我沒想到 AI 智能體能做這些」。
在我進行的一些現(xiàn)場演示中,有些演示會失敗,AI 智能體會重新規(guī)劃路徑。我經(jīng)歷過很多這樣的時刻。其中一個例子是從 HuggingGPT 論文中改編的,輸入的是:請生成一張圖片,一個女孩在看書,她的姿態(tài)和圖像中的男孩一樣,再使用你的聲音描述這張新圖片。
今天有了 AI 智能體,你可以確定第一件要做的事是確定男孩的姿態(tài),提取姿態(tài)。接下來需要找到一個姿態(tài)圖像模型,遵循指令生成一張女孩的圖像。然后使用圖像 - 文本模型得到描述。最后使用文本轉(zhuǎn)語音模型讀出描述。
我們今天已經(jīng)有了 AI 智能體和智能體循環(huán)。當我并不想花很多時間在谷歌搜索上,我就會把需求發(fā)給 AI 智能體,幾分鐘后回來看看它做了什么。它有時有效,有時不行。但這已經(jīng)是我個人工作流的一部分。
最后要講的模式是多智能體協(xié)作。這部分很有趣,效果比你想象的要好得多。
下面這張圖來自一篇名為 ChatDev 的論文。ChatDev 是多智能體系統(tǒng)的一個實例。你可以給它一個 prompt,它有時扮演軟件引擎公司的 CEO,有時扮演設(shè)計師,有時又是產(chǎn)品經(jīng)理、或測試人員。
這群智能體是通過大模型的 prompt 來構(gòu)建的,告訴它們「你現(xiàn)在是 CEO / 你現(xiàn)在是軟件工程師」。他們會協(xié)作、進一步對話。如果你告訴它們,「請開發(fā)一款游戲」,它們會花幾分鐘寫代碼,然后進行測試、迭代,生成一個令人驚訝的復(fù)雜程序,雖然并不是總能運行。
事實證明,多智能體辯論(比如說,你可以讓 ChatGPT 和谷歌的 Gemini 辯論),實際上會帶來更好的性能。因此,讓多個相似的 AI 智能體一起工作,也是一個強大的模式。
總結(jié)一下,我認為如果我們在我們的工作中使用這些模式,很多人可以快速獲得實踐上的提升。我預(yù)計,今年 AI 能做的事情將大幅擴展,這得益于智能體工作流。
人們在輸入提示之后,總想立即得到結(jié)果。在進行網(wǎng)絡(luò)搜索時,你想在半秒鐘內(nèi)得到回復(fù)。這是人性使然 —— 我們喜歡即時獲取、即時反饋。
但是對于很多 AI 智能體工作流來說,我們需要學(xué)會分配任務(wù)給 AI 智能體,并耐心地等待幾分鐘,甚至幾小時,直到給出回應(yīng)。
我見過很多新晉管理者,喜歡將某事委托給某人,五分鐘后檢查結(jié)果。這不是一種有效的工作方式。我們也需要對我們的 AI 智能體多點耐心。
另一件重要的事情是,快速的 token 生成非常重要。如果 AI 生成 token 的速度比任何人的閱讀速度都快,那太棒了。我認為,快速生成更多 token,即使大模型質(zhì)量稍低,也能帶來很好的結(jié)果。因為它可能讓你在這個循環(huán)中反復(fù)更多次。
坦率地說,我非常期待 Claude 4、GPT-5 和 Gemini 2.0,以及其他正在研發(fā)的大模型。如果你期待以零樣本的方式在 GPT-5 上運行你的任務(wù),你可能能通過一些 AI 智能體應(yīng)用,實現(xiàn)接近那一水平的性能。
智能體推理加上之前發(fā)布的大模型,我認為這是一個重要的趨勢。通往 AGI 的道路感覺更像是一段旅程,而不是目的地。我認為這套智能體工作流,可以幫助我們在這漫長的旅程中向前邁出一小步。
參考鏈接
https://www.deeplearning.ai/the-batch/issue-242/
https://zhuanlan.zhihu.com/p/689492556?utm_medium=social&utm_psn=1756970518132240384&utm_source=wechat_session
https://www.youtube.com/watch?v=sal78ACtGTc&t=108s
免責(zé)聲明:本文轉(zhuǎn)載自真格基金,文章版權(quán)歸原作者所有,內(nèi)容僅供參考并不構(gòu)成任何投資及應(yīng)用建議。