完美世界国际版下载,完美世界有声小说

真格基金對話吳恩達：AI 智能體的未來

好買說：當前AI浪潮一浪高過一浪，究竟是人還是AI ，這是個問題。斯坦福大學(xué)教授吳恩達近期表示，基于 GPT-3.5 構(gòu)建的智能體工作流在應(yīng)用中表現(xiàn)比 GPT-4 要好。AI 智能體工作流將在今年推動人工智能取得巨大進步，甚至可能超過下一代基礎(chǔ)模型。

吳恩達：

我很期待與大家分享我在 AI 智能體中看到的令人興奮的趨勢，我認為每個 AI 從業(yè)者都應(yīng)該關(guān)注這個趨勢。

真格基金對話吳恩達：AI 智能體的未來

我要分享的主題是 AI 智能體?，F(xiàn)在，我們大多數(shù)人使用大語言模型的方式是這樣的：我們在一個非智能體工作流中，把提示輸入到對話框中并生成答案。這有點像我們讓一個人寫一篇文章，讓他請坐到鍵盤前，從頭到尾打出一篇文章，中間不使用退格鍵。盡管這很難，AI 大模型還是做得非常好。

智能體工作流長這個樣子（下圖右側(cè)）。有一個 AI 大模型，我們讓它寫一份論文大綱。需要上網(wǎng)查資料嗎？如果需要，就聯(lián)網(wǎng)。然后寫初稿、讀初稿，并思考哪些部分需要修改。繼續(xù)修改初稿并推進。

這樣的工作流程更容易迭代。你可以讓 AI 大模型進行一些思考，然后修改這篇文章，然后繼續(xù)思考，再按照這個步驟迭代多次。

真格基金對話吳恩達：AI 智能體的未來

很多人都沒有意識到的是，這么做的效果會更好。對于這樣的工作決策流程和優(yōu)秀表現(xiàn)，我自己也很驚訝。除了這些個案研究，我的團隊也分析了一些數(shù)據(jù)，基于 OpenAI 幾年前發(fā)布的名為 HumanEval 的編程評估基準。這上面有一些編程問題，比如給定一個非空整數(shù)列表，返回位于偶數(shù)位置的所有奇數(shù)元素的和。AI 生成的答案是像這樣的代碼片段：

真格基金對話吳恩達：AI 智能體的未來

事實證明，如果你使用 GPT-3.5，在零樣本提示的條件下，GPT-3.5 的準確率是 48%。GPT-4 要好得多，達到了 67%。但如果你采用的是智能體工作流，并將其打包，GPT-3.5 實際上能表現(xiàn)更好，甚至比 GPT-4 還好。

如果你圍繞 GPT-4 構(gòu)建這樣的工作流，GPT-4 也能表現(xiàn)得很好。注意，處于智能體工作流中的 GPT-3.5 實際上優(yōu)于 GPT-4。這是一個信號。

真格基金對話吳恩達：AI 智能體的未來

所有人都在圍繞智能體這個術(shù)語和任務(wù)開始大量討論。有很多咨詢報告，關(guān)于智能體、AI 的未來，等等。接下來，我想具體分享我在智能體中看到的四種模式：

真格基金對話吳恩達：AI 智能體的未來

反思（Reflection）：LLM 檢查自己的工作，以提出改進方法。

使用工具（Tool use）：LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動或處理數(shù)據(jù)。

規(guī)劃（Planning）：LLM 提出并執(zhí)行一個多步驟計劃來實現(xiàn)目標。

多智能體協(xié)作（Multi-agent collaboration）：多個 AI 智能體一起工作，分配任務(wù)并討論和辯論想法，提出比單個智能體更好的解決方案。

接下來我將詳細解釋這四種模式。

首先是 Reflection。舉個例子：假設(shè)我讓一個代碼智能體為某個任務(wù)寫代碼，它會根據(jù) prompt 寫出一個如圖所示的函數(shù)。

如果你寫一段 prompt，把你剛剛生成的代碼給它，告訴它這是用于執(zhí)行某個任務(wù)的代碼，讓它檢查這段代碼的正確性、效率等問題。結(jié)果根據(jù)你的 prompt 寫出代碼的那個大模型，可能會發(fā)現(xiàn)代碼里的問題，比如第五行的 bug。它還會告訴你怎么修改。

如果你現(xiàn)在采納了它的反饋，并再次給它提示，它可能會給出一個比第一個版本更好的第二版代碼。不能保證一定如此，但這是有效的。

真格基金對話吳恩達：AI 智能體的未來

第二種模式是 Tool use（使用工具）。許多人可能已經(jīng)見過基于大模型的系統(tǒng)使用工具。左邊是一個截圖，來自 Copilot。右邊的截圖來自 GPT-4。左邊的問題是，網(wǎng)上最好的咖啡機是哪個？Copilot 會通過上網(wǎng)檢索來解決一些問題。GPT-4 將會生成代碼并運行代碼。有很多不同的工具，可以用于分析、收集信息以采取行動、提高個人生產(chǎn)力。

很多關(guān)于 Tool use 的工作都是在計算機視覺社區(qū)。因為之前，大型語言模型對圖像無能為力，所以唯一的選擇就是大模型生成一個函數(shù)調(diào)用，可以用來操作圖像，比如生成圖像或目標檢測。Tool use 擴展了大型語言模型的能力。

真格基金對話吳恩達：AI 智能體的未來

接下來是 Planning（規(guī)劃）。對于沒有大量接觸過規(guī)劃算法的人來說，他們會覺得，「哇，從未見過這樣的東西」。同樣，很多人看到 AI 智能體會很驚訝，「哇，我沒想到 AI 智能體能做這些」。

在我進行的一些現(xiàn)場演示中，有些演示會失敗，AI 智能體會重新規(guī)劃路徑。我經(jīng)歷過很多這樣的時刻。其中一個例子是從 HuggingGPT 論文中改編的，輸入的是：請生成一張圖片，一個女孩在看書，她的姿態(tài)和圖像中的男孩一樣，再使用你的聲音描述這張新圖片。

今天有了 AI 智能體，你可以確定第一件要做的事是確定男孩的姿態(tài)，提取姿態(tài)。接下來需要找到一個姿態(tài)圖像模型，遵循指令生成一張女孩的圖像。然后使用圖像 - 文本模型得到描述。最后使用文本轉(zhuǎn)語音模型讀出描述。

真格基金對話吳恩達：AI 智能體的未來

我們今天已經(jīng)有了 AI 智能體和智能體循環(huán)。當我并不想花很多時間在谷歌搜索上，我就會把需求發(fā)給 AI 智能體，幾分鐘后回來看看它做了什么。它有時有效，有時不行。但這已經(jīng)是我個人工作流的一部分。

最后要講的模式是多智能體協(xié)作。這部分很有趣，效果比你想象的要好得多。

下面這張圖來自一篇名為 ChatDev 的論文。ChatDev 是多智能體系統(tǒng)的一個實例。你可以給它一個 prompt，它有時扮演軟件引擎公司的 CEO，有時扮演設(shè)計師，有時又是產(chǎn)品經(jīng)理、或測試人員。

真格基金對話吳恩達：AI 智能體的未來

這群智能體是通過大模型的 prompt 來構(gòu)建的，告訴它們「你現(xiàn)在是 CEO / 你現(xiàn)在是軟件工程師」。他們會協(xié)作、進一步對話。如果你告訴它們，「請開發(fā)一款游戲」，它們會花幾分鐘寫代碼，然后進行測試、迭代，生成一個令人驚訝的復(fù)雜程序，雖然并不是總能運行。

事實證明，多智能體辯論（比如說，你可以讓 ChatGPT 和谷歌的 Gemini 辯論），實際上會帶來更好的性能。因此，讓多個相似的 AI 智能體一起工作，也是一個強大的模式。

總結(jié)一下，我認為如果我們在我們的工作中使用這些模式，很多人可以快速獲得實踐上的提升。我預(yù)計，今年 AI 能做的事情將大幅擴展，這得益于智能體工作流。

真格基金對話吳恩達：AI 智能體的未來

人們在輸入提示之后，總想立即得到結(jié)果。在進行網(wǎng)絡(luò)搜索時，你想在半秒鐘內(nèi)得到回復(fù)。這是人性使然 —— 我們喜歡即時獲取、即時反饋。

但是對于很多 AI 智能體工作流來說，我們需要學(xué)會分配任務(wù)給 AI 智能體，并耐心地等待幾分鐘，甚至幾小時，直到給出回應(yīng)。

我見過很多新晉管理者，喜歡將某事委托給某人，五分鐘后檢查結(jié)果。這不是一種有效的工作方式。我們也需要對我們的 AI 智能體多點耐心。

另一件重要的事情是，快速的 token 生成非常重要。如果 AI 生成 token 的速度比任何人的閱讀速度都快，那太棒了。我認為，快速生成更多 token，即使大模型質(zhì)量稍低，也能帶來很好的結(jié)果。因為它可能讓你在這個循環(huán)中反復(fù)更多次。

坦率地說，我非常期待 Claude 4、GPT-5 和 Gemini 2.0，以及其他正在研發(fā)的大模型。如果你期待以零樣本的方式在 GPT-5 上運行你的任務(wù)，你可能能通過一些 AI 智能體應(yīng)用，實現(xiàn)接近那一水平的性能。

智能體推理加上之前發(fā)布的大模型，我認為這是一個重要的趨勢。通往 AGI 的道路感覺更像是一段旅程，而不是目的地。我認為這套智能體工作流，可以幫助我們在這漫長的旅程中向前邁出一小步。

參考鏈接

https://www.deeplearning.ai/the-batch/issue-242/

https://zhuanlan.zhihu.com/p/689492556?utm_medium=social&utm_psn=1756970518132240384&utm_source=wechat_session

https://www.youtube.com/watch?v=sal78ACtGTc&t=108s

免責(zé)聲明：本文轉(zhuǎn)載自真格基金，文章版權(quán)歸原作者所有，內(nèi)容僅供參考并不構(gòu)成任何投資及應(yīng)用建議。

私募人物查看更多私募人物>

熱門資訊

石狮镣桨集团有限责任公司

真格基金對話吳恩達：AI 智能體的未來

掃描到手機，隨時 [繼續(xù)看！]

掃描到手機，隨時 [繼續(xù)看！]