七月初,OpenAI 一篇博文让 AI 智能体的激越席卷全球,业界对 AI 智能体的意思达到了一个新的高度。
智能体被视为大模子之后的又一热门。如在雷峰网公众号 AI 科技指摘之前"具身智能十东谈主谈"栏目对渴望 CTO 芮勇的专访中,芮勇就认为,AI 发展的三部曲是从小模子到大模子,再到智能体。这亦然渴望很早就温存到了 OpenAI,并快速跟进智能体研究的原因。
领先要搞明白一个问题:AI 智能体和咱们熟悉的 AI 助手到底有什么不同?
名义上看,它们似乎齐是匡助咱们完成任务的用具。可 LangChain 的创始东谈主 Harrison Chase 告诉咱们,判袂其实相当大。
AI 智能体指的是一个不错不雅察周遭环境并作出步履以达致主义的自主实体。庸碌地说,便是一个具备 AI 才略的主体,不错是硬件也不错是软件,但一般齐是软件模范,比如 LangChain。
LangChain 是一个开源框架,它的卓绝之处在于,你只需几行代码就不错快速搭建 AI 应用。这让创建复杂的智能体变得像搭积木同样轻佻。
Harrison Chase 创立了同名公司 LangChain 后,还不时推出了 LangGraoh 和 LangSmith 用于处罚更复杂的问题。
问题来了:这些智能体竟然比 AI 助手更刚劲吗?
对此,Harrison Chase 的不雅点相当明确。他认为,AI 助手的中枢在于辅助东谈主类作念决策,而智能体的中枢则是自主步履,孤立决策。
AI 助手就像副驾驶座上的襄理,帮你指路、拿东西;而 AI 智能体则是司机,它大要我方决定阶梯和速率,孤立责任、处理一系列任务,十足不需要东谈主类的每一步引导。
早期的 AI 智能体,比如 BabyAGI 和 AutoGPT,曾被质疑为万变不离其宗的 AI 助手炒作版。因为它们的任务过于缺乏、败落明确的章程,而实践上,企业的确需要的是大要凭据具体需求定制的智能体。
而目前正火热的另一个想法"具身智能",其本人亦然一种有躯壳并援手物理交互的智能体。LangChain 智能体是旨在增强 LLM 才略的刚劲组件,使它们进行决策和招揽步履,从而达成更高等的智能神志。
Harrison Chase 把从用户输入到输出,LLM 在调用中处理和流转信息的所有这个词过程称为"领会架构",并示意定制的领会架构能让 AI 智能体凭据需求反复实施调换的任务,自动化大宗繁琐的事务,达成用户操作的极致简化。
天然,AI 智能体能作念的不啻是活水线责任这样轻佻,在匡助用户给繁琐的责任作念减法的同期,Harrison Chase 还卓绝温存用户体验,通过定制作念了新的加法。
一方面,AI 智能体能和用户互动,给用户更贴心的私东谈主定制作事,另一方面它们还能凭据用户反馈不断优化,越用越智能,让用户不错十足放胆丢给 AI 智能体行止理。
不外,对于那些主义是作念通用领会架构的企业来说,没必要费神去栽种领会架构的水平。唯有那些盯准定制化需求的企业才需要像上个世纪的啤酒厂商同样,必须花苟且气去搞我方的发电系统,能力让我方的啤酒滋味更好。
目前,AI 智能体的研究仍然处于起步阶段,普林斯顿的研究标明,他们的智能体能处罚 12.5% 的 GitHub 问题,而依赖检索增强生成(RAG)时唯有 3.8%。
但是 Harrison Chase 相当看好 AI 智能体在客户援手和编码方面的后劲,尤其是编码。
在熟谙的 AI 智能体的协助下,东谈主东谈主齐能成为软件诱导工程师。
一个不会写代码的设计师,只须告诉 AI 智能体想要一款特定功能的应用模范,智能体就能凭据需求自动生成代码,把创意形成现实。这将透顶改变咱们责任和创造的式样。
Harrison Chase 认为畴昔的责任,将不再被日常琐事困扰,而是让 AI 智能体承担笨重的任务,东谈主们只需要专注于创造和享受生计。
在红杉成本的播客中,Harrison Chase 还详细本事和居品,共享了更多他对于 AI 智能体的检讨、演变和畴昔远景的见识。
完整播客内容不错点击以下结合一键收听,雷峰网也对播客内容作念了不改得意的精编处理,整理出笔墨版提供给寰球:
https://www.sequoiacap.com/podcast/training-harrison-chase/
AI 智能体的发展
Sonya Huang:智能体(Agent)是现时寰球齐相当温存的话题。自从 LLM(大言语模子)兴起以来,你一直在智能体构建的前沿。能给咱们先容一下智能体的界说吗?
Harrison Chase:要界说智能体其实有些辣手。东谈主们可能对它有不同的协调,这很正常,因为咱们还处在 LLM 和智能体相干发展的早期阶段。
我个东谈主的协调是,智能体是由 LLM 决定应用模范的限定经过。
举个例子,在传统的 RAG(检索增强生成)链中,经过是预设的:生成搜索查询、检索文档、生成谜底,临了反馈给用户。
而智能体则将 LLM 放在中心,让它自主决定下一步的步履。未必它会发起搜索,未必径直回应用户,以致可能屡次查询,直到得出谜底。LLM 能动态决定所有这个词经过。
用具的使用亦然智能体的紧迫特征。当 LLM 决定步履时,它通常会调用不同的用具来达成。此外,顾忌亦然要津,当 LLM 细面前一步时,它需要记取之前的操作。
总的来说,智能体的中枢便是让 LLM 决定应用模范的限定经过。
Pat Grady:你提到的许多齐和"决策"关系,我想知谈智能体是否便是一种步履式样?这两者是否相得益彰?智能体的步履是否更偏向某一方面?
Harrison Chase:我认为它们照实是相得益彰的。智能体的许多步履骨子上是在决定如何招揽步履,而这个过程的难点在于找到正确的步履。因此,处罚"决策"问题通常也能处罚"步履"问题。一朝决策细目,LLM 系统就会实施相应的步履并反馈休止。
Sonya Huang:智能体与链的主要区别在于 LLM 自主决定下一步,而不是事前设定次序。这种辨别是否准确?
Harrison Chase:是的,这是一个很好的面貌。不外,实践上有不同的脉络。比如,轻佻的路由器可能作念的是链中的旅途采选,固然 LLM 依然在决策,但这只是基础应用。而十足自主的智能体则是另一种极点。全体来看,照实存在一些轻捷的判袂和灰色地带。
Sonya Huang:明白了,智能体的领域从部分限定到十足自主决策齐有,这很原理。你以为 LangChain 在智能体生态系统中演出了什么变装?
Harrison Chase:咱们现在的重心是让东谈主们更容易创建介于这两者之间的智能体。咱们发现,最灵验的智能体通常位于这个中间地带。尽管十足自主的智能体招引东谈主,且已有原型,但它们往往偏离预期。因此,咱们的责任辘集在"编排层",以便构建无邪但仍有一定阻挡的智能体。如果你想真切了解,咱们不错再计议。但总的来说,LangChain 的愿景是成为一个编排框架。
Sonya Huang:我紧记在 2023 年 3 月傍边,像 BabyAGI 和 AutoGPT 这样的自主智能体引起了许多温存,但它们的首批迭代似乎莫得达到东谈主们的祈望。你认为原因是什么?现在智能体的炒作周期处于什么阶段?
Harrison Chase:照实,AutoGPT 的出现开启了智能体的炒作周期,尤其是在 GitHub 上受接待。这个激越从 2023 年春季握续到夏令,之后略微降温。到了 2024 年,咱们启动看到一些实用的应用,比如 LangChain 与 Elastic 的合作,推出了 Elastic Assistant 和 Elastic Agent 等分娩级智能体。这些应用,如 Klarna 的客户援手机器东谈主,激发了更多计议。此外,Devon 和 Cira 等公司也在智能体规模进行尝试。
对于 AutoGPT 未能十足凯旋的原因,我认为主如果它们过于缺乏,败落明确的任务和章程。企业但愿智能体能完成更具体的责任,而不单是是吞吐的自主智能体。因此,咱们看到的智能体更多像是定制的领会架构,尽管无邪,但需要更多的工程进入和诱导时候,这亦然这些系统一年前还未出现的原因。
定制领会框架
Sonya Huang:你前边提到了"领会架构",我很可爱你对它的想考式样。能否讲明一下,什么是领会架构?咱们应该如何协调它?有莫得一个合乎的想维框架?
Harrison Chase:是的,我协调的领会架构,基本上是指在使用大言语模子(LLM)时,你的系统架构是什么样的。
如果你正在构建一个应用,其中触及多个算法次序,你是如何诓骗这些算法的?你是否用它们生成最终谜底?照旧用它们在不同任务间进行采选?是否有相当复杂的分支,以致包含多个轮回?
这些齐是领会架构的不同发扬神志。领会架构其实便是指,从用户输入到输出,LLM 在调用过程中如那里理和流转信息。
尤其是在把智能体进入分娩时,咱们发现经过通常是凭据具体应用需求而定制的。
举例,某个应用可能需要先进行一些特定的检讨,再实施几个次序,每个次序又可能包含轮回或分支。这就像是你在画一张经过图,而这种定制化的经过越来越精深,因为东谈主们但愿智能体在应用中更可控。
我之是以称它为"领会架构",是因为 LLM 的中枢上风在于它的推理才略,你不错通过编码这种领会激情模子,将其形成软件系统中的某种架构。
Pat Grady:你以为这是畴昔的发展标的吗?我听到了两点,一黑白常定制化,二是它听起来更像是硬编码的。你认为这是咱们现时的标的,照旧暂时的处罚有策划?畴昔会出现更优雅的架构,或者一系列圭臬化的参考架构吗?
Harrison Chase:这是个很好的问题,我花了许多时候在想考这个。我认为,在极点情况下,如果模子在野心上相当刚劲且可靠,你可能只需要一个轻佻的 for 轮回,反复调用 LLM 来决定下一步该作念什么,然后实施操作并再次轮回。
所有你但愿模子解雇的阻挡齐不错通过教导传达,而模子也会按你预期的式样实施。尽管我确信模子在推理和野心方面会越来越好,但我不认为它们会十足取代手动构建的架构。
领先是成果问题。如果你知谈某个次序老是需要在另一次序之后实施,那么你不错径直把它们按划定安排好。
其次是可靠性,尤其是在企业环境中,东谈主们需要一定的保险,确保要津次序按预期实施。
因此,我认为固然构建这些架构可能会变得更容易,但它们仍然会有一定复杂性。
从架构的角度看,你不错认为"在轮回中运行 LLM "是一种相当轻佻但通用的领会架构。而咱们在实践分娩中看到的更多是定制化、复杂的架构。
我以为跟着时候推移,通用野心和反想功能会被径直检讨到模子中,但那些需要高度定制的野心、反想和限定功能依然不会被取代。
Sonya Huang:不错这样协调:LLM 不错完成通用的智能体推理,但在具体规模中,你还需要定制化的推理才略。这些是无法十足内置到通用模子中的。
Harrison Chase:十足正确。自界说领会架构的中枢想想在于,你让东谈主类来承担野心拖累,而不是十足依赖 LLM。
尽管某些野心功能可能会越来越接近模子和教导,但许多任务的野心过程依然复杂,无法十足自动化。咱们还需要时候,能力发展出高度可靠、即插即用的处罚有策划。
用户体验设计
Sonya Huang:我确信智能体将成为东谈主工智能的新潮水,咱们正从 AI 助手转向 AI 智能体。你同意吗?为什么?
Harrison Chase:我基本同意。智能体的后劲在于,传统的 AI 助手依赖东谈主类输入,任务才略有限。而智能体能更独随即步履,偶尔与用户互动,这使它们能自主处理更多任务。
但赋予它们更多自主性也带来了风险,举例可能出现偏差或诞妄。因此,找到自主性与可靠性之间的均衡将是一个紧迫的挑战。
Pat Grady:你在 AI Ascent 上提到了用户体验。通常,咱们认为它与架构位于光谱的两头——架构是幕后责任,而用户体验是前端展示。
但现在似乎情况有所不同,用户体验实践上不错影响架构的灵验性。比如,当出现问题时,你不错像 Devin 同样,回溯到野心过程中出错的所在。
你能谈谈用户体验在智能体或 LLM 中的紧迫性吗?另外,你以为有哪些原理的发展?
Harrison Chase:用户体验在现时相当紧迫,因为 LLM 并不竣工,时常出错。聊天方法卓绝灵验,它允许用户实时稽察模子的反应,并实时更正诞妄或追问细节。固然这种方法已成为主流,但它的局限在于依然需要用户的握续反馈,更多是一种"助手"的体验。
如果能减少用户的介入,让 AI 自动完成更多任务,将带来宏大的变革。
不外,如安在自动化和用户参与之间找到均衡是个勤劳。一些原理的想法正在尝试处罚这个问题。举例,创建一个智能体透明度列表,让用户明晰了解 AI 实施的每一步。如果某个次序出错,用户不错径直回溯并谐和指示。
另一个改换的想法是引入"收件箱"体验,让智能体在后台并走运行,当需要东谈主类匡助时,它不错像发邮件同样提醒用户,这样用户就不错在合乎的时机介入,而无须全程监控。
在配合方面,智能体不错先草拟文档,用户算作审阅者提供反馈。实时互动的体验也很招引东谈主。
举例,用户在指摘时,智能体大要立即竖立问题,就像在 Google Docs 中同样。这种互动式样大要增强用户体验,使 AI 的确成为高效的责任伙伴。
Pat Grady:你提到的对于智能体如何从交互中学习,竟然很特真义。如果我每次齐要重迭给吞并个反馈,那体验就会变得很倒霉,对吧?系统该如何栽种这种反馈机制?
Harrison Chase:照实!如果咱们不断给智能体调换的反馈,而它却不改进,那无疑会让东谈主仇怨。因此,系统的架构需要大要从这些反馈中学习,不单是是竖立现时的问题,还能蓄积造就,幸免将来再犯。
这方面的进展固然还处于早期阶段,但咱们一经花了许多时候在想考这些问题上,并确信跟着本事的逾越,智能体会变得越来越"机灵",从而带来更流通的用户体验。
让啤酒变得更好
Sonya Huang:在以前六个月,智能体规模取得了显贵进展。普林斯顿的研究标明,他们的智能体能处罚 12.5% 的 GitHub 问题,而依赖检索增强生成(RAG)时唯有 3.8%。
尽管有所逾越,但 12.5% 仍不及以取代实习生。你认为智能体的发展到了哪个阶段?它们能否在面向客户的环境中可靠部署?
Harrison Chase:是的,SWE 智能体相对通用,不错处理多种 GitHub 问题。定制智能体的可靠性固然莫得达到" 99.999% ",但一经裕如在分娩环境中使用。举例,Elastic 的智能体已在多个名目中应用。固然我莫得具体的可靠性数据,但它们裕如可靠,不错上线。通用智能体面对更大挑战,需要更长的迤逦文窗口和更好的推理才略能力平常应用。
Sonya Huang:你提到过想路链(Chain of Thought)等本事,能共享领会架构对智能体性能的影响吗?你认为最有出路的领会架构是什么?
Harrison Chase:AutoGPT 等名目莫得凯旋的一个原因是早期 LLM 无法明确推理第一步该作念什么。想路链等本事为模子提供了更好的推理空间。
姚舜宇的 ReAct 论文是第一个专门用于智能体的领会架构之一。ReAct 辘集了推理和步履,让模子不仅实施动作,还能进行推理,从而提高其才略。现在,跟着模子检讨的真切,显式推理次序变得不再那么必要。
现时主要挑战在于弥远野心和实施,模子在这方面发扬欠安,需要领会架构匡助生成策划并冉冉实施。反想则匡助判断任务是否完成。
总的来说,野心和推理是目前最紧迫的通用领会架构,畴昔跟着检讨改进,这些问题将得到更好的处罚。
Sonya Huang:你提到杰夫 · 贝索斯说过"专注于让你的啤酒更好"。这让我意料早期许多啤酒厂采选我方发电。今天许多公司面对雷同问题:是否需要限定领会架构来栽种业务?构建和优化这些架构竟然能"让你的啤酒更好",照旧应该烧毁限定,专注于用户界面和居品诱导?
Harrison Chase:这取决于你构建的领会架构类型。如果是通用架构,可能不会径直栽种业务。畴昔,模子提供商会专注于通用的野心和领会架构,企业不错径直使用这些来处罚问题。但如果是高度定制的架构,反应了特定的业务经过或最好实践,那它照实能栽种业务,尤其在依赖这些应用的规模。
定制的业务逻辑和领会模子不错显贵提高系统发扬,个性化后愈加精准和高效。尽管用户体验和界面设计依然紧迫,但定制化智能体清醒是企业的一个紧迫上风。我认为通用和定制之间有很大的区别。
编排和可不雅察性
LangSmith and LangGraph
Sonya Huang:咱们能聊聊 LangSmith 和 LangGraph 吗?你们处罚了哪些问题?卓绝是在智能体管制方面,你们的居品如何匡助东谈主们更好地管制景况和提高智能体的可控性?
Harrison Chase:天然不错。LangChain 的推出处罚了要津问题,尤其是圭臬化各个组件的接口。这让咱们大要与多种模子、向量存储、用具和数据库进行平常集成,这亦然 LangChain 受接待的紧迫原因。
LangChain 还提供了一系列高等接口,使用户不错玩忽使用功能,如 RAG(检索增强生成)和 SQL 问答,同期动态构建链的运行时候也较短。咱们把这些"链"视为有向无环图(DAG),这少许很紧迫。
LangGraph 处罚了与可定制和可控的轮回元素相干的问题。轮回引入了新挑战,比如设计握久化层,以便规复景况并让轮回在后台异步运行。因此,咱们温存如何灵验部署弥远、轮回和东谈主机交互的应用模范。
对于 LangSmith,自公司诞生以来咱们就一直在研究它,专注于 LLM 应用的可不雅察性和测试。
咱们发现,LLM 算作中枢时,其固有的不细目性使得可不雅察性和测试尤为紧迫,以确保能自信地进入分娩。LangSmith 的设计使其大要与 LangChain 无缝配合。
此外,LangSmith 还提供了教导中心,匡助用户管制和手动审查教导。这在所有这个词过程中显得尤其紧迫,因为咱们需要明确 LLM 输出的新内容。
可不雅察性是 LLM 的显贵特征,而测试的复杂性也在增多。因此,咱们但愿东谈主们能更频繁地审查内容,而不单是局限于传统的软件测试。LangSmith 提供的用具和路由恰是为了处罚这些挑战。
可不雅察性
Pat Grady:你是否有一种启发式的次序来评估现存的可不雅察性、测试和填空,望望它们在多猛进程上适用于 LLM?哪些特征使得现存 LLM 与之前的模子有显贵不同,以至于你们需要诱导新址品、新架构或新次序?
Harrison Chase:是的,这照实是一个值得真切想考的问题。尤其是在可不雅察性和测试方面,LLM 的复杂性让咱们必须改换。固然像 Datadog 这样的用具不错很好地监控,但要真切分析多次序的应用模范,LangSmith 能提供更精细的陈迹分析,匡助更好地调试和打法 LLM 的不细目性。
测试方面也很原理。在传统软件测试中,通常只温存休止是否通过,而不进行成对比较。但是,LLM 评估中,像 LLMSYS 这种用具允许并列比较两个模子,这种式样在 LLM 测试中尤为要津。
另一个挑战是,LLM 测试中你不会老是有 100% 的通过率,因此追踪进展相当紧迫,确保你在不断逾越,而不是雕残。比较传统测试的通过 / 失败判断,LLM 的测试需要更详细的追踪和分析。
临了,东谈主类的参与至关紧迫。尽管咱们但愿系统自动化运行,但东谈主工干预往往更可靠。这和软件测试中轻佻的等式考证相当不同,咱们需要引入东谈主类判断,使测试愈加精准且无邪。
软件诱导的畴昔
Pat Grady:在真切计议智能体构建细节前,我想问一个问题。咱们的创始东谈主唐 · 瓦伦丁有一个着名的发问"那又若何?"如果自主智能体竣工运作,那又若何?这对天下有什么影响?咱们的生计将如何不同?
Harrison Chase:从更高层面来看,这意味着咱们东谈主类将不错温存不同的事情。
现阶段,许多行业齐依赖重迭性、机械性的责任,而智能体的想法是自动化其中的大部分,从而让咱们大要专注于更高脉络的问题。咱们不错诓骗智能体的输出进行更多创造性和高杠杆的责任,像公司运营中的许多职能可除外包给智能体。
你不错设想我方演出首席实施官的变装,而智能体讲求营销、销售等其他职能,自动化大宗重迭性责任,让你有更多时候进行计谋想考或居品诱导。这将使咱们目田地作念咱们擅长的、有益思的事情,开脱那些不太景观作念的机械责任。
Pat Grady:你有莫得看到任何现实中的例子,或者有什么正在诱导中的原理名目?
Harrison Chase:目前两个最受温存的智能体规模是客户援手和编码。
客户援手是一个很好的例子,许多公司齐需要外包这类作事,而智能体不错高效地替代这部单干作,这会相当有劲。
至于编码,它更复杂,触及许多创造性和居品定位的想考。固然某些编码任务照实休止了东谈主的创造力,但如果有智能体不错自动完成这些编码任务,像我姆妈有一个网站的想法但不会编程,这样的智能体就能让她把更多元气心灵放在网站的想法和领域上,而代码部分不错自动生成。
客户援手智能体一经启动阐扬作用,而在编码规模,也有许多新进展,尽管它还未十足熟谙,但许多东谈主正开展原理的名目。
Pat Grady:你提到的编码问题很原理,因为这是咱们对东谈主工智能抱有乐不雅气派的原因之一。AI 有可能裁汰从想法到实施的距离,让创造性的想法更容易形成现实。像 Figma 的 Dylan 时常议论这少许。
Harrison Chase:是的,自动化不错排斥那些粉饰创作的东西,这种"从想法到现实"的调节相当招引东谈主。在生成式 AI 时期和智能体时期,"构建者"的界说将发生变化。
今天的软件构建者大多是工程师,或者需要雇佣工程师。而畴昔,借助智能体和生成式 AI,构建者不错构建更多的东西,因为他们不错低成腹地诓骗智能体,赢得所需的常识和才略。这非常于让智能体商品化了谍报,意味着更多东谈主不错成为构建者。
Pat Grady:我很好奇,对于那些试图使用 LLMs 构建居品或 AI 的诱导东谈主员来说,有哪些问题是你们目前莫得径直处罚,但畴昔可能会探究的?
Harrison Chase:是的,照实有两个主要规模。一个是模子层,另一个是数据库层。
比如,咱们并不揣测打算构建矢量数据库,但对于如何存储数据,这是个相当原理的问题。不外,这并不是咱们现在的重心。咱们也不构建基础模子,也不专注于微调。
咱们更多是想匡助诱导者在数据管制上简化责任经过,但并不揣测打算为了微调去搭建基础设施。
有许多公司,比如 Fireworks,正在专门作念这些事,这竟然很原理。对于诱导者来说,这些问题处于本事堆栈的底层。
同期,另一个值得想考的问题是,如果智能体竟然像咱们设计的那样变得愈加精深,将会出现哪些新的基础性问题?是以说真话,现在就说咱们畴昔会作念什么或者不会作念什么还为前锋早。因为咱们现在离一个十足可靠的智能体经济系统还有一段距离。
不外,有些想法一经很招引东谈主了,比如智能体的身份考证、授权、支付等基础设施。
设想一下,畴昔的某天,智能体给东谈主类支付作事用度,而不是违反!这种场景竟然让东谈主欢喜。如果智能体竟然像咱们设想的那样流行起来,咱们需要什么样的用具和基础设施来援手这一切?
这些问题和诱导者社区中构建 LLM 应用模范的需求有些不同。LLM 应用一经在这里了,智能体正在冉冉熟谙,但所有这个词智能体生态系统还莫得十足成型。这会是一个相当原理的发展标的。
Sonya Huang:你刚才提到微调,说你们目前不揣测打算真切这个规模。看起来教导工程和微调往往被认为是相互替代的用具。你若何看现在教导与微调的使用式样?你以为畴昔的走向会若何?
Harrison Chase:其实,我并不认为微协调领会架构是相互替代的。违反,我以为它们在许多方面是互补的。
当你有更定制化的领会架构时,智能体每个部分或节点的职责变得愈加具体明确。而在这种情况下,微调就显得相当有用。因为当你明确了每个模块的责任领域时,微调就不错进一步优化这些模块的发扬。
是以我以为微协调架构的关系并不是相互竞争的,而是各司其职世博体育app下载,相互增强的。