Skip to content

Latest commit

 

History

History
23 lines (17 loc) · 2.14 KB

2407.16741.md

File metadata and controls

23 lines (17 loc) · 2.14 KB

背景

  • 背景
    论文介绍了在人工智能(AI)代理领域的最新研究,特别是这些代理可以通过编码、与命令行交互和浏览网页等方式与外部环境互动,进而实现复杂任务。

  • 已有的工作 尽管大量的研究致力于创建开源框架以便于AI代理的开发,但目前的工作在处理软件开发的特定挑战方面仍有局限性,如如何让代理有效地在复杂软件系统中创建和修改代码、如何提供他们即时收集信息的工具以及如何确保开发安全并避免对用户系统的负面影响。

核心贡献

  • 提出了一个名为OpenDevin的社区驱动平台
    • 挑战1:如何实现一个可以让AI代理通过软件与世界进行复杂交互的机制? OpenDevin 通过事件流架构提供了一个强大而灵活的交互机制,使用户界面、代理和环境得以互动。

    • 挑战2:如何建立一个既安全又能允许代理执行它们任务的环境? OpenDevin 提供了一个包含沙箱操作系统和网页浏览器的环境,代理可以利用这个环境来执行任务。

    • 挑战3:如何评价AI代理的性能以及如何协调多个代理的合作? OpenDevin 包含了一个评价框架,允许跨多种任务对代理进行评价,支持多个专业代理进行分工合作。

实现与部署

OpenDevin 平台目前已实现了10多个代理,其中包括基于 CodeAct 架构的强大的通用代理,并增加了网页浏览和代码编辑的功能。用户通过基于聊天的用户界面与代理交互,该界面可视化了代理的当前动作并允许实时反馈。平台使用15个基准测试对代理进行评价,这些基准测试包括软件工程(例如 SWE-BENCH)和网页浏览(例如 WEBARENA)等。OpenDevin 已在 GitHub 上获得了28K星标,并由超过160名贡献者做出了1.3K多个贡献。

总结

OpenDevin 是一个用于开发与世界通过软件交互的通用和专业AI代理的社区驱动平台,具有强大灵活的交互机制、沙箱操作系统和网页浏览器环境、以及全面的评估框架。