• 英文站 KrASIA
  • 日文站 KrJAPAN
36氪出海
36氪出海
人工智能

全球首个AI程序员诞生,它叫Devin

深度观察 

全球首个 AI 程序员诞生,这一成就将如何重塑 AI 领域?我们又该如何面对?

——领读语来自36氪出海运营
浦娜
查看「36氪出海·领读」的全部内容 >>

就在刚刚,世界上第一位 AI 程序员 Devin 诞生。

叫 Cognition 的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。

刚一放出,Devin 就刷爆了全网。

它掌握了全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改 bug,甚至还能训练和微调自己的 AI 模型!

在 SWE-bench上,它的表现远远超过 Claude 2、Llama、GPT-4 等选手,取得了13.86%的惊人成绩!

也就是说,它已经能通过 AI 公司的面试了。

就在前不久,英伟达 CEO 黄仁勋表示,自己相信就在不久的将来,人类再也不需要学习如何编码了,孩子们应该停止编程课。

谁能想到,才短短数月,他的预言就成真了!

更令人震惊的是,Devin 背后拥有一支强大的金牌程序员团队(规模不大,人才济济)。

据介绍,仅创始团队已经狂揽了10个 IOI 金牌!

首席执行官 Scott Wu 和弟弟 Neal Wu 获奖情况

首席执行官 Scott Wu 和弟弟 Neal Wu 获奖情况 Cognition AI 的首席执行官 Scott Wu 称,自己从9岁开始学习编程,便爱上了将想法变成现实的能力。现在,这个梦想居然真的实现了。

网友惊呼:码农不存在了!?

看到Devin如此无敌的能力,网友惊呼,一切都完结了!Devin 会抢走我的饭碗吗?

德扑AI之父,OpenAI 的研究科学家 Noam Brown 表示,「2024年将是人工智能令人兴奋的一年」。计算机科学家,AI创业公司 CEOSilas Alberti 评价到:

它是一个能够独立完成任务的自主系统,在快速原型设计、修复 bugs 和复杂数据的可视化上表现卓越。

大部分其他助手在进行四五步操作后就会偏离任务轨道,但Devin能够在整个任务过程中准确地保持它的目标和方向不变。

投资了 Cognition AI 的硅谷大佬 Peter Thiel 更是认为,Cognition AI与 Founders Fund 之前投资过的 DeepMind,现在的AI巨型独角兽 OpenAI,Scale AI 等公司处于同一水平。

AI 初创公司 Unify 创始人称,Devin 不仅抢走了我的工作,还抢走了我的名字,简直是雪上加霜。

美国著名开发者 Brian Roemmele 表示,自主编码智能体 Devin 已现 AGI 雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。

Spotify 工程师表示:「目前尚不清楚智能体会在几年内取代软件开发人员,但免费午餐已经不复存在。」

「从为期8周的训练营毕业,然后找到一份价值 20 万美元的工作,这样的日子已经一去不复返了。做好磨练和深入学习的准备。熟练地引导人工智能取得好的结果可能才是未来程序员能体现出来的价值。」

世界首位 AI 软件工程师 Devin

AI 软件工程师 Devin 的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。

Devin 究竟有多强大?

Devin 可以规划和执行需要数千项决策的复杂工程任务。

并且,它可以在每一步回忆相关的上下文,随着时间的推移学习,并纠正错误。

研究人员还为 Devin 提供了常见的开发工具,包括 shell、代码编辑器、以及浏览器——皆是人类完成任务最需要的工具。

此外,Devin 还具备主动与用户协作的能力。

比如,实时报告进度,接受反馈,并根据需要与你一起完成设计选择。

目前,Cognition AI 还推出了一个 Devin 定制的 Chrome 插件——Tab Switcher。

而 Cognition 的开发者们纷纷分享出了自己使用 Devin 的示例,简直不要太惊艳!

学习如何使用陌生的技术

当你发给 Devin一篇博文后,它会在几分钟内完成自主学习,从阅读文章,运行代码。

可以看到,Devin 在 Modal 上运行了 ControlNet,在写代码过程中,还会自我 debug。

最后,人类程序员Sara想要带有自己名字的桌面壁纸,就立刻生成了。

构建和部署端到端的应用程序

当你想要玩一个「生命游戏」(the Game of Life),交给 Devin 做就好了。

Devin 首先会用工具 Shell,创建一个新的react应用程序,然后开始通过编辑器编写代码。

代码完成后,它还会将应用自动部署到 Netlify,一个初步的「生命游戏」就做好了。

这个过程中,Devin 还可以逐一根据用户请求,完成功能的添加。

比如在初始屏幕上加上像素化的「Devin」一词,然后希望这个字体再大一些,帧速率更快。

与此同时,人类程序员要求 Devin 修复一个 bug——屏幕在3秒后冻结的错误。

下一步,让 Devin 在10秒后提高帧速率,让网站能适应不同的窗口大小。

同时,一个游戏还得需要交互性,即在某处点击鼠标时,应该生成一个新块。接下来,就是见证奇迹的时刻了!

自行查找代码库错误,自行修复

这个名叫 Andrew 的开发者表示,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。

不久前有朋友告诉他:其中一个实现中有 bug。

Andrew 插入了一个快速修复,但并没有测试它,因为没能抽出时间来编写测试用例。

既然如此,就给 Devin 来试试看!小哥给了 Devin 存储库,让它来检查和处理这个存储库。

然后,Devin 就找到了正确的存储库,检查了所有文件。

接下来,在小哥的要求下,Devin 还很轻易地就把测试写了出来——只是看了一下测试应该是什么样,接口是什么样,就完成了这项任务。

挑战还没完,接下来,小哥要求 Devin 将对所有输入进行测试,而不仅仅是测试这个输入,也就是自己常用的「暴力测试」。

于是,Devin 重写了测试函数,使用了四个嵌套的循环,这一次,它发现了一个 bug。

接着,Devin 开始调试。它在这里添加了一个 print 语句,来调试输入和输出,然后重新测试,发现了错误:代码不应该返回负值。

于是 Devin 查看了正在测试的代码,然后添加进了这行代码,确保返回值是非负的。现在Andrew可以确信,自己的代码是完全正确的了!

训练和微调 AI 模型

Devin 能力也在一步一步进阶。

最让人兴奋的是,它可以自己训练、微调模型,AI 训 AI 成真了!

首先,给智能体 Devin 提供一个 GitHub 库的链接(比如 QLoRA——一种量化大模型的微调方法)。

Devin 所做的就是,微调 7B Llama 模型。

接下来,就是献技的时刻,Devin 克隆了 GitHub 库,了解如何使用 readme 运行,设置好所需 pip 的要求,查看所有的脚本语言,并开始运行。

训练过程中,Devin 还遇到了 Cuda 问题(这是在开源库中可以预料到的)。

不过这可难不倒 Devin。

它会自主查看英伟达环境,并找出如何重新安装软件包让其成功运行。

接下来,模型训练开始进行了。可以看到损失率正在下降,程序员给出Devin正向反馈:「做的不错」!大约1小时后,Devin 已经顺利完成几百步训练,仍在进行中…

解决开源代码库中的错误和功能请求

只要给出一个指向 GitHub 问题的链接,Devin 就会执行所需的所有设置和上下文收集了!

这位叫 Tony 的工程师,想一次运行一堆命令,并且希望在一个屏幕上跟踪它们的状态,于是他找到了一个名为 impro 的开源工具,希望执行这个操作。

看起来虽然 impro 完成了任务,但状态太模糊了。根本看不出来究竟哪些命令失败了。

Tony 想改进这里的用户体验,但是自己根本不熟悉代码,于是他想到去求助 Devin。

他发现网上有人面临同样的问题,所以他把这个问题的链接给了 Devin,让它修复这个问题。

在右边,他很清晰地看到,Devin 从一个工具跳转到了另一个工具。

它首先使用了 Shell Deon CLS 存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回 Shell,安装了所需要的依赖项。另外,Devin 还打开了一个 Web 浏览器。

然后,Devin 就开始编码了!

在这个过程中,它甚至打开了一些R文档来调试编译器错误。

最后,完成了任务,出了一份自己做了哪些改进的总结报告。

所以,Devin 的更改有效吗?

Tony 发现,它成功了!第三个命令是成功的,他甚至可以看到状态码。

为成熟的生产存储库做贡献,修复系统错误

下面这个示例,是 SWE-BENCH 基准测试的一部分。

Devin 解决了 Python 代数系统中的一个错误。

它会自行设置代码环境、复制错误、自行编码、测试修复程序!

这位叫Neil的开发者,分享了 Devin 帮自己改 bug 的示例。

他一直在用这个名为 Senpai 的存储库,它是一个用 Python 编写的代数系统。

但Neil发现,取分数的对数时,我们会得到一个无穷大的 Zoo,这是绝对不可能的。

于是,他试着让 Devin 来解决这个问题。

Devin 在存储库中复现了 Zoo 的问题后,随后,它找出了代码中正确的那部分,添加了 print 语句,以便找出问题原因。

可以看到,原因就在于,整数除法会得到0,就导致之前取了0的对数。

因此,Devin 用 true 除法替代了整数除法。随后,它开始测试,确保没有其他问题。

就这样,Devin 帮 Neil 节省了大量的时间。

胜任自由职业平台 Upwork 的工作

Cognition 的开发者 You 还试着在全球最大的综合类自由职业平台 Upwork 上,为 Devin 提供真正的工作。

没想到,它竟可以完全胜任,看来智能体也能出来做副业了……在 Upwork 上,他首先挑选了一个「用计算机视觉模型做推理」的工作。

先来看看这个任务的要求:

– 我希望利用该资源库中的模型进行推断。

(https://github.com/mahdi65/roadDamageDetection2020)

– 你的交付成果将是关于如何在 AWS 的 EC2实例中进行操作的详细说明。

– 请提供你完成这项工作的评估报告。我不会回复没有评估的报告。

看起来很简单一个任务,但开发者 You 表示,自己也不知道如何开始做。

但是交给 Devin,这件事就变得容易得多了。

Devin 收到请求后,先开始设置了存储库。

然后运行中发现了版本控制问题,Devin 自主处理并更新了代码。

然后,Devin 继续加载并导入软件包。

它还从互联网上下载了图像,并运行模型。

接下来,Devin 再次遇到了问题——关于打印调试,它自主修复了代码。

最后,Devin 对数据结果进行抽样,并编写出一份报告。它会一些标有损坏道路样本的图像,以及详细的 text 文档。

13.86%正确率,Devin 碾压GPT-4/Cluade 3

SWE-bench 是一个要求 AI 智能体解决开源项目(例如Django和scikit-learn)中实际 GitHub 问题的测试。

在评估中,Devin 能够完整地正确处理13.86%的问题,这一成绩大幅领先于之前技术水平的1.96%。

即便是在提供了具体需要修改的文件情况下,先前最优秀的模型也仅能处理4.80%的问题。

华人金牌程序员团队

Cognition AI这家正在改变世界的公司,才正式成立不到2个月,仅有10名员工,分散在纽约、硅谷,以及世界各地的 Airbnb 民宿中。

就这样一个连正式办公场地都没有的团队,却已经从硅谷大佬 Peter Thiel 领投的 Funders Fund 和其他知名的投资机构那里获得了2100万美元的投资,其中还包括前推特高管 Elad Gil。

在如此炸裂的产品的背后,团队成员背景更是夺目耀眼。

Cognition AI 的核心创始团队包括3人:CEO Scott Wu,CTO Steven Hao,CPO Walden Yan。 

联合创始人兼首席技术官 Steven Hao,在 AI 系统方面有着丰富经验。

他于2018年本科毕业于 MIT 计算机和数学专业。

2018年加入由Alexandr Wang创办的Scale AI,是一名资深的AI系统工程师。

联合创始人兼首席产品官 Walden Yan,在加入 Cognition AI 之前他还是哈佛大学的一名在校大学生。

作为计算机和经济专业本科大四在读的学生,理论上应该今年本科毕业。

但实际情况却处在「保密状态」,因为他还没有告诉父母自己辍学的事情。(手动狗头)

他在个人网站上,列出了3个自己认为最为重要的成就:

– 是 MIT PRIMES Research团队的成员

– 得过 IOI 金牌

– 创立 DeepReason 并开发了一款智能区块链审计工具

联合创始人兼首席执行官 Scott Wu,是一名连续创业者。

在成立 Cognition 之前,他曾经创立了一个用AI驱动的社交网络平台 Lunchclub,并且也曾就读于哈佛大学。

他的弟弟 Neal Wu,也是公司的员工。

在加入 Cognition AI 之前也在包括谷歌等多家公司工作过,是一名经验丰富的软件工程师和销售。

本科同样毕业于哈佛大学计算机专业。

他们兄弟俩在非常青年时期就参加了很多国际编程比赛和科学奥赛,获奖无数。

不仅如此,团队的其他成员,也都是大佬级的存在。

还有一个 nobody。

其中,Andrew He 从6年级开始,参加了各种数学竞赛。

在2014年和2015年的国际信息学奥林匹克大赛上获得了2枚金牌。他

就读于 MIT,并于2019年毕业,获得了数学和计算机科学学士学位。

如此丰富的编程竞赛经历,对于他们开发这个编程AI智能体有着非常大的帮助。

众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。

在 CEO Scott Wu 看来,团队独特的背景让他们在这个领域有非常强大的优势。

将 AI 培养成程序员,实际上是一个复杂的算法挑战,这需要 AI 系统能够做出复杂的决策,并能预见未来几步,从而选择正确的路径。这几乎就是我们多年来一直在大脑进行的一场场比赛。现在,我们需要用 AI 系统来参加这些比赛。

Cognition AI 首款产品 Devin 的最大突破在于大大提升计算机推理和规划能力。

它要求 AI 系统不仅要预测句子中的下一个词或代码行的下一个片段,还能像人类一样进行思考,获得解决最终问题最为合理的方法和路径。

而行业共识也认为,AI 的推理和规划能力将是 AI 下一步产生最重要突破最有可能的方向。

Devin 在接受用户用自然语言提出的任务之后,不仅能够自主开始工作并完成任务,还会向用户报告其计划,并实时展示正在使用的命令和代码。

如果用户发现过程中的问题,可以即时提供反馈。它会在任务进行中立即调整。

而 Devin 最大的亮点在于,大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注,但它能够在完成数百上千任务时始终不偏离目标。

其他计算机科学家或者资深程序员在试用过 Devin 之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。

CEO Wu 并没有详细说明他们的智能体背后使用的AI技术,只是笼统地解释说,团队找到了将大语言模型(例如 OpenAI 的 GPT-4)与强化学习技术相结合的独特方法。

图 | unsplash

本文来自微信公众号“新智元”,原文标题:全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型,作者: 新智元, 36氪出海经授权发布。

加入36氪出海学习交流群

目前,36氪出海学习交流群已经吸引超过13000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里,我们面向群成员挑选整理每日全球跨境资讯,帮助出海人把握最新动态;定期组织出海交流活动,链接出海生态圈,寻找潜在合作伙伴!欢迎添加36氪出海小助手微信(ID:wow36krchuhai-xzs2)申请入群,一同出海!

分享

推荐阅读


深度解析

  • 指南|十年跨境大卖自述:在TikTok开启“二次创业”

    新跨境电商平台的崛起,不是偶然而是必然。

    电商零售

    指南|十年跨境大卖自述:在TikTok开启“二次创业”

    刚刚

  • 大幕拉开,中国车企“逐鹿中东”

    细述中国新能源车在中东的规划与布局,对中国新能源汽车出海中东的现状、挑战及应对措施展开分析,以期同所有扬帆中东的企业一道,共同探索和开创全球新能源汽车产业的未来。

36氪出海

36氪出海(letschuhai.com)是关注出海的行业媒体,为企业跨境提供海外咨询及专业服务,同时运营着超万人的出海生态社群。

寻求报道、内容合作、商务合作等,请发送邮件到hello@global.36kr.com,或者扫码添加出海小助手微信沟通详情。

合作伙伴

Alibaba CloudAlipay PlusLazadaTiktokNinjavan飞书深诺新加坡国立大学EMBA

36Kr Global 旗下品牌

关注微信公众号

扫一扫即刻关注
36氪出海微信公众号

关注微信公众号

沟通商务合作
添加「出海小助手」微信

© 北京极境之羽信息科技有限公司京ICP备20010238号-2Chuhai's copyright license logo 京公网安备 11010502044070号