首个AI措施员造假被抓，Devin再次震撼硅谷

工作是这样的：油管措施员博主Internet of Bugs（以下简称秃顶哥）对Devin的视频举办了逐帧阐明，逐一举证说明白Devin并不如演示中那般神奇。

首个AI措施员，演示视频大幅度造假？？？

不久之前震撼硅谷的Devin，再度震撼硅谷但这次是被打假。

工作是这样的：油管措施员博主Internet of Bugs（以下简称秃顶哥）对Devin的视频举办了逐帧阐明，逐一举证说明白Devin并不如演示中那般神奇。

甚至有本身现写bug然后就地修复的骚操纵。

其它罪证，包罗但不限于：

号称能办理任何Upwork任务，但演示中办理的问题并不是prompt要办理的那一个，做无用功；

看起来在修复bug，实际上修复的bug人类措施员基础就不会犯；

没有意识到简朴两步就能办理问题，花里胡哨一顿操纵，其实是本身把任务搞巨大了；

修改代码的程度一言难尽。

另外，秃顶哥花了半个多小时，把Devin演示视频中的upwork任务完成了一遍而Devin完成任务大概用时6个多小时。

啊这这这，真是好、大、一、口、瓜！

要知道，其背后公司Cognition AI手握10块IOI金牌的活招牌，还在推出Devin当月公布乐成融资2100万美金。

推特和YC上已经吵翻天了，让这件事的接头度高居不下。

我请问呢？真的很讨厌演示造假，让demo看起来轻松到达料想之外的技能进步。

尚有人暗示本身很受伤，再也不会相信各类冒出来的创业公司的对象了。

emmmm 我照旧把等候值全部留给OpenAI、Anthropic、DeepMind、FAIR这些公司和机构吧。

完整详情，一起接着往下看。

35年从业者逐帧验证

此次出来声张公理的秃顶哥，从事软件行业已经35年。他首先声明本身的态度：我并不阻挡高科技，但我确实阻挡太过炒作。

他本身也常常利用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事实上，在Devin刚推出时候，他就阻挡过世界上第一个AI软件工程师这一说法。

此次则主要针对的是一些更为详细的说法。

好比之前Devin号称可以或许靠处理惩罚upwork任务来赚钱的。但在真正的演示中Devin并没有做到这一点。

不信？不要紧，秃顶哥带着逐帧的证据来了。

总结如下：

Devin所处理惩罚的任务并非随机，而是经心挑选；

与客户实际需求有很大的进出；

实际操纵进程，数次本身缔造bug然后再修复；

许多毫无意义的操纵，相当于几十年前在C语言中才用的要领；

首先，来到了演示视频的2.936秒处，在屏幕左上角有显示他们搜索过这个内容。因此，这不是所谓随机选择的任务。

再来看客户给到的详细需求。真正需求为我想要操作这个库来举办推理。你需要提供具体的操纵指南。我不想接头完成这项事情估量需要的时间。

但给到Devin的需求却是：我但愿操作这个模子在这个库中举办推理。请本身弄大白。

最后视频末端呈现的Devin生成陈诉中，也没有提及客户实际需要的内容。

那么，这份事情的最终交付成就应该包罗什么呢？

但Devin实际做了什么？

Devin第一次真正的实验，是它修改了一个名为requirements.txt文件,个中划定了代码所依赖的库版本。视频中提到它正在更新代码，但实际上更像是修改设置文件。

然后按照需求，需要Devin能成立本身的推理本领，并仅需利用样例数据即可。但实际项目要比这个巨大得多。

功效很快，Devin就碰着了第一个呼吁行错误打开图像失败、文件未找到、无此文件或目次等。但在秃顶哥实际复现时并没有呈现，功效研究发明，代码客栈压根就不存在这个文件。

这相当于Devin本身建设了个bug，然后再修复bug。在接下来的操纵中，Devin经验了许多次这样的自建自修。

不能说十分有用，只能说完全没有须要。

接下来，再来看看代码库中这样一个readme文件。正如视频所展示的那样，readme文件清晰地说明白该文件的成果和用法。在页面右侧,甚至尚有一个小按钮，点击它就可以复制整条呼吁，然后粘贴到呼吁行窗口中，按下回车即可运行。

但Devin完全没能领略，而又是自创了个项目。而写的那段从缓冲区读取数据的代码十分糟糕。

于是秃顶哥发出了魂灵拷问：

这不就是几十年前在C语言等中才用的要领吗？？？

这种做法显然已颠末期，正凡人用Python谁还会再写这个代码。这种代码很难调试，它逻辑巨大，难以领略，很容易呈现细微的错误。

另外，代码库中还存在一个真正的错误，但Devin既没有发明也没有修复。

然后秃顶哥用谷歌搜索，凭据GitHub 上一条相关评论修改了代码，，只花了1分07秒，问题就办理了。

最终秃顶哥总共花了35分55秒复现了Devin的事情，而Devin实际花了多长时间呢？

假如细看视频Demo，就会发明Devin处理惩罚事情前后有6个小时20分钟的隔断。

视频的前部门显示的是3月9日下午3：25 的时间戳，但后半部门却显示的是当天晚上9：41。

而逐帧细看就有会发明一些奇怪且毫无意义的操纵。

好比head -N 5 results.json | tail -N 5这个呼吁，它暗示取这个JSON 文件的前五行，然后再取这些行的最后五行。

正确的做法应该是 head-5 results.json 。谁人-N 是多余的。只要说 -5 就可以，不需要那些多余的对象。

最后秃顶哥锐评，AI此刻生成的内容有许多都十分愚蠢，反倒会让工作变得更为巨大。

当看到它的任务列表时，会以为：哇，Devin做了许多工作。但实际上大概并非如此。

网友：至少把握了看起来很忙的能力

对付此次Devin造假翻车，不少网友对现阶段AI产物炒作嗤之以鼻。

我真的很讨厌此刻演示造假变得如此正常化

甚至还列出了三大炒作规范：Devin、rabbit、Humane。

也有网友挖苦：Devin至少把握了看起来很忙的能力。

嗯？打工人有被内在到。

不外也有一些支持的网友，好比这位沃顿商学院的传授Ethan Mollick。

他声称本身有早期会见权，在体验中发明真的很有趣。

他认为此刻将Agent视作炒作为时尚早，将来几个月Agent的本领将十分强大。

号称世界首个完全自主的AI软件工程师

有意思的是，演示造假事件爆出来的时间，间隔Cognition AI推出Devin仅已往了一个月。

咱们一起往返首一下。

一个月前的3月13日，Cognition AI在推特上先容了自家推出的Devin，并称其为世界上首个AI软件工程师。

只需一句指令，它可端到端地处理惩罚整个开拓项目。

主创先容，Devin在长程推理和筹划上面下了很大工夫，可以筹划和执行需要数千个决定才气完成的巨大软件工程任务。

详细来说有6大成果：

端到端构建和陈设措施，可以办理的不可是代码问题，还包罗与之相关的整个事情流；

自主查找并修复bug；

练习和微调本身的AI模子；

修复开源库；

为成熟的出产库做孝敬；

超强进修本领，及时补足常识和本领短板。

Devin完整技能陈诉中显示，在SWE-bench基准测试中，无需人类帮助，Devin可办理13.86%的问题

这个数据看起来不高，但其实已经高出了此前所有AI大模子的后果。

今朝数一数二的GPT-4，在同个测试中的后果只有1.74%，且必需配备一小我私家类，提示它要处理惩罚哪些文件。

其时的Devin团队一副没在怕的样子。

固然没开放公测，但陆连续续给出了一些内测名额。

在互联网上搜索一番，发明上手体验过的人给的买家秀反馈是这样的：

热衷AI的沃顿商学院传授Ethan Molick试事后，认为其新颖的及时交互方法是最值得存眷的。

他要求Devin开拓一个表明创业公司融资中的股权稀释的网站，随后透露，AI还无法在没有任何辅佐的环境下，自主且无过错地完成这项事情。。

但也有人直接暗示，体验事后确实是有被震撼到。

巧的是，截图中的这个首批内测体验者Bubna哥，是AI基本设施创业公司Modal Labs的CTO。

厥后他和Devin还联手搞了个新闻。Devin用自家老板的账号，潜入Modal Labs的事情群，和Bubna哥一番交换事后，按照回覆调解了代码方案，办理了一个技能问题。

△图中的讲话人背后其实是Devin

虽然，Devin还镀了一层光环，那就是背后公司Cognition，固然是个小初创，但在招人信息中明晃晃写着：

我们团队手里握着10块IOI金牌呢～

技能演示和团队配景都吸睛Max，直接给Devin的流传力度添砖加瓦。

好比，GitHub三万Star项目MetaGPT就上新了开源版Devin ，名为数据表明器（Data Interpreter）：

阿里Qwen成员Binyan Hui等人开启了OpenDevin项目，一个月已往已经在GitHub揽星21.5k；

普林斯顿何处行动更快，用GPT-4打造了开源SWE-agent，开箱即用，可修复GitHub存储库中真实bug。

在25%的SWE-bench测试集上，它实现了与Devin演示视频中相似的精确度办理了12.29%的问题。

尚有各个大厂也开始入驻本身的AI措施员

One More Thing

功效此刻产生这件事儿，怎么说呢

往好了想，真是救大命了，所有的措施员们都要松口吻了，还好还好，AI临时还无法端到端端走我的饭碗。

往坏了想，真是要了命了，这么一个备受存眷的明星项目居然是个只能活在视频里的demo。

莫非世界真的是个庞大的草台班子？？？

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

http://www.7klian.com

首个AI措施员造假被抓，Devin再次震撼硅谷

相关文章阅读

随机文章阅读