工作是这样的:油管措施员博主Internet of Bugs(以下简称秃顶哥)对Devin的视频举办了逐帧阐明,逐一举证说明白Devin并不如演示中那般神奇。
首个AI措施员,演示视频大幅度造假???
不久之前震撼硅谷的Devin,再度震撼硅谷 但这次是被打假。
工作是这样的:油管措施员博主Internet of Bugs(以下简称秃顶哥)对Devin的视频举办了逐帧阐明,逐一举证说明白Devin并不如演示中那般神奇。
甚至有 本身现写bug然后就地修复 的骚操纵。
其它 罪证 ,包罗但不限于:
号称能办理任何Upwork任务,但演示中办理的问题并不是prompt要办理的那一个,做无用功;
看起来在修复bug,实际上修复的bug人类措施员基础就不会犯;
没有意识到简朴两步就能办理问题,花里胡哨一顿操纵,其实是本身把任务搞巨大了;
修改代码的程度一言难尽。
另外,秃顶哥花了半个多小时,把Devin演示视频中的upwork任务完成了一遍 而Devin完成任务大概用时6个多小时。
啊这这这,真是好、大、一、口、瓜!
要知道,其背后公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月公布乐成融资2100万美金。
推特和YC上已经吵翻天了,让这件事的接头度高居不下。
我请问呢?真的很讨厌演示造假,让demo看起来轻松到达料想之外的技能进步。
尚有人暗示本身很受伤,再也不会相信各类冒出来的创业公司的对象了。
emmmm 我照旧把等候值全部留给OpenAI、Anthropic、DeepMind、FAIR这些公司和机构吧。
完整详情,一起接着往下看。
35年从业者逐帧验证
此次出来声张公理的秃顶哥,从事软件行业已经35年。他首先声明本身的态度:我并不阻挡高科技,但我确实阻挡太过炒作。
他本身也常常利用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事实上,在Devin刚推出时候,他就阻挡过 世界上第一个AI软件工程师 这一说法。
此次则主要针对的是一些更为详细的说法。
好比之前Devin号称可以或许靠处理惩罚upwork任务来赚钱的。但在真正的演示中Devin并没有做到这一点。
不信?不要紧,秃顶哥带着逐帧的证据来了。
总结如下:
Devin所处理惩罚的任务并非随机,而是经心挑选;
与客户实际需求有很大的进出;
实际操纵进程,数次本身缔造bug然后再修复;
许多毫无意义的操纵,相当于几十年前在C语言中才用的要领;
首先,来到了演示视频的2.936秒处,在屏幕左上角有显示他们搜索过这个内容。因此,这不是所谓 随机 选择的任务。
再来看客户给到的详细需求。真正需求为 我想要操作这个库来举办推理。你需要提供具体的操纵指南。我不想接头完成这项事情估量需要的时间。
但给到Devin的需求却是:我但愿操作这个模子在这个库中举办推理。请本身弄大白。
最后视频末端呈现的Devin生成陈诉中,也没有提及客户实际需要的内容。
那么,这份事情的最终交付成就应该包罗什么呢?
但Devin实际做了什么?
Devin第一次真正的实验,是它修改了一个名为requirements.txt文件,个中划定了代码所依赖的库版本。视频中提到它正在更新代码,但实际上更像是修改设置文件。
然后按照需求,需要Devin能成立本身的推理本领,并仅需利用样例数据即可。但实际项目要比这个巨大得多。
功效很快,Devin就碰着了第一个呼吁行错误 打开图像失败、文件未找到、无此文件或目次等。但在秃顶哥实际复现时并没有呈现,功效研究发明,代码客栈压根就不存在这个文件。
这相当于Devin本身建设了个bug,然后再修复bug。在接下来的操纵中,Devin经验了许多次这样的 自建自修 。
不能说十分有用,只能说完全没有须要。
接下来,再来看看代码库中这样一个readme文件。正如视频所展示的那样,readme文件清晰地说明白该文件的成果和用法。在页面右侧,甚至尚有一个小按钮,点击它就可以复制整条呼吁,然后粘贴到呼吁行窗口中,按下回车即可运行。
但Devin完全没能领略,而又是自创了个项目。而写的那段从缓冲区读取数据的代码十分糟糕。
于是秃顶哥发出了魂灵拷问:
这不就是几十年前在C语言等中才用的要领吗???
这种做法显然已颠末期,正凡人用Python谁还会再写这个代码。这种代码很难调试,它逻辑巨大,难以领略,很容易呈现细微的错误。
另外,代码库中还存在一个真正的错误,但Devin既没有发明也没有修复。
然后秃顶哥用谷歌搜索,凭据GitHub 上一条相关评论修改了代码,,只花了1分07秒,问题就办理了。
最终秃顶哥总共花了35分55秒复现了Devin的事情,而Devin实际花了多长时间呢?
假如细看视频Demo,就会发明Devin处理惩罚事情前后有6个小时20分钟的隔断。
视频的前部门显示的是3月9日下午3:25 的时间戳,但后半部门却显示的是当天晚上9:41。
而逐帧细看就有会发明一些奇怪且毫无意义的操纵。
好比head -N 5 results.json | tail -N 5这个呼吁,它暗示取这个JSON 文件的前五行,然后再取这些行的最后五行。
正确的做法应该是 head-5 results.json 。谁人-N 是多余的。只要说 -5 就可以,不需要那些多余的对象。
最后秃顶哥锐评,AI此刻生成的内容有许多都十分愚蠢,反倒会让工作变得更为巨大。
当看到它的任务列表时,会以为:哇,Devin做了许多工作。但实际上大概并非如此。
网友:至少把握了看起来很忙的能力
对付此次Devin造假翻车,不少网友对现阶段AI产物炒作嗤之以鼻。
我真的很讨厌此刻演示造假变得如此正常化
甚至还列出了三大炒作规范:Devin、rabbit、Humane。
也有网友挖苦:Devin至少把握了看起来很忙的能力。
嗯?打工人有被内在到。
不外也有一些支持的网友,好比这位沃顿商学院的传授Ethan Mollick。
他声称本身有早期会见权,在体验中发明真的很有趣。
他认为此刻将Agent视作 炒作 为时尚早,将来几个月Agent的本领将十分强大。
号称 世界首个完全自主的AI软件工程师
有意思的是,演示造假事件爆出来的时间,间隔Cognition AI推出Devin仅已往了一个月。
咱们一起往返首一下。
一个月前的3月13日,Cognition AI在推特上先容了自家推出的Devin,并称其为 世界上首个AI软件工程师 。
只需一句指令,它可端到端地处理惩罚整个开拓项目。
主创先容,Devin在长程推理和筹划上面下了很大工夫,可以筹划和执行需要数千个决定才气完成的巨大软件工程任务。
详细来说有6大成果:
端到端构建和陈设措施,可以办理的不可是代码问题,还包罗与之相关的整个事情流;
自主查找并修复bug;
练习和微调本身的AI模子;
修复开源库;
为成熟的出产库做孝敬;
超强进修本领,及时补足常识和本领短板。
Devin完整技能陈诉中显示,在SWE-bench基准测试中,无需人类帮助,Devin可办理13.86%的问题
这个数据看起来不高,但其实已经高出了此前所有AI大模子的后果。
今朝数一数二的GPT-4,在同个测试中的后果只有1.74%,且必需配备一小我私家类,提示它要处理惩罚哪些文件。
其时的Devin团队一副没在怕的样子。
固然没开放公测,但陆连续续给出了一些内测名额。
在互联网上搜索一番,发明上手体验过的人给的买家秀反馈是这样的:
热衷AI的沃顿商学院传授Ethan Molick试事后,认为其新颖的及时交互方法是最值得存眷的。
他要求Devin开拓一个表明 创业公司融资中的股权稀释 的网站,随后透露,AI还无法在没有任何辅佐的环境下,自主且无过错地完成这项事情。。
但也有人直接暗示,体验事后确实是有被震撼到。
巧的是,截图中的这个首批内测体验者Bubna哥,是AI基本设施创业公司Modal Labs的CTO。
厥后他和Devin还联手搞了个新闻。Devin用自家老板的账号,潜入Modal Labs的事情群,和Bubna哥一番交换事后,按照回覆调解了代码方案,办理了一个技能问题。
△图中的讲话人背后其实是Devin
虽然,Devin还镀了一层光环,那就是背后公司Cognition,固然是个小初创,但在招人信息中明晃晃写着:
我们团队手里握着10块IOI金牌呢~
技能演示和团队配景都吸睛Max,直接给Devin的流传力度添砖加瓦。
好比,GitHub三万Star项目MetaGPT就上新了 开源版Devin ,名为数据表明器(Data Interpreter):
阿里Qwen成员Binyan Hui等人开启了OpenDevin项目,一个月已往已经在GitHub揽星21.5k;
普林斯顿何处行动更快,用GPT-4打造了开源SWE-agent,开箱即用,可修复GitHub存储库中真实bug。
在25%的SWE-bench测试集上,它实现了与Devin演示视频中相似的精确度 办理了12.29%的问题。
尚有各个大厂也开始入驻本身的AI措施员
One More Thing
功效此刻产生这件事儿,怎么说呢
往好了想,真是救大命了,所有的措施员们都要松口吻了,还好还好,AI临时还无法端到端端走我的饭碗。
往坏了想,真是要了命了,这么一个备受存眷的明星项目居然是个只能活在视频里的demo。
莫非世界真的是个庞大的草台班子???
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。