首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上

2024年04月28日00:21:38 科技 5917

首個ai程序員,演示視頻大幅度造假???

不久之前震撼矽谷的devin,再度震撼矽谷——但這次是被打假。

事情是這樣的:油管程序員博主internet of bugs(以下簡稱光頭哥)對devin的視頻進行了逐幀分析,逐一舉證說明了devin並不如演示中那般神奇。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

甚至有「自己現寫bug然後當場修復」的騷操作。

其它「罪證」,包括但不限於:

號稱能解決任何upwork任務,但演示中解決的問題並不是prompt要解決的那一個,做無用功;

看起來在修復bug,實際上修復的bug人類程序員根本就不會犯;

沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞複雜了;

修改代碼的水平一言難盡。

此外,光頭哥花了半個多小時,把devin演示視頻中的upwork任務完成了一遍——而devin完成任務可能用時6個多小時。

啊這這這,真是好、大、一、口、瓜!

要知道,其背後公司cognition ai手握10塊ioi金牌的活招牌,還在推出devin當月宣布成功融資2100萬美金。

推特和yc上已經吵翻天了,讓這件事的討論度高居不下。

我請問呢?真的很討厭演示造假,讓demo看起來輕鬆達到意料之外的技術進步。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

還有人表示自己很受傷,再也不會相信各種冒出來的創業公司的東西了。

emmmm……我還是把期待值全部留給openai、anthropic、deepmind、fair這些公司和機構吧。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

完整詳情,一起接著往下看。

35年從業者逐幀驗證

此次出來聲張正義的光頭哥,從事軟體行業已經35年。他首先聲明自己的立場:我並不反對高科技,但我確實反對過度炒作。

他自己也經常使用github copilot、chatgpt、liama2、stable diffusion。

事實上,在devin剛推出時候,他就反對過「世界上第一個ai軟體工程師」這一說法。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

此次則主要針對的是一些更為具體的說法。

比如之前devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中devin並沒有做到這一點。

不信?沒關係,光頭哥帶著逐幀的證據來了。

總結如下:

devin所處理的任務並非隨機,而是精心挑選;

與客戶實際需求有很大的出入;

實際操作過程,數次自己創造bug然後再修復;

很多毫無意義的操作,相當於幾十年前在c語言中才用的方法;

???

首先,來到了演示視頻的2.936秒處,在屏幕左上角有顯示他們搜索過這個內容。因此,這不是所謂「隨機」選擇的任務。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

再來看客戶給到的具體需求。真正需求為「我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。」

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

但給到devin的需求卻是:我希望利用這個模型在這個庫中進行推理。請自己弄明白。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

最後視頻末尾出現的devin生成報告中,也沒有提及客戶實際需要的內容。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

那麼,這份工作的最終交付成果應該包括什麼呢?

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

但devin實際做了什麼?

devin第一次真正的嘗試,是它修改了一個名為requirements.txt文件,其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼,但實際上更像是修改配置文件。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

然後根據需求,需要devin能建立自己的推理能力,並僅需使用樣例數據即可。但實際項目要比這個複雜得多。

結果很快,devin就遇到了第一個命令行錯誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實際復現時並沒有出現,結果研究發現,代碼倉庫壓根就不存在這個文件。

這相當於devin自己創建了個bug,然後再修復bug。在接下來的操作中,devin經歷了很多次這樣的「自建自修」。

不能說十分有用,只能說完全沒有必要。

接下來,再來看看代碼庫中這樣一個readme文件。正如視頻所展示的那樣,readme文件清晰地說明了該文件的功能和用法。在頁面右側,甚至還有一個小按鈕,點擊它就可以複製整條命令,然後粘貼到命令行窗口中,按下回車即可運行。

但devin完全沒能理解,而又是自創了個項目。而寫的那段從緩衝區讀取數據的代碼十分糟糕。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

於是光頭哥發出了靈魂拷問:

這不就是幾十年前在c語言等中才用的方法嗎???

這種做法顯然已經過時,正常人用python誰還會再寫這個代碼。這種代碼很難調試,它邏輯複雜,難以理解,很容易出現細微的錯誤。

此外,代碼庫中還存在一個真正的錯誤,但devin既沒有發現也沒有修復。

然後光頭哥用谷歌搜索,按照github 上一條相關評論修改了代碼,只花了1分07秒,問題就解決了。

最終光頭哥總共花了35分55秒復現了devin的工作,而devin實際花了多長時間呢?

如果細看視頻demo,就會發現devin處理工作前後有6個小時20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3:25 的時間戳,但後半部分卻顯示的是當天晚上9:41。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

而逐幀細看就有會發現一些奇怪且毫無意義的操作。

比如head -n 5 results.json | tail -n 5這個命令,它表示取這個json 文件的前五行,然後再取這些行的最後五行。

正確的做法應該是」head-5 results.json」。那個-n 是多餘的。只要說 -5 就可以,不需要那些多餘的東西。

最後光頭哥銳評,ai現在生成的內容有很多都十分愚蠢,反倒會讓事情變得更為複雜。

當看到它的任務列表時,會覺得:哇,devin做了很多事情。但實際上可能並非如此。

網友:至少掌握了看起來很忙的技巧

對於此次devin造假翻車,不少網友對現階段ai產品炒作嗤之以鼻。

我真的很討厭現在演示造假變得如此正常化

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

甚至還列出了三大炒作典範:devin、rabbit、humane。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

也有網友調侃:devin至少掌握了看起來很忙的技巧。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

嗯?打工人有被內涵到。

不過也有一些支持的網友,比如這位沃頓商學院的教授ethan mollick。

他聲稱自己有早期訪問權,在體驗中發現真的很有趣。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

他認為現在將agent視作「炒作」為時尚早,未來幾個月agent的能力將十分強大。

號稱「世界首個完全自主的ai軟體工程師」

有意思的是,演示造假事件爆出來的時間,距離cognition ai推出devin僅過去了一個月。

咱們一起來回顧一下。

一個月前的3月13日,cognition ai在推特上介紹了自家推出的devin,並稱其為「世界上首個ai軟體工程師」

只需一句指令,它可端到端地處理整個開發項目。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

主創介紹,devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的複雜軟體工程任務。

具體來說有6大功能:

端到端構建和部署程序,可以解決的不只是代碼問題,還包括與之相關的整個工作流;

自主查找並修復bug;

訓練和微調自己的ai模型;

修復開源庫;

為成熟的生產庫做貢獻;

超強學習能力,實時補足知識和能力短板。

devin完整技術報告中顯示,在swe-bench基準測試中,無需人類輔助,devin可解決13.86%的問題

——這個數據看起來不高,但其實已經超過了此前所有ai大模型的成績。

目前數一數二的gpt-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

當時的devin團隊一副沒在怕的樣子。

雖然沒開放公測,但陸陸續續給出了一些內測名額。

在互聯網上搜索一番,發現上手體驗過的人給的買家秀反饋是這樣的:

熱衷ai的沃頓商學院教授ethan molick試過後,認為其新穎的實時交互方式是最值得關注的。

他要求devin開發一個解釋「創業公司融資中的股權稀釋」的網站,隨後透露,ai還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

但也有人直接表示,體驗過後確實是有被震撼到。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

巧的是,截圖中的這個首批內測體驗者bubna哥,是ai基礎設施創業公司modal labs的cto。

後來他和devin還聯手搞了個新聞。devin用自家老闆的賬號,潛入modal labs的工作群,和bubna哥一番交流過後,根據回復調整了代碼方案,解決了一個技術問題。

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

△圖中的發言人背後其實是devin

當然,除了看上去

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

哄哄的技術,devin還鍍了一層光環,那就是背後公司cognition,雖然是個小初創,但在招人信息中明晃晃寫著:

我們團隊手裡握著10塊ioi金牌呢~

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

技術演示和團隊背景都吸睛max,直接給devin的傳播力度添磚加瓦。

也正是因為對devin的關注,代碼生成領域在過去一段時間裡進展是突飛猛進。

暫時無法在飛書文檔外展示此內容

比如,github三萬star項目metagpt就上新了「開源版devin」,名為數據解釋器(data interpreter):

阿里qwen成員binyan hui等人開啟了opendevin項目,一個月過去已經在github攬星21.5k;

首個AI程序員造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 - 天天要聞

普林斯頓那邊動作更快,用gpt-4打造了開源swe-agent,開箱即用,可修復github存儲庫中真實bug。

在25%的swe-bench測試集上,它實現了與devin演示視頻中相似的準確度—— 解決了12.29%的問題。

還有各個大廠也開始入駐自己的ai程序員……

one more thing

結果現在發生這件事兒,怎麼說呢……

往好了想,真是救大命了,所有的程序員們都要鬆口氣了,還好還好,ai暫時還無法端到端端走我的飯碗。

往壞了想,真是要了命了,這麼一個備受關注的明星項目居然是個只能活在視頻里的demo。

難道世界真的是個巨大的草台班子???

參考鏈接:

[1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=s65q3tssmnzcxletgqadfq

[2]https://twitter.com/0interestrates/status/1779268441226256500

[3]https://news.ycombinator.com/item?id=40008109

[4]https://www.youtube.com/watch?v=tnmgmwetowe

科技分類資訊推薦

2023年全球十大晶元設計廠商:英偉達第一,韋爾半導體第九! - 天天要聞

2023年全球十大晶元設計廠商:英偉達第一,韋爾半導體第九!

5月10日消息,據市場研調機構集邦科技TrendForce昨日公布的2023年年全球前十大晶元設計廠排名顯示,受益於AI晶元需求火爆,英偉達(NVIDIA)首度擠下高通、博通等老牌大廠,成為全球第一大晶元設計廠商。具體來說,排名第一的英偉達2023年營收達552.68億美元,同比暴漲105%,這主要得益於其 H100系列AI GPU的大賣,目前英偉...
中國信通院《工業供應鏈數字化白皮書(2023年)》正式發布,致景科技參與編寫 - 天天要聞

中國信通院《工業供應鏈數字化白皮書(2023年)》正式發布,致景科技參與編寫

近日,中國信息通信研究院(以下簡稱「中國信通院」)聯合工業互聯網產業聯盟共同發布《工業供應鏈數字化白皮書(2023年)》(以下簡稱「白皮書」)。白皮書由中國信通院牽頭,深圳華為雲計算技術有限公司、浙江菜鳥供應鏈管理有限公司、美雲智數科技有限公司、致景信息科技有限公司等6家單位共同參與編寫,通過重點分析數...
搶佔低空賽道 競逐「天空之城」 武漢低空經濟產業園煥發新生 - 天天要聞

搶佔低空賽道 競逐「天空之城」 武漢低空經濟產業園煥發新生

圖為:低空經濟產業園。 圖為:低空經濟產業園。 荊楚網(湖北日報網)訊(通訊員李曦 舒麗媛)乘坐地鐵16號線到通航機場站下車,騎行幾分鐘,便到了現代化建築風格的武漢經開產投·低空經濟產業園(簡稱「低空經濟產業園」)。 富有科技感、飛行器造型的辦公樓、氣勢恢宏的廠房,提醒著人們園區高標準配置。低空經濟產業...
中芯國際營收首度超越聯電及格芯,成全球第三大晶圓代工廠! - 天天要聞

中芯國際營收首度超越聯電及格芯,成全球第三大晶圓代工廠!

5月9日晚間,中國大陸晶圓代工龍頭大廠中芯國際公布了2024年一季度財報。雖然凈利潤因為應占聯營企業與合營企業利潤由盈轉虧,導致同比大跌68.9%,但是營收和毛利率均優於官方的業績指引,並且中芯國際一季度的營收首次超過了聯電和格芯,成為僅次於台積電和三星的全球第三大晶圓代工廠商。一季度營收同比增長19.7%,凈利同...
黑爵 AK820MAX 三模機械鍵盤上架:Gasket 結構,199 元起 - 天天要聞

黑爵 AK820MAX 三模機械鍵盤上架:Gasket 結構,199 元起

IT 之家 5 月 10 日消息,黑爵今天在京東上架一款型號為 AK820MAX 的三模機械鍵盤,這款機械鍵盤採用 75 配列 + Gasket 結構,將於 5 月 16 日開售,標準版首發價 199 元,帶屏版 299 元。據介紹,這款鍵盤外觀由原先 AK820 的直角邊改為圓潤版本,同時擁有 1 枚音量旋鈕 + 1 塊 TFT 彩屏(可選),內置 400
蔚來第二品牌發布在即,李斌:「後發制人」更有勝算,向華為小米學習 - 天天要聞

蔚來第二品牌發布在即,李斌:「後發制人」更有勝算,向華為小米學習

5月9日,在位於合肥新橋智能電動汽車產業園區的蔚來第二工廠,蔚來第50萬台量產車型下線,該車為全新ES8,用戶則是科大訊飛董事長劉慶峰。在蔚來汽車第50萬台量產車下線的同時,蔚來方面也透露了更多關於第二品牌「樂道」的信息。蔚來CEO李斌宣布,樂道汽車將於5月15日正式發布。2014年,蔚來正式成立,2018年,蔚來的第一...
首款驍龍8 Gen4小屏旗艦!小米15曝光 - 天天要聞

首款驍龍8 Gen4小屏旗艦!小米15曝光

快科技5月10日消息,博主數碼閑聊站暗示,小米15仍然定位小屏滿血旗艦,其屏幕尺寸在6.3-6.4英寸之間,搭載驍龍8 Gen4平台,後置左上角方形Deco三攝,主攝是5000萬像素,支持超聲波屏幕指紋。這是行業內第一款驍龍8 Gen4小屏旗艦,也是史上性能最強的小米手機。對比上代,小米15搭載的驍龍8 Gen4升級為台積電3nm工藝,這意...
手機特種兵!魅族21 Note、Flyme AIOS官宣定檔:5月16日發 - 天天要聞

手機特種兵!魅族21 Note、Flyme AIOS官宣定檔:5月16日發

快科技5月10日消息,星紀魅族集團正式官宣Flyme AIOS暨魅族21 Note手機特種兵發布會將於5月16日舉行。全新Flyme AIOS、魅族21 Note等AI新品及系列科技產品將共同亮相,官方稱「魅族將邁向AI賦能科技產品新階段」。其中全新的Flyme AIOS將從源頭融入原生級AI底座,在各種用戶場景發揮AI真正實力,打破傳統系統+AI概念,在人