首個AI程序員造假被抓，Devin再次「震撼」硅谷！扒皮詳解附上

2024年04月28日00:21:38 科技 5917

首個ai程序員，演示視頻大幅度造假？？？

不久之前震撼硅谷的devin，再度震撼硅谷——但這次是被打假。

事情是這樣的：油管程序員博主internet of bugs（以下簡稱光頭哥）對devin的視頻進行了逐幀分析，逐一舉證說明了devin並不如演示中那般神奇。

甚至有「自己現寫bug然後當場修復」的騷操作。

其它「罪證」，包括但不限於：

號稱能解決任何upwork任務，但演示中解決的問題並不是prompt要解決的那一個，做無用功；

看起來在修復bug，實際上修復的bug人類程序員根本就不會犯；

沒有意識到簡單兩步就能解決問題，花里胡哨一頓操作，其實是自己把任務搞複雜了；

修改代碼的水平一言難盡。

此外，光頭哥花了半個多小時，把devin演示視頻中的upwork任務完成了一遍——而devin完成任務可能用時6個多小時。

啊這這這，真是好、大、一、口、瓜！

要知道，其背後公司cognition ai手握10塊ioi金牌的活招牌，還在推出devin當月宣布成功融資2100萬美金。

推特和yc上已經吵翻天了，讓這件事的討論度高居不下。

我請問呢？真的很討厭演示造假，讓demo看起來輕鬆達到意料之外的技術進步。

還有人表示自己很受傷，再也不會相信各種冒出來的創業公司的東西了。

emmmm……我還是把期待值全部留給openai、anthropic、deepmind、fair這些公司和機構吧。

完整詳情，一起接着往下看。

35年從業者逐幀驗證

此次出來聲張正義的光頭哥，從事軟件行業已經35年。他首先聲明自己的立場：我並不反對高科技，但我確實反對過度炒作。

他自己也經常使用github copilot、chatgpt、liama2、stable diffusion。

事實上，在devin剛推出時候，他就反對過「世界上第一個ai軟件工程師」這一說法。

此次則主要針對的是一些更為具體的說法。

比如之前devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中devin並沒有做到這一點。

不信？沒關係，光頭哥帶着逐幀的證據來了。

總結如下：

devin所處理的任務並非隨機，而是精心挑選；

與客戶實際需求有很大的出入；

實際操作過程，數次自己創造bug然後再修復；

很多毫無意義的操作，相當於幾十年前在c語言中才用的方法；

？？？

首先，來到了演示視頻的2.936秒處，在屏幕左上角有顯示他們搜索過這個內容。因此，這不是所謂「隨機」選擇的任務。

再來看客戶給到的具體需求。真正需求為「我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。」

但給到devin的需求卻是：我希望利用這個模型在這個庫中進行推理。請自己弄明白。

最後視頻末尾出現的devin生成報告中，也沒有提及客戶實際需要的內容。

那麼，這份工作的最終交付成果應該包括什麼呢？

但devin實際做了什麼？

devin第一次真正的嘗試，是它修改了一個名為requirements.txt文件,其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼，但實際上更像是修改配置文件。

然後根據需求，需要devin能建立自己的推理能力，並僅需使用樣例數據即可。但實際項目要比這個複雜得多。

結果很快，devin就遇到了第一個命令行錯誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實際復現時並沒有出現，結果研究發現，代碼倉庫壓根就不存在這個文件。

這相當於devin自己創建了個bug，然後再修復bug。在接下來的操作中，devin經歷了很多次這樣的「自建自修」。

不能說十分有用，只能說完全沒有必要。

接下來，再來看看代碼庫中這樣一個readme文件。正如視頻所展示的那樣，readme文件清晰地說明了該文件的功能和用法。在頁面右側,甚至還有一個小按鈕，點擊它就可以複製整條命令，然後粘貼到命令行窗口中，按下回車即可運行。

但devin完全沒能理解，而又是自創了個項目。而寫的那段從緩衝區讀取數據的代碼十分糟糕。

於是光頭哥發出了靈魂拷問：

這不就是幾十年前在c語言等中才用的方法嗎？？？

這種做法顯然已經過時，正常人用python誰還會再寫這個代碼。這種代碼很難調試，它邏輯複雜，難以理解，很容易出現細微的錯誤。

此外，代碼庫中還存在一個真正的錯誤，但devin既沒有發現也沒有修復。

然後光頭哥用谷歌搜索，按照github 上一條相關評論修改了代碼，只花了1分07秒，問題就解決了。

最終光頭哥總共花了35分55秒復現了devin的工作，而devin實際花了多長時間呢？

如果細看視頻demo，就會發現devin處理工作前後有6個小時20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3：25 的時間戳，但後半部分卻顯示的是當天晚上9：41。

而逐幀細看就有會發現一些奇怪且毫無意義的操作。

比如head -n 5 results.json | tail -n 5這個命令，它表示取這個json 文件的前五行，然後再取這些行的最後五行。

正確的做法應該是」head-5 results.json」。那個-n 是多餘的。只要說 -5 就可以，不需要那些多餘的東西。

最後光頭哥銳評，ai現在生成的內容有很多都十分愚蠢，反倒會讓事情變得更為複雜。

當看到它的任務列表時，會覺得：哇，devin做了很多事情。但實際上可能並非如此。

網友：至少掌握了看起來很忙的技巧

對於此次devin造假翻車，不少網友對現階段ai產品炒作嗤之以鼻。

我真的很討厭現在演示造假變得如此正常化

甚至還列出了三大炒作典範：devin、rabbit、humane。

也有網友調侃：devin至少掌握了看起來很忙的技巧。

嗯？打工人有被內涵到。

不過也有一些支持的網友，比如這位沃頓商學院的教授ethan mollick。

他聲稱自己有早期訪問權，在體驗中發現真的很有趣。

他認為現在將agent視作「炒作」為時尚早，未來幾個月agent的能力將十分強大。

號稱「世界首個完全自主的ai軟件工程師」

有意思的是，演示造假事件爆出來的時間，距離cognition ai推出devin僅過去了一個月。

咱們一起來回顧一下。

一個月前的3月13日，cognition ai在推特上介紹了自家推出的devin，並稱其為「世界上首個ai軟件工程師」。

只需一句指令，它可端到端地處理整個開發項目。

主創介紹，devin在長程推理和規劃上面下了很大功夫，可以規劃和執行需要數千個決策才能完成的複雜軟件工程任務。

具體來說有6大功能：

端到端構建和部署程序，可以解決的不只是代碼問題，還包括與之相關的整個工作流；

自主查找並修復bug；

訓練和微調自己的ai模型；

修復開源庫；

為成熟的生產庫做貢獻；

超強學習能力，實時補足知識和能力短板。

devin完整技術報告中顯示，在swe-bench基準測試中，無需人類輔助，devin可解決13.86%的問題

——這個數據看起來不高，但其實已經超過了此前所有ai大模型的成績。

目前數一數二的gpt-4，在同個測試中的成績只有1.74%，且必須配備一個人類，提示它要處理哪些文件。

當時的devin團隊一副沒在怕的樣子。

雖然沒開放公測，但陸陸續續給出了一些內測名額。

在互聯網上搜索一番，發現上手體驗過的人給的買家秀反饋是這樣的：

熱衷ai的沃頓商學院教授ethan molick試過後，認為其新穎的實時交互方式是最值得關注的。

他要求devin開發一個解釋「創業公司融資中的股權稀釋」的網站，隨後透露，ai還無法在沒有任何幫助的情況下，自主且無差錯地完成這項工作。。

但也有人直接表示，體驗過後確實是有被震撼到。

巧的是，截圖中的這個首批內測體驗者bubna哥，是ai基礎設施創業公司modal labs的cto。

後來他和devin還聯手搞了個新聞。devin用自家老闆的賬號，潛入modal labs的工作群，和bubna哥一番交流過後，根據回復調整了代碼方案，解決了一個技術問題。

△圖中的發言人背後其實是devin

當然，除了看上去

哄哄的技術，devin還鍍了一層光環，那就是背後公司cognition，雖然是個小初創，但在招人信息中明晃晃寫着：

我們團隊手裡握着10塊ioi金牌呢～

技術演示和團隊背景都吸睛max，直接給devin的傳播力度添磚加瓦。

也正是因為對devin的關注，代碼生成領域在過去一段時間裏進展是突飛猛進。

暫時無法在飛書文檔外展示此內容

比如，github三萬star項目metagpt就上新了「開源版devin」，名為數據解釋器（data interpreter）：

阿里qwen成員binyan hui等人開啟了opendevin項目，一個月過去已經在github攬星21.5k；

普林斯頓那邊動作更快，用gpt-4打造了開源swe-agent，開箱即用，可修復github存儲庫中真實bug。

在25%的swe-bench測試集上，它實現了與devin演示視頻中相似的準確度—— 解決了12.29%的問題。

還有各個大廠也開始入駐自己的ai程序員……

one more thing

結果現在發生這件事兒，怎麼說呢……

往好了想，真是救大命了，所有的程序員們都要鬆口氣了，還好還好，ai暫時還無法端到端端走我的飯碗。

往壞了想，真是要了命了，這麼一個備受關注的明星項目居然是個只能活在視頻里的demo。

難道世界真的是個巨大的草台班子？？？

參考鏈接：

[1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=s65q3tssmnzcxletgqadfq

[2]https://twitter.com/0interestrates/status/1779268441226256500

[3]https://news.ycombinator.com/item?id=40008109

[4]https://www.youtube.com/watch?v=tnmgmwetowe

科技

騰訊音樂Q1超預期：總收入67.7億元在線音樂付費用戶凈增創新高 - 天天要聞

騰訊音樂Q1超預期：總收入67.7億元在線音樂付費用戶凈增創新高

騰訊科技訊 5月13日消息，中國領先的在線音樂與音頻娛樂平台騰訊音樂娛樂集團（以下簡稱「TME」或「公司」）（紐交所股票代碼：TME及港交所股票代碼：1698）今日宣布其截至2024年3月31日止第一季度的未經審計財務業績及截至2023年12月31日止的年度現金股息。2024年第一季度，騰訊音樂娛樂集團整體業績表現穩中有進，並超出...

05月13日 6595

魅族跨進軍汽車領域！旗下首款車型命名曝光：魅族MX - 天天要聞

魅族跨進軍汽車領域！旗下首款車型命名曝光：魅族MX

魅族旗下的首款車型命名曝光，根據魅族無界智行網站顯示，首款車型將命名為「魅族MX」。同時該車型還將搭載Flyme Auto全案智能車機系統，使用這一系統的車型還包括領克07、領克08、銀河E5、領克Zero等車型。魅族MX的命名延續了魅族品牌一貫的簡約、高端風格。MX系列在魅族手機產品線中一直代表着極致的性能和精湛的工藝，此...

05月13日 2398

阿邁奇推出 F2K 迷你主機：R7 8845HS + 雙 HDMI，2399 元起 - 天天要聞

阿邁奇推出 F2K 迷你主機：R7 8845HS + 雙 HDMI，2399 元起

IT之家 5 月 13 日消息，阿邁奇今天在京東上架一款 F2K 迷你主機（現貨開售），這款迷你主機主打銳龍 7 8845HS 處理器，准系統售 2399 元，16GB RAM + 512GB 存儲空間售 2999 元。據介紹，這款迷你主機搭載 8 核心 16 線程 AMD 銳龍 7 8845HS 處理器，內置 780M 核顯，可選配 16GB DDR5-5

05月13日 7379

谷歌錢包不再支持老舊設備，需 Android 9、Wear OS 2.x 以上版本 - 天天要聞

谷歌錢包不再支持老舊設備，需 Android 9、Wear OS 2.x 以上版本

IT之家 5 月 13 日消息，谷歌錢包（即 Google Wallet）更新了支持頁面，適配性門檻有所提高，部分舊機型將無法正常使用該應用。據悉，谷歌錢包是谷歌公司為 Android 設備推出的支付軟件，用戶可通過 NFC 和商店通行證 / 門票快速付款。目前谷歌錢包要求手機設備在 Android 9 或更高版本，智能手錶上安裝 Wear OS 2.x 或

05月13日 2693

驕傲的蘋果，也為 AI 痴狂 - 天天要聞

驕傲的蘋果，也為 AI 痴狂

文/科技郝評距離WWDC沒幾天了，我們的AI必須一鳴驚人，你們加快點速度。--蘋果CEO（可能說）員工A：我們和谷歌合作，中國和百度文心一言合作。員工B：還是OpenAI更厲害，配得上和我們合作。員工C：現在市面上的大模型都都達不到我們的要求，還是走自研路線吧。

05月13日 1049

成年人的「美麗刑具」，90天賣了一個億？ - 天天要聞

成年人的「美麗刑具」，90天賣了一個億？

中新經緯5月13日電 (王玉玲)「人家白鹿(演員)都在穿，只要65歲前都來得及調整肩頸腰背！」一名年輕女主播在背背佳官方旗艦店直播時說道。不少人心中，背背佳是「兒時回憶」，電視購物頻道曾高頻播放着青少年穿上它不再彎腰駝背、身形挺闊的廣告。但此後，背背佳淡出公眾視野。

05月13日 1497

只需一行代碼，將Python程序轉換為圖形界面 - 天天要聞

只需一行代碼，將Python程序轉換為圖形界面

Gooey項目支持用一行代碼將（幾乎）任何Python控制台程序轉換為GUI應用程序。1.快速開始開始之前，你要確保Python和pip已經成功安裝在電腦上。（方式一）安裝Gooey的最簡單方法是通過 PIP:pip install Gooey（方式二）或者，可以通過將項目克隆到本地目錄來安裝Gooeygit clone https://github.com

05月13日 5889

大模型應用開發必讀，從基礎概念到實際應用，LangChain黑皮書一本滿足 - 天天要聞

大模型應用開發必讀，從基礎概念到實際應用，LangChain黑皮書一本滿足

大模型已經火熱了很長的時間了，學會使用大模型來提升工作效率已經成為了一種新技能，那什麼是大模型呢？這裡簡單地闡述一下：大語言模型 (large language model，LLM)是一種語言模型，由具有許多參數（通常數十億個權重或更多）的人工神經網絡組成，使用自監督學習或半監督學習對大量未標記文本進行訓練。大語言模型在 20...

05月13日 9786

賽睿寒冰新星專業 Arctis Nova Pro 無線耳機預售，首發 3099 元 - 天天要聞

賽睿寒冰新星專業 Arctis Nova Pro 無線耳機預售，首發 3099 元

IT之家 5 月 13 日消息，賽睿寒冰新星專業 Arctis Nova Pro 頭戴式無線耳機日前上架京東並開啟預售，首發價 3099 元。據介紹，這款新品支持 ANC 主動降噪功能，4 米混合動力系統可隨時調整音頻，只需按兩下電源按鈕，即可進入通透模式；AI 降噪麥克風采用可伸縮設計，可在任何平台上將噪音降低 25dB；驅動軟件的 AI 降噪功...

05月13日 6125

如何利用Google翻譯實現高效偽原創：技巧與經驗分享 - 天天要聞

如何利用Google翻譯實現高效偽原創：技巧與經驗分享

偽原創，儘管缺乏正面色彩，但特定情境下卻是頻繁需要。身為互聯網活躍用戶，我常需將英語資料轉為偽原創，滿足各種場景及需求。廣受歡迎的Google翻譯，雖提供便捷的英文翻釋服務，卻要巧用其進行偽原創，實屬技藝之展現。本文將分享筆者關於運用Google翻譯實現偽原創的心得與經驗。1.

05月13日 1096