天天要聞

何愷明新作再戰AI生成：入職MIT後首次帶隊，IOI金牌得主鄧明揚參與

分類：動漫

瀏覽數：8001

2024-06-23

夢晨發自凹非寺

量子位 | 公眾號 qbitai

何愷明入職mit副教授後，首次帶隊的新作來了！

讓自回歸模型拋棄矢量量化，使用連續值生成圖像。並借鑒擴散模型的思想，提出diffusion loss。

他加入mit後，此前也參與過另外幾篇cv方向的論文，不過都是和mit教授wojciech matusik團隊等合作的。

這次何愷明自己帶隊，參與者中還出現一個熟悉的名字：

鄧明揚，imo、ioi雙料奧賽金牌得主，在競賽圈人稱「乖神」。

目前鄧明揚mit本科在讀，按入學時間推算現在剛好大四，所以也有不少網友猜測他如果繼續在mit讀博可能會加入何愷明團隊。

接下來具體介紹一下，這篇論文研究了什麼。

借鑒擴散模型，大改自回歸生成

傳統觀點認為，圖像生成的自回歸模型通常伴隨着矢量量化（vector quantization），比如dall·e一代就使用了經典的vq-vae方法。

但團隊觀察到，自回歸生成的本質是根據先前的值預測下一個token，這其實與值是離散還是連續沒啥必然聯繫啊。

關鍵是要對token的概率分佈進行建模，只要該概率分佈可以通過損失函數來測量並用於從中抽取樣本就行。

並且從另一個方面來看，矢量量化方法還會帶來一系列麻煩：

需要一個離散的token詞表，需要精心設計量化的目標函數，訓練困難，對梯度近似策略很敏感

量化誤差會帶來信息損失，導致還原圖像質量打折

離散token適合建模分類分佈，有表達能力上的局限

那麼有什麼更好的替代方法？

何愷明團隊選擇在損失函數上動刀，借鑒近年大火的擴散模型的思想，提出diffusion loss，消除了離散tokenizer的必要性。

如此一來，在連續值空間中應用自回歸模型生成圖像就可行了。

具體來說，它讓自回歸模型輸出一個潛變量z作為條件，去訓練一個小型的去噪mlp網絡。

通過反向擴散過程，這個小網絡就學會了如何根據z去採樣生成連續值的token x。擴散的過程天然能建模任意複雜的分佈，所以沒有類別分佈的局限。

這個去噪網絡和自回歸模型是端到端聯合訓練的，鏈式法則直接把損失傳給自回歸模型，使其學會輸出最佳的條件z。

這篇工作的另一個亮點，是各種自回歸模型的變體都適用。它統一了標準的自回歸ar、隨機順序的ar、以及何愷明擅長的掩碼方法。

其中掩碼自回歸（mar）模型，可以在任意隨機位置同時預測多個token，同時還能和擴散損失完美配合。

在這個統一的框架下，所有變體要麼逐個token預測，要麼並行預測一批token，但本質上都是在已知token的基礎上去預測未知token，都是廣義的自回歸模型，所以擴散損失都能適用。

通過消除矢量量化，團隊訓練的圖像生成模型獲得了強大的結果，同時享受序列建模的速度優勢。

論文在ar、mar的各種變體上做了大量實驗，結果表明擴散損失比交叉熵損失穩定帶來2-3倍的提升。

與其他領先模型一比也毫不遜色，小模型都能做到1.98的fid分數，大模型更是創下了1.55的sota。

而且它生成256x256圖像速度也很快，不到0.3秒一張。這得益於自回歸生成本來就很快，比擴散模型少採樣很多步，再加上去噪網絡又很小。

最後總結一下，這項工作通過自回歸建模token間的相關性，再搭配擴散過程對每個token的分佈進行建模。

這也有別於普通的潛空間擴散模型中用單個大擴散模型對所有token的聯合分佈建模，而是做局部擴散，在效果、速度和靈活性上都展現出了巨大的潛力。

當然，這個方法還有進一步探索的空間，團隊提出，目前在在某些複雜的幾何圖形理解任務上還有待提高。

何愷明團隊都有誰

最後再來介紹一下即將或可能加入何愷明課題組的團隊成員。。

tianhong li（黎天鴻），清華姚班校友，mit博士生在讀，將於2024年9月加入何愷明的課題組，擔任博士後。

mingyang deng（鄧明揚），mit本科數學和計算機科學專業在讀。

他在高一獲得imo金牌，高三獲得ioi金牌，是競賽圈為數不多的雙料金牌得主，也是ioi歷史上第三位滿分選手。

目前鄧明揚的研究重點是機器學習，特別是理解和推進生成式基礎模型，包括擴散模型和大型語言模型。

不過他的個人主頁上還沒有透露下一步計劃。

one more thing

何愷明當初在mit的求職演講備受關注，其中提到未來工作方向會是ai for science，還引起圈內一陣熱議。

現在，何愷明在ai4s方向的參與的首篇論文也來了：強化學習+量子物理學方向。

把transformer模型用在了動態異構量子資源調度問題上，利用自注意力機制處理量子比特對的序列信息。並在概率性環境中訓練強化學習代理，提供動態實時調度指導，最終顯著提升了量子系統性能，比基於規則的方法提高了3倍以上。

這樣一來，何愷明在自己的成名領域cv和探索新領域ai4s上都沒耽誤，兩開花，兩開花。

論文：

https://arxiv.org/abs/2406.11838

參考鏈接：

[1]https://www.tianhongli.me

[2]https://lambertae.github.io

[3]https://arxiv.org/abs/2405.16380

動漫分類資訊推薦

↑