在二十年前剛剛加入谷歌時,我們關注的問題只有一個——如何面向這麼多不同種類的聯網計算機提供一整套質量出色且涵蓋範圍全面的網絡信息搜索服務。到如今,儘管我們面臨著各種各樣的技術挑戰,但谷歌已經基本達成了組織全球信息,並使其具備普遍可訪問性的總體目標。到 2020 年,隨着 COVID-19 肆虐全球,我們意識到研發技術能夠幫助全球數十億人更好地交流、了解事態發展並找到新的工作方式。我為我們取得的成就感到自豪,也為即將出現的全新可能性感到振奮。
谷歌研究院的目標是解決一系列具有廣泛意見的長期問題——從預測 COVID-19 疫情的蔓延路徑到設計算法、愈發強大的自動翻譯服務,再到緩解機器學習模型中的偏見問題等。着眼於過去四年來的進展,我們將在本次回顧中再次審視 2020 年這不平靜的一年。如需了解更多詳情,請參閱我們在 2020 年內發佈的 800 多篇研究文章。本文篇幅較長,但明確劃分為多個部分,您可以通過下表目錄了解相應內容(可通過網頁左側的目錄跳轉至相應內容)。
COVID-19 與健康
隨着 COVID-19 疫情給全球民眾的日常生活造成巨大損失,世界各地的研究人員與開發人員齊心協力開發工具與技術,旨在幫助公共衛生官員及政策制定者理解並應對這場突如其來的疾病。
蘋果與谷歌在 2020 年合作開發的 Exposure Notifications System (ENS)是一種基於藍牙的隱私保護技術,一旦接觸到 COVID-19 檢測呈陽性的人員,該技術將立即對用戶發出提醒。ENS 給傳統接觸者跟蹤方法提供有效補充,目前已經被公共衛生部門部署在超過 50 個國家、州/省及地區,幫助多地遏制疫情的傳播勢頭。
在疫情初期,公共衛生官員表示需要更全面的數據來對抗病毒的迅猛傳播。我們的社區流動性報告中囊括了關於病毒流動趨勢的匿名洞見,不僅能夠幫助研究人員了解居家觀察與社交隔離等政策影響,同時也有助於做出經濟預測。
谷歌內部的研究人員還探索了使用這種匿名數據,通過圖神經網絡(而非傳統基於時間序列的模型)來預測 COVID-19 傳播。
儘管研究社區最初對這種疾病以及繼發性的效應知之甚少,但我們每天都在接觸更多、學習更多。我們的 COVID-19 癥狀搜索趨勢讓研究人員得以將不同癥狀關聯起來,例如嗅覺喪失症——即因病毒感染導致嗅覺喪失。為了給研究社區提供更廣泛的支持,我們還推出了 Google Health Studies 應用,向民眾開放公開研究通道。
谷歌團隊還在為更廣泛的科學界提供工具與資源,幫助從業者努力解決由病毒引發的健康與經濟影響。
準確的信息對於應對公共衛生威脅至關重要。我們與谷歌內部的多個產品團隊合作,通過支持事實檢查以及 YouTube 導流等方式提高谷歌新聞與搜索中關於 COVID-19 的信息質量。
另外,通過贊助 Nextstrain.org 發佈每周本地疫情報告,並與 Translators Without Borders 合作開發 COVID-19 開源並發數據集,我們還幫助多語言社區平等獲取關鍵 COVID-19 信息。
對複雜全球事件進行建模極具挑戰性,而更全面的流行病學數據集、開發新穎的可解釋模型以及基於代理的模擬器,幫助公眾更從容地應對健康。機器學習技術還通過自然語言理解、快速篩選 COVID-19 科學文獻、應用匿名化技術實現隱私保護、提供豐富數據集等多種方式為研究人員提供助力。更重要的是,公共衛生部門也在谷歌技術成果的支持下,從以下幾個方面做出抗疫探索:
這些只是谷歌開發的諸多工作中的一個側面,也代表着谷歌幫助用戶及公共衛生當局更從容地應對 COVID-19。關於更多詳細信息,請參閱使用科技成果幫助應對COVID-19。
醫學診斷領域的機器學習研究
我們將繼續努力,幫助臨床醫生運用機器學習的力量為更多患者提供更好的護理。今年,我們在應用計算機視覺幫助醫生診斷及管理癌症病患方面取得了顯著進展,包括幫助醫生在結腸鏡檢查期間不致錯過潛在的癌性息肉。此外,我們還證明機器學習系統完全能夠實現更高的準確性,除了精度堪比病理學家對前列腺組織的格里森分級之外,還能幫助放射科醫師在檢查 X 光片中是否包含乳腺癌跡象時大大降低假陰性與假陽性檢查比例。
我們還一直在研究可幫助識別皮膚疾病、檢測年齡相關黃斑變性(已經成為美國及英國民眾發生失明病變的首要原因,同時也是全球範圍內造成失明的第三大原因),並嘗試探索新的非侵入性診斷方法(例如通過視網膜影像檢測出貧血跡象)。
今年我們還帶來了令人振奮的示範,展示了如何將上述檢測技術引入人類基因組當中。谷歌的開源代碼工具 DeepVariant 使用卷積神經網絡識別出預測數據內的基因組變體,並藉此在今年的 FDA 挑戰賽拿下最高獎項(在總計四個類別中的三個類別獲得最佳準確性)。使用相同的工具,由達納-法伯癌症研究所進行的另一項研究,成功對 2367 名癌症患者體內導致前列腺癌及黑色素瘤的遺傳變異診斷準確率提高了 14%。
我們的研究也不止於衡量實驗的準確性。最終,要真正幫助患者獲得更好的護理,必須了解機器學習工具如何給現實世界中的人們造成影響。今年,我們開始與 Mayo Clinic 合作開發出一套機器學習系統,用以協助放射治療項目並探索如何更好地將技術部署到臨床實踐當中。通過與泰國合作夥伴的協作,我們得以對糖尿病引發的眼病進行篩查測試案例,藉此了解如何構建起以人為本的系統方案,也逐步意識到多樣性、公平性以及包容性在提升人類社會整體健康水平的基礎性作用。
天氣、環境與氣候變化
機器學習可以幫助我們更好地了解環境,做出有用的預測,藉此幫助人們解決日常難題、克服自然災害。以天氣預報和降水為例,長期以來,以 NOAA 的 HRRR 為代表的計算密集型物理模型一直是行業中的首選方案。但我們已經證明,基於機器學習的預測系統能夠以更好的空間分辨率來預測當前降水情況(回答「我家附近的公園正在下雨嗎?」,而不只是「當前所在城市正在下雨嗎?」),併產生未來 8 小時內準確率遠高於 HRR 的短期預報。這套模型不僅預報計算速度更快,同時也擁有更高的時空分辨率。
我們還開發出一種名為 HydroNets 的改進型技術,其使用神經網絡對全球範圍內的真實河流系統進行建模,藉此準確分析上游水位與下游泛洪之間的相互作用,藉此更準確地做出水位預測與洪水預報。使用這些技術,我們將印度與孟加拉國的灌水警報覆蓋範圍擴大了 20 倍,為 25 萬平方公里內的 2 億多居民帶來更強大的生命安全保護能力。
憑藉更出色的衛星圖像數據分析能力,谷歌用戶也可以準確把握野火的影響與烈度(今年,野火給加利福尼亞州及澳大利亞造成了毀滅性的影響)。我們證明,即使以往的衛星圖像數據有限,對最新衛星圖像的自動分析仍可以有效評估自然災害帶來的損失。此外,這項技術還可以評估不同城市當中的樹冠覆蓋範圍,並據此設計新植被種植規劃以幫助城市對抗自然災害。我們也展示了如何利用時態背景下的機器學習技術,幫助人們改善對生態及野生動植物的監測水平。
基於這項工作,我們很高興能夠與 NOAA 合作,利用 AI 與機器學習通過 Google Cloud 基礎設施擴大 NOAA 的環境監測、天氣預報與氣候研究範圍。
輔助功能
機器學習在改善輔助功能方面同樣表現出驚人的能力,因為它能夠學會將一種感官輸入轉換為其他感官輸入形式。例如,我們發佈的 Lookout 是一款 Android 應用,可以通過識別雜貨店與家中廚房櫥櫃中的食品餘量幫助視障用戶。Lookout 背後的機器學習系統證明,強大且緊湊的機器學習模型完全可以在手機上實時識別出近 200 萬種產品。
同樣的,使用手語進行交流的人們很難使用視頻會議系統。現有基於音頻的發言檢測系統往往無法識別出他們的發言動作。為此,我們開發出用於視頻會議的實時、自動手語檢測模型,藉此將做出手語表達的用戶正確識別出活躍發言者。
我們還為重要的居家客戶提供強大的 Android 無障礙功能,包括語音訪問與有聲通知。
Live Caption 也迎來擴展,能夠支持 Pixel 手機上的呼叫,並提供語音與視頻通話的字幕生成功能。這項成果源自 Live Relay 研究項目,此項目能夠幫助聾啞用戶在無需幫助的情況下順利撥打電話。
機器學習在其他領域的應用
機器學習也不斷地在眾多重要的科學領域證明着自己的實力。2020 年,我們與 HHMI Janelia Research Campus 合作建立了 FlyEM 團隊,共同發佈了果蠅半腦連接組——這是一份表現大腦連接的大型突觸分辨率圖,其中使用大型機器學習模型對高分辨率電子顯微鏡捕捉到的組織圖像進行了重建。該連接組信息將幫助神經科學家們執行各類查詢,幫助我們更好地了解大腦的運作機理,這裡建議大家觀看這段3-D UI互動展示。
機器學習技術在系統生物學領域的應用也在快速擴張。我們的 Google Accelerated Science 團隊與 Calico 的同事們合作,將機器學習引入酵母分析,藉此更好地了解基因在整個生態系統中如同協同工作。我們還一直探索如何使用基於模型的強化滓技術,藉此設計出具備醫學或工業用途的、擁有特定性質的生物序列——例如 DNA 或蛋白質。基於模型的強化學習能夠提高樣品效率。在每輪實驗中,我們都使用適合先前輪次的特徵測量模擬器對策略進行離線訓練。在設計 DNA 轉錄因子結合位點、設計抗菌蛋白以及對基於蛋白質結構的 Ising 模型進行能量優化等任務上,我們發現基於模型的強化學習已經成為一種極具吸引力的替代性解決方案。
在與 X-Chem 製造公司以及 ZebiAI 的合作中,我們也一直在開發機器學習技術,通過計算對有希望的分子化合物進行「虛擬篩選」。該領域以往的工作傾向於集中處理少量相關化合物,而在谷歌的研究中,我們嘗試使用 DNA 編碼的小分子庫更準確地概括大範圍「命中」區間。這種新方法消除了實體實驗室中緩慢、低效的實體流程,有望單純立足理論產出可行的藥物配方。
我們還看到通過機器學習解決核心計算機科學及計算機系統問題的成功案例,這方面趨勢也催生出以 MLSys 為代表的會議平台。在基於學習、面向 C++ Server 工作負載的內存分配用例中,基於神經網絡的語言模型能夠預測出與上下文相關的各分配站點對象生命周期信息,並藉此組織堆以減少內存碎片。在純使用大內存頁(更適合 TLB 行為)時,這種方法能夠將碎片減少達 78%。用於圖優化的端到端可轉換 Deep RL 則提出一種用於端到端且可轉換的圖優化計算深度強化學習思路。與 TensorFlow 中的默認優化方法相比,其在三項圖優化任務上實現了 33%到 60%的收斂加速效果,全面壓倒原有計算圖優化方法。
正如《採用深度強化學習進行芯片設計》(Chip Design with Deep Reinforcement Learning)所述,我們也一直在利用強化學習技術解決計算機芯片設計中的線路布局問題。長期以來,這一直是項費時費力的工作,同時也嚴重製約着芯片產品由設計靈感到建立完整設計、再到壓片製造的推進速度。與以往的方法不同,我們的新方法能夠從過往經驗中學習思路,並隨時間推移不斷改進設計效果。具體來講,我們在訓練中使用的芯片設計成果越多,我們的方法就越是善於通過前所未有的設計方式產出高度優化的布局方案。這套系統能夠生成整體優於人類芯片設計專家的布局,我們也一直在利用該系統(運行在 TPU 上)為下一代 TPU 進行主體布局設計。Menger 是我們專為大型分佈式強化學習而構建的最新基礎設施,並在解決芯片設計等強化學習難題中表現出令人振奮的性能水平。
負責任的 AI
谷歌 AI 的原則引導着我們開發先進技術,我們將繼續投入負責任 AI 的研究中,更新我們在這一領域的技術實踐,並就實施進度定期發佈共享更新——2020 年內發佈的各博文及報告正是其中的重要部分。
為了幫助大家更好地理解語言模型的行為,我們開發出語言可解釋性工具(LIT)。這套工具包能夠提高語言模型的可解釋性,由此實現交互式探索並分析決策結果。我們還在預訓練的語言模型中開發出可衡量性別相關性的技術,以及用於減少谷歌翻譯中性別偏見問題的可擴展技術。我們使用內核技巧提出了一種簡單方法,用以估計各訓練數據示例對單一預測的影響。為了幫助非專業人士解釋機器學習結果,我們擴展了 2019 年引入的 TCAV 技術,現在已由此建立起一套完整且充分的概念體系。在初步 TCAV 工作中,我們可以將「毛茸茸」與「長耳朵」設定為「兔子」這一預測結果的重要前提性概念。通過這項工作,我們還可以認定這兩項概念足以完全解釋預測結果,再不需要其他概念的引入。概念瓶頸模型則是另外一種技術,旨在通過模型訓練降低該模型的解釋難度。我們首先將其中一層與預定義的專業概念(例如下圖中的「骨刺」與「翅膀顏色」)相匹配,而後再進行建模。如此一來,我們不僅能夠解釋得出最終預測結果的理由,還可以即時開啟/關閉各項概念。
通過與其他各機構開展合作,我們還對語言模型的記憶效應加以研究,證明提取訓練數據信息完全有可能成為各類最新大型語言模型的現實威脅。這一發現外加嵌入模型可能泄露出的信息,也許會給隱私保護工作產生重大影響(尤其是針對私有數據訓練而成的模型)。在《芝麻街竊賊:基於 BERT 的 API 上的模型提取》(Thieves of Sesame Street: Model Extraction on BERT-based APIs)當中,我們證明僅對語言模型進行 API 訪問的攻擊者(即使只對原始模型進行少量 API 查詢)完全可以建立起輸出結果與原始模型具有高度相關性的模型。之後的工作又進一步證明,攻擊者能夠以任意準確性提取較小的模型。以 AI 安全原則為基礎,我們證明即使是在部署有自適應攻擊評估方案的情況下,敵對方仍可以繞過 13 種針對對抗性示例的公開防禦方法。後續,我們的工作重點將放在自適應攻擊的方法與手段身上,希望能幫助社區在建立更強大的模型方面取得更多進展。
對機器學習系統的檢查方法本身也是個重要的探索領域。我們與各 AI 夥伴開展合作,攜手定義出一套框架,能夠借鑒來自航空航天、醫療設備以及金融行業的經驗教訓及最佳實踐,藉此審計軟件產品中機器學習技術的實際使用情況。通過與多倫多大學及麻省理工學院的合作,我們發現在審計人臉識別系統性能時可能出現的一些道德問題。通過與華盛頓大學的合作,我們現在確定了在針對多樣性及包容性目標評估算法公平性時,應遵循哪些標準來選擇數據子集。為了讓負責任 AI 真正服務於更多乃至全球範圍內的用戶,並幫助行業理解公平概念在世界各地是否具有一致性,我們分析並創建了印度算法公平框架,其中包含數據集、公平性優化、基礎設施與生態系統等多個組成部分。
谷歌與多倫多大學於 2019 年合作推出的 Model Cards 項目也在穩步實現影響力增長。事實上,眾多知名模型(例如 OpenAI 的 GPT-2 與 GPT-3)、谷歌的 MediaPipe 模型以及多項 Google Cloud API 都採用了 Model Cards,藉此向機器學習模型用戶提供關於該模型的開發信息以及在不同條件下觀察到的模型行為。為了讓其他人更輕鬆地將 Model Cards 引入自己的機器學習模型,我們還推出了 Model Card Toolkit,用以簡化模型透明度報告。為了提高機器學習開發實踐的透明度,我們在整個數據集開發生命周期中展示了一系列最佳實踐及具體用例,包括數據需求規範與數據接納測試等。
我們與美國國家科學基金會(NSF)合作發佈並資助國家 AI 研究院發起的人與 AI 交互及協作項目。我們還發佈了 MinDiff 框架,這是 TF 模型修正庫中提供的一種新型正則化技術,能夠高效便捷地緩解機器學習模型訓練過程中存在的偏見問題。其同時還提供機器學習公平性訓練房功能,可通過簡單的模擬系統探索機器學習決策系統在部署並長期應用之後可能因社會環境受到的後續影響。
除了開發公平框架之外,我們還開發出能夠識別並改善推薦系統體驗與質量的方法,包括使用強化學習技術提高建議路線的安全度。我們也致力於提高機器學習系統的可靠性,並發現包括生成對抗示例在內的多種方法有助於提升穩健性、進而帶來更強大的公平性表現。
差別隱私是一種能夠明確量化的隱私保護方式,我們需要重新思考各類最基本的算法,確保其在運作過程中不會泄露任何特定個人的信息。具體來講,差別隱私有助於解決前文提到的記憶效應與信息泄露問題。2020 年行業出現了不少振奮人心的發展,讓我們能夠更有效地計算出如何儘可能降低個人體驗風險,同時又最大程度提升個人聚類的生成準確率。另外,我們還開放了谷歌內部工具核心中的差別隱私庫,並高度關注如何防止由實數浮點表示引起的泄漏問題。事實上,谷歌也在使用這些工具生成差別個人 COVID-19 移動報告,這些報告也成為研究人員及政策決定者們手中極具價值的匿名數據來源。
為了幫助開發人員評估其分類模型的隱私屬性,我們在 TensorFlow 中發佈了機器學習隱私測試庫。我們希望該庫能夠為其他更為強大的隱私測試套件提供啟示,目前此套件已經面向全球各地的機器學習開發人員公開開放。
除了推動開發隱私算法的最新進展之外,我們還努力將隱私因素全面融入到底層產品結構當中。Chrome 提供的「隱私沙箱」功能就是最好的例子,它能夠改變廣告生態系統的基本運作方式,有助於系統化保護個人隱私。作為項目的一部分,我們發佈並評估了多種不同 API,包括針對特定目標群體的聯邦學習(FLoC),以及用於差別隱私衡量的聚類 API。
誕生於 2017 年的聯邦學習技術現已形成一個完整的研究領域,僅 2020 年一年就發表了超過 3000 篇關於聯邦學習的論文。我們在 2019 年聯合其他機構發表的《聯邦學習中的進步與開放性問題》(Advances and Open Problems in Federated Learning)調查論文在過去一年內被引用 367 次,其更新版本也將很快發表在《機器學習的基礎與趨勢》系列文章當中。去年 7 月,我們還舉辦了聯邦學習與分析研討會,並公開了所有研究報告及TensorFlow聯邦學習教程。
我們不斷推動聯邦學習的發展,包括開發出新的聯邦優化算法,例如自適應學習算法、後驗平均算法以及在聯邦環境中模擬集中式算法的技術、對互補密碼協議的實質性改進等等。我們發佈並部署了聯合分析方案,藉此對存儲在用戶本地設備上的原始數據進行數據科學分析。谷歌產品本身也給聯邦學習提供了重要的應用平台,包括在 Gboard 中提供上下文表情符號建議,以及 Google Health Studies 藉此開拓隱私保護醫學研究等等。此外,在通過隨機登記進行隱私放大這一研究中,我們還推出了第一種用於聯邦學習的隱私財會核算機制。
用戶安全也是我們高度關注的研究領域。2020 年,我們繼續部署新的機器學習文檔掃描器,藉此抵禦惡意文檔的侵襲,進一步提高對 Gmail 用戶的保護力度。現在,我們將日均惡意 Office 文檔檢測率提高了 10%。憑藉著良好的通用性,我們這款工具也在阻止其他敵對惡意軟件活動方面發揮重要作用,並在特定場景下將檢測成功率提高達 150%。
在賬戶保護方面,我們發佈了一款完全開源的安全密鑰固件,旨在提高雙因素身份驗證領域的技術應用水平。面對網絡釣魚的一波波衝擊,安全密鑰已經成為保護賬戶的最佳方法。
自然語言理解
這一年,我們在自然語言理解能力方面取得了長足進步。谷歌及其他各方的大部分自然語言理解項目普遍依賴於 Transformers——一種最初專為語言理解開發而成的特殊神經網絡模型(目前有更多證據表明,其同樣適用於圖像、視頻、語音、蛋白質摺疊以及其他多個領域)。
對話系統領域的一大重要進展,在於現在的對話系統能夠與用戶就感興趣的內容進行聊天,且支持期間進行的多次交互。但迄今為止這一領域中的成功案例,大多要求創建專門針對特定主題(例如 Duplex),因此無法進行通用形式的對話。為了創建出具備更高開放性對話功能的系統,我們在 2020 年發佈了 Meena。這是一種常識淵博的對話代理,願意與用戶就任何話題展開討論。Meena 還在 SSA 對話系統指標上獲得高分,意味着其擁有良好的響應敏感性與特異性。根據觀察,我們發現隨着 Meena 模型規模的擴大,其適應對話內容的能力越來越強。而且根據相關論文的解釋,適應力越強(即對話困惑度越低),SSA 得分越高。
在生成式語言模型與對話系統,存在着一個廣為人知的難題——在討論事實數據時,模型容量往往不足以記住與主題相關的每一個具體細節,這意味着模型給出的結果雖然合理、但卻並不正確。(當然,這不是機器所特有的問題,人類也可能犯下類似的錯誤。)為了在對話系統中解決此類問題,我們正嘗試允許對話代理訪問外部信息源(例如大量文檔、文檔庫或者搜索引擎 API)以增強對話代理。此外,我們還嘗試開發新的學習方法以作為附加資源,藉此生成與檢索到的文本相一致的語言。此領域的工作成果包括將檢索集成至語言表示模型當中(要使其正常起效,一項關鍵底層技術在於 ScaNN 等方案中使用的有效矢量相似度搜索,藉此將所需信息與文本語料庫內的信息進行有效匹配)。一旦找到適當的內容,我們就可以由神經網絡在表內查找答案、並從臨時文檔中提取結構化數據等方法,更好地建立起語義理解。我們在 PEGASUS(一套用於對文本摘要進行抽象的最新模型)上取得進展,能夠為任意文本片段自動創建摘要——這項功能將給對話、檢索系統以及多種其他用例帶來重要助益。
2020 年,我們的另一大重點在於提升自然語言處理(NLP)模型的執行效率。遷移學習與多任務學習等技術,可以幫助通用 NLP 模型藉助少量計算應對種種全新任務。這一領域的工作包括在 T5 中進行遷移學習探索、模型的稀疏激活(詳見後文中的 Gshard 部分)以及使用 ELECTRA 提高模型預訓練效率等。我們還着力推進其他幾項計劃,希望在基礎 Transformer 架構之上做出改進。以 Reformer 為例,它使用局部敏感哈希與可逆計算有效支持更大的注意力窗口;在蛋白質建模中探索 Performers(使用線性、而非平方方法)的應用;外加通過全局與稀疏隨機連接為大型結構化序列的 ETC 與 BigBird 實現線性縮放等。我們還探索用於創建極輕量級 NLP 模型的技術,此模型的大小僅為 BERT 模型的百分之一,但在某些任務上擁有幾乎相同的性能表現,因此非常適合運行在邊緣設備之上。在《編碼、標記與實現》(Encode, Tag and Realize)中,我們則探索如何使用編輯操作(而非完全通用型文本生成方法)生成文本模型的新途徑。這種方法在較少計算資源消耗、更大的所生成文本控制空間以及較低的訓練數據需求等方面具有獨特優勢。
語言翻譯
高效的語言翻譯服務,可以幫助使用不同母語的人員彼此順暢交流,進而將整個世界更緊密地聯繫在一起。截至目前,全球已經有超過 10 億用戶使用谷歌翻譯。去年開始,我們又新增五種新的語言選項(盧旺達語、奧里亞語、韃靼語、土庫曼語與維吾爾語),目前已經有 7500 萬用戶使用這些語言。此外,我們還通過改進模型架構與訓練方式、更好地集中處理數據噪聲、多語言傳輸與多語言處理等技術不斷提高翻譯質量。從 2019 年 5 月至 2020 年 5 月,谷歌翻譯提供的 100 多種語言選項整體迎來了+5 BLEU 評分提升,同時也能夠更好地使用單語數據改進資源匱乏型語言(即互聯網上相關書面內容較為有限的語種)的翻譯效果。事實上,我們一直強調提高機器學習系統的公平性,儘可能為不同群體提供效果相仿的機器學習技術功能。
我們堅信,不斷擴展多語言翻譯模型將進一步帶來翻譯質量改進,最終為全球數十億使用資源匱乏型語言的用戶帶來更好的實際體驗。谷歌研究人員在《GShard:通過條件計算與自動分片實現巨型模型伸縮》(GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding)中證明,通過訓練稀疏激活型多語種翻譯模型(其中包含多達 6000 億個參數),能夠在 100 種語言的 BLEU 得分層面實現遠優於基準水平的翻譯質量。文中的圖六部分展示了此項工作中的三大趨勢,具體轉載如下:
- 通過多語種訓練,所有語言的 BLEU 分數都有所提高;其中資源匱乏型語言的改善效果甚至更好(圖中右側線高於左側)。這些語言主要分佈在全球各邊緣化社群當中,但使用者人數仍多達數十億。圖中各個矩形,代表使用者達到 10 億規模的語種。
- 模型越大、層數越多,所有語言的 BLEU 得分提高幅度就越明顯(幾乎沒有例外)。
- 大型稀疏模型還證明,與訓練大型密集模型相比,稀疏模型的訓練計算效率提高了 10 到 100 倍;此外,其 BLEU 得分也等同甚至顯著超過了大型密集模型的 BLEU 得分(論文也就此對計算效率問題做出討論)。
我們一直在積極努力,希望將 GShard 研究工作中得出的成果正式引入谷歌翻譯,並訓練出能夠涵蓋 1000 種語言(包括迪維希語與蘇丹阿拉伯語)的單一模型,同時分享期間我們所面臨且有待解決的各項挑戰。
我們還開發出可為 BERT 模型創建語言中立性句子表示的技術,藉此開發出更強大的翻譯模型。為了高效評估翻譯質量,我們引入了 BLEURT。這是一種用於評估翻譯等語言生成類任務的新型指標,其不僅會考慮單詞與實際數據間的重疊量,同時也能兼顧所生成文本的實際語義,具體如下表所示。
機器學習算法
我們將繼續開發新的機器學習算法與訓練方法,使系統能夠使用較少的監督數據更快完成學習。通過在神經網絡訓練過程中重播中間結果,我們發現可以有效填充機器學習加速器上的閑置時間,藉此加快神經網絡訓練速度。此外,通過在訓練過程中動態改變神經元的連通性,我們還找到了優於靜態連接神經網絡的解決方案。我們開發出 SimCLR,一種新的自我監督與半監督學習技術,不僅能夠最大程度提高同一圖像在不同變換視圖間的一致性,同時也讓不同圖像在變換視圖之間的一致性處於最低水平。這種方法顯著超越了原有最佳自我監督學習技術的性能水平。
我們還將對比學習的概念擴展到監督機制當中當中,由此產生的損失函數能夠大大改善監督分類問題的交叉熵。
強化學習
強化學習(RL)的本質,在於以有限的經驗中總結並學習制定長期決策的核心依據。強化學習領域的一大重點挑戰,是如何利用極少量固定數據點做出準確決策,並不斷通過其餘代理進行改進性探索,最終顯著提高強化學習算法的效率。
2020 年,我們的關注重點在於離線強化學習。其僅依賴於固定且預先收集完成的數據集(例如來自先前實驗或人類演示),藉此將強化學習擴展至無法即時收集訓練數據的應用場景當中。我們還在強化學習中引入了對偶方法,由此開發出的改進型算法可用於非策略評估、估計置信區間並實現離線策略優化等。此外,我們還與廣泛的社區開展合作,嘗試發佈開源基準測試數據集以及雅達利 DQN 數據集來解決這些問題。
另一項研究則通過學徒學習向其他代理學習經驗,藉此提高樣本效率。我們開發出新的方法,能夠向其他經過訓練的代理學習,或者從其他代理的分佈匹配/對抗示例中學習模式。為了改進強化學習中的探索機制,我們嘗試了基於獎勵的探索方法,包括如何模仿已經對當前環境擁有先驗知識的代理所產生的結構化探索結果。
我們在強化學習的數學理論方面同樣取得了重大進展。我們的主要研究領域之一,在於探索如何將強化學習視為一種優化過程。我們發現了強化學習與 Frank-Wolfe 算法、動量方法、KL 散度正則化、算子理論以及收斂性分析之間的聯繫;這些洞見又推動我們建立起新的算法,能夠在極具挑戰性的強化學習基準測試中達到最佳性能,也藉此讓多項式傳遞函數迴避了強化學習與監督學習中關於 softmax 的收斂問題。我們在安全強化學習這一主題之下同樣取得令人振奮的進展,包括如何在遵循重要實驗約束條件的情況下,發現包括安全策略優化框架在在內的各種最佳控制規則。我們還研究出如何通過高效強化學習算法解決所謂平均場博弈問題,這種博弈模型能夠幫助決策者完成從移動網絡布設到電網設計的多種建模需求。
我們在新任務與新環境泛化領域取得的突破,也讓強化學習在面向複雜實際問題的擴展方面邁進了新的一步。2020 年,我們的重點研究方向是基於群體的「學會學習」方法,即由另一強化學習或進化代理對當前強化學習代理群體進行訓練,藉此建立包含多種複雜緊急情況的學習內容表,最終發現新的強化學習算法。這種能夠根據訓練集內各數據點的重要性做出估計,並有選擇地注意某些特定視覺輸入部分的能力,將給我們帶來更加強大的強化學習算法。
我們在 AttentionAgent 中使用的方法概述與數據處理圖示。頂部圖:輸入轉換——由滑動窗口將輸入圖像 分割成多個較小的塊,而後再對結果進行「拉平」降維以備後續處理。中部圖:補丁選舉——修改之後的 自我注意模塊將對各補丁進行投票,藉此生成補丁的重要度向量。下部圖:動作生成——AttentionAgent 會選出最重要的補丁, 取相應特徵並根據這些特徵做出決策。
此外,我們還證明學習預測行為模型能夠加速強化學習速度,由此在不同團隊中實現分散協作式多代理任務,進而學習長期行為模型並最終在基於模型的強化學習領域取得新的進展。通過觀察那些能夠在環境中引發預測變更的 skill,我們發現 skill 無需監督。表示形式越精準、強化學習的效果越穩定,而分層潛在空間與值改進路徑則能帶來更好的性能。
我們還共享了用戶擴展強化學習與生產強化學習的開源工具。為了幫助用戶進一步擴大能夠應對的場景範圍與問題類別,我們還推出了 SEED(一種大規模並發強化學習代理),發佈了一套用于衡量強化學習算法可靠性的庫;同時還推出 TF-Agents 的最新版本,其中包含分佈式強化學習、TPU 支持以及全套的 Bandit 賭博機算法。此外,我們還對強化學習算法進行了大量實證研究,希望改善超參數選擇與算法設計能力。
最後,我們還與 Loon 合作訓練並部署了能夠高效控制平流層氣球的強化學習模型,希望藉此改善各氣球聯網節點的功耗與導航能力。
AutoML
使用學習型算法開發新型機器學習技術與解決方案(又稱元學習)代表着非常活躍且令人興奮的研究領域。在以往的大部分相關工作中,我們一直在創建搜索空間,藉此尋找如何以前所未有的方式將複雜的手工設計組件整合起來。而在《AutoML-Zero:具備學習能力的進化型代碼》(AutoML-Zero: Evolving Code that Learns)中,我們開始採取不同於以往的方法,即由進化算法提供一套由原始運算(例如加法、減法、變量賦值以及矩陣乘法)組成的搜索空間,藉此嘗試能否從零開始發展出現代機器學習算法。事實上,具有實用價值的學習型算法非常稀少,但這套系統確實逐步發展出了越來越複雜的機器學習算法。如下圖所示,該系統重現了過去三十年中諸多最重要的機器學習發現,例如線性模型、梯度下降、修正線性單元、高效學習率設置與權重初始化、以及梯度歸一化等等。
我們還使用元學習方法,發現了多種能夠從靜態圖像及視頻中檢測出各類對象的多種高效架構。過去一年,我們使用 EfficientDet 這套高效圖像分類架構做出種種探索,並發現其圖像分類準確性明顯提升、計算成本則有所降低。在後續研究中,我們發表了《EfficientNet:邁向高效可擴展的對象檢測之路》(EfficientDet: Towards Scalable and Efficient Object Detection)中提到,EfficientDet 能夠派生出新的對象檢測與定位架構,同時在絕對準確率與計算成本方面實現顯著改進。在達到與以往模型相同的準確性水平時,新模型的計算成本僅為後者的十三分之一到四十二分之一。
我們在 SpineNet 上提出一種元學習架構,其不僅能夠有效保留空間信息,同時也能以更高分辨率進行檢測。我們還專註於針對各類視頻分類問題自主學習出新的有效架構。《AssembleNet:在視頻架構中搜索多流神經連通性》(AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures);《AssembleNet ++:通過注意力連接組合出模態表示》(AssembleNet++: Assembling Modality Representations via Attention Connections);以及《AttentionNAS:用於視頻分類的時空注意力單元》(AttentionNAS: Spatiotemporal Attention Cell Search for Video Classification)具體展示了如何使用進化算法,創建出前所未有的新型視頻處理機器學習架構。
這種方法還可用於開發出有效的模型架構,藉此進行時序預測。《使用 AutoML 實現時間序列預測》(Using AutoML for Time Series Forecasting)中描述了一種系統,可自動在包含多種底層構建塊的搜索空間內自動搜索,進而發現新的預測模型。這種方法也在 Kaggle M5 預測競賽中憑藉生成的算法證明了其有效性。該系統在 5558 種參賽方案中排名第 138(位列前 2.5%)。不同於其他需要耗費數月時間人工構建的競爭性預測模型,我們的 AutoML 解決方案能夠在很短時間內找到理想模型、計算成本適中(500 個 CPU、2 個小時)且無需人為干預。
更好地理解機器學習算法與模型
深入理解機器學習算法與模型,對於設計並訓練更有效的模型、以及理解模型在哪些情況下無法起效可謂至關重要。一年以來,我們專註於圍繞表示能力、優化、模型概括與標籤噪聲等基礎問題做出研究。如前文所述,Transformer 網絡給語言、語音以及視覺問題建模產生了巨大的影響,但這些模型所代表的特徵類別是什麼?最近,我們證明 transformer 屬於一種面向序列到序列函數的通用型逼近器。此外,即使稀疏 transformer 僅使用令牌之間的線性交互次數,其仍然屬於通用逼近器範疇。我們也一直在開發基於分層自適應學習率的新型優化技術,希望藉此提高 transformer 的收斂速度。例如,《用於深度學習的超大批量優化(LAMB):在 76 分鐘內訓練出 BERT 模型》(Large batch optimization for deep learning (LAMB): Training BERT in 76 minutes)。
隨着神經網絡在深度與廣度層面的不斷拓展,相關模型的訓練速度得到整體加強,泛化能力也有所提升。經典學習理論認為,大規模網絡應該會出現過度擬合;但正是前面這種與經典理論相悖的效果,讓深度學習在實際應用中牢牢佔據着主動。我們也在努力理解過度參數化狀態下的神經網絡。在不設寬度限制的情況下,神經網絡能夠採用令人驚訝的簡單形式,並通過神經網絡高斯過程(NNGP)或神經正切核(NTK)進行描述。我們從理論與實驗兩個角度出發研究這種現象,並公布了 Neural Tangents——一套由 JAX 編寫的開源軟件庫,可供研究人員構建並訓練無限寬度的神經網絡(即超寬深度網絡)。
隨着有限寬度網絡的不斷擴大,其還會表現出特殊的雙重下降現象——隨寬度增加,其泛化度先是變得更好、之後變得更差、接着又變得更好。我們已經證明,這種現象可以通過新的偏差-方差分解來解釋,而且在進一步擴展後有可能表現為三重下降。
最後,在實際問題中,我們往往需要處理明顯的標籤噪音問題。例如,在大規模學習場景中,我們往往只能從高噪音標籤中獲取到弱標籤數據。現在,我們已經開發出新的技術,能夠從嚴重的標籤噪音中提取出有效的監督信息,藉此獲取最佳結果。我們還進一步分析了使用隨機標籤進行神經網絡訓練的效果,證明這種方式能夠增強網絡參數與輸入數據之間的匹配程度;與從零開始進行初始化相比,新方法還能加快下游訓練速度。我們也探討了標籤平滑或梯度裁剪能否減輕標籤噪音問題,由此給利用有噪聲標籤實現模型訓練帶來新的指導性洞見。
算法基礎與理論
2020 年,我們在算法基礎與理論方面的工作也取得了重大成果,先後發表多篇高影響力論文。在優化方面,我們探討邊緣加權在線二分匹配的論文提出一種新的在線競爭算法技術,解決了三十年來長期困擾人們的邊緣加權變量這一開放性問題,相關成果已經被應用於在線廣告分發當中。除此之外,我們還開發出雙鏡像下降技術,其有望應用於帶有多樣性及公平性約束的多種模型當中。我們還發表了在線調度、在線學習與在線線性優化領域,應如何使用機器學習實現在線優化的系列論文。另一項研究結果則讓密集圖上的經典二分匹配問題取得了五十年來的首次突破。最後,我們在另一篇論文中解決了長期存在的、如何在線追蹤凸體的開放性問題——這裡我們使用的仍然是The Book中的一種算法。
我們還繼續在可伸縮圖挖掘以及基於圖的學習領域開展研究,並在 NeurIPS』20 大會上的Graph Mining & Learning at Scale Workshop研討中以主持的身份討論了包括圖聚類、圖嵌入、因果推理以及圖神經網絡在內的各種可伸縮圖算法成果。在此次研討中,我們展示了如何通過類似於 BigTable 的分佈式哈希表,對 MapReduce 等標準同步計算框架進行擴展,藉此在理論與實踐層面提升部分基礎圖問題的處理速度。我們的廣泛實證研究還驗證了 AMPC 模型的實際應用潛力,這套模型的靈感來自我們在面向分層聚類與互連組件的大規模並發算法中使用的分佈式哈希表。理論結果表明,這種方法能夠在恆定的分發輪次中解決多種此類問題,由此極大提高計算效率。我們還在 PageRank 與隨機遊走計算中實現了指數級的加速成績。在圖學習領域,我們發佈了 Grale,我們自主設計的機器學習圖框架。此外,我們還介紹了如何構建可伸縮性更強的圖神經網絡模型,並證明 PageRank 能夠顯著加快 GNN 中的推理速度。
在作為計算機科學與經濟學交叉領域的市場算法中,我們繼續研究如何對在線市場做出改進,例如衡量廣告競拍中的激勵屬性、雙邊市場以及優化廣告選擇中的訂單統計等。在重複競拍領域,我們開發出多種框架,使得動態機制具有更強的穩健性,因此防止對當前市場及或/未來市場做出預測或估計錯誤,由此產生更準確且可驗證的動態機制。此外,我們還描述了何時可以通過幾何式標準實現漸近最優目標。我們還比較了實踐中使用的一系列預算管理策略的均衡結果,證明了這些策略對於收入及買家最佳平衡點產生的影響,並闡明了其中的激勵屬性。再有,我們還繼續研究最佳拍賣參數,並解決了批量學習中的複雜性與收益損失問題。我們還設計出最優反悔機制,研究上下文競拍定價中的組合優化,並開發出一套新的競拍主動學習框架,藉此改善競拍標價近似性。最後,受到競價中激勵重要性的啟發,我們希望幫助各廣告商深入研究激勵屬性在競價活動中的影響,並為此推出了一項數據驅動型指標、用以量化特定機制與激勵兼容性之間的偏離程度。
機器感知
感知我們周遭的世界——包括對視覺、聽覺及多模輸入形式的理解,為此建模並採取行動——仍是一個重要的研究領域,也具有巨大的發展潛力。相關突破性成果有望顯著改善我們的日常生活。
2020 年,深度學習技術衍生出能夠將 3D 計算機視覺與計算機圖像緊密結合的全新方法。CvxNet、用於描述 3D 形狀的深層隱式函數、神經立體像素渲染與 CoReNet 都是這一領域中的典型成果。此外,我們還在研究如何將場景表示為神經輻射場(簡稱 NeRF),這也是谷歌研究院通過學術合作促進神經體積渲染技術的又一重要案例。
在與加州大學伯克利分校合作的《學習城市分解與照明》(Learning to Factorize and Relight a City)論文中,我們提出一套學習型框架,能夠將室外場景分解為隨時間變化的照明條件與永久性場景因素。以此為基礎,我們能夠任意生成一切「街景」式全景照明效果與場景幾何,甚至能夠藉此生成全天延時拍攝視頻。
我們還着力探索生成式人形與關節姿態模型,希望在完全可訓練的模塊化深度學習框架中引入統計型、支持關節形態的 3D 人體建模管道。此類模型能夠通過一張照片對其中的人體進行 3D 姿態與形狀重構,由此更好地理解畫面中的場景。
2020 年,使用神經網絡進行媒體壓縮的嘗試也在不斷升溫。除了圖像壓縮,這項技術也開始在視頻壓縮、深度體積壓縮方法以及深度形變中立式圖像水印方面取得了不錯的性能表現。
感知研究中的其他重要主題還包括:
- 更好地使用數據資源(例如通過有噪聲學員進行自我訓練,從模擬數據中學習,從有噪聲標籤中學習,對比學習等)。
- 跨模推理(例如,使用跨模監督、視聽語音增強、語言基礎、採用本地化特徵描述的 Open Images(V6)更新——可將視覺與語言以多模注釋方式聯繫起來)。
- 開發執行效率更高的感知方法,特別是可運行在邊緣設備上的方法(例如快速稀疏卷積,用於模型壓縮的結構化多哈希等)。
- 增強對各類對象及場景進行表示與推理的能力(例如檢測 3D 對象並預測 3D 形狀、通過單一 RGB 圖像重構 3D 場景、利用時間上下文進行對象檢測、學習查看透明對象並通過立體關係估計其姿態)。
- 利用 AI 支持人類創造力(例如根據網頁自動創建視頻、智能視頻重構、使用 GAN 創造奇幻生物、照亮畫像等)。
我們還通過開源解決方案及數據集,同更廣泛的研究社區進行互動,希望攜手推進感知研究的發展。2020 年,我們開源了 MediaPipe 中的幾種新型感知推理功能及解決方案,包括基於設備的人臉、手部與姿態預測;實時身體姿態跟蹤;實時虹膜跟蹤與深度估計;以及實時 3D 對象檢測。
在機器學習技術的支持下,我們還在不斷改善移動設備的使用體驗。我們得以在移動設備上運行更複雜、更強大的自然語言處理功能,由此實現更自然的對話體驗。2020 年,我們還擴展了 Call Screen 並新發佈 Hold for Me,幫助用戶更快處理多種日常任務;另外,我們還在 Recorder 應用中提供基於自然語言的操作與導航功能,藉此提高用戶的工作效率。
我們還使用谷歌的 Duplex 技術向各業務部門發起呼叫,確認需要臨時關閉的功能。以此為基礎,我們得以在全球範圍內對業務信息進行 300 萬次更新,更新結果已經在地圖與搜索內獲得超過 200 億次瀏覽。我們還使用文本到語音技術,藉此讓谷歌助手通過 42 種語言大聲朗讀文本,藉此降低頁面的訪問難度。
我們也在不斷對拍攝應用做出改進。我們通過更多創新控件及功能在谷歌相冊中提供光照調節、編輯、增強與重現等功能,由此幫助用戶輕鬆在 Pixel 上留下珍貴的回憶。從 Pixel 4 與 4a 機型開始,我們在拍照應用中引入了 Live HDR +,其使用機器學習技術培訓在取景器中實時估算 HDR +連拍攝影的動態、曝光與效果均衡。我們還開發出雙重曝光控件,允許用戶在取景器內實時調整場景內暗部與亮部的具體亮度。
最近,我們還推出了 Portrait Light 肖像光功能,這是一種用於 Pixel Camera 與谷歌相處應用的全新後期捕捉功能。此功能可為肖像添加模擬定向光源。此功能同樣採用機器學習技術,已經在超過 70 位測試人員身上進行訓練,並配合包含 331 個 LED 燈珠的 Light Stage 計算照明系統中完成了全面的光照效果學習。
過去一年中,谷歌研究人員還在谷歌產品的具體使用方式層面作出不少探索,其中包括:
- 通過增強現實輕鬆獲取家庭作業幫助或 3D 概念探索,藉此增強學習效果。
- 在瀏覽器內部實現背景模糊,藉此改善虛擬會議效果。這項功能已被正式引入 Google Meet。
- 提供新的方式,可幫助用戶在家中虛擬試用新產品。
- 通過視頻內的關鍵幀,幫助用戶快速找到最相關的內容。
- 通過哼唱幫助用戶找到聽到的歌曲。
- 幫助 YouTube 識別出有害內容,以供進一步人工審核。
- 通過自動聲音增強與背景降噪,幫助 YouTube 創作者製作出更好的視頻。
機械人
在機械人研究領域,我們使用前文介紹過的多項強化學習技術,嘗試使用更少的數據學習到更複雜、更安全且更健壯的機械人行為,並由此取得了長足進步。
Transporter Networks是一種能夠將機械人任務表示為空間位移形式的全新學習方法。與環境中的絕對位置相反,Transporter Networks 能夠以非常高效的方式在表示對象與機械人末端執行器之間建立關聯,幫助機械人快速學會在當前工作區內行動。
在Grounding Language in Play中,我們展示了如何教導機械人根據自然語言指令(支持多個語種)執行任務。很明顯,我們需要一種可擴展的方法,用以收集自然語言指令與機械人行為之間的配對數據。通過研究,我們發現可以通過呼叫機械人操作器輕鬆與機械人交互,之後再將指令效果整理為標籤並加以調整、藉此引導機械人逐步學會如何正確執行指令。
我們還嘗試了完全不經由機械人本體(由人類手持配備有攝像頭的抓桿)以收集更具可伸縮性的數據,藉此探索怎樣更有鏟地跨越多種機械人類型傳遞視覺表示。
我們還研究了如何從自然界中汲取靈感,使用進化型元學習策略、人類演示以及深度強化學習訓練數據控制器等方法,總結出高度敏捷的機械人運動策略。
這一年中,人們對於安全性的關注進一步提升:我們如何才能在現實世界中安全部署配送無人機?我們如何保證機械人在探索世界的同時,不至於陷入無法挽回的困境?我們要如何證明學習行為的穩定性?面對這一關鍵研究領域,我們未來將繼續做出積極探索。
量子計算
我們的Quantum AI團隊繼續致力於探索量子計算技術的實際應用。我們在 Sycamore 處理器上運行了實驗算法,藉此模擬與化學及物理相關的系統。這些模擬場景在規模上已經逼近經典計算機的可行性極限,也在實質上驗證着費曼當初提出的、使用量子計算機模擬重要量子效應系統的基本思路。我們還發佈了新的量子算法,例如執行精確的處理器校準、證明量子機器學習優勢以及測試量子增強優化效果等。我們還發佈了 qsim,這是一種高效的仿真工具,能夠在 Google Cloud 上開發並測試最高使用 40 量子比特的量子算法。
我們還在繼續探索發展路線圖,希望構建起通用性質的糾錯量子計算機。我們的下一個里程碑,在於證明量子糾錯能夠在實踐層面發揮作用。為了達成這個目標,我們需要證明儘管量子比特、耦合器或者 I/O 設備等單一組件中存在缺陷,但規模更大的量子比特網格仍能夠在邏輯信息的存儲時長方面實現指數級增長。更令我們興奮的是,現在我們已經擁有自己的無塵室,能夠大大提高處理器製造工作的速度與質量。
支持更廣泛的開發人員與研究人員社區
2020 年,TensorFLow 迎來了五歲生日,項目下載量已經走完 1.6 億次。TensorFlow 社區也一直通過新的特別興趣小組、TensorFlow 用戶群組、TensorFlow 證書、AI 服務合作夥伴以及#TFCommunitySpotlight啟發性演示保持着驚人的規模增長。我們還通過無縫 TPU 支持、開箱即用高性能(在 MLPerf 0.7 上取得了同類最佳性能)、數據預處理、分發策略以及新的 NumPy API 給 TF2.x 帶來顯著改進。
我們還向 TensorFlow 生態系統中引入更多新功能,希望幫助開發人員與研究人員高效處理工作流程:Sounds of India 使用 TFX 進行訓練,並以 TF.js 的形式部署在瀏覽器內,藉此在短短 90 天之內完成了從研究到生產的整個過程。藉助 Mesh TensorFlow,我們突破了模型並發性的邊界,得以提供超高分辨率的圖像分析能力。我們還開源了新的 TF 運行時,用於進行模型性能調試的 TF Profiler,以及多種負責任 AI 工具——例如實現模型透明化的 Model Card Toolkit、外加一套隱私測試庫。藉助 TensorBoard.dev,您可以免費託管、跟蹤並共享自己的機器學習實驗。
此外,我們還進一步加大了對 JAX 的投入。JAX 是過去兩年以來發展迅猛、主要關注學術研究方向的機器學習系統。谷歌及其他企業的研究人員目前已經在廣泛使用 JAX,具體場景涵蓋差別隱私、神經渲染、遵循物理原理的網絡、fast attention、分子動力學、張量網絡、神經正切核與神經 ODE 等。JAX 還加快了 DeepMind 的研究進程,為不斷發展的庫生態系統提供勁力,同時也給 GAN、元梯度、強化學習等探索注入能量。我們還使用 JAX 與 Flax 神經網絡庫建立起創紀錄的 MLPerf 基準測試性能,在 NeurIPS 大會上展示了下一代雲 TPU Pod 的強大使用體驗。最後,我們還努力保證 JAX 能夠與各 TF 生態系統工具無縫協作,包括 TF.data 數據預處理、TensorBoard 實驗可視化以及 TF Profiler 性能調試等等。2021 年,我們還將不斷推出更多新的功能。
算力的不斷提升讓我們迎來一系列重大突破,我們則通過 TFRC 計劃向全球研究人員免費提供超過 500 千萬億次的雲 TPU 算力資源,希望藉此幫助學術社群探索機器學習研究議題。截至目前,學界已經發表 120 多篇 TFRC 支持下的論文。如果沒有該項目提供的海量計算資源,相當一部分成果根本不可能達成。例如,TFRC 研究人員最近開發了野火蔓延模擬模型、幫助用戶分析社交媒體上的 COVID-19 輿情與疫苗關注度變化,同時也幸了我們對於博彩假設與神經網絡剪枝的整體理解。TFRC 社區的成員們還發表了關於波斯詩歌的實驗,在 Kaggle 競賽中贏下細粒度時尚圖像分割挑戰,更重要的所有教程及開源工具均實現了全面共享。2021 年,雲 TPU 將在 TensorFlow 之外新增對 JAX 及 PyTorch 的支持,因此我們有意將 TFRC 計劃更名為 TPU 研究雲計劃,更明確地體現其廣泛包容的定位。
最後,2020 年對於 Colab 同樣是非常重要的一年。Colab 的使用量增加了一倍,我們也推出多項生產級功能以幫助用戶高效完成工作——包括改進 Drive 集成以及通過終端訪問 Colab 虛擬機。我們還推出了 Colab Pro,幫助用戶獲取更強大的 GPU、延長運行時間並使用更高的內存容量。
開放數據集與數據集搜索
具有明確且可量化目標的開放數據集,一直在機器學習技術的發展當中扮演着至關重要的角色。為了幫助研究社區獲得更多有趣的數據集,我們將繼續通過谷歌數據集搜索功能為不同組織發佈的各類開放數據集建立索引。我們還認為,更重要的是創建新的數據集以供社區用於開發新型技術,同時還應保證以負責任的方式共享這些開放數據。2020 年,除了幫助解決新冠疫情危機的開放數據集之外,我們還在其他多個不同領域發佈了多種開放數據集:
- 使用數據集搜索功能分析在線數據集:一套囊括多種數據集的元數據集。
- 谷歌計算集群跟蹤數據:2011 年,谷歌在一套內部計算集群上發佈了為期 29 天的計算活動跟蹤,事實證明這一嘗試幫助計算機系統社區更好地探索出作業調度策略,也幫助各方更深入地理解了集群資源的利用率情況。2020 年,我們發佈了規模更大的新版本,涵蓋 8 套內部計算集群,提供的信息也更為詳盡。
- 發佈 Objectron 數據集:這套數據集包含 15000 段以對象為中心的短視頻素材,各視頻片段還帶有 3D 邊界框,從多個角度捕捉出一組規模龐大的公共對象。此外,數據集還從具有良好地理多樣性的樣本中收集到 400 萬張帶有注釋的圖像(涵蓋五大洲的 10 個國家/地區)。
- Open Images V6——現具有本地化特徵描述:除了繼承 V5 版本中擁有的 9000 萬張注釋圖像、3600 萬條圖像級標籤、1580 萬個邊界框、280 萬條實例分割記錄以及 391000 項視覺關係之外,新版本還引入了本地化特徵描述。這是一種全新的多模注釋形式,涵蓋所描述對象上的同步語音、文本與鼠標軌跡。在 Open Images V6 中,本地化特徵描述已經覆蓋 50 萬張圖像。為了便於同以往成果進行比較,我們還為 COCO 數據集發佈了涵蓋全部 123000 張圖像的本地化特徵描述。
- 我們與華盛頓大學以及普林斯頓大學的研究人員合作創辦了 Efficient Open-Domain Question Answering 挑戰賽與研討會,希望參賽者能夠創建出可以回答任何問題的系統。關於競賽及研討的更多詳細信息,請參閱技術報告。
- TyDi QA:一項多語種問答基準測試,旨在探索新的多語種問答效率基準(目前這一領域中的大多數基準只支持單一語種,我們認為必須擴展出多語種支持能力)。
- Wiki-40B:多語種語言模型數據集。這是一種新的多語種模型基準測試,包含 40 多種語言且涵蓋數個腳本及語言族別。憑藉約 400 億個字符,我們希望這一新資源能夠加速多語種建模領域的研究進度。我們還在這套數據集上訓練並發佈了高質量訓練語言模型,可幫助研究人員輕鬆比較不同技術在這項基準測試上的差異。
- XTREME:用於評估跨語言泛化效果的大規模多語種多任務基準測試,可幫助研究人員評估多任務環境下的跨語言泛化水平。
- 如何提高問題質量?(How to Ask Better Questions?)這是一套面向 Rewriting III-Formed Questions 的大規模多維數據集,提供跨 3030 個領域的 427719 個問題/答案對,可用於訓練模型以將存在格式錯誤的問題重寫為質量更高的形式。
- Open-Sourcing Big Transfer (BiT):一套用於探索大規模計算機視覺預訓練效果的開源預訓練模型,可作為多種圖像相關任務的理想起點。
- 與捷克維多利亞大學、捷克科技大學以及 EPFL 合作創辦的 2020 圖像匹配基準與挑戰賽,旨在通過一套數據集發起基準挑戰,藉此解決從運動中(包括視頻或通過多個不同角度捕捉的靜態圖像)捕捉 3D 結構的問題。
- 元數據集:用於少量樣本學習的數據集的數據集。這是一套囊括多種數據集的數據集。機器學習領域擁有一項長期目標,即構建出一套能夠在幾乎無需額外訓練的前提下、將某一任務中的示例推廣至另一任務示例的系統。這套元數據集有助於我們衡量這一終極目標的當前達成進度。
- Google Landmarks Dataset v2——一項用於實例級識別與檢索的大型基準測試,用於在人造及自然地標場景下進行大規模、細粒度的實例識別與圖像檢索。GLDv2 是截至目前規模最大的此類數據集,其中包含超過 500 萬張圖像與 20 萬個不同的實例標籤。其測試集擁有 11 萬 8 千張帶有真實情況注釋的圖像,可用於各類檢索及識別任務。
- 增強研究社區在「真實語言任務」中對街景全景素材的訪問權限。這是一套新的開放數據集,可向研究人員提供街景全景素材以比較真實語言導航或者其他依賴於此類數據的任務,藉此比較不同技術方案之間的性能差異。
研究社區互動
我們熱衷於熱情支持並廣泛參與研究社區的日常運作。2020 年,谷歌研究人員在各頂級研究會議上發表了 500 多篇論文,同時也擔任過項目組委會、研討會、教程編撰等活動的組織方。關於我們 2020 年在各大型研討會議中的具體貢獻信息,請參閱關於ICLR 2020,CVPR 2020,ACL 2020,ICML 2020,ECCV 2020以及NeurIPS 2020的博文。
2020 年,我們在外部研究方面投入了 3700 萬美元資金,其中包括 850 萬美元 COVID 研究資金、800 萬美元包容性與公平性研究資金,以及 200 萬美元負責任 AI 研究資金。去年 2 月,我們公布了 2019 年穀歌教職員工研究獎獲獎名單,希望資助來自全球的 150 名教職員工的研究計劃。其中有 27%的獲獎者源自歷史上技術領域的邊緣社。我們還公布了一項新的研究學者計劃,計劃以不設上限的獎勵數額支持當前從事谷歌相關領域研究的年輕學術人才。十多年以來,我們還一直鼓勵博士生們申請 Google PhD Fellowships 獎學金,幫助他們在獲得資助的同時申請研究方向指導,同時為他們提供與其他 Google PhD Fellows 研究員互動的機會。
我們還在不斷擴展新的包容性方法,希望將更多新的聲音帶入計算機科學領域。2020 年,我們建立了新的包容性研究獎項目,旨在幫助傳統意義上的低關注度群體提供計算與技術領域的學術研究支持。在首批獲獎名單中,我們與 25 位主要研究員共同選擇了 16 項資助提案,重點涵蓋多樣性與包容性、算法偏見、教育創新、健康工具、輔助功能、性別偏見、社會公益 AI、安全與社會公平等議題。我們還與西班牙裔服務機構計算聯盟(CAHSI)以及教授聯盟 CMD-IT 多樣化未來領導者項目(FLIP)開展合作,幫助更多處於傳統邊緣群體的博士生順利完成最後一學年內的論文發表工作。
2019 年,谷歌 CS 研究指導計劃(CSRMP)向 37 名本科生提供指導,幫助他們深入了解計算機科學的研究過程。結合 2019/2020 學年的成功經驗,我們決定在 2020/2021 學年積極擴展計劃規模,組織數百名谷歌研究員為本科生們提供一對一指導,鼓勵更多來自傳統邊緣社群的年輕學子邁入計算機科學研究領域。最後,去年 10 月我們向全球 50 個機構提供 explorerCSR 獎勵,用於獎勵那些向傳統邊緣群體本科生舉辦講習班的教師,引導更多年輕人從事計算機科學研究。
展望未來
從開發下一代 AI 模型到建立不斷壯大的研究人員社區,我們對未來的一切始終充滿期待。
我們將繼續以 AI 原則為指導框架,高度關注各項技術議題可能引發的廣泛社會影響,希望確保 AI 技術能夠負責任地產生積極影響。前文提及的負責任 AI 論文只是谷歌過去一年中相關研究中的冰山一角。在相關研究當中,我們將專註於:
- 提高研究完整性:確保谷歌繼續以適當方式推進廣泛研究,並針對各種有趣且極具挑戰的議題提供全面的科學觀點。
- 致力於負責任 AI 的發展:我們將繼續以應對棘手議題作為工作核心。谷歌也會不斷創建新的機器學習算法,保證機器學習技術更加高效、易於訪問,同時找到新的方法以應對語言模型中的不公平偏見,設計新方案以保護學習系統內的隱私等等。更重要的是,除了殷切期待 AI 技術本身的發展之外,我們也將高度關注社區內其他成員在緩解潛在風險方面的努力,確保新技術給整個人類社會帶來更公平、更積極的影響。
- 促進多樣性、公平性與包容性:我們深切關注產品與計算系統的構建方法,要求保證這些成果能夠更好地反映世界各地人群的使用習慣與切身利益。在谷歌研究院乃至更廣泛的研究及學術領域,我們呼籲各學術及行業合作夥伴共同為此做出努力。就個人而言,我在過去幾年中已經為這方面目標投入數百個小時,同時為伯克利、卡耐基梅隆、康奈爾、佐治亞理工學院、霍華德大學、華盛頓大學以及眾多其他組織提供包容性支持。這項工作對我個人、谷歌乃至整個計算機科學界而言,都非常重要。
最後,展望未來,我希望能夠出現更多對數據規模依賴度更低,可以處理多種模式且能夠靈活解決新任務的通用型機器學習模型。機器學習領域的進步將給人們帶來功能更強大的產品,包括給全球數十億人提供更好的翻譯質量、語音識別效果、語言理解以及創作支持。
原文鏈接:
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html
延伸閱讀:
1.6 萬億參數!谷歌訓練一超級人工智能語言模型,相當於9個GPT-3-InfoQ
關注我並轉發此篇文章,即可獲得學習資料~若想了解更多,也可移步InfoQ官網,獲取InfoQ最新資訊~