原址:https://bunshun.jp/articles/-/43711
原題:いま囲碁界で起きている「人間とAI」の関係──「中國企業2強時代」「AIに2000連敗して人類最強へと成長」將棋界とは異なるAIとの向き合いかた
摘自:文春Online
圖片:ITMedia、h-eba
記者:白鳥士郎
嘉賓:大橋拓文 六段
翻譯和整理:找借口安靜 這個專欄爭取這個月結束
白鳥士郎:那麼,圍棋AI是用百分比表示形勢的嗎?將棋AI用的是點數。
大橋拓文:圍棋的話就用比如「黑勝率55%」的方式表示形勢。但是最近感覺這個數字也很有意思。在勝率下面顯示目數的正是星陣,感覺這個搭配讓星陣變得越來越強了。
白鳥士郎:兩個數值放在一起嗎?
大橋拓文:是的,因為圍棋是看誰圍的地盤多的遊戲,所以之前的AI即便說黑棋勝率90%,也是不知道究竟是贏了50目還是1目。
如果勝率90%的情況下只領先1目,那麼一個小小的失誤就能被逆轉。但是AI不怎麼失誤,所以就有90%的勝率,但是人類經常會出現失誤,所以這個時候完全就談不上是90%的勝率。然後星陣就會告訴我們,這裡的黑90%是黑領先1目,告訴我們更貼近人類的勝率。
然後最近還出現了KataGo的圍棋AI,這個AI也是免費開源的軟件,有很多開發人員對其進行改造。就像將棋界的軟件「Yaneura王」一樣。
如果只說開源軟件的話,到去年為止Leela Zero最有人氣,但是現在感覺KataGo的人氣更勝一籌,因為KataGo可以顯示目數。
白鳥士郎:會幫你顯示出,你領先多少目那樣的數據嗎?
大橋拓文:是的。最近大家流行用的是星陣和KataGo,但是開源軟件的話,感覺KataGo更好一些。
白鳥士郎:如果能計算目數的話,也就是說深度學習裏面最薄弱的終盤能力得到加強了嗎?
大橋拓文:是的,本身深度學習最擅長的就是識別圖像。圍棋就像點畫一樣,深度學習可以從局面識別能否贏棋。但是需要計算目數,所以需要搜索更多的東西,當然剛開始就讓AI學習這個技術,確實是很困難的事情,但是一旦走上正軌的話,漸漸覺得這樣能讓AI變得更強。
不過這也不能說完全刻畫了人類的思路,現在我們的目標就是做出更加像人類的AI。
白鳥士郎:這麼說,AlphaGo出現之後年輕棋手們看着勝率進行思考,現在他們就根據目數進行思考了嗎?
大橋拓文:這是一個很複雜的地方,像KataGo和星陣,就把勝率和目數都顯示在棋盤上,進行形勢判斷。
但是目數的表示很細微,第一選點和第二選點的差距有可能就只差0.1目。
白鳥士郎:原來不是差1目,而是小數點以下的差距啊。
大橋拓文:有時候第一選點和第十選點的差距就差1目,這也是常有的,
白鳥士郎:哇,這樣的話確實不知道下在哪裡好了。
大橋拓文:具體來說,我的話布局階段就看勝率,然後到了終盤就看看目數。
布局階段有時候第一選點和第七選點就差1目棋,我們吃透這些變化難度實在是太大了(笑)。
不過勝率的話就會差7%,比如說49%和56%,是不是差了很多?
白鳥士郎:電腦告訴我們勝率以及目數這樣明確的數字,這樣人類的學習效率是否提升了呢?
大橋拓文:還是有了目數之後,棋手們的學習效率就提高了很多。有時候AI顯示勝率70%,但是贏10目的70%,和只差1目的70%,我們在這方面有很多不懂的地方。
但是有時候「這裡就差1目怎麼就70%呢?」,或者「我吃了這麼多棋,怎麼勝率就70%呢」之類的想法。
白鳥士郎:這樣的話,那個勝率70%更好理解呢?
大橋拓文:這個要看情況,有時候即便能吃很多棋,然後你全部下對,把對手吃掉的話就能贏棋,但是有時候哪怕下錯一手棋,勝率就會大幅下降。
白鳥士郎:原來如此,即便只差1目,有時候不用費盡周折,可以說安全運轉就可以贏了,這一點和將棋很像。
大橋拓文:這就是「勝率的反烏托邦」(笑)。即便是將棋軟件,把數字和百分比組合在一起的話,有可能也會變強的。
如果圍棋的目數用將棋思路進行比較的話,比如說可以製造一個用最短的次序進行收束的AI。
白鳥士郎:原來如此。
大橋拓文:還有就是,Zero系列的深度學習軟件,需要花很多的資金。所以希望開發將棋AI的各位能找到更有效率的方法,然後能運用在圍棋領域的話就最好了(笑)。
白鳥士郎:資金就是,為了開發投入了多少錢嗎?
大橋拓文:開發AlphaGo的DeepMind團隊,為了開發就從谷歌借了服務器,然後花了3500萬美元,看到這個新聞嚇了一跳。
白鳥士郎:啊?一美金大概換算成110日元,大概是40億日元?啊?為了開發深度學習,花了這麼多錢嗎?
大橋拓文:總之需要龐大的資源,用AlphaGo舉例的話,TPU用了2000基,然後Facebook在開發ElF Open Go的時候,也用了2000基的GPU。我們在開發GLOBIS-AQZ的時候,也用了1000基。
白鳥士郎:1000!需要這麼多嗎?
大橋拓文:1000基,在日本也是基本上做不到的。
白鳥士郎:那麼是要用海外的服務器進行開發的嗎?
大橋拓文:不是,我們用的是產業技術綜合研究所的大規模AI雲計算程序「ABCI」。
白鳥士郎:產業技術綜合研究所的ABCI,明白了。在2018年還是有着世界前五性能的大規模雲計算系統。有4352基的高性能GPU,原來這樣的系統在日本也有呀。
大橋拓文:在那邊有4000基以上當時最好的GPU——V100,我們用了大約1年的樣子。我們最多的時候用了1000基,真的很感謝他們。
但是GLOBIS-AQZ的開發現在也停下來了。現在不再以企業為單位進行大規模的開發,就像將棋一樣把希望寄托在個人開發者上了。
後來問了幾位開發者的人,關於技術我們都聊得很開心,但是到了最後總是會問一個問題:「日本這樣下去還好嗎」(苦笑)。
白鳥士郎:但是就這麼開發出來的絕藝也很強啊,他們究竟是投入了多少資源呢?可以體現中國IT行業已經遙遙領先很多了。
大橋拓文:圍棋大致是被分為日本規則和中國規則。GLOBIS-AQZ是根據黑貼6目半進行開發的。
但是在歐美國家,出現了像抖音一樣禁止中國軟件入境的情況,所以即便現在國外能用他們的圍棋AI,說不定有一天就不能用了。
白鳥士郎:為了避免這種情況,自己國家也需要開發才行,但是這樣的話需要花大量的資源,確實是一個很複雜的問題。