「Zen」開発者、尾島陽児氏インタビュー

近年、コンピュータ囲碁界は急激に変化し、話題を集めている。そんな中、囲碁プログラム「Zen」、そして囲碁ソフト「天頂の囲碁6 Zen」の開発者である、尾島陽児氏にお話を伺った。

【最近のコンピュータ囲碁事情】
2016年3月、イ・セドル九段対アルファ碁の5番勝負は、アルファ碁の4勝1敗で決着した。囲碁AIが急激に強くなったのは、「ディープラーニング」という技術によってブレイクスルーが起きたからである。
そんな中、長年日本製プログラムとしてコンピュータ囲碁の世界一を争ってきた「Zen」は第9回UEC杯コンピュータ囲碁世界大会で、自身3回目の優勝を果たした。続いて、出場した電聖戦でも、小林光一名誉棋聖に3子で勝利した。
もちろん、「Zen」にも「ディープラーニング」が使われている。


――(スタッフ ※以下同)UEC杯、優勝おめでとうございます。本大会を振り返るといかがでしょうか。

どのプログラムも強くなっており、特に「CrazyStone」は「Zen」と同等の強さだったので、優勝できたのは運が良かったです。フェイスブックが開発した「darkforest」は序盤にとても筋の良い手を打ちますが、石が競ってくると怪しくなるという印象を持ちました。

 

――イ・セドル対アルファ碁はどこで観戦されましたか。また、対局の内容を見てどんな感想を持ちましたか。

自宅にてリアルタイムで観戦していました。どの手が特に印象に残ったということはありませんが、あまり派手な戦いは発生しなかったので、囲碁は複雑にしなくても勝てるゲームなんだな、という感想を持ちました。

  • interview01.jpg

    2局目ではアルファ碁の独創的な序盤感覚に全人類が驚かされた。


――事前のアルファ碁の強さや勝敗の予想などはいかがでしたか?

昨年10月にファン氏と対局した時よりも少し強くなっている程度だと考えていました。予想以上の強さでびっくりしました。
しかし、勝敗の事前予想は、グーグルがあそこまで強気な姿勢を見せていたところから考えて、アルファ碁が勝ち越すのではないかとは考えていました。

 

――蓋を開けてみたら、アルファ碁の4勝1敗という成績で終わりました。

1局目はセドル九段が油断したのかなとも思いましたが、2局目の時点で、これは5連敗かなと……(笑)。1勝を返したのは奇跡的とも言えますが、意義のあることだと思います。


――セドル九段が1勝を返した4局目は、アルファ碁に何が起きたのでしょう。

いわゆる水平線効果(※1)が現れたのだと思います。アルファ碁でもこの種の問題を解決できていないと分かって、妙な親近感を覚えました。

  • interview02.jpg

    セドル九段の「鬼手=ワリコミ」以降、アルファ碁は明らかに調子を崩し、自滅していった。

――それでは、これからはAI開発の技術と「Zen」の開発についてお聞きしたいと思います。
まず、モンテカルロ法をわかりやすく説明していただけますか。


終局までをランダムに打って、局面の評価を決める手法です。モンテカルロ法の出現以前は、局面の評価を決定する方法がありませんでした。

 

――それでは、最近出現して、ブレイクスルーを起こしたディープラーニングとはどういった技術なのでしょうか。

もともとは画像認識などに使われる技術で、ひと言で言えば、機械が自分で学習するというものですが、人間でいう学習とはイメージが違います。何百万個とあるレバーを機械自身が動かし入力と出力を繰り返して、ある目的に対して最適な力加減に調整する、というイメージです。

 

――モンテカルロ法とディープラーニングを組み合わせることで、囲碁AIにとってどのような効果があるのでしょうか。

囲碁AIにおけるディープラーニングの使い方には2種類あります。着手の評価と、局面の評価です。前者に関してはモンテカルロ法とは別のアルゴリズムが従来から使われてきましたので、そこを置き換えるだけの話です。問題は後者なのですが、モンテカルロ法と組み合わせることが最適なのかどうか、実はまだ分かっていません。最終的にはモンテカルロ法は使われなくなり、ディープラーニング一本となるかもしれません。

 

――それはなぜですか。また、なぜ現状はモンテカルロ法も取り入れられているのでしょうか。

アルファ碁の論文には、モンテカルロ法の評価とディープラーニングの評価を一対一で混ぜたら強くなったと書かれています。おそらく、攻め合いや死活といった、AIにとって実際に打ってみないと分からない分野ではまだモンテカルロ法が上なのだと思います。
しかし、アルファ碁が強くなった要因として「強化学習」(※2)を取り入れたことが挙げられるのですが、強化学習との相性は、モンテカルロ法よりもディープラーニングのほうが良いのです。もしかしたら、現在のアルファ碁はすでにモンテカルロ法を使っていない可能性もあります。

 

――「Zen」にディープラーニングを取り入れてからは、どこが強くなりましたか。

現在の「Zen」は先ほど言った2種類のうちの前者、着手の評価にしかディープラーニングを使用していませんが、布石が強くなって序盤に遅れをとることが少なくなりました。また、ヨセも大きい所をしっかり受けるようになりました。

 

――「Zen」に関する、今後の目標をお聞かせください。

最終的な目標としては、囲碁AIの「特異点」を見つけることです。アルファ碁は特異点を越えて、急激に強くなったのでしょう。
「Zen」は現在、私が手を加えて改良しているのですが、アルファ碁のように外部から手を加えることなく、自分だけで学習をして強くなるという状態に持っていきたいと考えています。

 

――今回のソフトはアマトップレベルとのことですが、今後プロレベルの市販ソフトをつくることは可能ですか。全ての囲碁ファンが待ち望んでいることだと思うのですが……。

アルファ碁は確かに莫大なコストがかかっていますが、その大部分は「学習」に使われたものです。つまり、その「学習データ」を使えばそこまで手間もコストもかけずにソフトを作れます。グーグルがそれを発売するとは思えませんが、市販のPCで打たせるだけでプロレベルの実力は再現できるはずです。近い将来、そのようなソフトの開発は可能でしょう。

 

――最後に「天頂の囲碁6 Zen」についてコメントをいただけますでしょうか。

もちろんアルファ碁ほど強くはありませんが、あの対決を見て最新の囲碁AIに興味を持たれた方に、その強さの片鱗を味わっていただくには十分な内容になったと思っています。

 

 

※1:水平線効果
囲碁プログラムの読みが有限であることを前提として、プログラムの読みの範囲内で悪い図しか読めなかったとき、その図が盤面に現れるのを遅らせようと、一見意味のない手を連発してしまうこと。第4局でアルファ碁に現れ、自滅するような形で敗北した。

 

※2:強化学習
アルファ碁に用いられた技術は正確には、「深層強化学習」と呼ばれるもので、深層学習(ディープラーニング)と強化学習を組み合わせたもの。深層学習で、棋譜データから盤面や着手のパターンを学習して、強化学習で実際に着手を決める判断力を学習している。
ちなみに「Zen」はまだ「強化学習」を取り入れていない。