はじめに
G検定では、ディープラーニングだけでなく、強化学習やその応用アルゴリズムについても頻繁に問われる。
その中でも、AlphaGoを皮切りに進化してきたDeepMindの一連の強化学習アルゴリズムは非常に重要なテーマだ。
本記事では、G検定の過去問を題材にしながら、AlphaGoシリーズの進化の順序を正確に把握することを目指す。
問題:深層強化学習アルゴリズムの登場順を問う
実際に出題された問題は以下の通り。
下記の深層強化学習アルゴリズムの発表された順として、最も適切な選択肢を選べ。
A) AlphaGo Zero
B) AlphaZero
C) AlphaStar
D) AlphaGo Fan
選択肢:
- B, A, D, C
- D, B, A, C
- C, A, B, D
- D, A, B, C
正解は「D, A, B, C」
正解の根拠:アルゴリズムの進化を時系列で確認する
選択肢となっている4つのアルゴリズムについて、それぞれの発表時期と特徴を整理する。
| アルゴリズム | 発表年 | 主な特徴 |
|---|---|---|
| D: AlphaGo Fan | 2016年 | 初めて人間のトップ棋士(ファン・フイ)に勝利したAlphaGo。強化学習と教師あり学習を併用。 |
| A: AlphaGo Zero | 2017年 | 人間の棋譜を一切使わず、自己対戦のみで学習。深層強化学習の純粋な進化型。 |
| B: AlphaZero | 2017年 | AlphaGo Zeroの手法を一般化し、将棋やチェスなどにも対応可能な汎用型AIに進化。 |
| C: AlphaStar | 2019年 | リアルタイムストラテジーゲーム「StarCraft II」でプロ選手に勝利。マルチエージェント強化学習の応用例。 |
このように、AlphaGo Fan(2016)→ AlphaGo Zero(2017)→ AlphaZero(2017)→ AlphaStar(2019)の順となる。
各アルゴリズムの特徴をさらに深掘りする
AlphaGo Fan(2016)
- 対象:囲碁(vs ファン・フイ)
- 技術:人間の棋譜による教師あり学習+モンテカルロ木探索(MCTS)
- 意義:初めて人間のプロ棋士を破ったことで、AIの実力を世界に知らしめた
AlphaGo Zero(2017)
- 対象:囲碁(自己対戦のみ)
- 技術:人間の知識ゼロ、完全に自己学習のみで世界トップレベルへ
- 意義:人間の介入を排除した純粋な深層強化学習の力を示した
AlphaZero(2017)
- 対象:囲碁・将棋・チェス
- 技術:AlphaGo Zeroのアルゴリズムを汎用化
- 意義:様々なボードゲームに対応可能な「汎用AI」として注目を集めた
AlphaStar(2019)
- 対象:StarCraft II(リアルタイム戦略ゲーム)
- 技術:マルチエージェント強化学習、大規模な自己対戦
- 意義:複雑なリアルタイムゲームでの成功により、AIの適応力を実証
他の選択肢がなぜ誤っているのか?
G検定では、「正解」だけでなく「なぜ誤りなのか」を理解することが重要だ。
| 選択肢 | 順序 | 誤りの理由 |
|---|---|---|
| B, A, D, C | AlphaZero→AlphaGo Zero→AlphaGo Fan→AlphaStar | AlphaGo Fanが最初なのに3番目に来ているため不適切 |
| C, A, B, D | AlphaStar→AlphaGo Zero→AlphaZero→AlphaGo Fan | 時系列が完全に逆転しており不正確 |
| D, B, A, C | AlphaGo Fan→AlphaZero→AlphaGo Zero→AlphaStar | AlphaZeroがAlphaGo Zeroより先に来ており誤り |
正しい順番は、D(AlphaGo Fan)→ A(AlphaGo Zero)→ B(AlphaZero)→ C(AlphaStar)である。
まとめ
G検定では、AIアルゴリズムの名前だけでなく、その背景や発表年、技術的な進化にも注意が必要だ。
特に、DeepMindが開発したAlphaシリーズは、AIの進化を象徴する存在であり、試験でも頻出のテーマとなっている。
✅ 覚えておきたいポイント:
- AlphaGo Fan:2016年、人間の棋譜+MCTS
- AlphaGo Zero:2017年、自己学習型
- AlphaZero:2017年、複数ゲーム対応の汎用型
- AlphaStar:2019年、リアルタイム戦略ゲームへの応用
この順序をしっかり理解しておけば、G検定の問題に限らず、深層強化学習の理解も一段深まるはずだ。


コメント