はじめに

G検定では、AIや機械学習に関する理論を問う問題が多く出題される。なかでも「強化学習」の分野は毎年のように登場するテーマだ。その中核をなす技術のひとつが「価値反復法（Value Iteration）」である。

この記事では、G検定の実際の過去問を取り上げ、選択肢の中から「不適切なもの」を見抜く力を養う。単に正解を覚えるのではなく、なぜ他が正しいのか、どこが間違いなのかを丁寧に解説する。

Contents

問題：価値反復法に関する記述として最も不適切なものを選べ。

正解は「1. 行動価値関数が最小化される場合が最適である」

強化学習において、エージェントは報酬を最大化することを目指す。
したがって、価値関数や行動価値関数（Q関数）は「最小化」ではなく「最大化」が目的となる。

✅ 正しい理解：行動価値関数は累積報酬の期待値を最大化するように設計されている。

選択肢1では「最小化される場合が最適」と述べており、これは価値関数の根本的な目的と真逆の内容となっている。よって不適切な選択肢と判断できる。

選択肢	内容	適切性の解説
2. Sarsaはアルゴリズムの代表例の1つである	正しい	Sarsaはオンポリシー型の強化学習アルゴリズムであり、代表的な手法のひとつ。
3. TD誤差が可能な限り小さくなるまで学習を行う	おおむね正しい	TD誤差（Temporal Difference error）は学習の更新に使われる指標であり、学習が進むほどこれが小さくなる。完全にゼロにするわけではないが、近づけるという点では妥当。
4. 行動価値と状態価値の2種類の価値を定義する	正しい	強化学習では、状態に対する価値（V関数）と、状態と行動のペアに対する価値（Q関数）が定義される。

特に選択肢3については、「完全にゼロにする」という表現であれば不適切となり得たが、「可能な限り小さくなるまで」という記述であるため、許容範囲と判断できる。

価値反復法は、「価値関数を繰り返し更新して最適なポリシー（行動方針）を求める手法」だ。具体的には、以下のような流れで処理が行われる。

このように、価値反復法は「価値を最大化するために」価値関数を更新していく手法であり、「最小化」というキーワードとは根本的に相容れない。

項目	内容
状態価値関数（V関数）	各状態において得られる報酬の期待値
行動価値関数（Q関数）	各状態・行動の組に対する報酬の期待値

どちらも報酬の「期待値」をベースにしているため、「より高い価値」を目指すのが強化学習の本質である。

G検定では「正しい記述を選べ」ではなく、「不適切なものを選べ」という問題がよく出題される。こうした設問では、ただ知識を詰め込むのではなく、なぜその選択肢が誤っているのかを理解することが非常に重要だ。

✅ ポイントまとめ：

試験対策としてだけでなく、AI技術を深く理解するためにも、こうした問いの構造を掘り下げていこう。