2.0 単位, 3・4 年次, 秋AB 木3,4
平井 有三
授業概要
パターン認識の基本的な考え方について解説する。内容は(1)特徴ベクトル空間,(2)ベイズの識別規則,(3)確率モデルと識別関数,(4)k最近傍法,(5)線形識別関数,(6)パーセプトロン,(7)サポートベクトルマシン,(8)部分空間法,(9)クラスタ分析,(10)複数の識別機による性能強化,など。
授業の到達目標(学修成果)
(1) パターン認識の世界を、例題を用いながら概観し、パターン認識が「特徴抽出」、「学習」、「識別規則」からなることを理解する。特徴抽出された特徴ベクトルの次元が大きくなると現れる次元の呪いについて理解する。さらに、学習データを用いて設計した識別機械が実世界で犯す誤りを予測すること、すなわち汎化能力を予測することの重要性を理解する。
(2) 統計的パターン認識の最も基本的な手法であるベイズの識別規則が、誤り最小・損失最小となることを理解する。また、パターン認識システムの性能評価手法である受信者動作曲線(ROC曲線)の原理とその作り方を学ぶ。
(3) 学習データの統計量を用いて行う特徴量の種々の線形変換とその役割を理解する。学習データの分布を正規分布関数でモデル化した場合の線形識別関数を導く。学習データから正規分布関数のパラメータを得るための最尤推定法について理解する。
(4) 学習データそのものを識別に用いるk最近傍法の原理を理解し、その誤り率とベイズの誤り率が密接に関連していることを知る。k最近傍法は入力データと全ての学習データとの距離計算を行うので時間がかかる。その緩和法を議論し、その一つである近似最近傍探索の原理を理解する。
(5) 2クラスの線形識別関数によって構成される識別超平面について理解する。多クラスの識別関数構成法とそれらの長所短所について理解する。線形識別関数の代表例である正規方程式、線形判別関数、ロジスティック回帰について理解する。
(6) 2クラスの線形識別関数を求める古典的なパーセプトロン学習アルゴリズムを理解する。学習の難しさを表すマージンの概念を導入し、学習データが線形分離可能であれば学習が収束することを示す。パーセプトロンを多層化(2層)し、線形分離可能という厳しい制約を緩和した誤差逆伝搬法の原理を理解し、非線形識別関数が持つ様々な性質について議論する。
(7) 3層以上の多層回路(ディープな回路)での誤差逆伝搬法の導出と、そのような状況で学習をうまく進めるための様々な仕掛けについて理解する。従来、識別系の学習とは別個に行われていた特徴抽出系の設計が、ディープラーニングにより特徴抽出から識別系の学習まで一貫して行えるようになったことを理解する。また、畳み込みニューラルネットワークでの誤差逆伝搬の実際を理解し、画像認識コンテストでトップの成績を収めたシステムを紹介する。
(8) 現在も広く利用されている、最大マージンを持つ線形識別関数を求める手法であるサポートベクトルマシンの原理を理解する。また、線形分離可能でない学習データを非線形特徴写像により高次元特徴空間に写像することで、線形識別関数でも識別可能になる事を理解し、高次元特徴空間における内積計算を原空間での内積計算で効率的に行うことができるカーネルトリックについ理解する。
(9) 特徴空間の次元は低い方がよい。次元を縮約する手法の一つである主成分分析について理解した後、クラス毎に学習データの主成分分析を行って作った部分空間を用いて識別する部分空間法について理解する。さらに、カーネルトリックを用いたカーネル主成分分析、カーネル部分空間法について触れる。
(10) 学習データ間の類似度を手がかりに、学習データをいくつかのクラスタにグループ分けし識別を行うクラスタリングについて理解する。まず、基本的な類似度である距離について理解した後、K-平均法に代表される非階層的クラスタリング、融合法に代表される階層的なクラスタリングの手法について理解する。さらに、混合正規分布モデルを用いた確率的なクラスタリングと、その確率モデルパラメータを求めるために広く利用されているEMアルゴリズムについて理解する。
(11) どのような識別問題に対しても最も性能がよい識別器は存在しないことを示したノーフリーランチ定理について紹介した後、複数の識別器を組み合わせて全体として識別性能を上げる手法について理解する。組み合わせる識別器として決定木を用いるので、決定木の学習法について学んだ後、代表的な手法であるバギング、アダブースト、ランダムフォレストについて理解する。
キーワード
汎化能力, ベイズの識別規則, 線形識別関数, 非線形識別関数, 最近傍法, パーセプトロン型学習アルゴリズム, サポートベクトルマシン, 部分空間法, クラスタリング, アンサンブル学習, ディープラーニング
学修時間の割り当て及び授業外における学修方法
(ア) 復習として、指定した教科書の章末問題を必ず行うこと
(イ) 予習として、指定した教科書の次回の授業範囲を読んでおくこと
教材・参考文献・配付資料等
教科書として、平井有三著「はじめてのパターン認識」森北出版を使用する。授業の前に入手しておくことが望ましい。参考文献は、授業の中で随時紹介する。
授業はmanabaに掲載したスライドに沿って進める。授業の前の週には掲載するので、教科書と合わせて予め一読しておくのが望ましい。