シラバス参照

公式版のシラバスを表示  
最終更新日:2020/09/16  
筑波大学 教育課程編成支援システム

BC12611 パターン認識

2.0 単位, 3・4 年次, 秋AB 木3,4
平井 有三

授業概要

パターン認識の基本的な考え方について解説する。内容は(1)特徴ベクトル空間,(2)ベイズの識別規則,(3)確率モデルと識別関数,(4)k最近傍法,(5)線形識別関数,(6)パーセプトロン,(7)サポートベクトルマシン,(8)部分空間法,(9)クラスタ分析,(10)複数の識別機による性能強化,など。

備考

主専攻共通科目
GB40201と同一。
オンライン(同時双方向型)

授業形態

講義

学位プログラム・コンピテンスとの関係

・専門コンピテンス
4. 知能情報メディア分野の専門能力

授業の到達目標(学修成果)

(1) パターン認識の世界を、例題を用いながら概観し、パターン認識が「特徴抽出」、「学習」、「識別規則」からなることを理解する。特徴抽出された特徴ベクトルの次元が大きくなると現れる次元の呪いについて理解する。さらに、学習データを用いて設計した識別機械が実世界で犯す誤りを予測すること、すなわち汎化能力を予測することの重要性を理解する。
(2) 統計的パターン認識の最も基本的な手法であるベイズの識別規則が、誤り最小・損失最小となることを理解する。また、パターン認識システムの性能評価手法である受信者動作曲線(ROC曲線)の原理とその作り方を学ぶ。
(3) 学習データの統計量を用いて行う特徴量の種々の線形変換とその役割を理解する。学習データの分布を正規分布関数でモデル化した場合の線形識別関数を導く。学習データから正規分布関数のパラメータを得るための最尤推定法について理解する。
(4) 学習データそのものを識別に用いるk最近傍法の原理を理解し、その誤り率とベイズの誤り率が密接に関連していることを知る。k最近傍法は入力データと全ての学習データとの距離計算を行うので時間がかかる。その緩和法を議論し、その一つである近似最近傍探索の原理を理解する。
(5) 2クラスの線形識別関数によって構成される識別超平面について理解する。多クラスの識別関数構成法とそれらの長所短所について理解する。線形識別関数の代表例である正規方程式、線形判別関数、ロジスティック回帰について理解する。
(6) 2クラスの線形識別関数を求める古典的なパーセプトロン学習アルゴリズムを理解する。学習の難しさを表すマージンの概念を導入し、学習データが線形分離可能であれば学習が収束することを示す。パーセプトロンを多層化(2層)し、線形分離可能という厳しい制約を緩和した誤差逆伝搬法の原理を理解し、非線形識別関数が持つ様々な性質について議論する。
(7) 3層以上の多層回路(ディープな回路)での誤差逆伝搬法の導出と、そのような状況で学習をうまく進めるための様々な仕掛けについて理解する。従来、識別系の学習とは別個に行われていた特徴抽出系の設計が、ディープラーニングにより特徴抽出から識別系の学習まで一貫して行えるようになったことを理解する。また、畳み込みニューラルネットワークでの誤差逆伝搬の実際を理解し、画像認識コンテストでトップの成績を収めたシステムを紹介する。
(8) 現在も広く利用されている、最大マージンを持つ線形識別関数を求める手法であるサポートベクトルマシンの原理を理解する。また、線形分離可能でない学習データを非線形特徴写像により高次元特徴空間に写像することで、線形識別関数でも識別可能になる事を理解し、高次元特徴空間における内積計算を原空間での内積計算で効率的に行うことができるカーネルトリックについ理解する。
(9) 特徴空間の次元は低い方がよい。次元を縮約する手法の一つである主成分分析について理解した後、クラス毎に学習データの主成分分析を行って作った部分空間を用いて識別する部分空間法について理解する。さらに、カーネルトリックを用いたカーネル主成分分析、カーネル部分空間法について触れる。
(10) 学習データ間の類似度を手がかりに、学習データをいくつかのクラスタにグループ分けし識別を行うクラスタリングについて理解する。まず、基本的な類似度である距離について理解した後、K-平均法に代表される非階層的クラスタリング、融合法に代表される階層的なクラスタリングの手法について理解する。さらに、混合正規分布モデルを用いた確率的なクラスタリングと、その確率モデルパラメータを求めるために広く利用されているEMアルゴリズムについて理解する。
(11) どのような識別問題に対しても最も性能がよい識別器は存在しないことを示したノーフリーランチ定理について紹介した後、複数の識別器を組み合わせて全体として識別性能を上げる手法について理解する。組み合わせる識別器として決定木を用いるので、決定木の学習法について学んだ後、代表的な手法であるバギング、アダブースト、ランダムフォレストについて理解する。

キーワード

汎化能力, ベイズの識別規則, 線形識別関数, 非線形識別関数, 最近傍法, パーセプトロン型学習アルゴリズム, サポートベクトルマシン, 部分空間法, クラスタリング, アンサンブル学習, ディープラーニング

授業計画

全ての授業スライドをmanabaに掲載し、それに沿ってパワーポイントを用いて授業を進める。また、統計解析環境Rを用いたRの基礎と、畳み込みニューラルネットワークを用いた手書き数字認識系の実習レポート課題を通して、パターン認識を実体験してもらう予定である。

第1回「パターン認識」=「特徴抽出」+「識別規則」+「学習」、特徴ベクトル空間と「次元の呪い」、識別規則と学習法の分類と概要、汎化能力、(統計解析環境Rの実習レポート課題1)   
第2回ベイズの識別規則と例題、ベイズの識別規則は誤り最小、最小損失基準に基づくベイズの識別規則、受信者動作特性(ROC)曲線、AUC(Area under an ROC curve)、最適動作点、ROC曲線を作ってみよう (レポート課題2)   
第3回観測データの平均ベクトルと共分散行列を用いた線形変換、標準化、無相関化、白色化、正規分布関数と線形識別関数、確率モデルパラメータの最尤推定 (レポート課題3)   
第4回k最近傍法、最近傍法とボロノイ境界、kNN法、kNN法とベイズ誤りの関係、kNN法の計算量、近似最近傍探索 (レポート課題4)   
第5回線形識別関数、超平面の方程式、多クラス問題への拡張、最小2乗誤差基準と正規方程式、線形判別分析、ロジスティック回帰、交差エントロピー型誤差関数、ソフトマックス関数 (レポート課題5)   
第6回パーセプトロンと学習規則、マージンと学習の難しさの尺度、パーセプトロンの収束定理、多層パーセプトロンと誤差逆伝搬法、誤差逆伝搬法の学習アルゴリズム、過学習と正則化 (レポート課題6)   
第7回誤差逆伝搬法と自動微分、活性化関数、損失関数、畳み込みニューラルネットワーク、AlexNet、Dropout正則化、畳み込み計算の軽量化、Googlenet、ResNet、RMSProp、Batch Normalization   
第8回最適識別超平面、不等式制約条件最適化問題によるサポートベクトルマシンの導出、スラック変数とソフトマージン識別器、非線形特徴写像、多項式カーネル、動径基底関数カーネル、νサポートベクトルマシン、1クラスサポートベクトルマシン (レポート課題7)   
第9回部分空間法、主成分分析、CLAFIC法、カーネル主成分分析、カーネル部分空間法、クラスタリング、ミンコフスキー距離、K-平均法、階層型クラスタリング、樹状図、確率モデルによるクラスタリング、混合正規分布モデルとEMアルゴリズム (レポート課題8)   
第10回識別器の組み合わせによる性能強化、ノーフリーランチ定理、決定木、ノード分割規則、不純度、ジニ係数、木の剪定アルゴリズム、バギング、アダブースト、ランダムフォレスト (レポート課題9)   

履修条件

線形代数の復習をしておくこと。確率論と統計学の講義を受けていることが望ましい。必要な知識は必要に応じて講義の中で説明する。大体1日1章のペースで授業を行うが、休むとついてくるのがしんどくなる。教科書に従って授業を進めるのでリカバー可能であるが要注意。どの科目でも同じではあるが。

成績評価方法

授業ごとに出題するレポート課題の成績で、成績評価を行う。他人のレポートのコピーと判明した場合は、コピーをした側とさせた側の両者の成績を0点とする。
なお、A+~Cの評点は総合評価の点数に基づいて行う。

学修時間の割り当て及び授業外における学修方法

(ア) 復習として、指定した教科書の章末問題を必ず行うこと
(イ) 予習として、指定した教科書の次回の授業範囲を読んでおくこと

教材・参考文献・配付資料等

教科書として、平井有三著「はじめてのパターン認識」森北出版を使用する。授業の前に入手しておくことが望ましい。参考文献は、授業の中で随時紹介する。
授業はmanabaに掲載したスライドに沿って進める。授業の前の週には掲載するので、教科書と合わせて予め一読しておくのが望ましい。

オフィスアワー等(連絡先含む)

連絡は世話人の山田先生(takeshi AT cs.tsukuba.ac.jp)を通して行うこと。

1000430 http://www.viplab.is.tsukuba.ac.jp/~hirai

その他(受講生にのぞむことや受講上の注意点等)

パターン認識は、文字認識、音声認識、画像認識、テキスト処理、知識処理、自動運転を始め、将棋や碁などゲームの分野にも深く浸透しており、現代の情報社会の基盤技術となっている。今後ますます重要となる技術なので、この授業を機会にしっかりと理解して身に着けてほしい。
授業に当たって、線形代数の復習をしておくことが授業内容の理解に必須である。また、確率論と統計学の授業を受けていることが望ましい。必要な知識は必要に応じて講義の中で説明する。大体1日1章のペースで授業を行うが、休むとついてくるのがしんどくなる。教科書に沿って授業を進めるのでリカバー可能であるが要注意。どの科目でも同じではあるが。

・授業はMicrosoft teamsを用いてオンラインで実施するので、授業開始時間には準備を終了して待機すること。
・授業で使用するスライドは、manabaにpdfファイルとしてアップしておく。
・スライドを説明したビデオファイルを、予めMicrosoft streamにアップしておくので、参考にすること。
・成績評価は、毎回の授業に関連したレポート課題の成績をもとに行う。
・レポート課題の提出はmanabaで行う。提出期限は、授業の2週間後とする。
・レポート課題は一部を除いてRの実習課題である。
・授業の都合で内容等に変更がある場合は、その都度manabaで周知する。

他の授業科目との関連

GA15211 線形代数A
GA15221 線形代数A
GA15311 微分積分A
GA15321 微分積分A
GB10214 線形代数II
GB10414 解析学II
GB11601 確率論
GB41204 統計学
GB42301 画像認識工学
GB42404 機械学習

ティーチングフェロー(TF)・ティーチングアシスタント(TA)

なし