Introduction to Applied Linear Algebra 第7章

第6章はこちら。第7章はMatrix Examples、行列を使った事例の紹介。

行列による演算で拡縮や回転反転などができる。また直線への射影もできる。軸の変換も同様。

各行に1の要素が一つだけある行列をかけ合わせることで、ベクトルに対して要素を選択するような演算を行うことができる。これを応用すると画像のクロップも行える。同様にpermutationを行列の掛け算で行うこともできる。

Incidence matrixという表現を使うと、有向グラフやネットワークを表せる。これを応用してグラフ上の流量を計算するような例が書かれている。

最後に1次元畳み込みと2次元畳み込みの事例が書かれていて、グラフや画像を平滑化するために用いられている例が図とともに述べられている。

Introduction to Applied Linear Algebra 第6章

第5章はこちら。第6章は行列について。

まずは行列の定義とか用語の説明などから入って、例として票形式のデータを行列で表すのが挙げられている。他にもdirected graphを行列で表す隣接行列の考え方なども述べられている。

次にゼロ行列と単位行列の解説がある。この辺りは基礎なので問題なく読み進められる。

最後に行列の転置・足し算・掛け算が説明されている。各章でおなじみではあるが、各演算の計算量も解説されている。

Introduction to Applied Linear Algebra 第5章

第4章はこちら。第5章は線形独立について。

まずは線形従属とは何ぞやという話から始まって、線形独立なベクトルを開設している。その後Basis(基底)の説明があって、線形独立なベクトルは基底を張っているというような内容が書かれている。

例としてはキャッシュフローとローンの利率の計算をある期間のでどのように変化するかという例が挙げられている。

そのあとは、Orthonormalベクトルの解説があり、グラムシュミットのアルゴリズムでOrthonormalベクトルを求める方法が説明されている。

Introduction to Applied Linear Algebra 第4章

前回はこちら。4章はクラスタリングの話。序盤でクラスタリングみたいな話が入ってくるのは珍しい。それだけ応用を意識している本ということだろうか。

クラスタリングがどういうものかの説明の後に様々な応用事例が述べられている。例えば郵便番号のクラスタリングや、アンケート結果のクラスタリングなど、非常に幅広い分野で応用が可能。

クラスタリングの目的関数とk-means法の紹介がある。この辺りは、よくある機械学習の教科書とかを見れば簡単に理解できる。

最後に実際の応用事例としてMNISTのクラスタリングやドキュメントトピックのクラスタリングが説明されている。MNISTの場合は単純にピクセル値を、ドキュメントトピッククラスタリングの場合は単語のカウントをベクトルとして入力としただけで、それなりにもっともらしい結果が出力できている。

Introduction to Applied Linear Algebra 第3章

第三章はノルムと距離について。2章の内容についてはこちら

ノルムとはベクトルの大きさのようなものですよ、という解説から始まり、ノルムの性質・計算方法などが説明されている。距離についてはなじみのあるユークリッド距離から解説が始まって三角不等式が述べられている。

次の節では標準偏差の計算方法が解説されている。統計的な本で見る記述と比べるとベクトル表現なので、一見して理解しづらいがやっていることは統計学の標準偏差の計算と同様。

次にベクトル間の角度を計算する方法が説明されている。内積とノルムが分かると角度は計算できる。ついでに相関係数や計算量についての話も書かれている。

Introduction to Applied Linear Algebra 第2章

引き続きIntroduction to Applied Linear Algebra第2章を読んだ時のメモ。第1章はこちら

第二章は線形関数について。線形関数はベクトル同士の掛け算で表せますよということから始まって、アフィン変換などで2次元ベクトルの場合グラフ上でどのように変換されるかが可視化されている。具体例としてcivil engineeringの分野で橋にかかる負荷の計算の例が挙げられていた。

その後は、テイラー展開と線形回帰モデルについての解説がある。テイラー展開では偏微分とか出てくるけども、二次元での例が図示されているので何となく理解できると思う。線形回帰の部分では住宅価格の予測についての例が示されている。

Introduction to Applied Linear Algebra 第1章

線形代数の復習をかねてIntroduction to Applied Linear Algebraという本を読んでいます。線形代数についての基礎(ベクトル・行列)から機械学習に関する応用など幅広く書かれていて、読み始めですがかなり分かりやすいです。
実世界での応用事例についてを紙幅を割いて各章で述べられているところも、初学者にとってはなんで線形代数を勉強するのかという疑問を解決するために良いと思っています。

まずは第一章。第1章はベクトルです。基本的にはベクトルとは何か、足し算、内積などの基礎的な内容から計算量までが語られています。
応用事例として例えばベクトルの内積により、2つのベクトルの共起回数を求められるといった内容や、多項式の計算ができるといったことなどが書かれています。

「Machine Learning – A Probabilistic Perspective」第6章を読んだ

前回の続き。難しくなってきたが細々と読み続けている。これを読み切ったら大抵の機械学習本は読めるようになるのではという感覚がある。

第6章は、Frequentist statistics 頻度統計について。この章は比較的知っている内容が多いので読みやすかったと思う。

目次は以下の通り。

  • 6 Frequentist statistics
    • 6.1 Introduction
    • 6.2 Sampling distribution of an estimator
      • 6.2.1 Bootstrap
      • 6.2.2 Large sample theory for the MLE *
    • 6.3 Frequentist decision theory
      • 6.3.1 Bayes risk
      • 6.3.2 Minimax risk
      • 6.3.3 Admissible estimators
    • 6.4 Desirable properties of estimators
      • 6.4.1 Consistent estimators
      • 6.4.2 Unbiased estimators
      • 6.4.3 Minimum variance estimators
      • 6.4.4 The bias-variance tradeoff
    • 6.5 Empirical risk minimization
      • 6.5.1 Regularized risk minimization
      • 6.5.2 Structural risk minimization
      • 6.5.3 Estimating the risk using cross validation
      • 6.5.4 Upper bounding the risk using statistical learning theory *
      • 6.5.5 Surrogate loss functions
    • 6.6 Pathologies of frequentist statistics *
      • 6.6.1 Counter-intuitive behavior of confidence intervals
      • 6.6.2 p-values considered harmful
      • 6.6.3 The likelihood principle
      • 6.6.4 Why isn’t everyone a Bayesian?

著者はベイジアンなアプローチを取った方が一回限りのイベントなどから上手くモデルを構築出来ると述べられているが、頻度主義の統計に慣れしたんでおくことは機械学習の分野で広く使われているため有用であると述べている。

頻度主義とベイズ統計の違いは、頻度主義がデータはランダムでありパラメータが固定されていると考えるのに対して、ベイズ統計ではデータが固定されており、得られたデータから最尤推定によりランダムなパラメータを確定させる、ということです。

最後の6.6節では、頻度統計の望ましくない振る舞いであるpathologyが述べられている。信頼区間やp値に関する問題点などが挙げられる。最後になぜ皆がベイジアンではないのか?という話が書かれており、その中で20世紀はノンベイジアンの時代であったが、21世紀はベイジアンの時代になると述べられている。これが正しかったかは時間が証明するだろう、と締めくくられており、少しカッコいい。

「Machine Learning – A Probabilistic Perspective」第5章を読んだ

前回(「Machine Learning – A Probabilistic Perspective」第4章を読んだ)の続き。

第5章はベイジアン統計について。基本的に著者はベイジアンの立場を取っているようで、本書はここまでベイズ統計の立場から機械学習モデルの解説をしている。次の章は、頻度統計の立場の話だが、そこではなぜ頻度統計ではなくベイジアンの見方を取るべきなのかということが語られている。

分かりやすい解説スライドへのリンクを張っておきます。

目次は以下の通り。

  • 5 Bayesian statistics
    • 5.1 Introduction
    • 5.2 Summarizing posterior distributions
      • 5.2.1 MAP estimation
      • 5.2.2 Credible intervals
      • 5.2.3 Inference for a difference in proportions
    • 5.3 Bayesian model selection
      • 5.3.1 Bayesian Occam’s razor
      • 5.3.2 Computing the marginal likelihood (evidence)
      • 5.3.3 Bayes factors
      • 5.3.4 Jeffreys-Lindley paradox *
    • 5.4 Priors
      • 5.4.1 Uninformative priors
      • 5.4.2 Jeffreys priors *
      • 5.4.3 Robust priors
      • 5.4.4 Mixtures of conjugate priors
    • 5.5 Hierarchical Bayes
      • 5.5.1 Example: modeling related cancer rates
    • 5.6 Empirical Bayes
      • 5.6.1 Example: beta-binomial model
      • 5.6.2 Example: Gaussian-Gaussian model
    • 5.7 Bayesian decision theory
      • 5.7.1 Bayes estimators for common loss functions
      • 5.7.2 The false positive vs false negative tradeoff
      • 5.7.3 Other topics *

最初の方はベイズ統計を使って、どのようにモデルを決めていくかといった内容。MAP推定など。

5.6に経験ベイズの話があり、少し理解しきれていない箇所があるので調べた。以下のページが詳しい。

経験ベイズ

つまりは、事前確率が良く分かっていない状況で、データをもとにして事前確率分布を求めるということだろうか。

最後の方はFalse positiveとFalse negativeについてや、ROCカーブなどについて。この辺は適宜必要な時に見返せば良さそう。

「Machine Learning – A Probabilistic Perspective」第4章を読んだ

前回(「Machine Learning – A Probabilistic Perspective」第3章を読んだ。)の続き。

4章は多変数ガウシアンモデルについて。この章は数学的に他の章よりも難しいと、一番初めに書かれており確かにその通りで難しい。流し読みな感じだけど大丈夫だろうか。

分かりやすい解説スライドを見つけたのでこれで復習しよう。

 

目次は以下の通り。(*がついているところは数学的に難易度が高いところ)

  • 4 Gaussian models
    • 4.1 Introduction
      • 4.1.1 Notation
      • 4.1.2 Basics
      • 4.1.3 MLE for an MVN
      • 4.1.4 Maximum entropy derivation of the Gaussian *
    • 4.2 Gaussian discriminant analysis
      • 4.2.1 Quadratic discriminant analysis (QDA)
      • 4.2.2 Linear discriminant analysis (LDA)
      • 4.2.3 Two-class LDA
      • 4.2.4 MLE for discriminant analysis
      • 4.2.5 Strategies for preventing overfitting
      • 4.2.6 Regularized LDA *
      • 4.2.7 Diagonal LDA
      • 4.2.8 Nearest shrunken centroids classifier *
    • 4.3 Inference in jointly Gaussian distributions
      • 4.3.1 Statement of the result
      • 4.3.2 Examples
      • 4.3.3 Information form
      • 4.3.4 Proof of the result *
    • 4.4 Linear Gaussian systems
      • 4.4.1 Statement of the result
      • 4.4.2 Examples
      • 4.4.3 Proof of the result *
    • 4.5 Digression: The Wishart distribution *
      • 4.5.1 Inverse Wishart distribution
      • 4.5.2 Visualizing the Wishart distribution *
    • 4.6 Inferring the parameters of an MVN
      • 4.6.1 Posterior distribution of μ
      • 4.6.2 Posterior distribution of Σ *
      • 4.6.3 Posterior distribution of μ and Σ *
      • 4.6.4 Sensor fusion with unknown precisions *

Linear Discriminant Analysisがどういうものか何となくわかった気がする。もうちょっと復習が必要だが、とりあえず先に進んでみる。先ほどのスライドにもあったが、ガウス分布はシンプルでありながら現実に即した分布であるので、解釈がしやすい分布であり、線形代数で計算がすむということで広く使われている。