前回の続き。難しくなってきたが細々と読み続けている。これを読み切ったら大抵の機械学習本は読めるようになるのではという感覚がある。
第6章は、Frequentist statistics 頻度統計について。この章は比較的知っている内容が多いので読みやすかったと思う。
目次は以下の通り。
- 6 Frequentist statistics
- 6.1 Introduction
- 6.2 Sampling distribution of an estimator
- 6.2.1 Bootstrap
- 6.2.2 Large sample theory for the MLE *
- 6.3 Frequentist decision theory
- 6.3.1 Bayes risk
- 6.3.2 Minimax risk
- 6.3.3 Admissible estimators
- 6.4 Desirable properties of estimators
- 6.4.1 Consistent estimators
- 6.4.2 Unbiased estimators
- 6.4.3 Minimum variance estimators
- 6.4.4 The bias-variance tradeoff
- 6.5 Empirical risk minimization
- 6.5.1 Regularized risk minimization
- 6.5.2 Structural risk minimization
- 6.5.3 Estimating the risk using cross validation
- 6.5.4 Upper bounding the risk using statistical learning theory *
- 6.5.5 Surrogate loss functions
- 6.6 Pathologies of frequentist statistics *
- 6.6.1 Counter-intuitive behavior of confidence intervals
- 6.6.2 p-values considered harmful
- 6.6.3 The likelihood principle
- 6.6.4 Why isn’t everyone a Bayesian?
著者はベイジアンなアプローチを取った方が一回限りのイベントなどから上手くモデルを構築出来ると述べられているが、頻度主義の統計に慣れしたんでおくことは機械学習の分野で広く使われているため有用であると述べている。
頻度主義とベイズ統計の違いは、頻度主義がデータはランダムでありパラメータが固定されていると考えるのに対して、ベイズ統計ではデータが固定されており、得られたデータから最尤推定によりランダムなパラメータを確定させる、ということです。
最後の6.6節では、頻度統計の望ましくない振る舞いであるpathologyが述べられている。信頼区間やp値に関する問題点などが挙げられる。最後になぜ皆がベイジアンではないのか?という話が書かれており、その中で20世紀はノンベイジアンの時代であったが、21世紀はベイジアンの時代になると述べられている。これが正しかったかは時間が証明するだろう、と締めくくられており、少しカッコいい。