特徴量エンジニアリングに焦点を当てた簡潔な本:「Feature Engineering for Machine Learning」

機械学習の特徴量エンジニアリングに焦点を当てた本、「Feature Engineering for Machine Learning」を読んだ。

テーブルデータ、画像データ、文章データなどの各種データに対しての基本的な特徴量エンジニアリング手法が網羅されている本でした。例えばone-hotエンコーディングやn-gram、SIFTなどなど基本的な手法から、Box-Cox変換、Dummy Coding、データリークの問題など、一般的な機械学習の入門書ではカバーされないような内容もところどころ書かれていた。

後半ではCNNの仕組みや、論文推薦システムの構築などの、特徴量エンジニアリングを利用した実アプリケーションの作成もチュートリアル的に示されており、特徴量を加えることで精度が大きく変わるところなども分かり、特徴量エンジニアリングの重要性が学べる本となっていた。

全部で200ページほどの結構薄い本なので、英語の技術書に挑戦してみようかな、という人には機械学習の基礎が出来ているのであれば分かりやすいかと思うのでオススメしたい。

Kaggleで人気 XGBoostの論文 「XGBoost: A Scalable Tree Boosting System」を読んだ

タイトルの通りなんですが、Kaggleでとても人気のある手法のXGBoostがどういった仕組みで動いているのかを知るために次の論文を読みました。

XGBoost: A Scalable Tree Boosting System

詳しいことは、日本語で読める分かりやすい解説記事(こことか)があるのでそちらを参照していただきたいです。この記事は個人的な備忘録です。

要するにXGBoostとは決定木をすでに作った木の情報をもとにしながら何個も作ってそれらの結果を足し合わせることで、性能を向上させるBoostingの手法を効率的に実装したものと言えます。

基本的なポイントは単純ですが、決定木を作っていくうえですべての木の中から最も良いものを調べて選択するのは計算量的に難しいため、ある種の近似を用いて精度的に問題の少ない気を作っていき高速に実行可能なアルゴリズムとなっています。また、オーバーフィッティングを防ぐために、サブサンプリングや縮退化などの仕組みも導入されており、汎化性能が良くなるようになっていることもKaggleのコンテストで人気の理由の一つだと思います。

また、論文では並列化や分散処理をした場合の速度性能の評価が行われており、高い並列性能が出ています。提供されているライブラリではキャッシュが当たりやすくなるようになどの最適化が施されているので、自分で実装せずにライブラリを使いましょう。pipで簡単に入れられるようです。

「ベイズ推論による機械学習」を読んだ

最近出版された、「ベイズ推論による機械学習」を読んだ。何やら最近盛り上がってきているように見えるベイジアンの機械学習へのアプローチを学ぼうとして手に取った。しかも「入門」と書いてあるので。

本書はベイズの定理から始まって、各種確率分布の説明、ベイズ推論を用いた学習と予測、混合モデル、応用モデルの構築と推論などの内容がカバーされている。

数式が多いが、基本的に各項目でほぼ同じパターンをたどることが多く、かといって数式が省略されることもほとんどなく、難しい内容も追いやすかったと思う。

現在Murphy本を読んでいる途中だが、先に本書を読んで理解してから読み進めるべきであったと感じる。やはり日本語で解説を読んでおくと理解が進みやすいだろう。

個人的にはコラムの部分に書かれているベイジアンのアプローチの有用性についての議論が腑に落ちた。例えば、ビッグデータの時代においてはベイズ推論のアプローチをとるメリットは無くなるのでは?といった内容について、データが十分あれば解析対象を詳細にすべし、(推薦システムのように)使い始めのユーザの情報は少ないのでベイズ学習のアプローチが有効、などの議論からむしろ「多種多様の情報ソースを組み合わせて活用していくようなビッグデータの時代に適した方法論であるといえます。」と述べている。

また、ベイズ学習のこれから、と題されたコラムでは「ベイズ学習のもつ適用範囲の広さと、大量データに対する複雑なモデルの効率計算の2つが上手く組み合わされば、いままで行えなかったような大規模かつ包括的な問題解決に取り組むことが可能になるといえます。ベイズ学習は、深層学習や最適化理論で培われた効率的な計算のノウハウと組み合わさることにより、さらなるエキサイティングな応用領域を拡大していくでしょう。」と締めくくられており、今後もウォッチしていきたい分野である。

本書は基本的に数式を用いた理論的な解説をターゲットとしており、実際にコードに落とし込むには少し慣れが必要かもしれないと、素人としては感じた。以下のサポートページでは本書のサンプルコードが用意されているので、ここを見てみよう。

「機械学習スタートアップシリーズ ベイズ推論による機械学習入門」のサンプルコード

また、著者のブログ「作って遊ぶ機械学習」ではさまざまな問題に対してコードや数式と共に解説が用意されているようなので、次はそのあたりで勉強してみようと思う。

「Machine Learning – A Probabilistic Perspective」第7章を読んだ

前回の続き。第7章は線形回帰について。このあたりでようやく1/4までたどり着いた。先は長い。

目次は以下の通り。

  • 7 Linear regression
    • 7.1 Introduction
    • 7.2 Model specification
    • 7.3 Maximum likelihood estimation (least squares)
      • 7.3.1 Derivation of the MLE 219
      • 7.3.2 Geometric interpretation
      • 7.3.3 Convexity
    • 7.4 Robust linear regression *
    • 7.5 Ridge regression
      • 7.5.1 Basic idea
      • 7.5.2 Numerically stable computation *
      • 7.5.3 Connection with PCA *
      • 7.5.4 Regularization effects of big data
    • 7.6 Bayesian linear regression
      • 7.6.1 Computing the posterior
      • 7.6.2 Computing the posterior predictive
      • 7.6.3 Bayesian inference when σ2 is unknown *
      • 7.6.4 EB for linear regression (evidence procedure)

線形回帰のMaximum likelihood estimationから始まり、outlierに強い線形回帰の方法やリッジ回帰、PCA、Regularizationなどが説明され、最後にベイズ統計による線形回帰の話が述べられている。

リッジ回帰はペナルティ項が加わった線形回帰。overfitする可能性を減らすことが出来る。数値計算する際にも良い性質があるとのこと。

最後のベイズ推定の部分は、リッジ回帰でpointを推定できるけど、完全なwやσ^2の事後分布を知りたいことがあるのでベイズ推定を使うと良いということらしい。

線形代数の復習に「Linear Algebra and its Applications」を読んだ

機械学習とは切り離すことのできない、重要な数学分野である線形代数。はるか昔に習った線形代数を思い出すために「Linear Algebra and its Applications」という教科書を読みました。この本はAx=Bという式について一環して書かれており、評判も良いので選びました。

線形代数自体は昔に習っていたので、問題無いかと思っていましたが、SVD(特異値分解)が線形回帰の文脈で出て来て、「はて、SVDってなんだっけ?」と思い復習することに決めました。また、すでに日本語で知っている用語を英語でなんて言うのかという勉強も兼ねています。

本当に初歩の行列の掛け算から始まり、逆行列、固有値、SVD、線形回帰、PCA、などなど機械学習の初歩的な部分までをカバーしていきます。演習問題も豊富なので独習に向いているかと思います。

例えば、以下のサイトにて言及もあります。

一人で読めて大抵のことは載っている教科書(洋書編):数学からラテン語まで(追記あり)

基本的に日本語で勉強できる内容ではありますが、将来的に英語を使って研究開発を行いたいと考えているのであれば、英語で学んでおくことはとても有意義であると思います。

私の場合は、日本語なら答えられるのに、英語でどう言うんっだっけ?という部分が多かったので初めから英語で学べるのであればこういった本で勉強を始めていくのが良いかと思います。