Pythonでデータ整形まわりをまとめた本:「Python for Data Analysis (第2版)」を読んだ

最近、Pythonを使って機械学習を勉強しているがnumpyやpandas, グラフ作成辺りの体系的な知識が足りない気がしていたので、この辺りをまとめた本「Python for Data Analysis (第2版)」を読んだ。感想としてはもっと早くに読んでおくべきだったと思う。今まで何となく書いていたnumpyやpandasが割と頭の中で整理できたと思う。

日本語版は第1版の翻訳が出ているようだ。Amazonのレビューを見ると第1版はPython2系列で書かれており、今読むとしたら内容が古いのでオススメはしない。第2版ではPython3で書かれている。

以下に学んだことをピックアップしておく。

  • IPythonでは変数の後に「?」をつけると変数の情報が見れる
  • リストに要素を逐次的に追加していく場合、extendメソッドを使った方が要素を結合するよりも速い
  • arr2d[0][2]とarr2d[0,2]は同じ意味。
  • ffillメソッドで前方向のinterpolationができる
  • 大きなCSVファイルをpandasで読み込む際には、read_csv()にchunksizeを指定して処理していく
  • データ分析において前処理にかかる時間は全体の80%くらいという報告がある
  • Jupyter notebookではplotの設定がセル毎なので複雑なプロットは一つのセルにコマンドをまとめて書く必要がある
  • plot.kde()でカーネル密度推定をグラフにプロットすることが出来る
  • pandasのrolling()メソッドを使うことで、Moving Window Averageが取れる
  • 時系列データ分析では、exponentially weighted functionsが最近のデータに大きい重みをつける手法としてよく使われる
  • 特定の値しかとらないデータカラムはcategory型にすると使用するメモリが減って、機械学習の処理の高速化を見込める
  • DataFrameをNumPy配列に変換するにはdata.values
  • Pythonの関数を高速化する手法としてnumbaがある。numba.jit()を使うことで関数をJITコンパイルできる

最後の章に、この本よりもさらに学ぶのにオススメの本が挙げられている。「Hands-On Machine Learning with Scikit-Learn and TensorFlow」は読んだことがあるが、とても分かりやすく、特にこの本でnumpyやpandasを学んでからならすんなりと機械学習の手法を理解することが出来ると思う。読んだ際の感想はこちら。Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems を読んだ

紹介されている次に読むべきオススメの本:





ビルゲイツの新しい最も好きな本: 「Enlightenment Now」

ビルゲイツが自身のブログで新しい最も好きな本としてSteven Pinkerの「Enlightenment Now」であると発表しました。

My new favorite book of all time

今までビルゲイツはSteven Pinkerの「The Better Angels of Our Nature」(邦題「暴力の人類史」上下,青土社)を最高の本だと言っていた。


Steven Pinkerの新たな本「Enlightenment Now」が新たな最も好きな本であると、ビルゲイツは述べている。まだ出版されていないが、ビルゲイツのブログから登録することで無料の章を読むことが出来る。

「Enlightenment Now」では、どのようにして人類・世界が良い方向へと進んでいっているのかを述べている本であるそうだ。ビルゲイツ自身が気に入った5つの世界が進歩している理由を以下のように述べている。

1. You’re 37 times less likely to be killed by a bolt of lightning than you were at the turn of the century.

2. Time spent doing laundry fell from 11.5 hours a week in 1920 to an hour and a half in 2014.

3. You’re way less likely to die on the job.

4. The global average IQ score is rising by about 3 IQ points every decade.

5. War is illegal.

要するに、今は昔に比べてはるかに安全であり、家事に使う時間ははるかに減っており、世界の平均IQも上がってきている。歴史の本をよく読んでいるビルゲイツのオススメ本なので読んでみたいと思う。

「ベイズ推論による機械学習」を読んだ

最近出版された、「ベイズ推論による機械学習」を読んだ。何やら最近盛り上がってきているように見えるベイジアンの機械学習へのアプローチを学ぼうとして手に取った。しかも「入門」と書いてあるので。

本書はベイズの定理から始まって、各種確率分布の説明、ベイズ推論を用いた学習と予測、混合モデル、応用モデルの構築と推論などの内容がカバーされている。

数式が多いが、基本的に各項目でほぼ同じパターンをたどることが多く、かといって数式が省略されることもほとんどなく、難しい内容も追いやすかったと思う。

現在Murphy本を読んでいる途中だが、先に本書を読んで理解してから読み進めるべきであったと感じる。やはり日本語で解説を読んでおくと理解が進みやすいだろう。

個人的にはコラムの部分に書かれているベイジアンのアプローチの有用性についての議論が腑に落ちた。例えば、ビッグデータの時代においてはベイズ推論のアプローチをとるメリットは無くなるのでは?といった内容について、データが十分あれば解析対象を詳細にすべし、(推薦システムのように)使い始めのユーザの情報は少ないのでベイズ学習のアプローチが有効、などの議論からむしろ「多種多様の情報ソースを組み合わせて活用していくようなビッグデータの時代に適した方法論であるといえます。」と述べている。

また、ベイズ学習のこれから、と題されたコラムでは「ベイズ学習のもつ適用範囲の広さと、大量データに対する複雑なモデルの効率計算の2つが上手く組み合わされば、いままで行えなかったような大規模かつ包括的な問題解決に取り組むことが可能になるといえます。ベイズ学習は、深層学習や最適化理論で培われた効率的な計算のノウハウと組み合わさることにより、さらなるエキサイティングな応用領域を拡大していくでしょう。」と締めくくられており、今後もウォッチしていきたい分野である。

本書は基本的に数式を用いた理論的な解説をターゲットとしており、実際にコードに落とし込むには少し慣れが必要かもしれないと、素人としては感じた。以下のサポートページでは本書のサンプルコードが用意されているので、ここを見てみよう。

「機械学習スタートアップシリーズ ベイズ推論による機械学習入門」のサンプルコード

また、著者のブログ「作って遊ぶ機械学習」ではさまざまな問題に対してコードや数式と共に解説が用意されているようなので、次はそのあたりで勉強してみようと思う。

「Machine Learning – A Probabilistic Perspective」第7章を読んだ

前回の続き。第7章は線形回帰について。このあたりでようやく1/4までたどり着いた。先は長い。

目次は以下の通り。

  • 7 Linear regression
    • 7.1 Introduction
    • 7.2 Model specification
    • 7.3 Maximum likelihood estimation (least squares)
      • 7.3.1 Derivation of the MLE 219
      • 7.3.2 Geometric interpretation
      • 7.3.3 Convexity
    • 7.4 Robust linear regression *
    • 7.5 Ridge regression
      • 7.5.1 Basic idea
      • 7.5.2 Numerically stable computation *
      • 7.5.3 Connection with PCA *
      • 7.5.4 Regularization effects of big data
    • 7.6 Bayesian linear regression
      • 7.6.1 Computing the posterior
      • 7.6.2 Computing the posterior predictive
      • 7.6.3 Bayesian inference when σ2 is unknown *
      • 7.6.4 EB for linear regression (evidence procedure)

線形回帰のMaximum likelihood estimationから始まり、outlierに強い線形回帰の方法やリッジ回帰、PCA、Regularizationなどが説明され、最後にベイズ統計による線形回帰の話が述べられている。

リッジ回帰はペナルティ項が加わった線形回帰。overfitする可能性を減らすことが出来る。数値計算する際にも良い性質があるとのこと。

最後のベイズ推定の部分は、リッジ回帰でpointを推定できるけど、完全なwやσ^2の事後分布を知りたいことがあるのでベイズ推定を使うと良いということらしい。

「Machine Learning – A Probabilistic Perspective」第6章を読んだ

前回の続き。難しくなってきたが細々と読み続けている。これを読み切ったら大抵の機械学習本は読めるようになるのではという感覚がある。

第6章は、Frequentist statistics 頻度統計について。この章は比較的知っている内容が多いので読みやすかったと思う。

目次は以下の通り。

  • 6 Frequentist statistics
    • 6.1 Introduction
    • 6.2 Sampling distribution of an estimator
      • 6.2.1 Bootstrap
      • 6.2.2 Large sample theory for the MLE *
    • 6.3 Frequentist decision theory
      • 6.3.1 Bayes risk
      • 6.3.2 Minimax risk
      • 6.3.3 Admissible estimators
    • 6.4 Desirable properties of estimators
      • 6.4.1 Consistent estimators
      • 6.4.2 Unbiased estimators
      • 6.4.3 Minimum variance estimators
      • 6.4.4 The bias-variance tradeoff
    • 6.5 Empirical risk minimization
      • 6.5.1 Regularized risk minimization
      • 6.5.2 Structural risk minimization
      • 6.5.3 Estimating the risk using cross validation
      • 6.5.4 Upper bounding the risk using statistical learning theory *
      • 6.5.5 Surrogate loss functions
    • 6.6 Pathologies of frequentist statistics *
      • 6.6.1 Counter-intuitive behavior of confidence intervals
      • 6.6.2 p-values considered harmful
      • 6.6.3 The likelihood principle
      • 6.6.4 Why isn’t everyone a Bayesian?

著者はベイジアンなアプローチを取った方が一回限りのイベントなどから上手くモデルを構築出来ると述べられているが、頻度主義の統計に慣れしたんでおくことは機械学習の分野で広く使われているため有用であると述べている。

頻度主義とベイズ統計の違いは、頻度主義がデータはランダムでありパラメータが固定されていると考えるのに対して、ベイズ統計ではデータが固定されており、得られたデータから最尤推定によりランダムなパラメータを確定させる、ということです。

最後の6.6節では、頻度統計の望ましくない振る舞いであるpathologyが述べられている。信頼区間やp値に関する問題点などが挙げられる。最後になぜ皆がベイジアンではないのか?という話が書かれており、その中で20世紀はノンベイジアンの時代であったが、21世紀はベイジアンの時代になると述べられている。これが正しかったかは時間が証明するだろう、と締めくくられており、少しカッコいい。

「Machine Learning – A Probabilistic Perspective」第5章を読んだ

前回(「Machine Learning – A Probabilistic Perspective」第4章を読んだ)の続き。

第5章はベイジアン統計について。基本的に著者はベイジアンの立場を取っているようで、本書はここまでベイズ統計の立場から機械学習モデルの解説をしている。次の章は、頻度統計の立場の話だが、そこではなぜ頻度統計ではなくベイジアンの見方を取るべきなのかということが語られている。

分かりやすい解説スライドへのリンクを張っておきます。

目次は以下の通り。

  • 5 Bayesian statistics
    • 5.1 Introduction
    • 5.2 Summarizing posterior distributions
      • 5.2.1 MAP estimation
      • 5.2.2 Credible intervals
      • 5.2.3 Inference for a difference in proportions
    • 5.3 Bayesian model selection
      • 5.3.1 Bayesian Occam’s razor
      • 5.3.2 Computing the marginal likelihood (evidence)
      • 5.3.3 Bayes factors
      • 5.3.4 Jeffreys-Lindley paradox *
    • 5.4 Priors
      • 5.4.1 Uninformative priors
      • 5.4.2 Jeffreys priors *
      • 5.4.3 Robust priors
      • 5.4.4 Mixtures of conjugate priors
    • 5.5 Hierarchical Bayes
      • 5.5.1 Example: modeling related cancer rates
    • 5.6 Empirical Bayes
      • 5.6.1 Example: beta-binomial model
      • 5.6.2 Example: Gaussian-Gaussian model
    • 5.7 Bayesian decision theory
      • 5.7.1 Bayes estimators for common loss functions
      • 5.7.2 The false positive vs false negative tradeoff
      • 5.7.3 Other topics *

最初の方はベイズ統計を使って、どのようにモデルを決めていくかといった内容。MAP推定など。

5.6に経験ベイズの話があり、少し理解しきれていない箇所があるので調べた。以下のページが詳しい。

経験ベイズ

つまりは、事前確率が良く分かっていない状況で、データをもとにして事前確率分布を求めるということだろうか。

最後の方はFalse positiveとFalse negativeについてや、ROCカーブなどについて。この辺は適宜必要な時に見返せば良さそう。

線形代数の復習に「Linear Algebra and its Applications」を読んだ

機械学習とは切り離すことのできない、重要な数学分野である線形代数。はるか昔に習った線形代数を思い出すために「Linear Algebra and its Applications」という教科書を読みました。この本はAx=Bという式について一環して書かれており、評判も良いので選びました。

線形代数自体は昔に習っていたので、問題無いかと思っていましたが、SVD(特異値分解)が線形回帰の文脈で出て来て、「はて、SVDってなんだっけ?」と思い復習することに決めました。また、すでに日本語で知っている用語を英語でなんて言うのかという勉強も兼ねています。

本当に初歩の行列の掛け算から始まり、逆行列、固有値、SVD、線形回帰、PCA、などなど機械学習の初歩的な部分までをカバーしていきます。演習問題も豊富なので独習に向いているかと思います。

例えば、以下のサイトにて言及もあります。

一人で読めて大抵のことは載っている教科書(洋書編):数学からラテン語まで(追記あり)

基本的に日本語で勉強できる内容ではありますが、将来的に英語を使って研究開発を行いたいと考えているのであれば、英語で学んでおくことはとても有意義であると思います。

私の場合は、日本語なら答えられるのに、英語でどう言うんっだっけ?という部分が多かったので初めから英語で学べるのであればこういった本で勉強を始めていくのが良いかと思います。

Kerasによるニューラルネットワーク本「Deep Learning with Keras」を読んだ

Deep Learningの基本的な仕組みなどについては大体把握してきたと思うので、実際に動くコードを書くにはどうすればよいのかということを学ぶために、Kerasによるニューラルネットワーク本、「Deep Learning with Keras」を読みました。

Kerasはご存知の通り、TensorflowやTheanoなどのDeep Learning基盤を使いやすくするためのフレームワークです。実際にKerasを使ってみると、難しそうなイメージがあるDeep Learningは積み木のように構築出来て、結構簡単じゃないかという自信を得られるので、一般的なユーザーには生のTensorflowを使うよりもお勧めです。

この本の内容は、Kerasのインストール、基本的なフィードフォワードNNから始まり、CNN、RNN、WordEmbedding、GAN、転移学習、強化学習、などと幅広くカバーされています。すべての内容にサンプルコードが付いているので、実際に動かすことができます。段々と後ろの章に進むにつれて、学習に時間がかかるコードが増えてくるので、手元の環境で動かそうとする場合にはGPUがあったほうが良いかと思います。サンプルコードはKeras2.0で書かれていますが、現在の最新版だと微妙にAPIが変わっている部分もあるようで修正が必要な個所もありましたが、調べればすぐに出てくるレベルの違いなので(少なくとも現時点では)特に大きな問題にはならないかと思います。

基本的にはサンプルはそんなに複雑な内容を扱っているわけではなく、コードを部分ごとに解説とともに説明されているので、Kerasの深い知識が無くてもサクサク読むことが出来ました。実際に自分が作りたいアプリケーションに向けて参考にするにはとても良いサンプルが揃っていると思います。

個人的にはGANについて概要レベルで仕組みを知ることが出来たのが大きな収穫でした。何となく理論は知っているんだけど、いざ実際にコードに落とすにはどうしたら良いのか?と思う方にはお勧めです。日本だとChainerがこの手のフレームワークとして人気だと聞きますが、世界的にみるとKerasの人気は強いとも聞きます。今後の開発がどのように進んでいくのかにもよりますが、こういったフレームワークは一つ手を付けておけば他のフレームワークを使う際も似た部分は多いかと思うので、応用が効くかと思います。

次はもう少し数学的な基礎を固めようかと思うので、統計の教科書やMurphy本あたりを読んでみようかと思っています。

Deep Learningによる自然言語処理の教科書「Neural Network Methods for Natural Language Processing」を読んだ

タイトルの通り、Deep Learningによる自然言語処理の教科書「Neural Network Methods for Natural Language Processing」を読みました。全体として色々と理解が深まった部分があるのでお勧めです。

まさにタイトルの通り、自然言語処理とDeep Learningに特化した本でした。そもそもニューラルネットワークとは、というようなところから始まっているのでDeep Learningの深い知識が無くても読み始めることは可能だと思います。

また、自然言語処理の部分についても適宜基本的な内容が解説されながら進んでいくので読みやすいと思います。

図が多いので、CNNやRNNなどのネットワーク構造がどのようになっているのかというのも理解しやすいです。個人的にはこの本で、モヤモヤしていたLSTMやGRUといった内容やAttention機構がどういった仕組みであるかが理解できたのが収穫でした。

最近出たばかりの本なので、いまだ発展途上であるDeep Learningによる自然言語処理という分野で数多くの論文が参照されており、新しいものだと2017年に出た論文もカバーされているところが素晴らしいと思います。

どちらかというと理論的な面が重視して解説されているので、ここからどのように実装に落とし込んでいくかは別途TensorflowやKerasなどの記事を読むことになるかと思います。

 

ソフトウェアエンジニアの方向性を指し示す一冊:The Complete Software Developer’s Career Guide

Soft Skills で有名なJohn Sonmez氏による最新作、「The Complete Software Developer’s Career Guide: How to Learn Your Next Programming Language, Ace Your Programming Interview, and Land The Coding Job Of Your Dreams」を読んだ。

現時点で、アメリカのAmazonでレビューが265個ついて、そのうち92%が星5つという高評価。

内容はSoft Skillsと被る部分も多いが、メインはキャリア形成について書かれている。

対象読者はソフトウェアエンジニアを目指す人、もしくは自分のスキルを今後どうやってどの方向に伸ばしていこうかと考える若手エンジニアに向けて書かれているように感じた。

アメリカのソフトウェア業界が主眼で書かれているので、日本では事情が異なることもあるかと思うが、今後日本でもキャリア形成の方法はアメリカ的になっていくのではないかと思うので、今読んでおくことは意味があると思う。

例えば、給与交渉の章では、「給料を上げる一番良い方法は転職することだ」と書いており、これは徐々に日本でも浸透してきているのではないかと感じている。

その他にも、Job Securityの章では、「Even in Japan, where for a long time it was generally understood that once you started working for a company, you worked for that company for life, those ways are coming to an end.」と名指しで、日本社会でも終身雇用が終わりつつあることを述べている。

また、給与交渉の部分で、自己評価を書かされる場合は常にパーフェクトスコアを付けるようにと書いてあった。理由は、「自己評価は主観的な評価しかできない。上司に修正させられるか、そのまま受け入れられるかであり、最初から低評価を付けて上司が上げてくれるのを期待するよりも期待値が高い」という、面白いが納得させられるものだった。

個人的にこの本から影響を受けたことは、自分の名前を売り込む方法とその重要性だ。

筆者はブログを書くことやカンファレンスで講演することなど、様々な部分を通じて自分をいかにして市場に売り込むかを重視している。

ブログも広範な内容を書くのではなく、とてもニッチな特定の分野に特化した内容を掘り下げて書くことを勧めている。

そして一番大事なことは書くのをやめないことだ、とも言っている。これはブログ以外の分野でも共通していることだが、小さく始めてとにかく続けること、これが大事だと様々な章で述べている。

とにかく内容が広範なので、まとめきれないが、著者が最後に述べている通り、読んだだけではなく一つずつ実践していくことがとても重要だ。

実際にこのブログ記事を書いてみたように、小さなことから少しでも始めていければと思う。