データサイエンス関係のpodcastをまとめてみた

最近盛り上がりを見せるデータサイエンス界隈。
様々なpodcastが存在しているが、あまり言及されることが無いようなのでここでまとめておく。
割と更新頻度が高いものを中心に選んだつもりなので、これらを購読すれば聞くものが無いという状態にはなかなかならないかと思う。

言語は英語なので、データサイエンスの最新動向を知るのとともに英語の勉強にも使えるかと思う。
日本の機械学習エンジニアと研究者が世界と戦うための一助になれば幸いです。

  • Super Data Science
番組ホストのKirill Eremenkoが毎週インタビュー形式のメインエピソードと、Tips的なショートエピソードを配信している。
英語は聞きやすいので、英語に自信が無い人はまずはショートエピソードから入ってみるのも良いかもしれない。
  • The AI Podcast

https://blogs.nvidia.com/ai-podcast/
 ご存知NVIDIAの提供で行われるPodcast。
Andrew NgとかIan Goodfellowなどのスーパースターがゲストで登場していたりしているので、それだけでも聞く価値はあるかと思う。

  • Linear Digressions

http://lineardigressions.com/
機械学習に関連するトピックを実例をもとに紹介する。
ディスカッション形式のポッドキャスト。

  • This Week in Machine Learning

 https://twimlai.com/

毎週、機械学習に関連する研究者や企業関係者へのインタビュー形式で配信されるポッドキャスト。
実際の応用事例が豊富に聞ける。
  • O’Reilly Data Show
ご存知O’Reillyの提供で行われるPodcast。
企業の研究者などへのインタビュー形式。
最新のエピソードではFacebookの研究者へのインタビューが行われた。
 
  • Not So Standard Deviation

 https://soundcloud.com/nssd-podcast

2人のホストが機械学習や統計に関連したトピックを話す形式のポッドキャスト。
 
  • Data Skeptic
技術的なトピックについて話し合うポッドキャスト。
MINIシリーズという形式の回は20分程度なので聞きやすい。

Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

I read a paper about abstractive sentence summarization.
This is the link.

In this paper, the authors used attention mechanizm to decide where to focus when decoder outputs.
This neural network model is a modification of the state-of-the-art machine translation model.

This method outperformed the current text abstraction methods.
These days, the improvements of RNN method are heavily affecting Natural Language Processing areas.

I think abstractive sentece summarization is one of the promising areas for advancement of NLP.

Character-level Convolutional Networks for Text Classification を読んだ

Character-level Convolutional Networks for Text Classification を読んだ。
テキストの分類を文字単位のCNNで行うと、大規模なデータセットでは従来の手法よりも良い結果が得られたという論文。

テキスト関連の処理は形態素単位でのRNNを使うのがセオリーなのだと思っていたが、文字単位でCNNを行った際に良い結果が出たというのは驚き。
論文中にも書かれていたが、テキストというのは文字単位の信号処理ととらえることが出来るのかもしれない。

The Evolution of Sentiment Analysis を読んだ

感情分析に関するサーベイ論文 The Evolution of Sentiment Analysis を読んだ。

感情分析の分野は2005年ごろから急速に論文数が伸びており、様々な分野に応用が始まっている。
Google ScholarとScopusから論文を抽出して引用数などで比較をしていた。

ソフトウェア工学の論文と比較して、注目が集まる論文が集中しやすいというのは面白い傾向だと思った。

コンピュータサイエンスの論文を毎日紹介するブログ the morning paper

タイトルの通り、コンピュータサイエンス関連の論文を毎日(平日)紹介するブログを見つけた。
the morning paper

基本的に論文のメインとなるところを抜粋しつつ意見を書いているので、アカデミックばりばりでは無いけどもアカデミックな世界でどのようなトレンドがあるのかを押さえておきたいエンジニアに最適だと思う。

一つ一つの記事の分量は少ないので、英語の練習にも使えると思う。
こういった紹介ブログで概要を把握してからの方が、論文も読みやすいのでかなりオススメできる。

Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems を読んだ

前回に引き続き、機械学習関係の本を読んだ。

2つのパートに分かれている本で、前半はScikit-learnを使って線形回帰、SVM、決定木、ランダムフォレストなどの手法が書かれている。
後半のパートはニューラルネットワークとDeep LearningについてをTensorflowで学ぶ形になっている。
Deep Learningの内容はCNN, RNN, Autoencoder, 強化学習、などを2015年くらいまでの論文を参照しながら書かれていてとても参考になった。
そのうちきっと翻訳が出ると思うが、そのころにはこの分野はかなり進んでしまっているかと思うので、読みやすい英語版を今のうちに読んでみることをお勧めする。

それにしても、Scikit-learnとTensorflowはとてもよく出来たフレームワークで、機械学習に挑戦するには良い時代だなぁとつくづく思わされた。

An Introduction to Statistical Learning を読んだ

機械学習について勉強しているのですが、基礎を固めるのに何か一冊良さそうな本を探して、以下の本が評判が良かったので読んでみた。

結論から言うと、これはものすごく分かりやすい。
数学的な内容が多いのだが、説明が上手く、なおかつ詳細は深く追わないという著者の姿勢によって、統計的学習に必要な手法がざっくりどのようなことをしていて、どういう風に使えば良いかが理解できる。

また、Youtubeには著者による解説動画もあるので、本を読んでわからなかった部分を復習するのにとても役立った。
ちなみにPDF版が著者のページに公開されているので、やる気さえあればタダで勉強できます。
(私は無料だと結局やらないので、物理本を買って常に近くに置いておくことでプレッシャーをかけて読み終えました)

通称カステラ本をいきなり読む前にこちらで概要を理解してからの方が、初心者には易しいかと思います。
オススメです。

The Nix

洋書の小説でこれはすごい小説だ、という話を聞いて「The Nix」を購入した。

600ページもある小説なので、最後まで読み通せるか不安ではあったが、読んでみると引き込まれる物語だった。
登場人物はみんなどこかしら壊れており、複数の物語が流れており、時代は前後して、一体この物語はどこへ向かうのだろう?と読みながら気になっていたが、ラストに向けて確かに物語は上手く収束して、これで良かったんだろうと思わせる不思議な力がある。

そのうち翻訳も出るだろうから、ぜひとも読んでもらいたい。

Deep Learning 第1章

ディープラーニングは、多層構造のニューラルネットワークだよという紹介。
この本は学部・院生向けと今まで機械学習に取り組んでこなかったソフトウェアエンジニア向けに書かれている。
数学的な内容は前半の方で解説されるが、基本的なコンピュータサイエンスの知識やプログラミングの知識は前提として進んでいく。

ニューラルネットワーク自体の歴史は古く、なぜ最近着目されるようになったのかという点については計算能力の向上とデータの増大が挙げられている。
特に興味深いのは、ディープラーニングは脳を模倣している「のではない」、という点。
この辺は読んでいくと分かるようになるのかな。

次の2章は線形代数について。