RNNのDropoutはどこに入れるべきか?:Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?

タイトルの通り、RNNに対してDropout層を追加する場合、どこに入れるのが適切なのか?と思い少し調べてみました。

ことの発端は、KerasにあるLSTMとGRUの、GPUによる高速化版であるCuDNNLSTMとCuDNNGRUには、dropoutとrecurrent_dropoutというCPU版には存在するパラメータが無いため、これらの層の前後にDropoutを入れても効果あるのかな?と疑問に思ったことが始まりです。

以下のKerasのgithubでこれらのパラメータについての議論が行われており、作者のChollet氏は以下のように述べており、通常のDropoutはRNNに対して効果が無いように読み取れます。https://github.com/keras-team/keras/issues/8935

Recurrent dropout is not implemented in cuDNN RNN ops. At the cuDNN level. So we can’t have it in Keras.

The dropout option in the cuDNN API is not recurrent dropout (unlike what is in Keras), so it is basically useless (regular dropout doesn’t work with RNNs).

Actually using such dropout in a stacked RNN will wreck training.

その後、少し調べてみるとタイトルにある論文「Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?」を見つけたので読んでみました。この論文では、手書き文字認識タスクにRNNを使用して、DropoutをRNNの前、中、後に入れてみて汎化性能を試しています。何種類かのデータセットで実験を行っていますが、結果はまちまちで、傾向としてはRNNの前にDropoutを使うのが性能が良いことが多いが、中、後に入れる場合も性能が良くなることがあり何とも言えない感じの結論となっています。ただ、著者らは複数層のRNNモデルに対しても実験を行っており、その場合にはネットワークの最初と最後にDropoutを入れるのが良い性能の傾向があると結論付けています。

はっきりとした結論は言えそうも無く、結局はタスクによるんじゃないかという感じですが、この辺はやはりディープラーニングはハイパーパラメータチューニング職人の世界であるといわれる一因なんじゃないかと感じました。

 

Kerasの作者が書いたDeep Learning解説本:「Deep Learning with Python」を読んだ

タイトルの通り、広く使われているディープラーニングフレームワークであるKerasの作者François Chollet氏によるDeep Learningを解説した本「Deep Learning with Python」を読みました。今月末には日本語版が出るのでその前に読み終えることが出来て良かった。かなり分かりやすく、今まで何となく知っていた知識の整理に役だったのでオススメです。英語版を読んだので日本語版の翻訳が良いのか分からないですが、コードや図表が多いので日本語版でも理解は容易だと推測します。ちなみに英語版はUSのAmazonでかなりの高評価を受けています。


この本の特徴は、すべてのコードがKerasを用いて書かれており、コードが簡潔で理解しやすいという点だと思います。そして、本書を通じて(多分)一度も数式が登場していないので初学者にはとても読みやすいと思います(ただ、文章で説明するよりも数式なら一発で分かることというのもあるので、この点はレベルによります)。例えば、多層ニューラルネットが何をしているのかといった説明に、くしゃくしゃに丸めた紙を一層毎に開いていくイメージに似ている、といった説明がされており、初めて学ぶ人にとっては理解しやすいかと感じました。

カバーされている内容は、基本的なFully Connected Layerを用いたDNNから、畳み込み層を用いたCNN、RNNによる時系列データの取り扱い、GANやVAEなどによる画像生成などこの一冊でかなり広い分野をカバーできるようになっています。目を引いたのはCNNを用いた分類器の判断根拠を示す可視化手法(中間層の活性化状況やGrad-GAMといったヒートマップを用いた可視化)を書かれており内容が充実しています。その他にもRNNモデルの解説でLSTMやGRUが内部で何をしているかなどには、深く立ち入らず概念だけ説明して、Kerasを使えばこれだけでできるよ、と書かれているところも研究者よりは実践者向けだと感じました。

その他には、最後の章に著者が考えるディープラーニングの限界や、ディープラーニング技術の将来予測が書かれており興味深かったです。また、「この本を読み終わった後に進歩の速いディープラーニング分野の勉強を続けるにはどうしたらいいか」という内容が最後に書かれており、そこには「Kaggleをやれ、arXivで論文を読め」と書かれているのでその辺りを頑張って行きたいと思います。

恐らく、機械学習を学び始めて「ゼロから学ぶディープラーニング」を読み終えた人が、ディープラーニングを使って何か自分で試してみたいと思った時に、Kerasを学んで簡単にモデルを構築できるようになるためのステップとして最適な本だと思いました。