自然言語処理 画像キャプションのデータセット Cornell NLVR

Hacker Newsで取り上げられていた自然言語処理のデータセット Cornell NLVRの紹介です。

公式ページ:http://lic.nlp.cornell.edu/nlvr/

データセット:https://github.com/clic-lab/nlvr

論文:http://alanesuhr.com/suhr2017.pdf

これは、色の付いた図形が複数描かれた画像とキャプションのセットが与えられて、そのキャプションが正しく図を説明しているかを true/ falseで判定するタスクのためのデータセットです。データ数は92,244個でクラウドソーシングでデータを集めたそうです。

例えば、以下の画像のキャプションとして「There is exactly one black triangle not touching any edge」(他のエッジに触れていない黒い三角形がただ一つある)が与えられており、この正解ラベルは「true」となっています。

他にも、例えば次の画像のキャプションとして「There is a box with multiple items and only one item has a different color」(複数アイテムとともに一つ箱があり、ただ一つのアイテムが異なった色を持つ)が与えられ、この正解ラベルは「false」といったようになっています。

 

現在の、トップのテスト精度は公開データに対して約67%程度であり、ランダムに答えた場合よりも少し良いといった程度でしょうか。まだまだ、発展させる余地があるテストデータのようです。

Character-level Convolutional Networks for Text Classification を読んだ

Character-level Convolutional Networks for Text Classification を読んだ。
テキストの分類を文字単位のCNNで行うと、大規模なデータセットでは従来の手法よりも良い結果が得られたという論文。

テキスト関連の処理は形態素単位でのRNNを使うのがセオリーなのだと思っていたが、文字単位でCNNを行った際に良い結果が出たというのは驚き。
論文中にも書かれていたが、テキストというのは文字単位の信号処理ととらえることが出来るのかもしれない。

The Evolution of Sentiment Analysis を読んだ

感情分析に関するサーベイ論文 The Evolution of Sentiment Analysis を読んだ。

感情分析の分野は2005年ごろから急速に論文数が伸びており、様々な分野に応用が始まっている。
Google ScholarとScopusから論文を抽出して引用数などで比較をしていた。

ソフトウェア工学の論文と比較して、注目が集まる論文が集中しやすいというのは面白い傾向だと思った。