不良品予測チャレンジの解説 「Using Big Data to Enhance the Bosch Production Line Performance: A Kaggle Challenge」を読んだ

Kaggleのコンテスト(Bosch Production Line Performance Challenge)としてBoschがデータを提供しているコンテストの解説論文を読んだ。

Using Big Data to Enhance the Bosch Production Line Performance: A Kaggle Challenge

このコンテストは工場の様々なセンサーデータを用いて生産されたパーツの良・不良を判定するもの。時系列のデータとなっているが、この論文の手法だと時系列の影響は特に使っていないようだ。

とにかく特徴量が多いので、カテゴリ変数を一つの数値変数に変換する手法を使ったのち、カラム数を減らしてXGBoostを用いてモデルを構築している。

また、データ量も多くメモリに乗りきらないのでオンライン学習の手法を用いている。

モデルの良さの評価にはMatthew’s Correlation Coefficientという、頻度の低いイベントの評価指標に使えるものを用いている。

所感としては、Kaggleで人気のXGBoostはsparseで大量のデータに対して強いんだなあと感じさせられる。

Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

I read a paper about abstractive sentence summarization.
This is the link.

In this paper, the authors used attention mechanizm to decide where to focus when decoder outputs.
This neural network model is a modification of the state-of-the-art machine translation model.

This method outperformed the current text abstraction methods.
These days, the improvements of RNN method are heavily affecting Natural Language Processing areas.

I think abstractive sentece summarization is one of the promising areas for advancement of NLP.