大規模データのクラスタリングには Mini Batch K-Means を使うべきという話

Hiro

7年 ago

Categories: [Machine Learning][paper]programmingpythonデータサイエンス機械学習論文

大規模データのクラスタリングには Mini Batch K-Means を使うべきという話

タイトルの通りですが、大規模データをクラスタリングする際には単純なK-Means法ではなく、Mini Batch K-Means法を使うべきという話です。

とある大規模データ（150万件ほどの文章ベクトル）をクラスタリングしたいことがあったのですが、単純にScikit-learnのK-Means法に投げてクラスタリングを走らせていたところ、数時間経っても一向に終わる気配がありませんでした。色々と調べていると、大規模データのクラスタリングにはMini Batch K-Means法を使うべきという記述を見つけました。公式ドキュメントによると、大体1万件を超えるデータをクラスタリングする場合にはMini Batch K-Meansを使うべきとのことです。

APIとしては単純にKMeansをMiniBatchKMeansに置き換えれば動きます。理論的な背景としては、論文 “Web Scale K-Means clustering” D. Sculley, Proceedings of the 19th international conference on World wide web (2010)に書かれており、ざっと読んだところランダムサンプリングしてクラスタの中心を計算していくのですが、KMeansとは異なり、各点ごとに中心を逐次的にアップデートしていくことで計算量を減らしています。

論文に載っていた速度比較ですが、圧倒的にMiniBatchKMeansが高速です。図の青がMiniBatchKMeans、赤がKMeans、横軸が時間。

この手法を使ったところ、KMeansでは数時間経っても終わらなかったクラスタリングが、MiniBatchKMeansでは数分程度で終わりました。ということで、大規模データのクラスタリングにはMIniBatchKMeansを使うべきということを学んだという話でした。

大規模データのクラスタリングには Mini Batch K-Means を使うべきという話

関連

時系列クラスタリングの研究サーベイ論文を読んだ

機械学習によるユーザ離脱率の予測論文：「I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social Application」

[論文読み] Vision-Language学習データセットを圧縮：Too Large; Data Reduction for Vision-Language Pre-Training