KDD2019の論文を少しずつ読んでいってる。特にApplied Data Science Track Paperの方は、企業で実際に機械学習を運用している際の話が書かれているので面白く読める。 今回はMicrosoft […]
投稿者: Hiro
書評:The Data Science Design Manual
少し前に「The Data Science Design Manual」という本を読んだので紹介します。 この本の著者はAlgorithm Design Manualを書いた、Steven S. Skiena先生であり内 […]
時系列クラスタリングの研究サーベイ論文を読んだ
「Time-series clustering – A decade review」という論文を読んだ。過去10年間の時系列クラスタリングの研究動向についてサーベイした論文。クラスタ手法のみではなく、効率や品 […]
「欠測データ処理」を読んだ
データ分析の前処理における重要なポイントの一つとして、欠測データをどのように扱うかがある。 入門向けの記事だと単純に平均値や0埋めなどを施して、そのまま機械学習モデルに投入する例が多いが統計学的にはこのような単一代入法と […]
外れ値処理の一手法:Winsorizingについて
機械学習や統計の分野における外れ値処理の手法の一つとしてWinsorizingと呼ばれる手法がある。日本語の解説が少なかったので書いてみる。 手法自体は非常に簡単で、外れ値を外れ値以外の最大値・最小値で置き換えるというも […]
機械学習による化合物テストツールの論文:「PrePeP – A Tool for the Identification and Characterization of Pan Assay Interference Compounds」
PrePeP – A Tool for the Identification and Characterization of Pan Assay Interference Compounds Maksim Koptelo […]
機械学習によるユーザ離脱率の予測論文:「I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social Application」
I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social Application C […]
[KDD2018 論文読み] Smoothed Dilated Convolutions for Improved Dense Prediction
Smoothed Dilated Convolutions for Improved Dense Prediction Zhengyang Wang (Washington State University); Shui […]
XGBoost 0.81でtrain()が落ちる
タイトルの通り、XGBoostの現時点での最新バージョンを入れてtrain()を呼び出したところ、Jupyter Notebookで「”The kernel appears to have died. It […]
【書評】中国のAI技術と進むべき方向性:「AI Superpowers: China, Silicon Valley, and the New World Order」
最近、アメリカのAmazonで話題となっている「AI Superpowers: China, Silicon Valley, and the New World Order」という本を読んだ。 色々と面白い内容が多かった […]