線形代数の復習をかねてIntroduction to Applied Linear Algebraという本を読んでいます。線形代数についての基礎(ベクトル・行列)から機械学習に関する応用など幅広く書かれていて、読み始めですがかなり分かりやすいです。 実世界での応用事例についてを紙幅を割いて各章で述べられているところも、初学者にとってはなんで線形代数を勉強するのかという疑問を解決するために良いと思っています。
具体的なアルゴリズムとしては、元文書とAdversarial Exampleのノルムを閾値以下である・Watermarkの中に含まれるピクセルをのみを変更する、という制約の下でCTC loss functionと呼ばれる最終層で出力される値から正解のデータ列になりうる確率を元に計算する損失関数を最小化するように最適化問題を解いていく。論文では、再急降下法+モーメンタムのようにして文書ベクトルを更新していくと述べられている。
Squeeze: 各特徴マップはフィルタがかけられた局所的な部分の情報の集まりであり、大局的な情報を持っていない。そのためSqueeze処理でチャネルごとの統計情報を取得する。具体的にはGlobal Average Poolingをかける。もっと複雑な処理を使っても良いかもしれないと著者らは述べている。
SEブロックの役割を現実的なレベルで理解するための考察が述べられている。Global Average Poolingを行わないNoSqueezeというモジュールを構成し、精度を見るとSEブロックよりも下がる。これはSEブロックが特徴マップ全体の情報を活用していることを示している。また、Excitationの理解のために、ImageNetの異なるクラスの画像に対して特徴マップが各層でどのように反応しているかを見ている。
少し前に「The Data Science Design Manual」という本を読んだので紹介します。
この本の著者はAlgorithm Design Manualを書いた、Steven S. Skiena先生であり内容自体はデータサイエンスの基礎的な内容を網羅的に説明した本です。非常にユーモアがある書き方で、データサイエンスの勉強はもちろん純粋な読み物としても楽しめる部分があります。 どのくらいユーモアがあるかというのは序文のCaveatという部分を読めばわかります。以下はその部分の引用です。 「It is traditional for the author to magnanimously accept the blame for whatever deficiencies remain. I don’t. Any errors, deficiencies or problems in this book are somebody else’s fault, but I would appreciate knowing about them so as to determine who is to blame.」
本書では欠測データの種類、単一代入法・多重代入法の理論的な側面とともにRによる実際のコード例も紹介されている。
例えば、一口に欠測データといってもその生成メカニズムとしてMCAR, MAR, NMARなどの種類が存在する。ある調査では経験的に完全にランダムに欠損が生じているデータ(MCAR)は公的統計の調査においては約10~20%程度という結果もある。
MARによる欠損は単一代入法ではバイアスが生じるため、多重代入法を利用するべきである。多重代入法とは欠測データの分布から独立かつ無作為に抽出されたM個のシミュレーション値によって欠測値を置き換えるものである。