大規模言語モデルに関連する知識を俯瞰的に見につけようと思い、まずは『大規模言語モデルは新たな知能か』から読み始めた。初学者やChatGPTなどのLLMシステムを使用する人が、いったいどのような仕組みで、大規模言語モデルが […]
カテゴリー: DeepLearning
Embeddingの違いによる後段タスクへの影響推定:Understanding the Downstream Instability of Word Embeddings
MLSys 2020の論文より。Embeddingが異なった場合、後段のNLPタスクに対してどれだけの影響があるかを、後段モデルの訓練を行わないで推定しようという論文の「Understanding the Downstr […]
ニューラルネットワークのPruningをメタアナリシスした論文:What is the State of Neural Network Pruning?
MLSys 2020という学会で発表された面白そうな論文を読んだ。タイトルは「What is the State of Neural Network Pruning?」で、Neural Network Pruningにつ […]
対話生成におけるマルチカリキュラム学習の活用論文:Learning from Easy to Complex Adaptive Multi-curricula Learning for Neural Dialogue Generation
AAAI 2020の論文「Learning from Easy to Complex: Adaptive Multi-curricula Learning for Neural Dialogue Generation」よ […]
論文読み:Squeeze-and-Excitation Networks
元論文:Squeeze-and-Excitation Networks 最近良くCNN関連のタスクでよく使われる手法なので、論文を読んでみたときのメモ。 ググると他にも詳しい解説記事があるので、あくまでも個人的なメモとし […]
Microsoftでの時系列データ異常検知手法の論文:「Time-Series Anomaly Detection Service at Microsoft」
KDD2019の論文を少しずつ読んでいってる。特にApplied Data Science Track Paperの方は、企業で実際に機械学習を運用している際の話が書かれているので面白く読める。 今回はMicrosoft […]
【書評】中国のAI技術と進むべき方向性:「AI Superpowers: China, Silicon Valley, and the New World Order」
最近、アメリカのAmazonで話題となっている「AI Superpowers: China, Silicon Valley, and the New World Order」という本を読んだ。 色々と面白い内容が多かった […]
Kerasで転移学習をする際にはpreprocess_input()を呼ぼう
画像に関するタスクを扱っている際に、事前学習済みの重みを利用した転移学習を行うことは良い精度を出すことが多く広く使われています。Kearsには学習済みのいくつかのモデルが用意されており簡単に転移学習を行うことが出来ます。 […]
Batch Normalization と Dropout は併用しない方が良いという話
Deep Learningのモデルを訓練していたところ、思うようにvalidation lossが下がらないことがあった。色々と調べた結果、Batch NormalizationとDropoutを併用していたのが原因であ […]
MITのLex Fridman氏によるAIポッドキャスト
MITのresearch scientistである、Lex Fridman氏がAI関連のポッドキャストを始めたそうです。AI関連のBig-pictureについて著名なゲストと話すとのことです。https://lexfri […]