DeepLearning | 10001 ideas

[書評]『大規模言語モデルは新たな知能か』を読んだ

大規模言語モデルに関連する知識を俯瞰的に見につけようと思い、まずは『大規模言語モデルは新たな知能か』から読み始めた。初学者やChatGPTなどのLLMシステムを使用する人が、いったいどのような仕組みで、大規模言語モデルが […]

MLSys 2020の論文より。Embeddingが異なった場合、後段のNLPタスクに対してどれだけの影響があるかを、後段モデルの訓練を行わないで推定しようという論文の「Understanding the Downstr […]

MLSys 2020という学会で発表された面白そうな論文を読んだ。タイトルは「What is the State of Neural Network Pruning?」で、Neural Network Pruningにつ […]

AAAI 2020の論文「Learning from Easy to Complex: Adaptive Multi-curricula Learning for Neural Dialogue Generation」よ […]

元論文：Squeeze-and-Excitation Networks 最近良くCNN関連のタスクでよく使われる手法なので、論文を読んでみたときのメモ。ググると他にも詳しい解説記事があるので、あくまでも個人的なメモとし […]

KDD2019の論文を少しずつ読んでいってる。特にApplied Data Science Track Paperの方は、企業で実際に機械学習を運用している際の話が書かれているので面白く読める。今回はMicrosoft […]

最近、アメリカのAmazonで話題となっている「AI Superpowers: China, Silicon Valley, and the New World Order」という本を読んだ。色々と面白い内容が多かった […]

画像に関するタスクを扱っている際に、事前学習済みの重みを利用した転移学習を行うことは良い精度を出すことが多く広く使われています。Kearsには学習済みのいくつかのモデルが用意されており簡単に転移学習を行うことが出来ます。 […]

Deep Learningのモデルを訓練していたところ、思うようにvalidation lossが下がらないことがあった。色々と調べた結果、Batch NormalizationとDropoutを併用していたのが原因であ […]

MITのresearch scientistである、Lex Fridman氏がAI関連のポッドキャストを始めたそうです。AI関連のBig-pictureについて著名なゲストと話すとのことです。https://lexfri […]