[論文読み] Synthetic画像でのScaling則：Scaling Laws of Synthetic Images for Model Training … for Now

Hiro

1年 ago

Categories: 機械学習論文

[論文読み] Synthetic画像でのScaling則：Scaling Laws of Synthetic Images for Model Training … for Now

論文：Scaling Laws of Synthetic Images for Model Training … for Now (CVPR 2024)

どんなもの？

Synthetic Dataを用いてモデルを学習した際にScaling則が成り立つのか検証した。実画像のようにScaling則の傾向は確認されたが、CLIPモデル学習においては実画像よりもわずかに非効果的であり、画像分類タスクにおいては実画像と比べて大きく劣る傾向を確認している。synthetic画像でのscaling則は、

実画像が少ない（ImageNetで50万枚ほど）
OODデータでの評価となる場合
実画像と共に学習に使われる場合に効果的

に成り立つことが実験的に確認された。

先行研究と比べてどこがすごい？

先行研究ではsyntheticデータを用いたscaling則が成り立つかを確認されていなかった。この研究ではそこを確認。また、syntheticデータを作成する際に重要なファクターとして、Text-to-Image Modelsの検証、Guidance Scaleの調整、クラス特有のプロンプトを作ること、を挙げている。

技術や手法のキモはどこ？

実画像でのscaling則の式を、Scaling AbilityとPerformance at 1.3Mという2つの項に分解し、この２つの側面からsyntheticデータの作り方として挙げている項目の有効性を検証している。

どうやって有効だと検証した？

データサイズを変えた学習セットを作ることで、モデルの最終的な精度とlossを確認して、合成画像でのscaling則を確認している。

議論はある？

画像のクラスによってはscaling則が弱いクラスが存在しており、その原因を調査している。画像の多様性が原因ではなく、recognizability が低いクラスが原因と推定されている。そのようなクラスはそもそも画像生成モデルがうまく生成するのが苦手そうなクラスでもある。

次に読むべき論文は？

近年の合成画像をモデル学習に使ってそうな論文。
Mert Bulent Sariyildiz, Karteek Alahari, Diane Larlus, and Yannis Kalantidis. Fake it till you make it: Learning transferable representations from synthetic imagenet clones. In CVPR, 2023.

Single headで高効率なViTを提案：SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design »

« [論文読み] 高速なOpen Vocabulary 物体検出 YOLO-World: Real-Time Open-Vocabulary Object Detection

Tags: 機械学習論文

Hiro: