LLMとVisual Perceptionを組み合わせた論文を読んだ。論文:PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024) […]
Single headで高効率なViTを提案:SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design
ViTの構造を見直すことで高効率なアーキテクチャを提案している論文を読んだ。論文:SHViT: Single-Head Vision Transformer with Memory Efficient Macro Des […]
[論文読み] Synthetic画像でのScaling則:Scaling Laws of Synthetic Images for Model Training … for Now
論文:Scaling Laws of Synthetic Images for Model Training … for Now (CVPR 2024) どんなもの? Synthetic Dataを用いてモデルを学習した […]
[論文読み] 高速なOpen Vocabulary 物体検出 YOLO-World: Real-Time Open-Vocabulary Object Detection
高速にOpen Vocabulary物体検出を行う手法の論文を読んだ。YOLO-World: Real-Time Open-Vocabulary Object Detection (CVPR 2024) どんなもの? O […]
[論文読み] SGDでVisionモデルをfinetuneするときは最初の層をfreezeする:HOW TO FINE-TUNE VISION MODELS WITH SGD
ICLR 2024の論文を読んだ。Visionモデルをfinetuneする際にSGDを使って最初の層をfreezeすることで、AdamWと同程度の性能を少ないメモリ消費量で実現できる。論文:HOW TO FINE-TUN […]
[論文読み] Vision&Languageによる自動運転タスクの精度向上:VLP: Vision Language Planning for Autonomous Driving
CVPR 2024に採択されている、Vision&Languageにより自動運転タスクの性能向上を行う論文を読んだ。著者らはSyracuse大学とBosch Research所属。論文:VLP: Vision L […]
[論文読み] モバイルデバイス向けの効果的なCLIP学習手法:MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
Appleから提案されているモバイルデバイス向けのCLIP学習手法とCLIPモデルの論文を読んだ。CVPR 2024で採択されている。論文:MobileCLIP: Fast Image-Text Models throu […]
[論文読み] low FLOPSモデルで大規模事前学習セットを有効活用 ParameterNet: Parameters Are All You Need
低いFLOPSのモデルで大規模な事前学習データセットを活用する際に効果的に学習するモデルを提案している論文を読んだ。論文:ParameterNet: Parameters Are All You Need (CVPR 2 […]
[論文読み] 物体検出に適した事前学習手法を提案 AlignDet: Aligning Pre-training and Fine-tuning in Object Detection
事前学習手法の物体検出への適用時に発生する問題点を挙げて、物体検出に適した事前学習手法を提案しているAlignDet: Aligning Pre-training and Fine-tuning in Object De […]
[論文読み] Vision-Language学習データセットを圧縮:Too Large; Data Reduction for Vision-Language Pre-Training
Vision and Languageモデルの学習には非常に大きなデータセットが必要といわれている。そのデータセットを小さく圧縮する論文があったので読んでみた。論文:Too Large; Data Reduction f […]