X

LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

LLMとVisual Perceptio…

Hiro

Single headで高効率なViTを提案:SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design

ViTの構造を見直すことで高効率なアーキ…

Hiro

[論文読み] Synthetic画像でのScaling則:Scaling Laws of Synthetic Images for Model Training … for Now

論文:Scaling Laws of S…

Hiro

[論文読み] 高速なOpen Vocabulary 物体検出 YOLO-World: Real-Time Open-Vocabulary Object Detection

高速にOpen Vocabulary物体…

Hiro

[論文読み] SGDでVisionモデルをfinetuneするときは最初の層をfreezeする:HOW TO FINE-TUNE VISION MODELS WITH SGD

ICLR 2024の論文を読んだ。Vis…

Hiro

[論文読み] Vision&Languageによる自動運転タスクの精度向上:VLP: Vision Language Planning for Autonomous Driving

CVPR 2024に採択されている、Vi…

Hiro

[論文読み] モバイルデバイス向けの効果的なCLIP学習手法:MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Appleから提案されているモバイルデバ…

Hiro

[論文読み] low FLOPSモデルで大規模事前学習セットを有効活用 ParameterNet: Parameters Are All You Need

低いFLOPSのモデルで大規模な事前学習…

Hiro

[論文読み] 物体検出に適した事前学習手法を提案 AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

事前学習手法の物体検出への適用時に発生す…

Hiro

[論文読み] Vision-Language学習データセットを圧縮:Too Large; Data Reduction for Vision-Language Pre-Training

Vision and Languageモ…

Hiro