論文 | 10001 ideas

LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

LLMとVisual Perceptionを組み合わせた論文を読んだ。論文：PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024) […]

ViTの構造を見直すことで高効率なアーキテクチャを提案している論文を読んだ。論文：SHViT: Single-Head Vision Transformer with Memory Efficient Macro Des […]

論文：Scaling Laws of Synthetic Images for Model Training … for Now (CVPR 2024) どんなもの？ Synthetic Dataを用いてモデルを学習した […]

高速にOpen Vocabulary物体検出を行う手法の論文を読んだ。YOLO-World: Real-Time Open-Vocabulary Object Detection (CVPR 2024) どんなもの？ O […]

ICLR 2024の論文を読んだ。Visionモデルをfinetuneする際にSGDを使って最初の層をfreezeすることで、AdamWと同程度の性能を少ないメモリ消費量で実現できる。論文：HOW TO FINE-TUN […]

CVPR 2024に採択されている、Vision&Languageにより自動運転タスクの性能向上を行う論文を読んだ。著者らはSyracuse大学とBosch Research所属。論文：VLP: Vision L […]

Appleから提案されているモバイルデバイス向けのCLIP学習手法とCLIPモデルの論文を読んだ。CVPR 2024で採択されている。論文：MobileCLIP: Fast Image-Text Models throu […]

低いFLOPSのモデルで大規模な事前学習データセットを活用する際に効果的に学習するモデルを提案している論文を読んだ。論文：ParameterNet: Parameters Are All You Need (CVPR 2 […]

事前学習手法の物体検出への適用時に発生する問題点を挙げて、物体検出に適した事前学習手法を提案しているAlignDet: Aligning Pre-training and Fine-tuning in Object De […]

単純なアイデアで学習精度を保ったまま高速化を実現した、カリキュラム学習の論文を読んだ。論文：EfficientTrain: Exploring Generalized Curriculum Learning for T […]