π SmolVLM: Π½Π°Π±ΠΎΡ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΡ
VLM ΠΎΡ HuggingFace - Base, Synthetic ΠΈ Instruct.
SmolVLM - ΡΠ΅ΡΠΈΡ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΡ
VLM Ρ 2 ΠΌΠ»ΡΠ΄. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², ΠΎΡΠ»ΠΈΡΠ°ΡΡΠΈΡ
ΡΡ Π²ΡΡΠΎΠΊΠΎΠΉ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠ°ΠΌΡΡΠΈ ΠΈ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ ΡΠ°Π·Π²Π΅ΡΠ½ΡΡΡ Π½Π° Π»ΠΎΠΊΠ°Π»ΡΠ½ΡΡ
ΡΡΡΡΠΎΠΉΡΡΠ²Π°Ρ
Ρ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½Π½ΡΠΌΠΈ ΡΠ΅ΡΡΡΡΠ°ΠΌΠΈ.
ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° SmolVLM ΠΎΡΠ½ΠΎΠ²Π°Π½Π° Π½Π° Idefics3, Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΠΌΠΈ ΠΎΡΠ»ΠΈΡΠΈΡΠΌΠΈ:
π’Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΠ·ΡΠΊΠΎΠ²ΠΎΠΉ ΠΎΡΠ½ΠΎΠ²Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ SmolLM2 1.7B Π²ΠΌΠ΅ΡΡΠΎ Llama 3.1 8B;
π’ΠΠΈΠ·ΡΠ°Π»ΡΠ½Π°Ρ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΡΠΆΠΈΠΌΠ°Π΅ΡΡΡ Π² 9 ΡΠ°Π· Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΡΡΠ°ΡΠ΅Π³ΠΈΠΈ pixel shuffle, ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ 4-ΠΊΡΠ°ΡΠ½ΡΠΌ ΡΠΆΠ°ΡΠΈΠ΅ΠΌ Π² Idefics3;
π’ΠΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ ΠΏΠ°ΡΡΠΈ ΡΠ°Π·ΠΌΠ΅ΡΠΎΠΌ 384x384 ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ, Π° Π½Π΅ 364x364;
π’ΠΠΈΠ·ΡΠ°Π»ΡΠ½Π°Ρ ΠΎΡΠ½ΠΎΠ²Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP Ρ ΠΏΠ°ΡΡΠ°ΠΌΠΈ 384x384 ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ ΠΈ Π²Π½ΡΡΡΠ΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°ΡΡΠ°ΠΌΠΈ 14x14;
π’ΠΠΎΠ½ΡΠ΅ΠΊΡΡΠ½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±ΡΠ»ΠΎ ΡΠ°ΡΡΠΈΡΠ΅Π½ΠΎ Π΄ΠΎ 16 ΡΡΡ. ΡΠΎΠΊΠ΅Π½ΠΎΠ² Π΄Π»Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΈ ΡΠ°Π±ΠΎΡΡ Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΠΌΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌΠΈ.
ΠΠΎΠ΄Π΅Π»Ρ ΠΊΠΎΠ΄ΠΈΡΡΠ΅Ρ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΏΠ°ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ 384x384 Π² 81 ΡΠΎΠΊΠ΅Π½, ΡΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π΅ΠΉ ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°ΡΡ ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ Π·Π°ΠΏΡΠΎΡΡ ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Π²ΡΠ΅Π³ΠΎ 1.2 ΡΡΡ. ΡΠΎΠΊΠ΅Π½ΠΎΠ², Π² ΡΠΎ Π²ΡΠ΅ΠΌΡ ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ 16 ΡΡΡ. ΡΠΎΠΊΠ΅Π½ΠΎΠ². ΠΡΠΎ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²ΠΎ ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡ ΠΊ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΠΎΠΉ ΡΠΊΠΎΡΠΎΡΡΠΈ ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ (Π² 3,3-4,5 ΡΠ°Π·Π°) ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ (Π² 7,5-16 ΡΠ°Π·) ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ Qwen2-VL.
ΠΠ»Ρ ΡΠ°ΠΌΠΎΡΡΠΎΡΡΠ΅Π»ΡΠ½ΠΎΠΉ ΡΠΎΠ½ΠΊΠΎΠΉ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ
transformers ΠΈ TRL. Π Π°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠ°ΠΌΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½
Π±Π»ΠΎΠΊΠ½ΠΎΡ Π΄Π»Ρ ΡΠ°ΠΉΠ½ΡΡΠ½Π° Π½Π° VQAv2 Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ ΡΠΎΠ½ΠΊΠΎΠΉ Π½Π°ΡΡΡΠΎΠΉΠΊΠΈ. SmolVLM ΠΈΠ½ΡΠ΅Π³ΡΠΈΡΠΎΠ²Π°Π½ Ρ TRL Π΄Π»Ρ DPO ΡΠ΅ΡΠ΅Π· CLI.
β οΈ ΠΡΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡΠ½ΠΎΠΉ Π·Π°Π³ΡΡΠ·ΠΊΠ΅ QLoRA ΡΠ°ΠΉΠ½ΡΡΠ½ ΠΏΠΎΡΡΠ΅Π±Π»ΡΠ΅Ρ ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM
πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0
π‘Π‘ΡΠ°ΡΡΡ Π½Π° HF
π‘ΠΠ°Π±ΠΎΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
π‘Demo
@ai_machinelearning_big_data
#AI #ML #SmallVLM #Huggingface