View in Telegram
Forwarded from Machinelearning
🌟 SmolVLM: Π½Π°Π±ΠΎΡ€ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM ΠΎΡ‚ HuggingFace - Base, Synthetic ΠΈ Instruct. SmolVLM - сСрия ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Ρ… VLM с 2 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ высокой ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒΡŽ использования памяти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ Π½Π° Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… устройствах с ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ рСсурсами. АрхитСктура SmolVLM основана Π½Π° Idefics3, с нСсколькими отличиями: πŸŸ’Π’ качСствС языковой основы ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ SmolLM2 1.7B вмСсто Llama 3.1 8B; πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ информация сТимаСтся Π² 9 Ρ€Π°Π· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии pixel shuffle, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с 4-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΌ сТатиСм Π² Idefics3; πŸŸ’Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΠ°Ρ‚Ρ‡ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 384x384 пиксСлСй, Π° Π½Π΅ 364x364; πŸŸ’Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ основа ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½Π° Π½Π° shape-optimized SigLIP с ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 384x384 пиксСлСй ΠΈ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΌΠΈ ΠΏΠ°Ρ‚Ρ‡Π°ΠΌΠΈ 14x14; πŸŸ’ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ SmolLM2 Π±Ρ‹Π»ΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΎ Π΄ΠΎ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с нСсколькими изобраТСниями. МодСль ΠΊΠΎΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ‚Ρ‡ изобраТСния 384x384 Π² 81 Ρ‚ΠΎΠΊΠ΅Π½, Ρ‡Ρ‚ΠΎ позволяСт Π΅ΠΉ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ тСстовыС запросы ΠΈ изобраТСния с использованиСм всСго 1.2 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ Qwen2-VL ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 16 тыс. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Π­Ρ‚ΠΎ прСимущСство ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ высокой скорости ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ (Π² 3,3-4,5 Ρ€Π°Π·Π°) ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ (Π² 7,5-16 Ρ€Π°Π·) ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Qwen2-VL. Для ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки SmolVLM ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ transformers ΠΈ TRL. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ прСдставлСн Π±Π»ΠΎΠΊΠ½ΠΎΡ‚ для Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½Π° Π½Π° VQAv2 с использованиСм LoRA, QLoRA ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ Ρ‚ΠΎΠ½ΠΊΠΎΠΉ настройки. SmolVLM ΠΈΠ½Ρ‚Π΅Π³Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ с TRL для DPO Ρ‡Π΅Ρ€Π΅Π· CLI. ⚠️ ΠŸΡ€ΠΈ batch sizes=4 ΠΈ 8-Π±ΠΈΡ‚Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ QLoRA Ρ„Π°ΠΉΠ½Ρ‚ΡŽΠ½ потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ ~16 GB VRAM πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅:  Apache 2.0 πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π° HF πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ 🟑Demo @ai_machinelearning_big_data #AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily