View in Telegram
Embedded Doka
Бенчмарк Whisper.cpp на 60-минутном файле с русской речью: ▫️large-v3 [GPU]: 15:40 (4x) ▫️large-v3-turbo [GPU]: 5:45 ▫️large-v3-turbo [GPU+NPU]: 3:20 (18x) Как видно из цифр и скрина: использование NPU (ANE - Apple Neural Engine) не только ускоряет инференс…
В свободное время начал шатать LLM'ки на локальном железе. Кажется еще чуть-чуть и пересекутся две кривые: доступность мощных и предобученных моделей для решения широкого круга задач (локально) и дешевое железо для их запуска. Вот тут писали про использование Phi-4 для FPGA-разработки (там в комментариях еще сгенерённый код двухклокового FIFO). Что примечательно, эта Phi-4 по размеру влезает в стоковый Mac mini M4 за $600 и позволяет все эти же упражнения делать локально. Сейчас у меня две платформы, чтобы потрогать разные LLM "дёшево и сердито и вмещается в рюкзак с ноутбуком 😅": ▫️Mac mini M4 (16GB 120GB/s) ▫️NUC-подобный х86 со встройкой Radeon 780M (96GB 60GB/s) У эппла самая большая проблема - фикс размера ОЗУ (притом без 100% предоплаты доступны только базовые версии), но если всё упирается в её пропускную способность или есть возможность задействовать в дополнении к GPU еще и NPU (как в случае с Whisper) - тут конечно в своей ценовой категории мак мини вне конкуренции). Еще наткнулся на довольно исчерпывающий бенчмарк LLM'ок на широком спектре оборудования. В конце бенчмарка приведено заключение: ▫️Покупайте геймерскую серию от NVIDIA, если хотите сэкономить ▫️Берите серверную версию NVIDIA, если у вас бизнесовые задачи ▫️Возьмите макинтош, если не хотите заморачиваться с обслуживанием и хотите тишины и энергоэффективности (и говорить всем, что у вас мак 😃) Инженеры, а какие LLM и для каких задач вы используете локально на машине: поделитесь в комментариях. @embedoka
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily