В свободное время начал шатать LLM'ки на локальном железе. Кажется еще чуть-чуть и пересекутся две кривые: доступность мощных и предобученных моделей для решения широкого круга задач (локально) и дешевое железо для их запуска.
Вот
тут писали про использование Phi-4 для FPGA-разработки (там в комментариях еще сгенерённый код двухклокового FIFO). Что примечательно, эта Phi-4 по размеру влезает в стоковый
Mac mini M4 за $600 и позволяет все эти же упражнения делать локально.
Сейчас у меня две платформы, чтобы потрогать разные LLM "дёшево и сердито
и вмещается в рюкзак с ноутбуком 😅":
▫️Mac mini M4 (16GB 120GB/s)
▫️NUC-подобный х86 со встройкой
Radeon 780M (96GB 60GB/s)
У эппла самая большая проблема - фикс размера ОЗУ (притом без 100% предоплаты доступны только базовые версии), но если всё упирается в её пропускную способность или есть возможность задействовать в дополнении к GPU еще и NPU (как
в случае с Whisper) - тут конечно в своей ценовой категории мак мини вне конкуренции).
Еще наткнулся на довольно исчерпывающий бенчмарк LLM'ок на широком спектре оборудования. В
конце бенчмарка приведено заключение:
▫️Покупайте геймерскую серию от NVIDIA, если хотите сэкономить
▫️Берите серверную версию NVIDIA, если у вас бизнесовые задачи
▫️Возьмите макинтош, если не хотите заморачиваться с обслуживанием и хотите тишины и энергоэффективности (и говорить всем, что у вас мак
😃)
❓Инженеры, а какие LLM и для каких задач вы используете локально на машине: поделитесь в комментариях.
@embedoka