Омни модель локально на айпаде
Вышла MiniCPM-o 2.6 - опенсорсная омни модель от китайцев из OpenBMB. По пониманию картинок, моделька, не смотря на свой скромный размер, обходит ранние версии GPT-4o.
За основу взяли Qwen2.5 7B, к которому приклеили Whisper и SigLip для обработки аудио и картинок на вход. Для синтеза речи используется ChatTTS-200M. У получившейся модели всего 8 миллиардов параметров, то есть квантизированную версию запустить можно практически где угодно.
Хоть и визуальные бенчи и понимание звука работают довольно хорошо, но разговаривает модель точно не на уровне 4о. Модель сносно говорит на английском (китайский проверить не смог) и может немного играться голосом, но про остальные языки можно забыть. На тасках посложнее, вроде пения, модель совсем сыпется. Но результаты, для такой весовой категории, всё равно отличные.
Это всё ещё одна из первых опенсорс омни моделей, тренировать их пока что не очень умеют. Но то же самое было и с VLM совсем недавно, а сейчас у нас есть сразу несколько хороших семейств моделей в совсем разных весовых категориях. Дальше будет только лучше.
Демо (русский немного понимает, но не разговаривает)
Веса
@ai_newz