Голосовые интерфейсы - спустя год
Вообще, удивительно насколько быстро всё это развивается. Прошёл год после моего поста про голосовые интерфейсы - в то время я только начинал говорить с GPT голосом, а сегодня уже не могу представить взаимодействие с интерфейсом без этого.
А сейчас я наконец-то распробовал
Advanced Voice Mode в ChatGPT, презентованный ещё в мае (посмотреть что это такое -
тут). Я настолько в восторге, что даже немного страшно :) Последние четыре вечера практиковал с ним английский. Но, конечно, в итоге получалось совсем не про английский.
Это теперь полноценный голосовой ассистент. Прям как в Her.
Мои мысли на сегодня:
1) Изучение иностранного языка уже не будет прежним. Особо классно работает то, что я прошу его каждый раз говорить с разной интонацией, скоростью и вообще импровизировать.
+ прошу быть более проактивным в разговорах, а не только реагировать
+ киллер фича - это “пожалуйста, исправляй мои ошибки в моменте и продолжай диалог”. Это прям как с настоящим репетитором, когда ты общаешься и моментально получаешь обратную связь на свои ошибки, а потом повторяешь правильный вариант. Вижу за этим много пользы на дистанции
+ прошу говорить быстрее
+ прошу говорить более сложными словами и сразу прошу объяснять их.
Короче, круто! 10/10
На самом деле, на каком-то третьем часу разговоров на английском с GPT я осознал, что обсуждаю с ним тонкости использования эффектов при создании треков в Albeton и понял, что в целом мой английский нормального уровня для коммуникации. Основные барьеры остались в голове. Да и GPT говорит что нужно просто глупые ошибки с артиклями всякими поправить и уже давно пора идти больше практиковать с живыми людьми. А Voice Mode положительно влияет на мою уверенность, да и просто наговоренность.
2) Voice-to-text ввод мне нравится больше. Надиктовать задачу всегда быстрее голосом, но на выходе лучше всё-таки получить текст - это по прежнему мой основной кейс взаимодействия с GPT в сложных вопросах, требующих раскрыть задачу. Читаю я (пока нейролинки всякие не вживил) всё-таки быстрее, чем слушаю :)
3) Мне пока сложно представить даже направления, в которых это все может развиваться дальше. В марте я писал довольно спорный
пост-идею про медитации - и это уже работает сильно лучше, правда всё равно недостаточно хорошо чтобы с ним можно было проводить полноценные сессии. Мне не хватает чтобы он без меня проводил эту медитацию, каждые 15 секунд просит обратной связи, это сбивает, конечно. Но как MVP - норм!
4) В голосовом диалоге с GPT у меня больше внимания. Это один из моих главных инсайтов: думаю, тут всё как с живыми людьми. В текстовом чате мы постоянно отвлекаемся в ожидании ответа, начинаем думать о своем, читать новости, переключаться на задачи, а 1-1 диалог всё-таки заставляет сфокусированно думать и обсуждать одну идею. Поэтому более глубокие вопросы оставляю для voice-to-voice чата.
5) Я ещё не пробовал (и сомневаюсь, что буду пробовать) соседние истории - например, как люди генерируют
индивидуальные голосовые подкасты через notebooklm. Это всё звучит круто, но пока не понимаю что для себя оттуда забрать.
6) Заметочки и посты буду писать вручную :) Вообще, немножко исследую тему “письмо ручкой на бумаге vs письмо на клавиатуре vs голосовой ввод”. И там как будто нет какого-то простого ответа - важно сочетать все методы ввода информации. Серьёзно посматриваю на какой-нибудь блокнот reMarkable для теста.
Но - на удивление появился интересный юзкейс, который тестирую: обсуждаю с ChatGPT разные темы voice-to-voice, в конце прошу подвести итоги нашего диалога, вывести основные инсайты, которые я получал и оформить всё в заметку. Дальше беру и руками складываю в базу знаний - лишним точно не будет!
Отправляю этот пост - надеюсь, вернусь через год с апдейтом и там, в будущем, я уже меньше смотрю в экран
🙂