Рынок голоса раскололся надвое: облако против локалки, подписка против вечности
Я уже который месяц ловлю себя на мысли, что хочу просто говорить в экран, а не стучать по клавишам. Особенно вечерами, когда пальцы будто деревянные после целого дня текста. И вот на днях я наконец нажала на эту скромную кнопку микрофона — ту самую, что висит в углу экрана годами как бесполезный декор, — и буквально остановилась.
Оказалось, что пока мы все печатали, из этой крошечной фичи вырос целый рынок с настоящими идеологическими лагерями, подписками за $15 и религиозными войнами между «облачными» и «локальными».
TechCrunch только что опубликовал масштабный тест AI-диктовочных приложений. Я начала читать и застыла на третьем абзаце. Подождите, это вообще нормально, что рынок голосового ввода раскололся на два враждебных лагеря? С одной стороны — облачные сервисы, которые обещают мгновенную скорость и «умную» переписку текста, но требуют постоянного интернета и ежемесячной платы. С другой — параноики в хорошем смысле слова, которые продают приложения за $35 разово и клянутся, что твой голос никогда не покинет ноутбук.
Я посмотрела список и запуталась в ценниках
В обзоре собрали больше десятки продуктов — от Wispr Flow (это такой хорошо профинансированный стартап, который делает диктовку для macOS, Windows и iOS) до странного зверя под названием VoiceTypr, который работает без интернета и продаётся по принципу «купил раз — используешь всегда».
И вот здесь меня цепляет личная драма. Раньше диктовка была просто кнопкой «микрофон» в Word или Google Docs. Теперь это целая экосистема со своими религиями. Например, есть Monologue — приложение, которое скачивает модель ИИ прямо на ваш компьютер. То есть вы говорите, а искусственный интеллект крутится локально, без облака. Звучит как мечта параноика, но есть нюанс: за это приходится платить подпиской ($10 в месяц) или годовой лицензией.
А есть VoiceTypr — он вообще не хочет ваших подписок. Три дня пробного периода, потом lifetime license (это когда платишь один раз — $35 за одно устройство — и навсегда забываешь про слово «billing»). Исходный код открыт, если вы вдруг хотите поднять свой сервер и вообще не доверять никому.
Почему это больше, чем просто «говорить вместо печатания»
Смотрите, что происходит. Рынок разделился по осям, которые, как оказалось, важны всем, кто работает с текстом:
Облако против локалки. Wispr Flow и Aqua (кстати, Aqua — это стартап из Y Combinator, известной «кузницы» вроде Airbnb, которые выпускают компании с определённым запасом дерзости) работают быстро, потому что отправляют ваш голос на мощные серверы. Но ваши слова куда-то улетают. Monologue, VoiceTypr и Dictato клянутся, что всё остаётся на устройстве. Для кого-то это вопрос принципа, для кого-то — соответствия GDPR и корпоративной безопасности.
Подписка против вечности. Тут вообще отдельная комедия. Typeless даёт 4 000 слов в неделю бесплатно (это примерно 16 000 слов в месяц, хватит на диплом), а потом просит $12 в месяц. Superwhisper предлагает lifetime за $249.99 — и я честно не знаю, смешно это или грустно: мы живём в мире, где «купить навсегда» стало роскошью, за которую надо доплачивать.
Программисты против остальных. Особенно забавно, что некоторые приложения, вроде того же Wispr Flow, специально заточены под «вайб-кодинг» — это когда вы голосом управляете Cursor или другими IDE. Они умеют распознавать переменные в коде и даже автоматически тегать файлы в чате. То есть мы дошли до точки, где разработчики уже не пишут код пальцами, а диктуют его, как Наполеон свои мемуары.
Мне стало интересно, а что выбрать мне самой?
Я решила разобраться, как это всё выглядит со стороны обычного человека, который просто хочет быстрее отвечать на почту или вести заметки.
Оказывается, если вы пишете письма и статьи — вам, скорее, подойдёт Willow или AudioPen. Они не просто расшифровывают, а переписывают ваши слова в заданном стиле. Сказали «ну типа короче надо бы сделать так» — получили «Предлагаю рассмотреть следующий подход». Магия, хотя я немного побаиваюсь, что ИИ начнёт слишком сильно «улучшать» мои тексты, и я перестану узнавать собственный голос.
Если вы работаете с чувствительными данными — пациенты, юридические дела, корпоративная инсайдерка — тут без вариантов: локальные модели. VoiceTypr, Monologue, Dictato. Да, они могут быть чуть медленнее (хотя Dictato хвастается задержкой в 80 миллисекунд — почти мгновенно), но вы точно знаете, что запись вашего голоса не будет учить чужие нейросети где-то в дата-центре Невады.
А если вы просто хотите попробовать и не платить? Тут есть забавный перекос. Handy — открытый исходный код, бесплатно, работает на Linux, Mac и Windows. Но он «базовый», как сами разработчики признаются. Или Typeless с его щедрыми 16 000 слов в месяц на бесплатном тарифе.
Но подождите, а где подвох?
Я не уверена, но кажется, мы наблюдаем странный момент инфляции цифрового комфорта. Когда-то диктовка была функцией операционной системы. Теперь это десяток отдельных приложений, каждое из которых просит $8-15 в месяц «за безлимит». И если вы, как и я, уже платите за Spotify, Notion, ChatGPT и ещё за десяток мелочей, добавление «голосового помощника» в этот список начинает ощущаться как издёвка.
Плюс есть нерешённый вопрос с акцентами и шумом. Все обещают «почти идеальное распознавание», но я помню, как пробовала ранние версии этих приложений: если у вас хоть намёк на региональный акцент или за окном проезжает трамвай, текст превращается в сюрреалистическую поэзию. TechCrunch, конечно, тестировал на «чистой» речи, но как это работает в реальной кухне с включённым чайником — большой вопрос.
И ещё один момент, который меня цепляет. Приложения вроде Superwhisper предлагают качать разные модели ИИ — от своих собственных до Nvidia Parakeet. То есть теперь пользователь должен разбираться, какая модель лучше для его голоса? Мы пришли к тому, что чтобы просто говорить в компьютер, нужно изучать документацию по машинному обучению?
Окей, я попробовала выбрать для себя
Если вы хотите попробовать голосовой ввод, но не хотите сразу лезть в кошелёк: начните с Typeless (16 000 слов бесплатно — это серьёзно) или Handy, если вы не боитесь открытого кода и хотите чтобы всё было максимально прозрачно.
Если приватность важнее скорости: смотрите на VoiceTypr с его единоразовой оплатой или Monologue с локальной обработкой. Да, это дороже сразу, но дешевле, чем пожизненная подписка.
Если вы пишете код голосом — да, такие люди есть, и их становится больше после истории с Cursor — то Wispr Flow или Aqua, потому что они понимают контекст IDE и умеют работать с переменными.
И помните: облачные сервисы типа Wispr Flow или Willow требуют интернета и отправляют ваши голосовые данные куда-то «вовне». Если вы диктуете письмо партнёру по бизнесу — окей. Если вы диктуете пароли или персональные данные клиентов — лучше переплатить за локальную модель или открытый код.
Серьёзно, нам нужна отдельная подписка на то, чтобы говорить?
Вчера вечером — пятница, пальцы реально деревянные, на кухне шумит чайник — я наконец решилась. Открыла Aqua, навела курсор на кнопку микрофона и тут вспомнила: а ведь они отправляют голос в облако. А в заметке было что-то личное. Не секретное, но своё.
Я закрыла приложение. Открыла VoiceTypr. Там надо было скачать локальную модель. Два гигабайта. В пятницу вечером.
В итоге я просто допечатала текст пальцами. Деревянными, злыми, но своими. И подумала: может, мне просто повезло родиться в эпоху, когда клавиатура — это ещё не пережиток. Покупать lifetime-лицензию я пойду завтра. Или послезавтра. Или когда пальцы окончательно откажутся.
Материалы
- [TechCrunch AI] The best AI dictation apps, tested and ranked | TechCrunch: https://techcrunch.com/2026/05/02/the-best-ai-powered-dictation-apps-of-2025/
- [news.google.com] supporting context: https://news.google.com/rss/articles/CBMigwFBVV95cUxNQ1c5VGdQSDBEQkp2T094bGV4X2hZc0RDWTV6WE5pNnlSYUZTaFBncV9XZ3pxRDFOZWc3dU83VS0ybi1iNjlkVDFNblpWemcxZkV1OW9pRkozNGFLVS1nQkltZGlEdy10NC1fVGxVN1hjbHUxMks2RlJxeHJFY2pYZ3ZyRQ?oc=5
- [news.google.com] supporting context: https://news.google.com/rss/articles/CBMivAFBVV95cUxPcXdZeWFnTWJKd0EySi1pbm1fUlpKM3NNa0tGUXF3ZG5aMTNlUFFRTzNVWjR2VHhheWNWMjdKbHZjc2R6c3FCZ0tkRkdvLUN6MkVucFpmaURsdi1ReDNyQVpTMG5qVXM0bTU1THRuaG5KQlg5eE9sOFkwM0tvOFYwcVZzTHFiQmk2bUgzR3c4dFFmc2V2UmY5X3FBRWtVaEdVREs4ckdmVHpxWXI2a25WRVpVUGwtZ0lNdEhqVQ?oc=5
- [news.google.com] supporting context: https://news.google.com/rss/articles/CBMitwFBVV95cUxNV09ORDBiRnhnYmtFbjRKLUlhbEp2aXJocEg0Uk1NbVpFWk1velowcEhUTWF0aVBWS2JLUUxOeWdBZHQ1TmRnejVUSW5UR2RycGlBbzZkaWlFQnF4OFNRY2Itb2huTmNUZnJ0dzBUU3dOcmprZUx6N1c0QW94NGdOSzhkRzl5S192UWRvemduMlpMZHNkbkVqNEw3OUc0SXJveTZNaWN4QzQtT19ZVFA4U09aYUxYYmM?oc=5