tl;dr к сегодняшней статьеВсем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеровtl;dr к сегодняшней статьеВсем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров

Обзор лучших API для распознавания речи 2026

2026/02/10 13:01
7м. чтение
tl;dr к сегодняшней статье
tl;dr к сегодняшней статье

Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!

Как проверяю качество

Для замера качества провайдеров, я собрал бенчмарк из 20 видео с ютуба на разных языках с авторскими субтитрами. Я понимаю, что в них есть описания звуков, а не только слова, но цель статьи - замерить относительную ошибку между провайдерами и найти лучшего. Замерять буду метрику Word Error Rate (WER), и если запрос в API вернул ошибку, ставлю WER = 1.0, так как это равнозначно пустому ответу. На этот раз я включил в бенчмарк 3 видеоурока английского, там примерно 30% слов на английском, остальное - на русском. Добавил их, чтобы проверить, насколько хорошо модели могут менять языки во время генерации. Также в конце будет табличка, где я сравню только российских провайдеров на русских записях. Тестить буду на ссылке на файл в S3, чтобы сеть не влияла на результат (но те провайдеры, которые поддерживают только отправку файла, придется проверить файлом).

Провайдеры

fa99d905da6e3a5eba312b7cda6fae76.jpeg

Заграничные решения

  • ElevenLabs (Scribe v2 модель) - те самые гении озвучки текста, посмотрим, насколько хорошо они решили обратную задачу. За год они успели уже две модели выпустить, буду тестировать только последнюю (м-да, я бы еще в 2030 году статью написал). Есть диаризация (разделение речи на спикеров), временные метки слов, NER (извлечение имен собственных) и мультиязычность.

  • Deepgram (Nova 3 модель) - провайдер с самым щедрым Free Tier и с очень богатым функционалом. Есть и диаризация, и speech-to-speech агенты, и LLMки прикручены, и чего только у них нет.

  • AssemblyAI (2 и 3 Pro модели) - в прошлом году у них были проблемы с определением языка, посмотрим, поменялось ли что-то. Недавно выкатили новую модель (3 Pro), но она поддерживает меньше языков, и русский в сделку не входит. В документации написано, мол, используйте сразу две, а там в зависимости от языка будет выбираться модель. Сомнительно, но окэй. В коде это выглядит вот так:

    config = aai.TranscriptionConfig( speech_models=["universal-3-pro", "universal-2"], )

  • Fireworks (large-v3 модель) - в прошлом году были самыми быстрыми и почти самыми точными, и цены у них совсем не кусались. Диаризация и временные метки слов в комплекте.

  • Groq (turbo модель) - провайдер, который работает на in-house железе, обещает адские скорости, и имеет самую низкую цену за минуту среди всех перечисленных провайдеров. Функционал, конечно, скудный, отправка только файлом, ссылки не поддерживают, диаризации нет и LLM тоже нет.

  • Speechmatics (Enhanced модель) - нашел недавно в интернете, уже давно на рынке, тоже богатый функционал. Дороговаты, но у них свои модели, посмотрим, оправдает ли это цену.

  • Gladia (Solaria-1 модель) - говорят, что смогли натренировать Whisper и лишить его всех галлюцинаций, не потеряв в качестве. У них самая высокая цена среди всех зарубежных провайдеров в этом списке, посмотрим, обосновано ли это.

Российские решения

  • Yandex SpeechKit - на этот раз, я понял как работает их решение и смогу протестить его уже по-нормальному. Есть диаризация, обработка LLM, удаление нецензурной лексики, богатый функционал, в общем. Единственное, что я думал, что можно потестировать за бесплатно, но потом увидел цветные столбики во вкладке "Потребление и оплата" :-(

  • Шопот - проверим, что у них изменилось за прошлый год. Тоже много функционала - диаризация, LLM-обработка, временные метки и еще интерфейс красивый.

  • Nexara - есть диаризация и LLM-постпроцессинг, уже не просто голый API, как был раньше. Не такой богатый функционал, как у Яндекса или Deepgram, но и цены ниже. Посмотрим на их качество транскрибации, в прошлом году они на бенчмарке опередили конкурентов.

  • Palatine (highspeed модель) - обещают высокую скорость и качество. На лэндинге сравнивают свое решение с другими моделями, и по качеству проигрывают только AssemblyAI и ElevenLabs. Также, есть диаризация и временные метки, но LLM обработку не увидел.

  • Sber - их буду тестировать только на русском языке, так как у них нет такой же богатой поддержки языков, как у всех остальных провайдеров. Опенсорс у Сбера отличный, посмотрим, как с API у них вопрос обстоит. В функционале API даже заявлено определение эмоций, интересно.

Нюансы

Однако же, есть парочка нюансов, про которые хотелось бы рассказать, перед тем как перейдем к результатам.

  • Провайдер Groq, к сожалению, не поддерживает файлы больше 25 МБ, и мне пришлось нарезать файлы перед их отправкой. При склеивании уже теряется точность (на стыке чанков могли потеряться слова), и из-за этого могло ухудшиться качество.

  • Провайдер Шопот, к сожалению, вернул ошибку на одном из файлов. Я попробовал несколько раз, и каждый раз возвращалась Server Error. Также, меня немного выбесило неприятно удивило, что почему-то нельзя пользоваться API, если у тебя осталось менее 60 минут на аккаунте. А каждая минута на самом дешевом плане стоит 8 (!) рублей. В табличке я укажу цену в 2 руб / мин, потому что у них на сайте написано, что цены от 2 руб / мин, но в планах я таких низких цен не увидел. Может при персональном обращении и больших объемах они вам сделают такую скидку.

Результаты

Сразу без прелюдий перейдем к сравнению скорости и точности провайдеров:

Скорость / точность - лучшие решения в зеленом
Скорость / точность - лучшие решения в зеленом

Scribe v2 показал самую лучшую точность, затем идет комбинация из двух моделей AssemblyAI (на русском языке работает только 2 модель, 3 Pro отработала на остальных языках). Третье почетное место по точности занял русский провайдер Nexarа, и я не знаю, чем они кормят свои видеокарты, что при хорошей точности они получают такую скорость обработки. Видимо, из-за того что сервера в России, и из-за использования ссылок на S3 в Яндекс облаке, задержка на загрузку файла получилась гораздо меньше, чем у зарубежных провайдеров. Но тем не менее, запись длиной в час они обработали всего за 6 секунд. Deepgram тоже стоит проверить на допинг.

Теперь самая, наверное, важная картинка этой статьи - сравнение цены и точности моделей:

Цена / точность - в зеленом прямоугольнике лучшие решения, в красном, к счастью, никого не оказалось
Цена / точность - в зеленом прямоугольнике лучшие решения, в красном, к счастью, никого не оказалось

По соотношению цена / качество AssemblyAI явно побеждают, у них относительно небольшая цена и высокое качество. Gladia, конечно, красавчики, сделали почти самого дорогого провайдера и качеством их модель, мягко говоря, не обделена. Яндекс тоже разочаровал :-( Fireworks с Groq - короли низких цен. Однако, если бы мне пришлось между двумя этими провайдерами, я бы выбрал Fireworks, так как у них гораздо больше функционала: нет ограничения в 25 МБ, есть диаризация и есть возможность настроить модель под себя.

Также, держите табличку, короче говоря, Scribe v2 самый точный, Groq самый дешевый, а Nexara - самый быстрый:

Провайдер

WER

Скорость (×)

Цена (₽/1000 мин)

% ошибок

ElevenLabs (Scribe v2)

0.3879

26.6×

667 ₽

AssemblyAI (2 / 3 Pro)

0.3974

28.5×

250 ₽

🇷🇺 Nexara

0.4080

235.0×

360 ₽

AssemblyAI

0.4157

39.8×

250 ₽

🇷🇺 Palatine (highspeed)

0.4412

51.0×

300 ₽

Deepgram (Nova 3)

0.4492

128.8×

430 ₽

Groq (turbo)

0.4547

102.1×

60 ₽

Fireworks (large-v3)

0.4569

112.2×

150 ₽

🇷🇺 Shopot

0.4677

21.7×

2000 ₽

5%

Speechmatics (Enhanced)

0.4719

10.7×

670 ₽

Gladia

0.5728

32.4×

833 ₽

🇷🇺 Yandex SpeechKit

0.6570

29.9×

650 ₽

Тест на русском

Теперь давайте проверим качество только на русских записях только российских провайдеров. Для теста просто взял русские записи из бенчмарка, дополнительных тестов не проводил.

Провайдер

WER

Скорость (×)

Цена (₽/1000 мин)

% ошибок

Nexara

0.3909

201.6×

360 ₽

Palatine (highspeed)

0.4140

45.6×

300 ₽

Shopot

0.4442

20.5×

2000 ₽

Sber API

0.4481

9.7×

600 ₽

Yandex SpeechKit

0.5496

29.6×

650 ₽

Забавно получилось, что российские стартапы, которые, скорее всего, просто раздают натренированные open source модели, в итоге имеют более высокое качество, чем Яндекс и Сбер. И еще мне показалось, что у Сбера на API модель хуже, чем их же опенсорсные решения. Странно, в общем.

Вывод

217a0aeb752c2af5c35ffd21862d9993.jpeg

Конкретного победителя, *барабанная дробь*, нет. Если вам нужно самое лучшее качество и вы не в России, берите ElevenLabs. Если же вам нужна высокая скорость и отличное качество, пользуйтесь Nexara. Если вы хотите порезать стоимость транскрибации в несколько раз, и вам не очень важно высокое качество, используйте Groq. Иными словами, тестируйте на своих данных и не верьте ноунеймам из интернета :-)

Ссылки

  • https://github.com/bobastia/habr-benchmark-2026 - репозиторий с более подробными таблицами из статьи;

  • https://alphacephei.com/nsh/2025/04/18/russian-models.html - отличное сравнение open source моделей на русских данных от создателей модели Vosk;

  • https://artificialanalysis.ai/speech-to-text - сравнение провайдеров на сайте Artificial Analysis;

  • https://habr.com/ru/articles/886924/ - прошлогодняя статья.

Буду рад присоединиться к обсуждению в комментариях, может забыл про какого-то провайдера :-)

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.