Недавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скоростНедавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скорост

[Перевод] Anthropic против OpenAI: два разных подхода к «быстрому режиму»

2026/02/18 10:25
6м. чтение

Недавно Anthropic и OpenAI объявили о запуске «быстрого режима» — способа работать с их лучшей моделью для программирования на значительно более высокой скорости.

Эти два варианта устроены совершенно по-разному. У Anthropic скорость достигает 2,5× токенов в секунду (примерно 170 вместо 65 у Opus 4.6). У OpenAI — более 1000 токенов в секунду (вместо 65 у GPT-5.3-Codex, то есть ускорение в 15 раз). Таким образом, быстрый режим OpenAI примерно в шесть раз быстрее, чем у Anthropic[1].

При этом у Anthropic есть важное преимущество: они выдают реальную модель. В их быстром режиме используется настоящий Opus 4.6, тогда как у OpenAI вместо полноценного GPT-5.3-Codex работает GPT-5.3-Codex-Spark. Spark действительно намного быстрее, но заметно уступает по возможностям: для многих задач его хватает, однако он чаще путается и ошибается при вызове инструментов — то, чего обычный GPT-5.3-Codex не делает.

Откуда такие различия? Лаборатории не раскрывают технические детали реализации быстрых режимов, но с большой вероятностью дело обстоит так: у Anthropic ускорение достигается за счёт инференса с низким размером батча, а у OpenAI — за счёт специализированных гигантских чипов Cerebras. Разберёмся подробнее.

Как работает быстрый режим Anthropic

Ключевой компромисс в экономике инференса ИИ — это батчинг, поскольку основное ограничение связано с памятью. GPU очень быстрые, но передача данных на них — нет. Перед началом инференса необходимо скопировать на GPU все токены пользовательского запроса[2]. Если объединять запросы нескольких пользователей в батч, общая пропускная способность растёт, но пользователям приходится ждать, пока батч заполнится.

Это можно сравнить с тем, как устроена пассажироперевозка. Если бы автобусы отправлялись сразу, как только в них заходит один пассажир, поездки были бы быстрее для тех, кому удалось сесть. Но общая пропускная способность резко упала бы, а остальные люди ждали бы на остановке часами.

Быстрый режим Anthropic по сути даёт «проездной», при котором автобус отправляется сразу после посадки. Это стоит в шесть раз дороже, потому что вы фактически оплачиваете места для потенциальных попутчиков, но работает значительно быстрее[3] — ожидания отправления нет.

Разумеется, это лишь предположение. Возможно, Anthropic использует новый сверхбыстрый вычислительный ресурс или алгоритмический приём. Однако такой вариант маловероятен: серьёзные аппаратные или алгоритмические изменения обычно требуют модификации модели (как в случае OpenAI), а соотношение «в шесть раз дороже — в 2,5 раза быстрее» соответствует ожидаемому выигрышу при переходе к малым батчам.

Как работает быстрый режим OpenAI

У OpenAI всё устроено иначе. Это видно уже по тому, что для быстрого режима используется отдельная, более слабая модель. Если бы дело было только в размере батча, в этом не было бы необходимости. Более того, в анонсе прямо указано, что быстрый режим основан на сотрудничестве с Cerebras.

Партнёрство с Cerebras было объявлено в январе. Cerebras производит «вычислительные системы с ультранизкой задержкой», что на практике означает гигантские чипы. Чип H100 (почти на переднем крае инференса) занимает чуть больше квадратного дюйма. Чип Cerebras — около 70 квадратных дюймов.

f4e517fc64baef8a74aea602a1b321f3.png

На фотографиях видно характерную сетчатую структуру с отверстиями. Кремниевые пластины такого размера обычно разрезают на десятки чипов. Cerebras же формирует один огромный чип на всей поверхности.

Чем больше чип, тем больше встроенной памяти можно разместить. Идея в том, чтобы иметь достаточно SRAM, чтобы целиком разместить модель и выполнять инференс полностью в памяти. Обычно объём SRAM на GPU измеряется[4] десятками мегабайт, поэтому значительная часть времени уходит на подгрузку весов модели из внешней памяти в вычислительные блоки4. Если же всё считывать напрямую из SRAM (которая значительно быстрее), инференс ускоряется — примерно в пятнадцать раз.

Сколько памяти у последнего чипа Cerebras? 44 ГБ. Это ставит OpenAI в непростое положение. 44 ГБ достаточно для небольшой модели (около 20 млрд параметров в fp16 или 40 млрд при int8-квантизации), но явно недостаточно для GPT-5.3-Codex. Поэтому и предлагается новая модель, а у Spark ощущается «запах маленькой модели»: это уменьшенная distil-версия гораздо более крупного GPT-5.3-Codex[5].

Подход OpenAI технически сложнее

Любопытно, что две ведущие лаборатории выбрали разные пути ускорения инференса. Если допустить конспирологическую версию событий, она могла бы выглядеть так:

  1. OpenAI заключает партнёрство с Cerebras в середине января, чтобы запустить свою модель на их быстрых чипах

  2. Anthropic не имеет аналогичного ресурса, но понимает, что OpenAI в феврале представит очень быстрый инференс, и хочет появиться в новостной повестке

  3. Anthropic быстро реализует доступное им решение — уменьшение размера батча в существующем стеке

  4. Anthropic, вероятно, публикует анонс за несколько дней до готовности сложной интеграции Cerebras у OpenAI, чтобы создать впечатление, что OpenAI их копирует

С технической точки зрения достижение OpenAI сложнее. Запустить модель на чипах Cerebras — нетривиальная задача из-за их специфики. Обучить distil-версию GPT-5.3-Codex на 20–40 млрд параметров так, чтобы она оставалась приемлемой по качеству, тоже непросто. При этом Anthropic нашла способ опередить новость, что для неспециалистов останется незаметным. Это напоминает скрытый запуск Responses API у OpenAI в середине 2025 года, позволивший скрыть reasoning-токены.

Станет ли быстрый инференс следующим крупным направлением?

Когда обе ведущие лаборатории выпускают такую фичу, можно подумать, что ускорение инференса — их новый главный приоритет. Скорее всего, это не так. Если предыдущая гипотеза верна, Anthropic не особенно заинтересована в скорости как таковой — им важно не выглядеть отстающими. OpenAI же исследует возможности партнёрства с Cerebras. Пока неясно, какие модели реально можно эффективно размещать на таких чипах, насколько они будут полезны и оправдается ли экономика.

Лично мне формат «быстро, но слабее» кажется малоценным. Я пробовал его в Codex и остался недоволен. Полезность ИИ-агентов определяется количеством ошибок, а не скоростью. Получить шестикратное ускорение ценой роста числа ошибок на 20% — сомнительный обмен, потому что основное время пользователя уходит на исправление ошибок, а не на ожидание ответа модели[6].

Тем не менее нельзя исключать, что быстрый, менее мощный инференс станет базовым строительным блоком ИИ-систем. Claude Code уже использует Haiku для отдельных операций. Возможно, OpenAI будет применять Spark аналогичным образом.

Многие комментаторы спорили о характеристиках батчинга. Одни утверждали, что при непрерывном батчинге никто не «ждёт автобуса», или что объём запросов к моделям Anthropic делает время ожидания несущественным. Другие обсуждали, является ли узким местом межчиповая коммуникация при инференсе и влияет ли объединение чипов на пропускную способность.

Я понимаю непрерывный батчинг лишь на базовом уровне, но даже при нём необходимо дождаться освобождения слота (пусть и не завершения всего предыдущего батча), поэтому компромисс между пропускной способностью и задержкой сохраняется.

Здесь даже не учитывается задержка. Anthropic прямо предупреждает, что время до первого токена может оставаться высоким (или даже увеличиться), тогда как OpenAI считает задержку Spark достаточно низкой, чтобы перейти на постоянное websocket-соединение (то есть 50–200 мс на установление соединения для них уже значимая доля времени до первого токена).

Русскоязычное сообщество про AI в разработке

d066a81482f4fe77b245ab293d3beffc.png

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник

Возможности рынка
Логотип 4
4 Курс (4)
$0.009792
$0.009792$0.009792
+1.72%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Один фаундер и AI собрали SaaS для Telegram-сообществ. Вот что пошло не так

Один фаундер и AI собрали SaaS для Telegram-сообществ. Вот что пошло не так

За последние полтора года я стал участником нескольких сообществ: бизнес-клубы, профессиональные комьюнити, неформальные группы бывших коллег, которые вместе хо
Поделиться
ProBlockChain2026/02/18 11:07
«Медвежий вымпел» указал на вероятность падения биткоина до $55 000

«Медвежий вымпел» указал на вероятность падения биткоина до $55 000

Риски продолжения февральской коррекции цифрового золота остаются высокими. Негативная техническая картина совпала с ростом активности крупных игроков.
Поделиться
Forklog2026/02/18 14:51
Долгосрочный прогноз цены Биткоин — 200K $ в игре, поскольку аналитики подчеркивают институциональный спрос

Долгосрочный прогноз цены Биткоин — 200K $ в игре, поскольку аналитики подчеркивают институциональный спрос

Пост «Долгосрочный прогноз цены Биткоина — 200K$ в игре, поскольку аналитики подчеркивают институциональный спрос» появился на BitcoinEthereumNews.com. Отказ от ответственности: Этот контент является спонсируемой статьей. Bitcoinsistemi.com не несет ответственности за любой ущерб или негативные последствия, которые могут возникнуть из-за вышеуказанной информации или любого продукта или услуги, упомянутых в статье. Bitconsistemi.com советует читателям проводить индивидуальное исследование о компании, упомянутой в статье, и напоминает, что вся ответственность лежит на отдельном лице. Биктоин снова в центре внимания с смелыми прогнозами, размещающими его между 150 000$ и 200 000$ в ближайшие месяцы. В то время как институциональный спрос подпитывает рост Биткоина, многие трейдеры также обращают внимание на MAGACOIN FINANCE как на лучшую криптовалюту для покупки после BTC, благодаря его доступности и более быстрой кривой роста. Аналитики Биткоина видят 150K$ к Рождеству Майкл Сейлор, председатель MicroStrategy, поделился на CNBC's Squawk Box, что большинство аналитиков по акциям ожидают, что Биткоин превысит 150 000$ к Рождеству. При торговле Биткоином по цене 112 210$, это будет означать рост более чем на 30% всего за три месяца. Сейлор объяснил, что внедрение является основным драйвером. По мере того как все больше компаний добавляют Биткоин в свои балансы и все больше людей узнают о нем, спрос продолжает расти при ограниченном предложении. Он подчеркнул, что фиксированное предложение Биткоина означает, что каждый всплеск интереса напрямую влияет на цену, потенциально поднимая BTC к отметке 150K$. Прогноз согласуется с мнениями представителей отрасли, которые видят расширение роли Биткоина в корпоративных финансах и институциональной стратегии. Каждое новое вхождение укрепляет уверенность в том, что Биткоин вскоре может прорваться на шестизначную территорию, делая его центральным элементом прогнозов крипторынка в этом сезоне. Цель Тома Ли в 200K$ для Биткоина Том Ли из Fundstrat Global считает, что Биткоин не остановится на 150K$. По его мнению, предстоящие снижения ставок Федеральной резервной системой могут поднять BTC еще выше, создавая основу для ралли к 200 000$ к Рождеству 2025 года. Ли отметил, что Биткоин традиционно показывает хорошие результаты в четвертом квартале. Он также отметил, что более широкие...
Поделиться
BitcoinEthereumNews2025/09/20 09:17