DeepSeek V4 показывает, что следующая гонка ИИ — это гонка за эффективностью

ЭДМОНТОН, КАНАДА – 28 ЯНВАРЯ: Женщина держит мобильный телефон перед экраном компьютера с логотипом DeepSeek, 28 января 2025 года, в Эдмонтоне, Канада. (Фото: Artur Widak/NurPhoto via Getty Images)

NurPhoto via Getty Images

DeepSeek V4, долгожданное обновление от DeepSeek, появляется в момент жёсткой конкуренции, когда GPT 5.5 от OpenAI и Opus 4.7 от Anthropic только что запустились один за другим. Гонка ИИ-моделей, судя по всему, выходит на новый уровень. Будучи убеждённым сторонником инструментов с открытым исходным кодом, DeepSeek впечатляет разработчиков своей экономической эффективностью, а не грубым масштабом.

Предварительный релиз включает две модели на основе архитектуры Mixture-of-Experts с контекстным окном в один миллион токенов: DeepSeek-V4-Pro с 1,6 триллиона общих параметров и 49 миллиардами активированных параметров, а также DeepSeek-V4-Flash с 284 миллиардами общих параметров и 13 миллиардами активированных параметров.

Агенты с длинным контекстом, помощники по программированию, исследовательские инструменты и корпоративные копайлоты сталкиваются с одним и тем же узким местом: каждый вновь сгенерированный токен может нуждаться в обращении к постоянно растущей истории документов, кода, вызовов инструментов и промежуточных рассуждений. Технический отчёт DeepSeek демонстрирует, что модели V4 решают эту проблему через архитектурное сжатие, а не просто предлагая пользователям платить за большее количество вычислений.

Ключевая инновация: сжатие памяти без потери способности к рассуждению

Важнейшим архитектурным изменением в DeepSeek V4 является гибридный дизайн механизма внимания, сочетающий Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). Это означает, что модель не хранит и не сканирует каждый предыдущий токен одинаково затратным способом. CSA сжимает группы записей «ключ-значение» и затем выбирает наиболее релевантные сжатые блоки. HCA выполняет ещё более агрессивное сжатие, обеспечивая плотное внимание над значительно более коротким потоком памяти.

Это важно, поскольку механизм внимания является одним из главных факторов затрат в ИИ с длинным контекстом. По мере роста длины контекста традиционный механизм внимания становится всё более затратным как в плане вычислений, так и памяти. Гибридный дизайн внимания DeepSeek рассматривает длинный контекст как инженерную задачу иерархии памяти. Часть информации требует детального локального внимания. Часть можно сжать. Комбинируя эти режимы, V4 превращает контекст в миллион токенов в более практичную возможность. Ранее в этом году исследователи DeepSeek опубликовали статью с предложением Engram — модуля условной памяти, повышающего эффективность рассуждений за счёт структурного разделения статического извлечения знаний и динамических вычислений.

Почему это может стимулировать дальнейшие инновации в сфере ИИ

Снижение стоимости инференса меняет круг тех, кто может проводить эксперименты. Когда рассуждение с длинным контекстом становится дешевле, больше разработчиков могут создавать агентов, читающих полные репозитории, анализирующих длинные юридические записи, сравнивающих многодокументные финансовые отчёты или работающих в рамках расширенных сессий с использованием инструментов. Это расширяет пространство проектирования за пределы чат-подсказок.

Для стартапов DeepSeek V4 снижает стоимость испытания амбициозных приложений. Для предприятий это делает рабочие процессы с большим контекстом более реалистичными. Для разработчиков с открытым исходным кодом это предоставляет технический рецепт: сочетание разреженности MoE, сжатия длинного контекста, инференса с низкой точностью, пользовательских ядер и дообучения для агентных задач.

Сигнал для отрасли: ИИ-модели теперь диктуют, какими должны стать чипы

DeepSeek V4 также примечателен тем, что технический отчёт содержит явные предложения по проектированию аппаратного обеспечения. Команда утверждает, что будущее аппаратное обеспечение должно оптимизировать соотношение между вычислениями и коммуникацией, а не бездумно увеличивать пропускную способность.

Reuters также сообщило, что DeepSeek V4 был адаптирован для работы на чипах Huawei Ascend, и что Huawei заявила о полной поддержке серии V4 своими кластерами суперузлов на базе Ascend 950. Это делает V4 частью более масштабной истории об аппаратном обеспечении. Гонка ИИ переходит от весов моделей к полностековому совместному проектированию, где модели, ядра, системы памяти, межсоединения и чипы развиваются совместно.

Более дешёвый интеллект расширяет рынок

Наиболее важным последствием DeepSeek V4 может стать экономический эффект. Когда стоимость рассуждения с длинным контекстом снижается, сценарии использования ИИ, которые раньше казались слишком дорогими, становятся более реалистичными. Агенты для работы с полными кодовыми базами, исследовательские помощники с длинным горизонтом планирования, юридические рабочие процессы с большим количеством документов, инструменты финансового дью-дилидженс, системы обзора научной литературы и корпоративные агенты знаний — все они выигрывают от более дешёвой памяти и более дешёвого инференса.

Это означает, что DeepSeek V4 переосмысливает гонку ИИ. Если DeepSeek сможет предоставлять мощные открытые модели с более низкими требованиями к памяти и вычислениям, лидеры с закрытым исходным кодом столкнутся с бо́льшим давлением, чтобы обосновать премиальное ценообразование. Конкуренты с открытым исходным кодом столкнутся с давлением в плане соответствия методам повышения эффективности V4.

Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/

DeepSeek V4 показывает, что следующая гонка ИИ — это гонка за эффективностью

Ключевая инновация: сжатие памяти без потери способности к рассуждению

Почему это может стимулировать дальнейшие инновации в сфере ИИ

Сигнал для отрасли: ИИ-модели теперь диктуют, какими должны стать чипы

Более дешёвый интеллект расширяет рынок

Вам также может быть интересно

Аналитик Биткоина сигнализирует о «ралли недоверия» по мере роста цены до $77 497

Продано рекордных 23,2 млрд токенов: предпродажа APEMARS становится новым центром внимания на рынке, где доминируют 7 лучших криптовалют для покупки в апреле

Попытка покушения на Трампа переключает внимание на следующий брифинг Левитт

Популярные новости

Инфраструктура ИИ и клиентский опыт: как инновации Cadence–TSMC меняют CX на уровне кремния

«Конфузный» промах с флагом в администрации Трампа поверг очевидцев в изумление

Биктоин сталкивается с третьей крупной зоной отторжения: Пробой или ложный пробой?

Трейдеры Bitcoin нацелились на $73K на фоне того, как недельная линия тренда держит цену в заложниках

Лучшие криптовалютные букмекеры для ставок на футбол в 2026 году (BTC и стейблкоины)

Новости 24/7 в прямом эфире

Быстрое чтение

Прогноз цены BEEG на 2026 год: кит уже выбросился на берег - или самая большая волна все еще грядет?

Глубокое погружение BEEG 2026: киты тихо накапливаются?

ETF XRP только что прервали свою самую длинную серию побед в 2026 году - вот что на самом деле означают цифры

DOGE Bulls Eye - ключевой прорыв - 0,126 доллара - следующая остановка?

Что такое Peace Frog (PEACE)? Введение в криптовалюту

Цены на криптовалюту