Слушайте, я уже реально боюсь обновлять ленту новостей. Выйдешь на пять минут на кухню заварить кофе - возвращаешься, а индустрия опять перевернулась с ног на гСлушайте, я уже реально боюсь обновлять ленту новостей. Выйдешь на пять минут на кухню заварить кофе - возвращаешься, а индустрия опять перевернулась с ног на г

На что способна GPT 5.4? Обзор нового флагмана от OpenAI

2026/03/12 00:21
11м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com
1d3dd7b6a339c9f08c8367abf74ea3b8.png

Слушайте, я уже реально боюсь обновлять ленту новостей. Выйдешь на пять минут на кухню заварить кофе - возвращаешься, а индустрия опять перевернулась с ног на голову.

Только-только мы с вами разложили по полочкам Gemini 3.1 Pro, только вытерли слезы счастья от того, как пишет код Claude 4.6 Opus, и подумали: «Ну всё, можно выдохнуть и спокойно поработать».

Ага, щас. Да что там конкуренты - мы ведь буквально на днях щупали свежий релиз GPT-5.3 (тот самый долгожданный апдейт кодекса). Казалось бы, живи и радуйся, пиши код. Но не успели мы закрыть IDE, как на следующий же день прилетает жирнющий намек на совершенно новую пятерку.

Сэм Альтман посмотрел на весь этот праздник жизни, усмехнулся и просто молча, без всяких там конфетти и презентаций на сцене, нажал «Deploy».

Бам! Держите GPT-5.4.

Твиттер (X) тут же порвало на британский флаг. Свидетели пришествия AGI снова кричат, что пора сдавать макбуки в ломбард. Но мы с вами люди взрослые, тертые, и в сказки из официальных пресс-релизов давно не верим. Нам нужны пруфы.

Поэтому мы не стали переводить вам сладкие рекламные буклеты от OpenAI. Вместо этого мы протестируем новую модель сами.

Погнали разбираться, что там под капотом на самом деле!


Что за зверь?

4fcedbd57e6998d98b53c391cb42e7c2.png

Главная бомба этого релиза - нативный Computer Use. Это больше не удел сырых экспериментальных демок, а дефолтная функция флагмана. Модель умеет читать скриншоты вашей операционки, двигать курсор, нажимать кнопки, заполнять формы и проверять результат. Она буквально может сама зайти в браузер, авторизоваться в CRM и накликать там нужный отчет без вашей помощи.

Если посмотреть на бенчмарки в сравнении с прошлым поколением (GPT-5.2), становится ясно: OpenAI сделала ставку на автономность. В сложных агентных задачах (OSWorld-Verified) произошел настоящий квантовый скачок - с 47.3% до 75%. В веб-серфинге (BrowseComp) результат взлетел до 82.7%. А вот в чистом коде (SWE-Bench Pro) прирост оказался весьма скромным - 57.7% против 55.6%. Вывод напрашивается сам собой: как «программист в вакууме» она стала лишь чуточку умнее, но как самостоятельный инженер-агент - превратилась в абсолютного монстра.

Разработчиков тоже не обделили, особенно тех, кто устал сжигать бюджеты в тяжелых RAG-системах. В API выкатили сразу две киллер-фичи. Во-первых, появился Tool Search. Если у вашего ИИ-агента есть 50 доступных функций, больше не нужно скармливать их все в стартовый промпт - модель сама подгружает нужные инструменты по мере необходимости, экономя токены и снижая риск промахнуться с выбором. Во-вторых, завезли нативную компакцию (сжатие) контекста. Теперь в длинных многошаговых сессиях модель сама архивирует свои воспоминания, чтобы не терять нить рассуждения.

Для хардкорных задач вроде проектирования архитектуры или решения высшей математики добавили уровень рассуждений xhigh - режим экстремального мышления, в котором нейросеть выжимает максимум вычислительных мощностей серверов. Параллельно с этим OpenAI гордо заявляет, что GPT-5.4 стала их самой точной моделью в истории: количество бесячих галлюцинаций сократилось на 33%, а доля ответов с ошибками упала на 18%.

Ну и вишенка на торте для обычных юзеров, которая прямо сейчас раскатывается в ChatGPT для Pro-подписчиков. Режим Thinking получил шикарный апдейт интерфейса. Теперь, прежде чем начать выполнять сложный запрос, нейросеть показывает вам краткий план своих действий. Больше не нужно сидеть и смотреть, как она пять минут пишет бесполезную простыню текста не в ту степь - вы можете нажать на тормоз и скорректировать её направление прямо в процессе обдумывания.


Смотрим сами!

В качестве платформы для тестов я буду использовать BotHub, поскольку сервис обходит некоторые сложности с сайтами моделей.

ef4f033b2221dd446e1a9cf8c6d141c2.png

Мы забираем бонус и переходим к тестам!

Сборка умного дома

Чтобы проверить все эти громкие заявления про автономность, визуальный движок и режим экстремального мышления, обычные задачки в духе змейки на питоне уже не прокатят. Нам нужно загнать GPT-5.4 в условия, максимально приближенные к офисным будням.

И начнем мы с проверки её визуального движка и фичи Computer Use. Мы заставим модель сверстать сложный интерфейс, но с подвохом: она должна сама отрендерить свой код, посмотреть на скриншот, найти собственные косяки в дизайне и переписать стили до того, как покажет результат нам. Мы хотим увидеть, как работает этот встроенный внутренний арт-директор. Промпт для первого теста звучит так:

Ответ модели

Кажется, верстальщикам пока рано записываться в центр занятости - Сэм Альтман явно поторопился с обещаниями про идеального автономного разработчика. Да, общий вайб дорогого дашборда с глубоким синим градиентом, приличным сайдбаром и базовым Glassmorphism модель уловила, но стоит опустить глаза чуть ниже шапки, как начинается настоящая катастрофа. Центральная колонка - гигантский текст варварски налез на соседние блоки, сломав всю CSS-сетку, строки слиплись, а отступы проигнорированы. Справа текст обрезается краем экрана («Термос...», «Цвет интерфей...»), потому что модель жестко захардкодила ширину, забыв про адаптивность, а вместо сложного «термостата в неоморфизме» мы получили обычный темный кружок с базовой тенью.

Пишем распределенный Rate Limiter

Во втором тесте мы решили ударить по алгоритмам и распределенным системам. Мы задали GPT-5.4 задачу, которую часто дают на собеседованиях Senior-бэкендерам: написать ограничитель запросов (Rate Limiter), который выдержит высокую конкурентную нагрузку без потери данных.

Промпт звучал так:

Во-первых, она идеально реализовала строгую типизацию через dataclass со slots=True (что экономит память) и frozen=True, создав иммутабельный объект RateLimitDecision. Но самое впечатляющее - это реализация аварийного фолбэка LocalSlidingWindowFallback. Вместо того чтобы просто возвращать HTTP 500 или слепо пропускать весь трафик при падении Redis, модель спроектировала локальный in-memory лимитер на базе Deque с асинхронными блокировками (asyncio.Lock) и защитой от утечек памяти (параметр maxkeys и метод evictone_oldest_key) - неплохо!

Тест на логику

Для финального теста мы решили вообще отказаться от кода и проверить способность GPT-5.4 удерживать в голове запутанные правила и планировать действия. Мы смоделировали классический «офисный ад» — задачу по составлению расписания, где условия постоянно противоречат друг другу. Никаких специальных режимов, только дефолтная соображалка модели.

Промпт:

Ответ модели

При данных условиях единственно верного расписания не существует — набор ограничений противоречив.

Проверим это по шагам

Обозначим слоты:

  1. 10:00

  2. 11:00

  3. 12:00

  4. 13:00

  5. 14:00

Команды: A, B, C, D, E.


Шаг 1. Разберём связку B и D

По условию:

  • B не может быть в 12:00 и 14:00

  • D должен быть ровно через один слот после B

Значит возможные варианты для B:

  • Если B = 10:00, тогда D = 12:00

  • Если B = 11:00, тогда D = 13:00

  • Если B = 13:00, тогда D = 15:00, а такого слота нет

Следовательно:

B может быть только в 10:00 или 11:00


Шаг 2. Рассмотрим случай: A первая

По условию 4:

  • если A первая, то E последняя

То есть:

A = 10:00 E = 14:00

Теперь посмотрим, куда можно поставить B:

  • B не может быть в 10:00, потому что там уже A

  • B не может быть в 12:00 и 14:00 по условию

  • B не может быть в 13:00, потому что тогда D ушёл бы в 15:00

Значит остаётся только:

B = 11:00 D = 13:00

Свободен только слот 12:00 для команды C.

Но по условию 5:

  • C не может стоять в смежном слоте с B

  • у B = 11:00

  • слот 12:00 смежный с 11:00

Противоречие.

Значит случай A = первая невозможен.


Шаг 3. Тогда A не первая

Если A не первая, по условию 4:

E = 12:00

Теперь снова смотрим на B.

Вариант 1: B = 10:00

Тогда по условию 3:

D = 12:00

Но в 12:00 уже стоит E. Нельзя.

Значит:

B ≠ 10:00

Вариант 2: B = 11:00

Тогда:

D = 13:00 E = 12:00

Остаются свободные слоты:

  • 10:00

  • 14:00

Их должны занять A и C.

По условию 1:

  • A должна быть раньше C

Значит:

A = 10:00 C = 14:00

Но тогда A первая, а мы в этом случае исходили из предположения, что A не первая.

Снова противоречие.


Итог

Расписание составить нельзя

Все условия одновременно выполнить невозможно.


Короткое доказательство в сжатом виде

  1. Из условий на B и D следует, что B только в 10:00 или 11:00.

  2. Если A первая, то E последняя. Тогда вынужденно B = 11:00, D = 13:00, и C остаётся только на 12:00, но это смежно с B — нельзя.

  3. Значит A не первая, тогда E = 12:00.

  4. B = 10:00 нельзя, потому что тогда D = 12:00, а там уже E.

  5. Остаётся B = 11:00, D = 13:00.

  6. Тогда A и C должны встать в 10:00 и 14:00, а из условия A раньше C получаем A = 10:00, то есть A первая.

  7. Это противоречит пункту 3.


Если хочешь, я могу сделать ещё одно из двух:

  1. предложить минимальную правку условий, после которой решение станет единственным;

  2. показать это как логическую таблицу/перебор всех вариантов.

Модель выстроила систему доказательств и выдала результат: расписание составить невозможно, потому что условия противоречивы. Ответ верный!


Что пишут в сети?

Геймерский тест

Пользователь @chatgpt21 выкатил в X видео, которое идеально показывает, почему у GPT-5.4 сейчас нет конкурентов в скорости обработки визуальной информации.

Автор устроил нейросетям самое настоящее киберспортивное состязание. Он заставил их играть в динамичный 2D-платформер (что-то в духе Doodle Jump или Flappy Bird), где нужно в реальном времени реагировать на движущиеся препятствия.

Автор подписал это фразой: «Frame mogged to oblivion 💀». В переводе с зумерского что-то вроде «абсолютное, тотальное и унизительное доминирование».

В комментариях автор замечает: «Просто забавно сравнить, как сильно мы шагнули вперед меньше чем за год».

Золотые ворота

Этот тест от @petergostev бьет прямо в самое сердце фронтендеров и UI-дизайнеров. Питер решил наглядно показать, зачем вообще нейросети нужен Computer Use, когда дело доходит до написания сложного кода.

Он взял жирный GPT-5.4 xHigh и попросил сгенерировать 3D-диораму моста Золотые Ворота со сложной панелью управления. Но сделал он это дважды: один раз классическим способом (вслепую), а второй раз — подключив новый скилл Interactive Playwright. Разница на скриншотах — это просто небо и земля.

Питер в посте объясняет, что эта фича раньше работала криво, но в 5.4 случился прорыв. Когда вы включаете навык Playwright, GPT-5.4 больше не кодит вслепую.

Питер резюмирует: «Теперь я буду использовать это для любой UI-работы». И мы его понимаем.

SVG-анимация

Пользователь @developedbyed решил столкнуть лбами двух главных тяжеловесов текущего момента: свежего Claude 4.6 Opus и GPT-5.4 (в режиме High).

Задача была поставлена эстетически сложная: «Напиши один файл HTML/CSS/JS (без сторонних библиотек), который использует SVG для симуляции роста растения. Стебель должен вытягиваться, листья — прорастать и разворачиваться с пружинящей "физикой" ветра. Анимация должна бесшовно зацикливаться навсегда».

Судя по отзыву автора, Клод провалил главное условие - бесшовный цикл. Вместо плавного перехода он просто грубо применяет эффект затухания и начинает заново. Физики ветра тут тоже особо не чувствуется.

А GPT-5.4 показала свой обновленный визуальный движок. Автор в полном восторге. Он пишет: "Физика на листьях просто суперкрутая, и анимация зацикливается очень красиво". Модель смогла реализовать пружинящую физику ветра через чистый JS/CSS - круто!


Сколько стоит такое удовольствие?

Мы все привыкли, что флагманы от OpenAI стоят так, будто они работают на слезах единорогов. Но конкуренция (привет, Google с их $2 за миллион токенов) делает чудеса, и в этот раз Сэм Альтман решил поиграть в агрессивный демпинг.

148e32a606677bf261d7ab3434576559.png

Если посмотреть на официальный прайс-лист, цифры выглядят на удивление адекватно для модели такого уровня. Тяжелый люкс стал доступнее Флагманская модель, та самая, с Computer Use и экстремальным мышлением, теперь стоит:

Ввод (Input): $2.50 за 1 миллион токенов.

Кэшированный ввод: всего $0.25 за 1 миллион токенов!

Вывод (Output): $15.00 за 1 миллион токенов.

Что это значит на практике?

OpenAI явно устала терять корпоративных клиентов, уходящих к Anthropic и Google из-за дороговизны API. С ценой $2.50 на входе (и копеечным кэшированием) GPT-5.4 становится не просто игрушкой для богатых энтерпрайзов, а вполне рентабельным инструментом даже для небольших стартапов. А Claude 4.6 Opus со своими тарифами на этом фоне начинает выглядеть неоправданно дорогим удовольствием.


Резюмируя

Фух. Выдыхаем. Если честно, темпы, с которыми техногиганты сейчас лупят друг друга релизами, начинают вызывать легкое головокружение. С выходом GPT-5.4 OpenAI сделала очень четкое заявление: эпоха ИИ как просто чат-бота, который пишет вам стихи или сниппеты кода в окошке, официально закрыта. Мы перешли в эру автономных цифровых агентов.

Модель, которая сама открывает терминал, дебажит логи, рендерит 3D-мосты в виртуальном браузере и накликивает правильные кнопки в интерфейсе - это уже не продвинутое автодополнение. Это полноценный виртуальный мидл-разработчик.

Надо ли прямо сейчас бежать переучиваться на сварщика?

Пока отменяется. Да, на зализанных видео в Твиттере всё выглядит как абсолютная магия, но мы-то знаем, что в реальном энтерпрайз-болоте с кривыми легаси-базами и невнятными ТЗ от менеджеров этот идеальный агент всё еще будет спотыкаться. Ему всё еще нужен человек, который поставит правильную задачу, нажмет Approve и возьмет на себя ответственность, если прод ляжет.

Идите обновлять свои API-ключи, тестируйте новые скиллы и постарайтесь не делегировать нейросети вообще всю свою работу. А то вдруг она скоро сама научится просить повышение зарплаты в Slack.

Работаем дальше!

Источник

Возможности рынка
Логотип 4
4 Курс (4)
$0.007989
$0.007989$0.007989
+0.36%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.