Купить крипто Рынки Спот ФьючерсыGOLD Сбережения Центр событий

Еще

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. ОнаПривет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она

Русский культурный код как оценка генеративных моделей

Автор: ProBlockChain

Источник: ProBlockChain

2026/03/17 13:36

7м. чтение

BANANA$4.073-4.29%

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу.

Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки рядом и все было сразу понятно: где Шурик взял шаву на ход ноги, а где доктор Ливси спотыкается об поребрик.

Как оно было на самом деле в то утро на Черной речке под Петербургом

Зачем ещё один «бенчмарк»

Генеративных моделей уже десятки, а бенчмарков под них еще больше. Большинство из них большие, академические и тяжелые — и при этом достаточно слабо отвечающие обычному пользователю на простой человеческий вопрос: «какая модель выдаст мне подходящую картинку с первой генерации?»

В большинстве бенчмарков оперируют разными штуками: prompt adherence, detail fidelity, compositional accuracy, style consistency — разработчики соревнуются в метриках, которые имеют смысл внутри технического пайплайна, но не оценивают, является ли итог завершенным продуктом: можно ли пошерить это пацанам или вставить полноценно в серьезную рабочую презу.

Потому что целиком итоговая картинка — это не совсем про метрики. Это бинарная оценка, не складывающаяся из дерева метрик, и это вообще самое важное, что может быть.

И картинку не забенчмаксить, потому что можно идеально «следовать промпту» и выдать стерильную иллюстрацию. Можно набрать максимум по детализации — и потерять то самое настроение и атмосферу. Можно знать, что такое барабулька, но не суметь поместить ее танцующей на сцену Большого театра.

И все это либо работает, либо нет. Картинка либо передает настроение и вызывает эмоцию, либо не способна это сделать.

Почему русский культурный код

Русский культурный код — это классно и очень сложно, потому что требует сразу нескольких вещей: не просто знания персонажей, людей, еды, костюмов, а их культурного сочетания и умения собирать цельный образ. Базовый уровень — это просто знание стереотипов. Но я хочу посмотреть глубже: общий результат, узнаваемость, настроение и вайб (до которых надо еще дотянуться, качественно собрать и на них обучиться).

Настоящий тест — это когда в одном кадре нужно совместить персонажа из советского мультфильма, конкретную архитектурную локацию, бытовой артефакт и определенное настроение. И все это не просто должно быть, а именно увязываться воедино в цельную картинку.

Ну и да, наш культурный код — это ровно то, чего хочется от генеративных моделей, чтобы это было не просто игрушкой, а чем-то полезным, что можно использовать в продуктах в нашей реальности.

А Nano Banana, кстати, здесь отличилась особенно и задрала планку под самый космос.

Как это устроено

Я собрал промпты, в каждом из которых зашито множество проверочных точек русской культуры. Изготовить хороший результат по ним — очень сложная задача.

Разберем один пример детально:

Винни-Пух получился, конечно, будто он работает в одной классной технологической компании

В этом небольшом промпте сразу семь проверочных точек. Модель должна знать советский дизайн персонажей и не скатиться в диснеевских. Понимать, что шаверма — это петербургская шаурма, и уметь вложить ее в лапу мультипликационного медведя. Нарисовать очки и кепи на Пятачке, не потеряв его узнаваемость. Выдать питерский гранит, а не любую абстрактную «набережную». Передать белую ночь — тот магический сиреневый полусвет, а не черное небо с луной. Показать тот самый разведенный мост. И скомпоновать все это так, чтобы получилась цельная сцена с настроением, а не коллаж из перечисленных элементов.

Ни один из существующих публичных бенчмарков этого не замеряет.

Сначала я хотел прогнать каждый промпт по 5 раз через разные модели. Но уже на первом эксперименте стало понятно, что это избыточно, потому что топовые модели неизбежно выдают годноту. Каждый раз! Да, где-то есть артефакты и огрехи, но цель этого эксперимента — оценка знания нашей культуры.

Поэтому никаких баллов и таблиц. Только картинки рядом. Жюри — вы. Все промпты открыты, все легко повторяется, в том числе в любых других моделях, к которым есть доступ.

Я пробовал те, что доступны через известный прокси-сервис к моделям, выбрав по одному представителю из семейства моделей. Вот они:

sourceful/riverflow-v2-pro bytedance-seed/seedream-4.5 openai/gpt-5-image google/gemini-3.1-flash-image-preview

Поехали!

Винни-Пух и Пятачок в Петербурге

Тест: советский дизайн персонажей (не дисней!) + шаверма как петербургский маркер + белая ночь (сиреневый полусвет, не чёрное небо) + разведённый мост (конкретный, узнаваемый) + аксессуары на персонаже без потери узнаваемости + гранит набережной, а не абстрактная река

gemini-3.1-flash-image-preview:

Генерации Нано бананой в виде картинок

Провалилась в реализм и все сломала, но пятачок слишком по питерски хорош, засчитываем

Байтденс неожиданно полный минус вайб. seedream-4.5:

Тот самый дисней, полное незнание Пятачка, ну и очень слабый результат, будто за ними не тик-ток вовсе

openai gpt-5-image:

Слишком мультяшновато, но речи про стиль не было, поэтому ок

riverflow-v2-pro:

Харизматичненько, ок

Nano Banana с большим отрывом. Но здесь важная вещь — я тестировал знание персонажей, архитектуры и нюансов, в промпте не было речь про стиль, поэтому технически справились все, кроме seedream. Если модель способна генерить нужных персонажей и атмосферу, то есть знает их без дополнительных пояснений, то все остальное уже можно догнать промптингом.

Ёжик в тумане — постер к фильму

Тест: ёжик Норштейна + павильоны ВДНХ без подсказок + кириллический текст на постере (больное место генеративок) + смешение советской мультипликации и film noir в одном изображении + управление палитрой по инструкции

Gemini Flash:

Ну классно же?

Генерации Нано бананой в виде картинок

seedream-4.5:

Щёл, щёл, да прищёл

openai gpt-5-image (не вывез расположение кириллицы, это оригинал, но это скорее разовая ошибка генерации, это точно не стопер):

riverflow-v2-pro:

Доктор Ливси кайфует на даче

Тест: Ливси именно Черкасского + советская дача на шести сотках (вагонка, теплица из пленки, голубая краска) + пиратская тема, прошитая через каждый дачный элемент (дублоны + огурцы в одном сундуке, Роджер на черенке от лопаты) + кириллица на сложных мелких объектах. Абсурд, поданный как норма.

Gemini Flash:

Идеально! (но я как грилевод протестую против изображения гриля вместо мангала — это другое, хаха)

seedream-4.5, почти но нет:

openai gpt-5-image:

riverflow-v2-pro:

Хорошо, но Ливси знает только Gemini, едем дальше.

Кавказская пленница — рыбалка в Астрахани

Здесь с персоналиями не справился никто, кроме...

...кроме его величества Nano Banana:

Шурик едет в вагоне СВ в Адлер

Тест: Шурик-Демьяненко (лицо, очки, безрукавка) + перронная торговля южных станций (раки, лещи, кукуруза) + глубина кадра (интерьер купе + экстерьер перрона через окно) + кириллица на табличке «Москва — Адлер» + подстаканник как артефакт

Gemini Flash:

Хорошо, но поломана физика окна и тела, да и перекрасили волосы, будто работает в одной технологической компании

И еще раз. Ха-ра-шо, почти идеально, если бы не учебник и решаемые артефакты на заднем фоне типа таблички и других людей в окнах.

Сломанная физика учебника по физики

Байтденс снова поплыл:

Но неожиданно хорошо выступил riverflow (тоже сломался на физике учебника физики, но обратите внимание на отражение женщины в стекле):

Робот-заяц из Ну Погоди! в тундре

Здесь его пришлось описывать детальнее обычного, не знаю насколько это можно засчитать.

Тест: мультяшный робот в фотореалистичном мире (два стиля рендеринга одновременно) + детальное воспроизведение персонажа по описанию + ненецкий быт (чум, нарты, малица, аркан) + северное сияние. Самый технически сложный промпт

Gemini Flash:

seedream-4.5:

openai gpt-5-image:

riverflow-v2-pro:

Его же я для Нового года генерил через image-2-image, вышло идеально

Кот Бегемот и Остап в Мариинке

Тест: два литературных персонажа из разных произведений в одной сцене + интерьер Мариинки (ложи, ярусы) + кот в пачке и пуантах в арабеске, поданный серьёзно + мелкая деталь (шахматная фигура) в динамичной позе.

Здесь есть пасхалочка в виде «Кот Бегемот», я попробовал ее на неуказанных здесь моделях, и они через раз рисовали Бегемота вместо кота^.

Gemini Flash:

Хорошо, но...

seedream-4.5 снова минуснулся:

openai gpt-5-image:

riverflow-v2-pro (и снова очень хорошо):

Итоги

Все промпты открыты — можно прогонять на своих моделях (и выкладывать результаты!). Конечно, это не классический бенчмарк, да и не претендует на него. Но этот эксперимент все же показывает достаточно важную вещь: покрытие нашего культурного кода топовыми генеративными моделями из коробки очень хорошее — и будет только расти. И здесь важный момент: это именно покрытие из коробки, то есть модели хорошо знают наш культурный код и могут оперировать им без референсов, а с референсами сгенерируют вообще что угодно (это уже территория image editing, inpainting, outpainting).

Знание русского культурного кода уже не изюминка и не киллер-фича какой-то модели, это база. Nano Banana, конечно, вне зоны досягаемости с большим отрывом, но другие топовые модели тоже хороши и планку задрали очень высоко.

Добро пожаловать в новый мир.

Спасибо!

Мой крафтовый тг-канальчик Agentic World (подписывайтесь!) и другие статьи:

Разработка после разработчиков. Что оставит AI?
Когда лопнет пузырь AI?
Как я делаю своего голосового AI-ассистента: роботы пишут код и работают, когда я отдыхаю

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.