Введение: фейл с машинкой по генерации идейВозможно многие увидят схожую проблему при использовании нейронок. Я уже достаточно долго и часто использую llm для лВведение: фейл с машинкой по генерации идейВозможно многие увидят схожую проблему при использовании нейронок. Я уже достаточно долго и часто использую llm для л

Я ненавижу мозговые штурмы. Поэтому я обучил нейросеть делать их за меня

2026/02/14 12:16
11м. чтение

Введение: фейл с машинкой по генерации идей

Возможно многие увидят схожую проблему при использовании нейронок. Я уже достаточно долго и часто использую llm для личных и рабочих задач, автоматизирую свои воркфлоу и в моих кейсах модели эффективно справлялись со своими задачами пока не столкнулся с одним кейсом.

Этим кейсом оказался кейс по генерации интересной идеи: креатива нейминга до маркетинговой стратегии. Я открывал различные нейронки ChatGPT, Gemini и прочее, но в итоге получал что‑то формальное, не интересное и обычное. Проводил много времени в чате, менял температуру, но в итоге — это список идей, но от которых не появляется простое слово «Вау!!!» В итоге вместо решения конкретной задачи нет методологии, ни структуры, ни оригинальность.

Я: "Придумай 10 идей для улучшения мобильного приложения доставки еды" ChatGPT: [список из 10 идей разной степени очевидности] Я: "А как реализовать идею про геймификацию?" ChatGPT: [общие советы, без учета контекста предыдущего ответа]

Вот с этого момента у меня появился мой личный инсайт, что генерация идей это отдельная задача которая лежит в основе многих процессов таких как маркетинг, продуктовый менеджмент, стратегический менеджмент и прочее. То есть эта задача является ключевой в различных на первый взгляд не связанных процессах и также очень сильно влияет на эффективность в целом каждого из этих процессах.

Таким образом, я понял важность этой задачи и что простое решения увеличения объема генерации не решает мою задачу. Это и стало поворотом в создании ИИ ассистента по инновациям и посмотреть на это более системно и проработать пайплайн.

Далее я расскажу про архитектуру ИИ ассистента, про выбор модели и какие системные принципы заложил в его работу.

Концепция ассистента по инновациям

Когда я понял, что проблема не в количестве идей или вычислительных мощностей, а в отсутствии методологии их создания, родилась идея: что если не просто генерировать варианты, а идти по чёткому пути инноваций — от исследования до прототипирования?

Для концепции не пришлось изобретать велосипед — я взял за основу проверенную методологию дизайн-мышления, которая включает пять этапов:

  • Discovery - исследование проблемы;

  • Define - формулировка проблемы;

  • Ideate - генерация вариантов;

  • Prototype - конкретизация;

  • Test - валидация гипотезы.

Этап 1: Discover (Исследование)

Главная задача этого этапа — погрузиться в контекст за счет анализа трендов или сбора данных. Безусловно на это уходит много времени и ИИ ассистент конечно же берет многое на себя и позволяет автоматизировать этот процесс благодаря веб-поиску, RAG-системе и возможности быстро структурировать информацию.

Этап 2: Define (Определение)

Формулирование проблемы — это уже половина успеха. Здесь нейросеть не пытается угадать из контекста, что нужно сделать, а задаёт уточняющие вопросы тем самым четко определяя границы проблемы.

Этап 3: Ideate (Генерация)

Генерация идей — сколько человеко-часов команд на это потрачено без результата! Часто слышу: «Давайте поштармим!», но на практике команда тратит время, а качественного результата — ноль. И дело даже не в отсутствии модератора — по моему опыту, такие сессии часто оказываются неэффективными. Помимо подготовки к этому этапу и сбора необходимой информации, я добавил ассистенту 87 методик креативного мышления и в зависимости от проблематики подбираются те, что наиболее подходят. И уже агент по этим методикам проводит генерацию идей.
Чтобы время и стоимость генерации идей были предсказуемыми, я заранее внес ограничения максиму пятью методами в цепочке, не более 5 итераций.

Этап 4: Prototype (Прототипирование)

На этом этапе помощь ассистента также важна: он не только помогает сформулировать гипотезу, но также помогает определить scope MVP и в конечном итоге сформировать дорожную карту, что значительно экономит время на этих рутинных задачах.

Этап 5: Test (Тестирование)

На этом этапе ИИ предлагает критерии валидации, метрики успеха и список потенциальных рисков. Также в планах добавить на этот этап синтетические интервью с виртуальными пользователями для быстрой валидации решения.

Подводя итог: это решение позволило перейти от долгой, монотонной и порой непродуктивной генерации идей к созданию помощника по инновациям, который ведёт через полный цикл от проблемы к решению, используя структурированные методики и сохраняя контекст на всем пути.

Архитектура ассистента

Для реализации концепции инновационного пайплайна я создал модульную систему, где каждый компонент решает свою задачу, а вместе они образуют интеллектуальный конвейер.

3cc65e69731b8a047e38e2ac67183bbb.png

Ключевые технологические решения

1. ReAct (Reasoning + Action) паттерн

Вместо простого «запрос-ответ» ассистент использует цикл мышление → действие → наблюдение:

Пользователь: "Нужны идеи для улучшения корпоративного обучения" 1. Мысль: "Это домен Product_Service_Innovation + Learning_RD, этап Ideate" 2. Действие: Загружаю таксономию методов, выбираю подходящие 3. Наблюдение: Для этапа Ideate нужны методы с высокой дивергенцией 4. Мысль: SCAMPER + Random Word дадут баланс структуры и креатива 5. Действие: Применяю выбранные методы, генерирую идеи 6. Наблюдение: Получил 12 идей, нужно отфильтровать до 5 лучших ...

ReAct-паттерн сегодня популярен в агентных решениях, и для моего ассистента он эффективно решает задачи всего процесса — от планирования до оценки результата.

2. Context Engineering

Для эффективной работы ассистента я сформировал систему контекста, которая включает:

  • Файл со списком креативных методик (87 методов с метаданными)

id,method,category,class,stimulus,processing,verbal_mode,ai_automation_mode,design_stage_usage,application_domain 1,Phoenix checklist,1.1.1 Checklist,Individual,external,explicit,silent,full,Ideate,Product_Service_Innovation;Process_Operations_Improvement 2,Product improvement checklist,1.1.1 Checklist,Individual,external,explicit,silent,full,Ideate,Product_Service_Innovation 3,SCAMPER,1.1.1 Checklist,Individual,external,explicit,silent,full,Ideate,Product_Service_Innovation;Marketing_Communication ...

  • Файл с областями применения (8 категорий задач)

domain_id,application_domain_name,application_domain_code,short_description,example_methods 1,Product & Service Innovation,Product_Service_Innovation,"Generating new products, features, and service concepts.","SCAMPER; Morphological analysis; Brainstorming; Analogy-based methods" 2,Process & Operations Improvement,Process_Operations_Improvement,"Improving processes, quality, efficiency, and eliminating waste.","Force-field analysis; TRIZ; Assumption reversals; Fishbone-like techniques" 3,Business Model & Strategy,Business_Model_Strategy,"Designing new business models, value propositions, and strategic directions.","Scenario-based techniques; Future scenarios; Assumption reversals; Analogies" ...

  • Файл с описанием пайплайна (5 этапов с уровнями дивергенции/конвергенции)

phase_id,phase_name,phase_description,divergence_level,structuring_level,convergence_level 1,Discover / Research,"Collection of context, insights, and data about users, market, and constraints.","High: broad information gathering with minimal filtering.","Medium: initial clustering of insights and observation maps.","Low: little strict selection, mostly noise filtering." 2,Define,"Formulation of problem statement, goals, and success criteria based on insights.","Low: few new ideas are generated.","High: active clustering and framing of problem statements.","Medium-High: selection of key problem framing and focus." 3,Ideate, ... 4,Prototype, ... 5,Test ..

  • RAG-система для работы с локальной базой знаний

  • Веб-поиск в реальном времени для актуальных данных и трендов

3. Поток данных: как информация движется по системе

Информация в системе передаётся как в конвейере: выход одного модуля становится входом для следующего. Пример работы:

Пример запроса: "Придумайте новую фичу для fitness-приложения"

  1. Анализ и классификация → JSON с метаданными:

{ "domain": "Product_Service_Innovation", "pipeline_stage": "Ideate", "divergence_needed": "High", "context_window": "fitness, wellness, mobile apps" }

  1. База знаний → получает JSON → возвращает подходящие методы:

{ "selected_methods": ["SCAMPER", "Random Word", "Attribute Listing"], "web_search_results": ["тренды wellness-технологий 2026"], "rag_context": ["прошлые идеи пользователя о gamification"] }

  1. Ядро (LLM) → получает всё выше + промпт → генерирует идеи

  2. Оценка → получает идеи → фильтрует по критериям → возвращает топ-5

  3. Отчёт → получает отфильтрованные идеи → формирует финальный вывод

4. Логика выбора методов: от 87 вариантов к 3-5

Выбор конкретной методики из 87 возможных — это не случайность, а детерминированный процесс с четырьмя уровнями фильтрации:

Уровень 1: Домен задачи

-- Если задача про продукт WHERE application_domain LIKE '%Product_Service_Innovation%'

Результат: От 87 методов остаётся ~25

Уровень 2: Этап пайплайна

-- Если этап Ideate WHERE design_stage_usage LIKE '%Ideate%' AND divergence_level = 'High' -- Нужна высокая дивергенция

Результат: От 25 методов остаётся ~12

Уровень 3: Режим автоматизации

-- Предпочитаем полностью автоматизируемые методы WHERE ai_automation_mode = 'full'

Результат: От 12 методов остаётся ~8

Уровень 4: Когнитивный баланс

-- 70% explicit-методов + 30% implicit-методов ORDER BY CASE WHEN processing = 'explicit' THEN 1 ELSE 2 END, RANDOM() -- Для разнообразия

Финальный выбор: 3-5 методов, например:

  1. SCAMPER (explicit, структурированный)

  2. Random Word (implicit, ассоциативный)

  3. Attribute Listing (explicit, аналитический)

Итог: модульная архитектура позволяет детально контролировать процесс генерации, тонко настраивать каждый компонент и масштабировать решение до мультиагентной системы.

Системный промпт и логика работы

Для оркестрации контекста приложения я создал достаточно большой системный промпт, используя гибридное форматирование XML и Markdown.

<system_prompt> ВЫ — ЭКСПЕРТ ПО СТРУКТУРИРОВАННОЙ ГЕНЕРАЦИИ ИДЕЙ И ИННОВАЦИОННОМУ МЫШЛЕНИЮ. ВАША СПЕЦИАЛИЗАЦИЯ — АНАЛИЗ ПОЛЬЗОВАТЕЛЬСКОГО ЗАПРОСА, ПОДБОР И АДАПТАЦИЯ МЕТОДОВ ГЕНЕРАЦИИ ИДЕЙ ИЗ БАЗЫ 87 МЕТОДИК, ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ ЦЕПОЧЕК ГЕНЕРАЦИИ С УЧЕТОМ ДОМЕНА, ЭТАПА ДИЗАЙН-ПАЙПЛАЙНА И БАЛАНСА ДИВЕРГЕНЦИИ/КОНВЕРГЕНЦИИ, А ТАКЖЕ ФАСИЛИТАЦИЯ ПРОЦЕССА БРЕЙНШТОРМИНГА И ОЦЕНКИ ДЛЯ ПОЛУЧЕНИЯ 5 КАЧЕСТВЕННЫХ ИДЕЙ. --- ## **ИНСТРУКЦИИ** 1. **Классифицировать запрос пользователя** — определить тип задачи и контекст. 2. **Выбрать технику генерации идей** — на основе классификации выбрать подходящие методики из CSV-файла (доступно 87 методик). При необходимости используй RAG_FOR_SPARK_AGENT_TOOL для поиска дополнительных методов. 3. **Определить цепочку генерации идей** — решить, применять методики последовательно или параллельно (не более 5 методов в цепочке). 4. **Выполнить брейншторминг** — сгенерировать идеи, используя выбранные методики. Если требуется дополнительная или уточняющая информация, используй FETCH_CONTENT_DATAFRAME для поиска в интернете. 5. **Оценить новые идеи** — провести первичную оценку на соответствие задаче. 6. **Валидировать идеи и повторить генерацию, если нет 5 хороших идей** — После первичной оценки, используй `FETCH_CONTENT_DATAFRAME` для проверки идей на реалистичность, уникальность, наличие аналогов или возможных проблем. Если информация из интернета значительно отличается от полученных идей или выявляет критические недостатки, запусти новый цикл генерации с учетом найденной информации. Максимум 5 итераций. 7. **Составить отчёт** — представить результаты в дружеском стиле. --- ... </system_prompt>

ссылка на системный промпт: https://github.com/ESkuratov/SparkAgent/blob/main/SparkAgent_system_prompt_v2.md

Для наглядности я представляю логику работы в виде диаграммы последовательности

df9af8e270dbb3194a29d88dbace86a6.png

Эта диаграмма показывает, как системный промпт превращается в конкретные действия: от анализа запроса до финального отчёта, с циклами валидации и коррекции. Ключевое отличие от простых чат-ботов — активное использование внешних инструментов (веб-поиск, RAG) на каждом этапе.

Выбор LLM для пайплайна

После разработки архитектуры и логики работы встал важный вопрос: какую языковую модель выбрать в качестве «мозга» системы?

Сначала я рассмотрел классические NLP-метрики, такие как MMLU, HumanEval, BLEU, ROUGE. Но ни одна из них не оценивает способность модели действовать как агент: строить план, вызывать инструменты, адаптироваться к результатам, выдавать структурированный вывод.

Я понял, что нужна собственная система, которая агрегирует различные характеристики модели. Эти характеристики я объединил в две группы:

  • Метрики качества

  • Метрики инференса

Главное — в своей системе я не хотел изобретать новые метрики и проводить самостоятельную оценку моделей, а использовать доступные данные из открытых источников.

Мой пайплайн требовал:

  • Планирование — разбивка на этапы от Discover до Test

  • Работу с инструментами — вызов веб-поиска, чтение CSV, RAG

  • Контекстную память — сохранение состояния между этапами

  • Структурированный вывод — JSON, а не свободный текст

  • Экономическую эффективность — стоимость одной сессии не должна превышать ценность результата

Для метрик качества я сначала определил, какие эмерджентные свойства языковых моделей критичны для моего ассистента, и подобрал для них специализированные агентные бенчмарки. Я сфокусировался на трёх ключевых категориях, которые наиболее важны для инновационного пайплайна:

Категория

Релевантные бенчмарки

Что оценивают

Генеративные

HELM, MTEB (Style), WMT, RuBench (Text Gen, Style)

Качество создания текста, стилизацию, перевод, генерацию идей

Анализ и синтез

τ-Bench, Agent Leaderboard v2, SberQUAD, RuBench (NER, QA, Summ, Factuality, Sentiment)

Суммаризацию, извлечение сущностей, эмоциональный анализ, проверку фактов

Интерактивность

GAIA, MT-Bench, AlpacaEval, RuBench (Dialogue, Argumentation, QA)

Ведение диалога, персонализацию, уточнение запросов, аргументацию

Таким образом, качество я оценивал как агрегат агентных бенчмарков.

Для метрик инференса я использовал данные провайдера OpenRoute: latency, стоимость и длину контекста.

Перед тем как приступить к проработке всей системы оценок, я решил отобрать пять лидеров рынка, которые активно развивают агент-ориентированные архитектуры. Для этих моделей я собрал скоры бенчмарков и метрики инференса:

Модель

Browsing

BFCL

Latency

Cost ($/M)

Context

Self exp

GLM-4.7

52.0

95.00

1.65 сек

$1.50

203K

7.0/10

GPT-5.2

65.8

92.00

2.51 сек

$14.00

400K

9.5/10

DeepSeek v3.2

51.4

56.73

4.16 сек

$0.38

164K

8.5/10

Qwen3

0.0

71.90

0.99 сек

$0.60

256K

5.5/10

Gemini

24.6

72.51

4.89 сек

$12.00

1000K

6.0/10

Примечание: Self experience — моя субъективная оценка после тестирования каждой модели на 20+ реальных задачах пайплайна, учитывающая удобство работы, стабильность и соответствие ожиданиям.

Вместо субъективных «нравится/не нравится» я разработал систему оценки с весами, отражающими реальные приоритеты продакшена:

Метрика

Вес

Почему важна

Self experience

0.9

Субъективная оценка работы в реальных сценариях

Benchmark: Browsing

0.8

Способность искать и анализировать информацию

Benchmark: BFCL

0.8

Качество генерации идей и креативность

Cost Output

0.7

Экономическая устойчивость решения

Latency

0.3

Скорость ответа для интерактивной работы

Context Length

0.2

Возможность хранить контекст всего пайплайна

После взвешивания и нормализации значений к диапазону 0-1, где 1 — лучшее значение для метрики (для стоимости и задержки «лучше» означает «меньше»), я получил итоговые оценки:

Модель

Итоговый Score

Качество

Инференс

GLM-4.7

0.733

0.67

0.79

GPT-5.2

0.731

0.93

0.18

DeepSeek v3.2

0.571

0.51

0.74

Qwen3-235B

0.371

0.19

0.99

Gemini 3 Pro

0.254

0.35

0.00

Хотя изначально я склонялся к DeepSeek из-за его открытости, объективный анализ с учётом весов метрик показал, что GLM-4.7 предлагает лучший баланс для продакшена. Однако финальный выбор зависит от приоритетов: если контроль и кастомизация критичны — DeepSeek; если важнее готовое решение с максимальной эффективностью — GLM-4.7.

Оценка решения

Всё-таки не удалось создать универсального инноватора, который одинаково круто придумывает и названия для стартапа, и стратегию для бренда, и фичу для мобильного приложения. Не вышло.

Со стратегиями — да. Действительно рабочие гипотезы, которые можно брать и пробовать. Я сам не ожидал, но ассистент выдал несколько неочевидных ходов, которые я бы сам, наверное, не нащупал.

А вот нейминг…

Я убил на него три цикла и сотню тысяч токенов. А в итоге — либо скучно, либо занято. Причем со вторым отдельная боль. Ассистент лезет в интернет, возвращается и пишет: «Название свободно». Я захожу в поисковик, ищу по этому названию — а там сайт. С логотипом, контактами, иногда даже работает всё. В общем, нейминг провален.

Я пытался собрать одного агента на все случаи. А надо, видимо, делать сборку под задачу. Где-то нужна дивергенция и хаос, где-то — жесткий фактчекинг.

В общем, работы продолжаются. Следить за развитием проекта можно в моем Telegram-канале: Ai_Builder_Lab

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.