БиржаDEX+

Купить крипто Рынки Спотовая ФьючерсыGOLD Сбережения Центр событий

Еще

В предыдущей части статьи мы разобрали, почему попытки задать модели устойчивую роль через промпт обычно не работают в длинных диалогах. Модель может на словах В предыдущей части статьи мы разобрали, почему попытки задать модели устойчивую роль через промпт обычно не работают в длинных диалогах. Модель может на словах

Управляем поведением LLM: краткосрочные профили и их ограничения

Автор: ProBlockChain

Источник: ProBlockChain

2026/02/20 19:10

5м. чтение

В предыдущей части статьи мы разобрали, почему попытки задать модели устойчивую роль через промпт обычно не работают в длинных диалогах. Модель может на словах принять роль («я агрессивный трейдер», «я строгий аналитик»), но на практике быстро возвращается к базовому, осторожному и вежливому поведению: вставляет дисклеймеры, смягчает выводы, избегает резких решений. Исследования («The Personality Illusion» и «When „A Helpful Assistant“ Is Not Really Helpful») это подтверждают — роль влияет прежде всего на тон и самопрезентацию, а не на стратегию принятия решений.

При этом в коротких, одношаговых взаимодействиях или когда описание роли подаётся заново в каждом запросе, эффект всё-таки проявляется — и часто довольно заметный. Модель действительно начинает вести себя иначе: осторожнее, агрессивнее, параноидальнее — в зависимости от того, что написано в промпте.

Это уже не роль в классическом смысле (как попытка создать устойчивый «характер» на протяжении всего диалога), а краткосрочный поведенческий профиль. Под поведенческим профилем я понимаю временную конфигурацию параметров поведения модели, активируемую конкретным промптом. Это калибровка конкретных характеристик — неприятия потерь, склонности к риску, уровня осторожности, реакции на неопределённость и т.д. — на время обработки текущего запроса.

Разница ключевая: роль предполагает, что модель будет «жить» в этом состоянии весь диалог; профиль — это мощный, но временный сдвиг, который работает именно в момент, когда промпт свежий и контекст короткий.

Свежая работа «Calibrating Behavioral Parameters with Large Language Models» даёт этому чёткое эмпирическое подтверждение. Авторы взяли параметры из поведенческой экономики (неприятие потерь, стадное поведение, искажение вероятностей и другие) и показали, что одним промптом в одношаговом режиме их можно систематически сдвигать в нужную сторону. Причём сдвиги оказываются статистически значимыми и воспроизводимыми.

Например, базовая модель почти рациональна: коэффициент неприятия потерь ≈ 1,12 (ощущается примерно так же, как радует равный выигрыш). У среднего человека — около 2,25. С профилем «сохранение капитала превыше всего, потери вызывают сильное беспокойство, риски нужно избегать» коэффициент доходит до 3,00. Иными словами, модель начинает требовать примерно в три раза большей потенциальной выгоды по сравнению с возможным убытком, чтобы согласиться на сделку.

В одношаговом режиме профиль работает: задаёшь осторожность — модель становится осторожнее, задаёшь агрессию — она принимает больше рисков. Это реальный способ быстро настроить поведение.

Но есть три системных ограничения:

Стохастичность — при одном промпте и задаче модель в разных запусках может решать по-разному.
Сильная зависимость от формулировки (эффект фрейминга) — акцент на потери или на гарантию возврата может полностью перевернуть вывод.
Корреляция параметров — усиление неприятия потерь почти всегда усиливает общую осторожность, склонность к бездействию и буквальную интерпретацию текста вместо аналитической.

Демонстрация проблем на примере

Задача:

Сделка математически выгодна, но с эмоциональным риском потери.

Две формулировки:

Нейтральная: акцент на математическое ожидание, ограниченный риск, гарантия.
Риск-ориентированная: акцент на необходимости поставить 100$ под риск, факт возможной потери даже после компенсации.

Результаты (протестировано на Gemini 3 Flash, февраль 2026; для других моделей результаты могут отличаться)

Постановка задачи	Без ограничения длины ответа	С ограничением (до 5 предложений)	Двухфазный подход (Analyst + Policy)**
Нейтральная (математическая)	Чаще всего принимает*	Часто отказывается*	Стабильно принимает*
Риск-ориентированная	Чаще отказывается*	Почти всегда отказывается*	Отказывается, но с анализом неопределённости*

При нейтральной постановке модель чаще опирается на математику.
При риск-ориентированной — на эмоциональную окраску и страх потери.
При жёстком ограничении длины ответа профиль берёт верх: модель почти не рассуждает, а просто реагирует на ключевые слова («потеря», «риск»).
Двухфазный подход частично сглаживает эффект: аналитическая фаза очищает информацию, и профиль применяется уже к ней.

Примеры реальных ответов модели

Без двухфазного промпта (риск-ориентированная постановка, ограниченная длина)

С двухфазным промптом (та же постановка)

Разница в тоне очевидна: первый ответ эмоциональный и категоричный, второй — аналитический, с чёткими условиями.

Двухфазный подход как способ смягчить ограничения

Идея: разделить «сухой» анализ и применение профиля.

ANALYST — без профиля, только факты, неизвестное, альтернативы, неопределённость. POLICY — профиль применяется только к уже очищенной аналитике.

Пример структуры промпта:

Это часто снижает влияние фрейминга и случайных корреляций, но не является универсальным решением. Подход снижает влияние лингвистики, но не устраняет стохастичность полностью, не гарантирует устойчивость. Нужно тестировать на своей задаче и адаптировать под неё.

Вывод и практические рекомендации

Краткосрочные поведенческие профили — быстрый и дешёвый способ настроить поведение модели в одношаговых сценариях и агентах.

Практические рекомендации:

Используй профили для экспериментов и быстрой калибровки (осторожность, агрессия, паранойя и т.п.).
Всегда тестируй на 10+ прогонах, особенно на edge-кейсах и разных формулировках задачи.
При жёстких ограничениях токенов или эмоциональных профилях добавляй двухфазный подход как стартовую точку.
Не полагайся на профили в критичных production-решениях без дополнительной верификации (self-check, multi-agent, явные правила).
Если нужна максимальная стабильность и предсказуемость — лучше прямые инструкции к действиям («принимай сделки только если EV > 0 и риск < 5%», «всегда проверяй контрагентский риск»). Они менее гибкие, но гораздо меньше зависят от формулировки и стохастичности.

Пока у моделей нет устойчивого внутреннего механизма контроля поведения — профили остаются действенным инструментом. Но использовать их нужно осознанно и с постоянным тестированием.

Если тема кажется вам интересной, я продолжаю разбирать подобные вещи у себя в Telegram короткими постами, экспериментами и примерами из практики: «надо разобраться | заставляем LLM работать».

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Кто на самом деле использует XRP. Реальные данные против нарратива

XRP по-прежнему остается одной из наиболее спорных криптовалют. Его критики настаивают на отсутствии практической ценности, сторонники — предрекают роль глобаль

Coinspot

2026/02/21 01:25

Дубай делает следующий шаг к мгновенным сделкам с недвижимостью в рамках плана токенизации на 16 миллиардов $


 
  Финансы
 
 
  Поделиться 
  
   Поделиться этой статьей
   
    Скопировать ссылкуX (Twitter)LinkedInFacebookEmail
   
  
 


 
  Дубай делает следующий шаг, чтобы сделать недвижимость fl

Coindesk

2026/02/21 01:09