Параметры модели: temperature, top_p, max_tokens

До сих пор мы управляли моделью через текст промпта. Но у языковых моделей есть «ручки настройки» — параметры генерации. Они доступны в веб-интерфейсе (обычно в расширенных настройках) и влияют на то, КАК модель генерирует ответ. Три главных параметра: temperature, top_p и max_tokens.

Temperature: креативность vs предсказуемость

Temperature управляет «разбросом» вероятностей при выборе следующего токена.

Temperature → 0 (минимум):
Модель ВСЕГДА выбирает самый вероятный токен.
Ответы: предсказуемые, консистентные, иногда «роботические».

Temperature → 0.5 (середина):
Модель иногда выбирает не самый вероятный токен.
Ответы: сбалансированные — достаточно точные, но с вариативностью.

Temperature → 1.0+ (максимум):
Модель часто выбирает маловероятные токены.
Ответы: креативные, разнообразные, иногда бредовые.

Когда что использовать:

Temperature	Для каких задач	Пример
0.0–0.2	Факты, классификация, извлечение данных	«Извлеки дату из текста»
0.3–0.5	Анализ, перевод, умеренная генерация	«Объясни концепцию»
0.6–0.8	Креативные тексты, идеи, слоганы	«Придумай 5 названий»
0.9–1.0+	Свободное творчество, storytelling	«Напиши стихотворение»

Пример влияния temperature:

Промпт: «Закончи фразу: "Утром я обычно..."»

Temperature = 0.0 (5 запусков): Все 5 раз: «Утром я обычно просыпаюсь, чищу зубы и завтракаю.» — одинаково.

Temperature = 1.0 (5 запусков): 1: «...пью кофе и смотрю в окно, думая о вечном.» 2: «...бегу в парк, пока город ещё спит.» 3: «...не могу решить, что надеть, и опаздываю.» 4: «...ненавижу будильник всем сердцем.» 5: «...сразу проверяю почту, хоть и знаю, что не стоит.»

Высокий temperature = разнообразие. Низкий = повторяемость.

Top_p: альтернативный контроль разнообразия

Top_p (nucleus sampling) — другой способ управления. Модель выбирает следующий токен не из ВСЕХ возможных, а из минимального набора, сумма вероятностей которого ≥ top_p.

top_p = 0.1 → модель выбирает из самых вероятных токенов, дающих в сумме 10% вероятности
top_p = 0.5 → из токенов, дающих 50% вероятности
top_p = 1.0 → из всех токенов

На практике: не меняй temperature и top_p одновременно. Выбери что-то одно. Обычно temperature достаточно.

Max_tokens: бюджет на ответ

Max_tokens — максимальное количество токенов, которое модель может сгенерировать в ответе.

max_tokens = 100  → ответ не длиннее ~75 слов
max_tokens = 500  → ответ не длиннее ~375 слов
max_tokens = 2000 → ответ не длиннее ~1500 слов

Важно: max_tokens — это ЛИМИТ, а не целевое значение. Если ты поставил 500, а модель может ответить за 100 — она ответит за 100. Если ответ не помещается в лимит — модель оборвёт его на полуслове.

Совет: для structured outputs (JSON) всегда ставь max_tokens с запасом. Лучше 500 токенов на JSON из 5 полей, чем оборванный ответ без закрывающей скобки.

Где находятся эти параметры в веб-интерфейсе

В типичном веб-интерфейсе языковой модели:

Открываешь настройки чата или playground.
Находишь секцию «Параметры генерации» / «Generation parameters».
Видишь ползунки: Temperature, Top P, Max Tokens / Maximum Length.

Не все веб-интерфейсы показывают эти настройки. Если их нет — модель использует значения по умолчанию, обычно temperature ~0.7.

Взаимодействие параметров и промпта

Параметры не заменяют промпт-инжиниринг, а дополняют его:

Нужен точный, фактический ответ:
→ Temperature = 0.1 + жёсткая инструкция + формат JSON

Нужна креативная идея:
→ Temperature = 0.8 + открытая формулировка + «придумай 10 вариантов»

Проверь себя

Какой temperature выберешь для следующих задач? а) Классификация 1000 отзывов; б) Придумать слоган для рекламы; в) Объяснить сложную тему студенту.

Ответ: а) 0.0–0.1 (нужна максимальная консистентность), б) 0.7–0.9 (нужна креативность и разнообразие), в) 0.3–0.5 (нужна точность + немного вариативности для естественного языка).

Итог

Temperature (0–1+) — главный регулятор креативности. 0 = жёсткая предсказуемость, 1 = максимальная вариативность.
Top_p — альтернатива temperature. Используй что-то одно.
Max_tokens — лимит длины ответа. Ставь с запасом.
Для фактов и классификации — низкий temperature (0–0.2). Для креатива — высокий (0.7+).
Параметры не заменяют промпт — они работают вместе: точный промпт + подходящий temperature = идеальный ответ.

Что дальше

Ты освоил метрики качества, итеративный процесс и параметры модели. Теперь — A/B-тестирование: как сравнивать две версии промпта и выбирать лучшую на основе данных, а не интуиции.

Параметры модели: temperature, top_p, max_tokens