Параметры модели: temperature, top_p, max_tokens
Параметры модели: temperature, top_p, max_tokens
До сих пор мы управляли моделью через текст промпта. Но у языковых моделей есть «ручки настройки» — параметры генерации. Они доступны в веб-интерфейсе (обычно в расширенных настройках) и влияют на то, КАК модель генерирует ответ. Три главных параметра: temperature, top_p и max_tokens.
Temperature: креативность vs предсказуемость
Temperature управляет «разбросом» вероятностей при выборе следующего токена.
Temperature → 0 (минимум):
Модель ВСЕГДА выбирает самый вероятный токен.
Ответы: предсказуемые, консистентные, иногда «роботические».
Temperature → 0.5 (середина):
Модель иногда выбирает не самый вероятный токен.
Ответы: сбалансированные — достаточно точные, но с вариативностью.
Temperature → 1.0+ (максимум):
Модель часто выбирает маловероятные токены.
Ответы: креативные, разнообразные, иногда бредовые.
Когда что использовать:
| Temperature | Для каких задач | Пример |
|---|---|---|
| 0.0–0.2 | Факты, классификация, извлечение данных | «Извлеки дату из текста» |
| 0.3–0.5 | Анализ, перевод, умеренная генерация | «Объясни концепцию» |
| 0.6–0.8 | Креативные тексты, идеи, слоганы | «Придумай 5 названий» |
| 0.9–1.0+ | Свободное творчество, storytelling | «Напиши стихотворение» |
Пример влияния temperature:
Промпт: «Закончи фразу: "Утром я обычно..."»
Temperature = 0.0 (5 запусков): Все 5 раз: «Утром я обычно просыпаюсь, чищу зубы и завтракаю.» — одинаково.
Temperature = 1.0 (5 запусков): 1: «...пью кофе и смотрю в окно, думая о вечном.» 2: «...бегу в парк, пока город ещё спит.» 3: «...не могу решить, что надеть, и опаздываю.» 4: «...ненавижу будильник всем сердцем.» 5: «...сразу проверяю почту, хоть и знаю, что не стоит.»
Высокий temperature = разнообразие. Низкий = повторяемость.
Top_p: альтернативный контроль разнообразия
Top_p (nucleus sampling) — другой способ управления. Модель выбирает следующий токен не из ВСЕХ возможных, а из минимального набора, сумма вероятностей которого ≥ top_p.
top_p = 0.1 → модель выбирает из самых вероятных токенов, дающих в сумме 10% вероятности
top_p = 0.5 → из токенов, дающих 50% вероятности
top_p = 1.0 → из всех токенов
На практике: не меняй temperature и top_p одновременно. Выбери что-то одно. Обычно temperature достаточно.
Max_tokens: бюджет на ответ
Max_tokens — максимальное количество токенов, которое модель может сгенерировать в ответе.
max_tokens = 100 → ответ не длиннее ~75 слов
max_tokens = 500 → ответ не длиннее ~375 слов
max_tokens = 2000 → ответ не длиннее ~1500 слов
Важно: max_tokens — это ЛИМИТ, а не целевое значение. Если ты поставил 500, а модель может ответить за 100 — она ответит за 100. Если ответ не помещается в лимит — модель оборвёт его на полуслове.
Совет: для structured outputs (JSON) всегда ставь max_tokens с запасом. Лучше 500 токенов на JSON из 5 полей, чем оборванный ответ без закрывающей скобки.
Где находятся эти параметры в веб-интерфейсе
В типичном веб-интерфейсе языковой модели:
- Открываешь настройки чата или playground.
- Находишь секцию «Параметры генерации» / «Generation parameters».
- Видишь ползунки: Temperature, Top P, Max Tokens / Maximum Length.
Не все веб-интерфейсы показывают эти настройки. Если их нет — модель использует значения по умолчанию, обычно temperature ~0.7.
Взаимодействие параметров и промпта
Параметры не заменяют промпт-инжиниринг, а дополняют его:
Нужен точный, фактический ответ:
→ Temperature = 0.1 + жёсткая инструкция + формат JSON
Нужна креативная идея:
→ Temperature = 0.8 + открытая формулировка + «придумай 10 вариантов»
Проверь себя
Какой temperature выберешь для следующих задач? а) Классификация 1000 отзывов; б) Придумать слоган для рекламы; в) Объяснить сложную тему студенту.
Ответ: а) 0.0–0.1 (нужна максимальная консистентность), б) 0.7–0.9 (нужна креативность и разнообразие), в) 0.3–0.5 (нужна точность + немного вариативности для естественного языка).
Итог
- Temperature (0–1+) — главный регулятор креативности. 0 = жёсткая предсказуемость, 1 = максимальная вариативность.
- Top_p — альтернатива temperature. Используй что-то одно.
- Max_tokens — лимит длины ответа. Ставь с запасом.
- Для фактов и классификации — низкий temperature (0–0.2). Для креатива — высокий (0.7+).
- Параметры не заменяют промпт — они работают вместе: точный промпт + подходящий temperature = идеальный ответ.
Что дальше
Ты освоил метрики качества, итеративный процесс и параметры модели. Теперь — A/B-тестирование: как сравнивать две версии промпта и выбирать лучшую на основе данных, а не интуиции.