Написание и первичное тестирование

В прошлом уроке ты спроектировал промпт для генерации описаний товаров. Теперь — пишем первую версию, готовим few-shot примеры и замеряем baseline.

Шаг 1: Пишем few-shot примеры

Выбираем 2–3 товара из eval set и пишем для них эталонные описания. Примеры должны покрывать разные сценарии: богатый вход, бедный вход, средний вход.

Пример 1 — богатый вход:

Вход:
Название: Наушники SoundWave Pro X
Бренд: SoundWave
Категория: Беспроводные наушники
Характеристики: Bluetooth 5.3, активное шумоподавление, 30 часов работы,
быстрая зарядка (10 мин = 3 часа), вес 250 г, цвет: чёрный
Цена: 8 990 руб.

Выход:
SoundWave Pro X — беспроводные наушники с флагманским шумоподавлением.
30 часов автономной работы и быстрая зарядка: 10 минут у розетки дают
3 часа музыки. Лёгкие (250 г), с Bluetooth 5.3 для стабильного соединения
без задержек. Стильный чёрный корпус и доступная цена 8 990 руб. делают
их идеальным выбором для города.

Пример 2 — бедный вход:

Вход:
Название: Силиконовый чехол CaseLite
Бренд: CaseLite
Категория: Чехол для смартфона
Характеристики: материал — силикон, цвет: красный
Цена: 590 руб.

Выход:
Силиконовый чехол CaseLite защищает смартфон от ударов и царапин.
Мягкий материал приятно лежит в руке, а яркий красный цвет выделяет
ваш гаджет среди других. Всего за 590 руб.

Пример 3 — технически сложный товар:

Вход:
Название: Ноутбук TechPro Book 15
Бренд: TechPro
Категория: Ноутбук
Характеристики: Intel Core i7-13700H, 16 ГБ RAM, SSD 512 ГБ,
экран 15.6" IPS (1920×1080), вес 1.7 кг, аккумулятор 10 часов,
Wi-Fi 6E, корпус: алюминий
Цена: 89 990 руб.

Выход:
TechPro Book 15 — производительный ноутбук в алюминиевом корпусе
весом всего 1.7 кг. Мощный процессор Intel Core i7 и 16 ГБ памяти
справляются с любыми рабочими задачами, а 10 часов автономной работы
освобождают от привязки к розетке. Яркий 15.6-дюймовый IPS-экран
и быстрый SSD на 512 ГБ. Всё это за 89 990 руб.

Важно: примеры показывают модели не ЧТО писать, а КАК писать — стиль, структуру, подход к отбору характеристик.

Шаг 2: Собираем промпт v1

Соединяем роль, инструкции, примеры и входные данные:

<role>
Ты — профессиональный копирайтер интернет-магазина электроники.
Твоя задача — писать короткие, привлекательные описания товаров на основе
предоставленных характеристик.
</role>

<instructions>
Напиши описание товара (3–5 предложений) на русском языке.

Правила:
- Первое предложение: название товара + главное преимущество.
- Используй ТОЛЬКО характеристики из входных данных.
- НЕ придумывай свойства, которых нет во входе.
- НЕ используй слова-клише без подтверждения: «революционный»,
  «инновационный», «лучший», «уникальный».
- Если характеристик мало — описание должно быть короче (2–3 предложения).
- Цену указывай в последнем предложении, если она есть во входе.
- Технические цифры переводи в понятные преимущества, где это уместно.
</instructions>

<examples>
Пример 1:
Вход: Наушники SoundWave Pro X... (см. выше)
Выход: SoundWave Pro X — беспроводные наушники...

Пример 2:
Вход: Силиконовый чехол CaseLite... (см. выше)
Выход: Силиконовый чехол CaseLite защищает...

Пример 3:
Вход: Ноутбук TechPro Book 15... (см. выше)
Выход: TechPro Book 15 — производительный ноутбук...
</examples>

<product_data>
{{product_data}}
</product_data>

Напиши описание товара, следуя стилю примеров и правилам выше.

Шаг 3: Тестируем на одном примере

Прежде чем гнать весь eval set, проверь на одном примере «вручную» — открой веб-интерфейс модели и отправь промпт:

<product_data>
Название: Фитнес-браслет FitBand X
Бренд: FitBand
Категория: Фитнес-браслет
Характеристики: пульсометр, SpO2, шагомер, водозащита IP68,
7 дней работы, экран AMOLED 1.4"
Цена: 4 990 руб.
</product_data>

Модель выдала:

FitBand X — фитнес-браслет с ярким AMOLED-экраном и защитой от воды
по стандарту IP68. Отслеживает пульс, уровень кислорода (SpO2) и шаги —
все ключевые показатели здоровья на запястье. Работает до 7 дней без
подзарядки. Всё это за 4 990 руб.

Беглый осмотр: 3 предложения, ключевые фичи упомянуты, цена в конце, придуманных характеристик нет. Выглядит достойно.

Шаг 4: Прогоняем eval set — baseline

Теперь прогоняем все 10 товаров из eval set и оцениваем.

Результаты v1 (baseline):

ID	Товар	Предложений	Выдумано?	Ключевые фичи	Оценка
1	Наушники	4	Нет	5/6	OK
2	Смартфон	5	Да — «защита Gorilla Glass»	7/10	Ошибка
3	Чехол	3	Нет	2/2	OK
4	Ноутбук	4	Нет	6/8	OK
5	Умная колонка	5	Да — «поддержка Алисы»	4/5	Ошибка
6	USB-кабель	1	Нет	1/1	OK
7	Телевизор	5	Да — «Smart TV»	5/6	Ошибка
8	Фитнес-браслет	3	Нет	4/5	OK
9	Мышь	4	Да — «бесшумные кнопки»	3/4	Ошибка
10	Повербанк	3	Нет	4/4	OK

Baseline-метрики:

Полнота (фичи упомянуты): 46/53 = 87%
Точность (нет выдумок): 6/10 = 60% — ПРОБЛЕМА
Длина (3–5 предложений): 9/10 = 90%
Средняя ручная оценка тона: 3.8/5

Шаг 5: Анализ ошибок

4 из 10 описаний содержат выдуманные характеристики. Модель «дополняет» товар типичными для категории фичами, даже когда их нет во входе.

Пример ошибки — товар №5 (Умная колонка):

Вход: Умная колонка SmartSound Mini. Характеристики: динамик 10 Вт,
Bluetooth 5.0, радиус действия 10 м, цвет серый. Цена: 2 990 руб.

Выход модели (ОШИБКА выделена):
SmartSound Mini — компактная умная колонка с чистым звуком 10 Вт
и поддержкой Алисы. Bluetooth 5.0 обеспечивает стабильное соединение
на расстоянии до 10 метров. Стильный серый корпус впишется в любой
интерьер. Всё за 2 990 руб.

Проблема: модель добавила «поддержку Алисы», которой нет во входе.

Почему это произошло: «умная колонка» в обучающих данных модели почти всегда ассоциируется с голосовым помощником. Модель «дорисовала» типичную характеристику категории.

Гипотеза: нужно усилить запрет на домысливание — явно перечислить типичные ошибки, которые модель не должна совершать.

Проверь себя

Ты протестировал промпт для классификации отзывов на 20 примерах. Точность 70%. Модель путает «негативный» и «нейтральный» — когда отзыв нейтральный («доставили вовремя»), модель часто помечает его как позитивный. В чём гипотеза? Что изменишь в промпте?

Итог

Первая версия промпта включает: роль, инструкции, few-shot примеры, входные данные.
Few-shot примеры должны покрывать разные сценарии (богатый/бедный вход, сложная терминология).
Тестируй сначала на ОДНОМ примере «вручную», потом на всём eval set.
Baseline — это точка отсчёта. Не расстраивайся, если она низкая: итерации всё исправят.
Анализируй ошибки по категориям. 4 ошибки с выдумыванием — одна проблема, не четыре.

Что дальше

Baseline измерен: точность 60% по критерию «не придумывать». Это главная проблема. В следующем уроке — итеративно улучшаем промпт: гипотеза → изменение → замер, и так до целевых метрик.

Написание и первичное тестирование