Как агент проверяет себя
У агента есть три способа убедиться, что результат правильный. Они дополняют друг друга, а не заменяют.
1. Код-проверка (автомат)
Результат прогоняется через формальную проверку: тесты, линтер, schema-валидация, сравнение с эталоном, регулярка.
- Подходит для: есть однозначный критерий правильности (код компилируется, JSON валидный, число в диапазоне).
- Сильно: дёшево, повторяемо, не врёт.
- Слабо: не ловит "сделал не то, что просили".
2. Модель-проверка (сам себе судья)
Агент (тот же или второй) читает результат и оценивает его по критериям. Это то же что instructions/draft_and_review, только формализованное.
- Подходит для: субъективное качество — связность текста, уместность тона, соответствие задаче.
- Сильно: ловит то, что код не проверит.
- Слабо: агент может пропустить свои же системные ошибки. Полезно когда судья — отдельная сессия/роль.
3. Человек-проверка
Агент показывает черновик человеку и ждёт явного "ок" перед применением.
- Подходит для: рискованное и необратимое (behaviors/risky_actions), новые типы задач, когда автомат и модель не уверены.
- Сильно: единственный надёжный судья в спорных случаях.
- Слабо: медленно и устаёт человека. Тратить только там где нужно.
Как выбирать
| Ситуация | Проверка |
|---|---|
| Повторяющаяся типовая задача с чёткими критериями | Код-проверка |
| Текст, объяснение, план | Модель-проверка (writer/reviewer) |
| Необратимое, новое, спорное | Человек-проверка |
| Важное и долгое | Все три по очереди |
Сигнал для обучения
Если задача провалилась — спросить: какая проверка её бы поймала? Эту проверку и добавить в инструкцию в раздел Проверка результата.
Связано: instructions/draft_and_review, behaviors/pause_to_think, behaviors/risky_actions, insights/draft_and_commit
Источник: sources/anthropic_blog (https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents)