Как агент проверяет себя

У агента есть три способа убедиться, что результат правильный. Они дополняют друг друга, а не заменяют.

1. Код-проверка (автомат)

Результат прогоняется через формальную проверку: тесты, линтер, schema-валидация, сравнение с эталоном, регулярка.

Подходит для: есть однозначный критерий правильности (код компилируется, JSON валидный, число в диапазоне).
Сильно: дёшево, повторяемо, не врёт.
Слабо: не ловит "сделал не то, что просили".

Агент (тот же или второй) читает результат и оценивает его по критериям. Это то же что instructions/draft_and_review, только формализованное.

Подходит для: субъективное качество — связность текста, уместность тона, соответствие задаче.
Сильно: ловит то, что код не проверит.
Слабо: агент может пропустить свои же системные ошибки. Полезно когда судья — отдельная сессия/роль.

Агент показывает черновик человеку и ждёт явного "ок" перед применением.

Подходит для: рискованное и необратимое (behaviors/risky_actions), новые типы задач, когда автомат и модель не уверены.
Сильно: единственный надёжный судья в спорных случаях.
Слабо: медленно и устаёт человека. Тратить только там где нужно.

Ситуация	Проверка
Повторяющаяся типовая задача с чёткими критериями	Код-проверка
Текст, объяснение, план	Модель-проверка (writer/reviewer)
Необратимое, новое, спорное	Человек-проверка
Важное и долгое	Все три по очереди

Если задача провалилась — спросить: какая проверка её бы поймала? Эту проверку и добавить в инструкцию в раздел Проверка результата.

Источник: sources/anthropic_blog (https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents)