Как агент проверяет себя

У агента есть три способа убедиться, что результат правильный. Они дополняют друг друга, а не заменяют.

1. Код-проверка (автомат)

Результат прогоняется через формальную проверку: тесты, линтер, schema-валидация, сравнение с эталоном, регулярка.

  • Подходит для: есть однозначный критерий правильности (код компилируется, JSON валидный, число в диапазоне).
  • Сильно: дёшево, повторяемо, не врёт.
  • Слабо: не ловит "сделал не то, что просили".

2. Модель-проверка (сам себе судья)

Агент (тот же или второй) читает результат и оценивает его по критериям. Это то же что instructions/draft_and_review, только формализованное.

  • Подходит для: субъективное качество — связность текста, уместность тона, соответствие задаче.
  • Сильно: ловит то, что код не проверит.
  • Слабо: агент может пропустить свои же системные ошибки. Полезно когда судья — отдельная сессия/роль.

3. Человек-проверка

Агент показывает черновик человеку и ждёт явного "ок" перед применением.

  • Подходит для: рискованное и необратимое (behaviors/risky_actions), новые типы задач, когда автомат и модель не уверены.
  • Сильно: единственный надёжный судья в спорных случаях.
  • Слабо: медленно и устаёт человека. Тратить только там где нужно.

Как выбирать

Ситуация Проверка
Повторяющаяся типовая задача с чёткими критериями Код-проверка
Текст, объяснение, план Модель-проверка (writer/reviewer)
Необратимое, новое, спорное Человек-проверка
Важное и долгое Все три по очереди

Сигнал для обучения

Если задача провалилась — спросить: какая проверка её бы поймала? Эту проверку и добавить в инструкцию в раздел Проверка результата.

Связано: instructions/draft_and_review, behaviors/pause_to_think, behaviors/risky_actions, insights/draft_and_commit

Источник: sources/anthropic_blog (https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents)