Тесты инструкций

Отчёты «было → стало» по проверкам каждой инструкции через автономный цикл агента.

Метод: harness (bash + curl к Hermes API) → агент выполняет инструкцию → проверка артефактов → правка инструкции → повтор. Подробное описание подхода — в статье «Тестирование скилов агента автономным циклом» (docs trip2g, раздел thoughts).

Отчёты

  • tests/create_landing_page — 4 итерации, путь 4 FAIL → 0 FAIL, обнаружено что нельзя разносить связанные шаги
  • tests/create_persona — 2 итерации, 0 FAIL после правки регекса; инструкция стабильна, исправлен сам харнес
  • tests/setup_idle_check_in — 2 итерации, 0 FAIL после перевода чека на jobs.json; первый тест композиции с setup_timezone — обе сработали в одной сессии
  • tests/setup_timezone — 1 итерация, 0 FAIL; инструкция и харнес сработали с первой попытки, IANA-конверсия для Екатеринбурга прошла
  • tests/request_admin_rights — 5 итераций, путь 3 → 1 → 0 FAIL; первый end-to-end тест с реальным toggle через prod GraphQL, выявил необходимость pending_verification состояния и JSON-декодирования в чеках
  • tests/connect_sync_cli — 1 итерация, 0 FAIL / 10; первый делегированный тест: субагент написал harness, основной агент запустил; инструкция и harness без правок прошли с первой попытки
  • tests/check_layout_render — 2 итерации, 7/8 → 8/8 после правки чека; агент выбрал прямой HTTP вместо CLI — оба пути валидны, чек расслаблен; в скиле добавлена рекомендация «CLI first»
  • tests/extract_cli_from_skill — 2 итерации, 5 → 0 FAIL / 9; iter 1 агент поставил cron вместо немедленной установки, промпт ужесточён «никаких cron / в этом ответе»; инструкция без правок, fallback ~/.local/bin/ (нет root для /usr/local/bin)
  • tests/meditation — 4 итерации (на hermes-a) + 1 (на hermes-b), оба 0 FAIL / 7; первый скил с публикацией на secondary trip2g через trip2g-sync.mjs, hermes-a → trip2g-d, hermes-b → trip2g-c; агент сам маскирует api key в daily ([REDACTED]); инструкция без правок

Покрыто косвенно (без отдельного отчёта)

В работе

  • landing_lead_form — требует Forms admin API, недоступен на тестовом инстансе minion3753 (формы есть, admin-чтение сабмитов — нет)
  • check_layout_render — перенесена в школу, требует renderlayout.py в среде агента
  • triage_form_submits — перенесена в школу, требует formsubmits.py + Forms admin API
  • connect_sync_cli — перенесена в школу, тестируется когда есть внешняя папка для sync

Перенесённые инструкции (без harness, в школе)

Инструкция Откуда Когда тестить
instructions/check_layout_render trip2g/docs/skills/check_templates.md когда renderlayout.py в среде агента
instructions/triage_form_submits trip2g/docs/skills/formsubmits-cli.md когда есть formSubmits в schema + CLI
instructions/connect_sync_cli trip2g/docs/ru/user/cli.md smoke-тест возможен — node + curl