В стартапе на стадии Pre-Seed/Seed либо фанатично считают деньги, либо умирают. В RankCaster AI уперлись в классическую ловушку масштабирования: больше фич = больше людей в QA = раздутый COGS и медленные релизы. Регрессионный анализ каждого апдейта занимал до 48 часов ручного труда. Было решено, что платить за «прокликивание» дашбордов в 2026 году — это грех, и был собран автономный AI-агент, который делает это лучше человека.
Стек: Без фреймворков и лишнего кода
Не было потрачено недель на Selenium или Cypress. Стек был развернут за ~1 рабочий день:
Claude Code: AI-агент, «мозг» и оператор.
agent-browser (Rust daemon + Chrome CDP): «Тело», которое управляет реальным Chrome через CLI.
SSH / psql: Прямой доступ к базе данных для кросс-валидации данных.
Как это было запущено:
- Был установлен
agent-browserглобально, создан QA-аккаунт на бете и прописан один файл памяти с паттернами команд. - Всё.
- Никаких тест-скриптов, никакого кастомного кода, никакого фреймворка.
Как это работает: Один проход — три уровня проверки
Claude порождает субагента, который через CLI-команды (open, snapshot -i, fill, click) управляет браузером. Он ведет себя как живой пользователь, но с рентгеновским зрением:
- Zero Test Maintenance: Агент считывает Accessibility Tree (дерево доступности), а не жесткие CSS-селекторы. Если меняется
idкнопки или перекрашивают её, бот не сломается — он поймет смысл элемента и адаптируется. - Кросс-слойная валидация: За один проход бот проверяет UI, API и базу данных. Он кликает по фильтру и тут же через SSH проверяет: «Совпадают ли цифры в интерфейсе с результатами сырого SQL-запроса?». Человеку или обычному E2E-тесту такая связка недоступна.
- Сессионная память: Куки выживают после перезапуска. Бот не тратит время на логин при каждой проверке — он сразу переходит к делу.
Реальные баги, которые не нашел бы человек
Этот агент — не просто «кликер», а исследователь. Вот что он выцепил за первую неделю:
- APR Error 14%: Бот нашел пропущенный фильтр в БД, который вызывал ошибку в расчете годовой ставки сразу в 5 API-маршрутах. Ни ручной тестер, ни скрипт этого не видели, потому что визуально всё выглядело «ок».
- CSS Clipping: Конфликт высот в CSS обрезал столбцы на графиках. Агент проанализировал визуальный рендеринг и сам нашел причину в коде.
- On-demand расследование: Не пишутся скрипты. Описывается задача на английском: «Проверь, как работает биллинг для новых юзеров из ЕС». Через 10 минут получается отчет с root-cause анализом и скриншотами.
Важный дисклеймер:
Это не замена CI-тестам. Агент исследует и находит баг. Как только баг найден, пишется детерминированный тест на Vitest, чтобы закрепить результат. AI ведет разведку — код охраняет границы.
Roadmap: Куда ведет AI QA Агента
Строится система, где деплой защищен алгоритмами.
- CI/CD Integration: Включается агент в GitHub Actions. После деплоя на бету Claude прогоняет Smoke-тест (логин, отчеты, биллинг), сверяет APR с базой и, если что-то не так, блокирует PR, оставляя отчет в комментариях.
- Семантическая регрессия: Агент будет сравнивать скриншоты не по пикселям, а по смыслу. Ему плевать на сдвиг паддинга в 2px, но он заблокирует релиз, если в чарте пропали данные.
- Customer-Triggered QA: Если клиент жалуется на баг, система автоматически логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.
- Multi-Model Validation: Добавляются новые LLM (Perplexity, Claude, DeepSeek). Агент будет постоянно проверять, что расчеты APR во всех моделях идентичны, сравнивая их ответы с эталоном в БД.
- Self-Healing: Агент находит баг → сам генерирует Vitest-тест → открывает PR. Круг «обнаружение — фиксация — защита» замыкается без участия человека.
Это и есть эффективный R&D в 2026 году. Не нанимают людей для рутины — пишут софт, который заменяет людей. Лучший способ доказать инвесторам, что заботятся об их деньгах.