Red Teaming
Автоматические adversarial-прогоны по 10 классам атак: prompt injection, jailbreak, PII extraction, toxicity, context hijacking. Главная метрика — Attack Success Rate.
DeepThroat объединяет red teaming, RAG evaluation и API runner в единый дашборд. Подключите endpoint — получите release verdict с конкретными findings и порогами.
Prompt injection ASR выше порога. Faithfulness прошла. Команда видит владельцев до выката.
Red teaming, RAG evaluation и API testing в едином пайплайне. Не нужно собирать результаты из разных инструментов — DeepThroat строит общий release verdict.
Автоматические adversarial-прогоны по 10 классам атак: prompt injection, jailbreak, PII extraction, toxicity, context hijacking. Главная метрика — Attack Success Rate.
LLM-as-a-Judge оценивает faithfulness ≥0.8, answer relevancy ≥0.7, context precision ≥0.7 и recall ≥0.6. A/B тест конфигураций на одном датасете.
Batch-тестирование любых OpenAI-compatible endpoint: CSV/JSON/TXT датасеты, сравнение моделей по latency, cost и качеству, retry и rate limiting.
DeepThroat генерирует серии adversarial-промптов по каждому классу атак из OWASP LLM Top 10, прогоняет их через ваш endpoint и замеряет Attack Success Rate — процент атак, которые прошли защиту.
Результат — не просто список уязвимостей, а конкретные промпты с severity, diff между версиями system prompt и рекомендации по guardrails. Можно сравнить две модели на одном датасете атак и выбрать ту, где ASR ниже.
Скрытые инструкции в пользовательском вводе заставляют модель нарушать системные правила или раскрывать внутренние данные. DeepThroat тестирует прямые и косвенные инъекции через контент в RAG-контексте.
Обход safety-ограничений через role-play, кодовые слова, многошаговые диалоги и перефразирование. Платформа генерирует серии вариантов одной атаки и замеряет процент успешных обходов.
Модель случайно возвращает email, телефоны, токены, имена сотрудников или внутренние идентификаторы из тренировочных данных или RAG-базы. Проверяется через targeted prompting и анализ ответов.
Генерация оскорбительного, дискриминирующего или вредоносного контента в ответ на провокационные запросы. Оценивается через LLM-as-a-judge с настраиваемыми порогами.
Внешний документ в RAG-контексте подменяет поведение модели — классический indirect prompt injection. DeepThroat тестирует multi-turn сценарии, когда атака распределена по нескольким сообщениям.
Отвечает ли модель именно на вопрос пользователя. Низкое значение означает уход в соседние темы или игнорирование части запроса.
Опирается ли ответ на найденный контекст или придумывает факты. Ключевая метрика для контроля галлюцинаций в RAG-системах.
Попал ли retrieval в релевантные документы или принёс шум. Низкое значение указывает на проблему в векторном поиске или chunking-стратегии.
Достаточно ли контекста для полного ответа. Если recall низкий — часть нужных документов не попадает в retrieval и модель отвечает неполно.
В RAG-системах проблема может быть в retrieval, chunking, промпте или самой модели. Ручная проверка быстро превращается в спор мнений без данных. DeepThroat запускает оценку через DeepEval и RAGAS одновременно, раскладывает качество по четырём метрикам с настраиваемыми порогами и показывает где именно pipeline теряет качество.
A/B тест конфигураций: запустите один датасет на двух версиях RAG и сравните faithfulness, precision и recall — без ручного разбора логов.
Security engineer видит ASR и конкретные промпты. ML engineer — где деградирует retrieval. Product manager — release verdict без чтения логов. DevOps — quality gate для CI/CD.
Видит Attack Success Rate по каждому классу атак, конкретные промпты которые прошли защиту, и diff между версиями system prompt.
Понимает где деградирует RAG: retrieval шумит, chunking слишком крупный, промпт не использует контекст или judge-модель занижает оценки.
Получает понятный release verdict — Ready / Not ready — с объяснением какие риски остались и кто их владелец. Без чтения логов.
Встраивает quality gates в CI/CD пайплайн: блокирует деплой если ASR превышает порог или faithfulness падает ниже 0.8.
Каждый блок ведет к понятному действию: найти риск, назначить владельца, сравнить модель и принять решение о релизе.
Prompt injection, jailbreak, PII leakage, toxicity, context hijacking и role-play атаки. Покрытие OWASP LLM Top 10.
Разбор проблемы по слоям: retrieval, context quality, faithfulness и hallucination risk. DeepEval и RAGAS в одном интерфейсе.
Запуск одного датасета на двух моделях или конфигурациях. Сравнение по качеству, latency, cost и безопасности.
Пороговые значения для CI/CD. Слабые AI-релизы не попадают в production — платформа выдаёт verdict с конкретными findings.
Docker-развёртывание без передачи данных во внешние сервисы. Поддержка локальных моделей: Ollama, vLLM. Для enterprise с data privacy требованиями.
Работает с OpenAI, Anthropic, Google Gemini, OpenRouter и любым кастомным endpoint с OpenAI-совместимым контрактом.
Запускайте тесты перед релизом, сравнивайте конфигурации и отдавайте команде понятный отчет с конкретными провалами, порогами и следующими действиями.
deepthroath run --profile release 4 suites completed 2 findings require owner review
Укажите URL модели или RAG pipeline. Поддерживаются OpenAI, Anthropic, OpenRouter, Ollama, vLLM и любой кастомный endpoint.
CSV, JSON или TXT с вопросами и эталонными ответами. Или используйте встроенные наборы для OWASP LLM Top 10 атак.
DeepThroat запускает тесты, замеряет метрики и строит единую картину — security, quality и performance в одном отчёте.
Release gate: Ready или Not ready. Findings с severity, примерами и владельцами. Экспорт для команды и CI/CD интеграция.
Red teaming, RAG evaluation, API Runner, датасеты и release gates для production-команд.
Посмотреть услугиПрактические материалы про безопасность, RAG, red teaming, оценку качества ответов и внедрение AI QA.
Открыть блогДа. API Runner работает с любым OpenAI-compatible endpoint. Поддерживаются Ollama и vLLM для полностью локального развёртывания без передачи данных наружу.
Платформа разворачивается self-hosted через Docker. Данные не покидают вашу инфраструктуру. Поддерживается airgapped-режим для enterprise-окружений.
DeepThroat возвращает machine-readable verdict. Пропишите пороги (ASR < 5%, faithfulness ≥ 0.8) и блокируйте деплой при нарушении — через GitHub Actions, GitLab CI или любой другой пайплайн.
OpenAI, Anthropic Claude, Google Gemini, OpenRouter и локальные модели через Ollama/vLLM. Для LLM-as-a-judge можно использовать отдельную модель, отличную от тестируемой.
Опишите продукт в двух словах. Мы ответим с первым планом: какие атаки, метрики и regression gates стоит проверить.