Порівняння агентів штучного інтелекту з фахівцями з кібербезпеки в реальному тестуванні на проникнення

Автори: Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun-shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, Daniel E. Ho

Опубліковано: 2025-12-11

Переглянути на arXiv →
#cs.AIAI аналіз#AI Agents#Cybersecurity#Penetration Testing#LLM#GPT-4#Automation#Human-AI Comparison#Offensive SecurityCybersecuritySoftware DevelopmentInsuranceGovernment/DefenseCompliance

Анотація

Ця стаття представляє всебічну оцінку агентів штучного інтетету проти людських фахівців з кібербезпеки в реальному тестуванні на проникнення в корпоративному середовищі. Вона підкреслює можливості ШІ у виявленні вразливостей та покращенні кіберзахисту.

Вплив

transformative

Теми

8

💡 Просте пояснення

Дослідники влаштували змагання між роботами зі ШІ (на основі передових мовних моделей) та людьми-хакерами, щоб дізнатися, хто зможе знайти дірки в безпеці веб-сайтів швидше та дешевше. Результати показали, що ШІ неймовірно швидкий і дешевий для виявлення простих, поширених проблем — як суперефективний молодший помічник. Однак, коли справа доходила до хитрих, складних проблем, що вимагають творчості та нестандартного мислення, експерти-люди все одно легко перемагали. Дослідження свідчить про те, що в майбутньому люди, ймовірно, використовуватимуть ці інструменти ШІ для виконання нудної роботи, зосереджуючись на складних завданнях.

🎯 Постановка проблеми

Індустрія кібербезпеки стикається зі зростаючою диспропорцією між кількістю складних загроз та наявною робочою силою кваліфікованих пентестерів. Ручне тестування на проникнення є дорогим, повільним і не масштабується, залишаючи багато застосунків недоперевіреними. Існуючі автоматизовані сканери (DAST) не мають можливостей мислення для виявлення складних логічних вразливостей, що створює потребу оцінити, чи можуть сучасні агенти ШІ заповнити цю прогалину.

🔬 Методологія

Автори створили контрольоване середовище для бенчмаркінгу, що містило набір веб-застосунків з різними типами вразливостей (SQLi, XSS, логічні помилки). Вони розгорнули агентів ШІ, налаштованих за допомогою промптингу в стилі ReAct та доступом до стандартних інструментів безпеки (веб-браузери, проксі-сканери, доступ до терміналу). Контрольна група учасників-людей, розподілена на категорії Junior, Mid-level та Senior, виконувала тести на проникнення на тих самих цілях. Зібрані метрики включали Time-to-Pwn (час до експлуатації), вартість за вразливість (розрахунок токенів проти погодинної оплати) та рівень хибних позитивів. Архітектура агента використовувала GPT-4o як двигун мислення.

📊 Результати

Агенти ШІ продемонстрували зниження витрат до 20 разів порівняно з людьми-тестувальниками при виявленні вразливостей низької та середньої складності. Що стосується швидкості, агенти були здатні сканувати та експлуатувати цілі значно швидше, ніж молодші спеціалісти-люди. Однак рівень успіху агентів різко падав на цілях, що вимагали багатоетапного мислення або нових ланцюжків експлойтів, де старші тестувальники-люди зберігали високий рівень успіху. Агенти також виявили вищу схильність до 'кролячих нір' (переслідування тупикових шляхів) без втручання людини. Дослідження кількісно визначило, що хоча агенти можуть замінити близько 50-60% рутинних завдань тестування, вони ще не можуть замінити критичне мислення професіонала середнього або високого рівня.

Ключові висновки

Агенти ШІ готові комодитизувати нижній рівень тестування на проникнення, роблячи базові оцінки безпеки доступними для всіх. Однак 'людина в контурі' залишається необхідною для оцінок високої надійності. Майбутня роль пентестера трансформується в 'оператора ШІ', який керує агентами для виконання важкої роботи, зосереджуючи людське пізнання на цінних, складних логічних головоломках.

🔍 Критичний аналіз

Стаття забезпечує вкрай необхідне емпіричне підґрунтя для ажіотажу навколо ШІ в кібербезпеці. Безпосередньо порівнюючи агентів з людьми різного рівня кваліфікації, вона пропонує нюансований погляд, що уникає бінарних висновків 'ШІ марний' або 'ШІ замінить усіх'. Однак визначення 'реального світу' обов'язково обмежене створеними тестовими середовищами, яким може бракувати хаотичної складності застарілих корпоративних мереж. Дослідження є технічно обґрунтованим, але виграло б від тривалішого лонгітюдного дослідження для оцінки адаптивності агентів з часом.

💰 Практичне застосування

  • SaaS-платформа, що пропонує тестування на проникнення за вимогою на основі агентів для малого бізнесу.
  • Корпоративна ліцензія на 'AI Security Co-pilot', інтегрованого в робочі процеси CI/CD розробників.
  • Консалтингові послуги спеціально для навчання та налаштування агентів безпеки для конкретних інфраструктур компаній.
  • Інструмент страхового аудиту: зниження премій для компаній, які проходять безперервний стрес-тест агентами ШІ.

🏷️ Теги

#AI Agents#Cybersecurity#Penetration Testing#LLM#GPT-4#Automation#Human-AI Comparison#Offensive Security

🏢 Релевантні індустрії

CybersecuritySoftware DevelopmentInsuranceGovernment/DefenseCompliance