EcomBench: До цілісної оцінки базових агентів в електронній комерції

Автори: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R. (May)Fung, Yalong Li, Pengjun Xie

Опубліковано: 2025-12-10

Переглянути на arXiv →
#cs.AIAI аналіз#E-commerce#LLM Agents#Benchmark#Multimodal AI#Operations Research#Merchant AutomationE-commerceRetailCustomer ServiceLogisticsDigital Marketing

Анотація

Ця стаття представляє EcomBench, бенчмарк, розроблений для цілісної оцінки базових агентів в електронній комерції, що відповідає потребі у всебічній оцінці продуктивності ШІ в цій критично важливій галузі реального застосування.

Вплив

practical

Теми

6

💡 Просте пояснення

Уявіть собі випускний іспит для ШІ-роботів, які хочуть керувати інтернет-магазином. Більшість попередніх тестів перевіряли лише те, чи може робот знайти пару взуття. Цей новий тест, EcomBench, перевіряє, чи може робот також обробляти скарги клієнтів, керувати інвентарем складу, розуміти неякісні фотографії товарів та орієнтуватися в панелі продавця. Результати показують, що хоча найрозумніші ШІ (наприклад, той, що стоїть за ChatGPT) складають іспит на '3' або '4', багато інших провалюються, особливо коли намагаються виконувати складні бізнес-завдання, такі як планування розпродажів або виправлення помилок у замовленнях.

🎯 Постановка проблеми

Поточні оцінки агентів ШІ в електронній комерції є занадто вузькими, фокусуючись переважно на завданнях покупок для користувачів (пошук, рекомендації). Це ігнорує ширшу екосистему, включаючи складні операції продавців, післяпродажне обслуговування та необхідність надійної обробки мультимодальних вхідних даних (текст + зображення), залишаючи прогалину в розумінні готовності цих агентів до реального впровадження в бізнес.

🔬 Методологія

Автори розробили бенчмарк, що складається з чотирьох модулів: Закупівлі, Обслуговування клієнтів, Операції та Мультимодальний. Вони зібрали набір даних з понад 1500 завдань з реальних джерел (Amazon, навчальні відео) та синтетичної генерації. Вони ввели 'EcomScore', зважену метрику, що поєднує рівень успіху (SR), ефективність (Eff) та безпеку (Saf). Вони оцінили 12 LLM, включаючи GPT-4o, Claude 3.5 Sonnet та Llama 3, використовуючи як методи перевірки на основі правил, так і методологію LLM-як-суддя.

📊 Результати

GPT-4o досяг найвищого загального балу EcomScore (58.3), за ним слідує Claude 3.5 Sonnet (55.5). Моделі з відкритим кодом, такі як Llama-3-70B, значно відстали (EcomScore ~42-45). Модуль 'Операції' виявився найскладнішим, моделі мали труднощі з плануванням складних послідовностей. У мультимодальних завданнях навіть топові моделі мали проблеми з кореляцією текстових інструкцій з тонкими візуальними деталями на зображеннях товарів. Спостерігалося значне падіння продуктивності при переході від простих завдань до тих, що вимагають утримання довгострокового контексту.

Ключові висновки

В e-commerce ШІ існує розрив 'Sim-to-Real'; моделі, які добре спілкуються, не обов'язково добре працюють операційно. Складність операцій продавця (інвентар, ціни) наразі є найбільшим вузьким місцем для автономних агентів. Пропрієтарні моделі наразі утримують сильну монополію на продуктивність у цій галузі, що свідчить про високі бар'єри входу для конкурентів на базі відкритого коду без спеціалізованого донавчання.

🔍 Критичний аналіз

EcomBench заповнює критичну порожнечу, виходячи за рамки стереотипу 'асистента покупок', щоб звернутися до складної реальності операцій електронної комерції. Включення Операційного агента заслуговує на особливу похвалу, оскільки саме тут знаходиться високовартісна B2B автоматизація. Однак залежність від статичних наборів даних обмежує оцінку динамічного виправлення помилок у багатоходових сценаріях, що є критичним у реальному розгортанні. Розрив між GPT-4o та моделями з відкритим кодом підкреслює, що ми ще не готові до масових автономних агентів електронної комерції без значного донавчання.

💰 Практичне застосування

  • Сервіс сертифікації: значок 'EcomBench Certified' для інструментів ШІ в магазині додатків Shopify.
  • Ліцензування даних: продаж очищеного, високоякісного набору даних 'Операції' лабораторіям ШІ.
  • Тренувальна платформа: SaaS-платформа, що донавчає корпоративні LLM на цих конкретних режимах збоїв.

🏷️ Теги

#E-commerce#LLM Agents#Benchmark#Multimodal AI#Operations Research#Merchant Automation

🏢 Релевантні індустрії

E-commerceRetailCustomer ServiceLogisticsDigital Marketing