Популярность предварительно обученных больших языковых моделей (LLM) возросла благодаря их эффективности в решении различных задач на естественном языке. Совсем недавно был признан их потенциал в управлении автономной веб-навигацией с использованием инструкций на естественном языке.

Однако существующие модели веб-навигации сталкиваются с многочисленными проблемами. К ним относятся отсутствие предопределенного пространства действий, сложности с интерпретацией обширных HTML-документов и отсутствие знаний в предметной области, относящихся к HTML.

Чтобы решить вышеупомянутые проблемы, в новой статье Реальный веб-агент с планированием, пониманием длительного контекста и синтезом программы исследовательская группа из Google DeepMind и Токийского университета представляет WebAgent, LLM- управляемый реальным агентом веб-навигации, который может решать задачи реальных веб-сайтов, следуя инструкциям на естественном языке.

Команда резюмирует свой основной вклад следующим образом:

  1. Мы представляем WebAgent, интеграцию двух LLM для реальной веб-навигации. Языковая модель предметной области занимается планированием и обобщением HTML, а универсальная языковая модель генерирует исполняемые программы.
  2. Мы представляем HTML-T5, новые языковые модели, специфичные для HTML, с применением локально-глобального внимания и предварительной подготовки с сочетанием шумоподавления на больших интервалах в крупномасштабном корпусе HTML.
  3. HTML-T5 заметно повышает вероятность успеха более чем на 50% на реальном веб-сайте и превосходит предыдущий агент LLM на 14,9% в MiniWoB++.

WebAgent состоит из взаимодействий между HTML-T5 для планирования и обобщения и Flan-U-PaLM для обоснованного синтеза программ.