Вы очень хотели изучить тщательно собранные биомедицинские знания с помощью LLM? Мы просто сделали это возможным! В этом посте мы покажем вам, как вы можете получить доступ к огромному количеству информации, собранной в Графике знаний Monarch Initiative, используя нашу интеграцию ChatGPT через функцию плагинов от OpenAI.

Что знает ИИ?

Системы искусственного интеллекта (ИИ), особенно модели большого языка (LLM), такие как ChatGPT OpenAI, представили новые и интересные способы взаимодействия с информацией. Эти модели, обученные предсказывать недостающие части текста из обширных коллекций книг, статей, социальных сетей, кода и многого другого, изучают закономерности в языке, начиная от базовых грамматических структур и заканчивая конкретными ответами на вопросы экзамена AP.

К сожалению, хотя LLM могут запоминать и действительно запоминают биты своих тренировочных данных, они не являются все всезнающими. LLM кодируют различные факты глубоко в слоях своих нейронных сетей, но информация по многим темам слишком необычна, чтобы ее можно было надежно хранить. Что еще хуже, склонность моделей ИИ галлюцинировать ответы, которых они не знают, является поводом для серьезного беспокойства, равно как и возможность запоминания неверной информации. Берегитесь ложных знаний; это опаснее, чем невежество. (Как и большинство источников, ChatGPT приписывает эту цитату Джорджу Бернарду Шоу, хотя, по иронии судьбы, это не совсем точно.)

Как мы можем научить модели ИИ давать нам правду, только правду и ничего кроме правды? Мы еще не достигли этого, но прогресс есть. Недавнее исследование галлюцинаций указывает, что проблема глубже, чем поверхностное неправильное запоминание фактов, и работа по убеждению студентов-магистрантов сообщать скромное я не знаю продолжается.

Несмотря на эти трудности, LLM преуспевают в обобщении, интеграции и объяснении информации, предоставленной им во время чата. Имея сотни строк компьютерного кода, они могут объяснить логику. Учитывая отрывок из литературы, они могут идентифицировать метафоры. Учитывая новостную статью, они могут обобщить содержание. Вместо того, чтобы пытаться построить модель, которая запоминает все, мы можем вместо этого помочь ИИ находить и извлекать качественную информацию по запросу. У этой техники даже есть название: заземление.

Графы знаний, представляющие собой обширные тщательно подобранные базы данных, наполненные взаимосвязанными фактами, являются идеальным партнером для ИИ. Графы знаний, обеспечивающие доступ к API, такие как Monarch, дополнительно предоставляют необходимые функции поиска и доступа — это союз, заключенный на небесах!

Монарх в ChatGPT

Чтобы проиллюстрировать, как ИИ на основе LLM можно связать с тщательно подобранными знаниями, мы разработали интеграцию Monarch с ChatGPT, используя функцию плагинов OpenAI. Плагины позволяют ChatGPT (в частности, современную модель GPT-4 от OpenAI) искать данные через внешние API, получать и суммировать результаты, а также при необходимости делать последующие запросы.

Например, выше мы попросили ChatGPT перечислить до 5 симптомов муковисцидоза (МВ). Ответ включает в себя как текст заявления об отказе от ответственности, так и ссылки, ведущие на соответствующие страницы https://monarchiniative.org. Это явные функции плагина как часть текста инициализации, предоставленного модели.

Хотя связь между МВ и этими симптомами обеспечивается Monarch, сводная информация для непрофессионалов (например, полипы являются мягкими, безболезненными, нераковыми новообразованиями) добавляется ИИ. LLM славятся своими многоязычными способностями, и перевод научных и общеупотребительных терминов не является исключением. Подобные функции делают мощные ресурсы, такие как Monarch, значительно более удобными для пользователя. Например, поиск по запросу «CF» будет расширен до «Цистозный фиброз» в зависимости от контекста вопроса, и ChatGPT без колебаний исправит неправильно написанные названия редких заболеваний.

В приведенном выше взаимодействии ChatGPT сделал два последовательных обращения к Monarch Initiative: сначала поиск по ключевым словам для поиска идентификатора заболевания муковисцидозом (MONDO:0009061), а затем для получения связанных фенотипов. Такое поведение при планировании нескольких звонков — одно из многих удивительных свойств LLM — в отличие от ссылок и текста заявления об отказе от ответственности, оно не является частью плагина или API. Мы можем даже попросить модель сначала описать свой план, который, как было показано, улучшает логические рассуждения, когда это необходимо.

Графы знаний (KG) предназначены для хранения информации в высокоструктурированном и организованном виде, что позволяет проводить сложный анализ реальных данных, таких как длительные симптомы COVID. Большая часть человеческих знаний хранится в свободном тексте, а не в графах знаний, но LLM может помочь и здесь. Во-первых, они могут эффективно извлекать, структурировать и организовывать информацию из текста, как это изящная работа Кофилда и др. из компании Monarch. демонстрирует. Но, как упоминалось ранее, они также могут суммировать текст на родном человеческом языке. В приведенном ниже примере ответ от API Monarch включает связанную публикацию, а ChatGPT использует другой плагин, WebPilot, для получения связанного содержимого страницы PubMed для обобщения.

Имея более 50 000 связанных публикаций, Monarch и искусственный интеллект могут вместе предоставить уникальный интерфейс для научных исследований.

Вызовы и будущие направления

Итак, можем ли мы наконец получить правду, всю правду и ничего кроме правды от наших ИИ-помощников? Нам еще есть куда идти. Первая задача — найти эффективную стратегию предоставления ИИ наиболее актуальной информации для работы. Любой, кто пытался найти что-то в Интернете, знает, что качественная поисковая система может иметь решающее значение. К счастью, LLM открывают новые возможности для поиска информации путем создания вложений; эти глубоко закодированные числовые представления оказываются одинаковыми для текста с похожим содержанием. Недавние исследования показывают, что подход гибридное ключевое слово + встраивание может быть лучшим.

Определение лучших ресурсов для обратной связи с моделью особенно важно из-за ограниченного размера контекста LLM — количества токенов (слов или частей слов), которые модель может обрабатывать одновременно. GPT-4 может обрабатывать до 32 000 токенов, что примерно соответствует 24 000 словам. Это довольно много (данный пост содержит около 1700 токенов, а модели с большими контекстами становятся все более доступными), но результаты вызовов API используют больше токенов, чем обычный текст из-за форматирования. Например, для одного результата из списка из 5 симптомов, приведенного выше, использовалось 1373 токена.

Хотя плагины OpenAI предназначены для работы с любым хорошо документированным API, мы обнаружили, что разработка небольшого API, ориентированного на LLM, не только упрощает использование модели (в самой спецификации API используются токены), но и позволяет нам упаковывать информацию в меньшее количество токенов. . Поскольку мы можем предоставить модели только подмножество результатов, а некоторые объекты имеют сотни или тысячи ассоциаций, такие вопросы, как какие общие гены имеют болезнь X и болезнь Y, потребуют использования информации о связях, хранящейся в Monarch в API. сторона, и эти запросы пока не поддерживаются. Кто знает, возможно, в будущем LLM смогут генерировать сложные запросы графа знаний сами.

Далее, хотя правильность нескольких примеров запросов легко проверить, понимание реальной полезности ИИ, основанного на знаниях, и достижение измеренного прогресса требует тщательной оценки. Наборы эталонных данных обычно используются для количественной оценки качества LLM, и мы изучаем недавно разработанные тесты, такие как GeneTuring и SciQA. Наконец, в этом доказательстве концепции используется функция плагинов OpenAI, доступная только платным подписчикам ChatGPT Plus, что ограничивает доступность и воспроизводимость в академических условиях. Мы изучаем другие варианты, в том числе менее строгие модели вызова функций OpenAI и альтернативы с открытым исходным кодом, такие как Llama 2 и Gorilla, последняя из которых также обучена для вызовов API (но против конкретных, не Monarch). API).

Отказ от ответственности: эта запись в блоге была написана человеком, а отзывы и предложения предоставлены GPT-4.

Демонстрационный чат, включая вызовы API и результаты, доступен здесь. Код плагина Monarch доступен на GitHub.

Соавторы: Шон Т. О’Нил, Кевин Шапер, Гласс Эльсарбух, Номи Харрис, Моника Муньос-Торрес, Джастин Риз, Дж. Гарри Кофилд, Мелисса Гендель, Питер Робинсон, Крис Мангалл