Классификация текста широко используется во многих отраслях и часто служит основой для более сложных рабочих процессов, от обнаружения контента до инвестиционных стратегий и принятия решений. Процесс разметки контента, который исторически выполнялся вручную экспертами в предметной области, был частично автоматизирован и выполнялся с помощью моделей машинного обучения. Большинство существующих решений имеют свои собственные ограничения и виды отказов, поскольку существует множество проблем, которые необходимо преодолеть, чтобы создать достаточно общее решение для рынка.

Необходимость большего, чем традиционные методы

Несмотря на то, что поиск по ключевым словам действительно экономически эффективен, он часто не является жизнеспособным решением из-за отсутствия понимания языка, что приводит к значительному количеству ложноположительных и ложноотрицательных результатов. Необходимость более выразительного решения очевидна.

Однако с традиционной точки зрения машинного обучения построение надежной модели может оказаться дорогостоящим, требующим значительного количества времени и ручных усилий. Для обучения моделей, способных прогнозировать заданную тему, требуются большие объемы размеченных данных, а полученные знания не распространяются на другие категории. Кроме того, для включения новых тем требуется полная переобучение модели(й).

Время - деньги

Кроме того, понятие «актуальная тема» может оказаться эфемерным. Возьмем, к примеру, недавний банковский кризис в Банке Кремниевой долины (SVB). В течение нескольких недель возможность выявлять риски для бизнеса, связанные с сбоем SVB, имела решающее значение, но сегодня те же данные практически бесполезны. Заинтересованным лицам в инвестиционном пространстве необходимо было действовать быстро. У них нет времени на тщательный сбор и маркировку данных, и они не хотят тратить много усилий ради нескольких недель полезности.

Почему классификация текста на самом деле сложна?

На пути к созданию успешного, надежного и общего решения стоит несколько препятствий. Во-первых, базовые модели должны будут адаптироваться к широкому спектру распространения данных: от новостных статей до официальных отчетов SEC и стенограмм отчетов о прибылях и убытках.

Во-вторых, определение темы может быть очень абстрактным и иметь существенно разное значение для разных пользователей. Одного пользователя может интересовать анализ настроений, в то время как других могут интересовать «общие» темы, такие как пассажирские перевозки, или относительно нишевые темы, такие как топливные элементы.

В-третьих, калибровка модели добавляет еще один уровень сложности, поскольку вопрос о том, раскрывает ли данный текст какую-либо концепцию, может подвергаться интерпретации. Должна ли модель идентифицировать только основные темы или она должна отмечать тему сразу после ее краткого упоминания?

И последнее, но не менее важное: отличное решение будет соответствовать сценариям использования пользователей с разным количеством доступных ресурсов и более или менее техническим опытом.

Представляем Kensho Classify

Чтобы решить некоторые из этих проблем, Kensho разработала Classify — решение, позволяющее пользователям быстро создавать модели классификации с минимальными знаниями в предметной области или машинном обучении. Kensho Classify понимает текст и выходит за рамки поиска по ключевым словам, упрощая множество рабочих процессов. В конечном итоге Kensho Classify предоставляет аннотации на уровне абзацев с оценкой достоверности для каждой выявленной темы.

Kensho Classify имеет три основных режима работы, чтобы удовлетворить требования пользователей с различным объемом ресурсов, данных или опытом в предметной области.

Во-первых, API concept-set аннотирует текстовые документы по набору связанных понятий, идентифицируемых уникальным ключевым словом. Эти наборы концепций были разработаны с использованием знаний в финансовой сфере нашей материнской компании S&P Global. Например, только при использовании набора концепций GICS (Глобальный стандарт отраслевой классификации) Classify идентифицирует любую отрасль, рассматриваемую в документе для отраслевой классификации GICS.

Zero-shot — это второй режим работы, который предоставляет пользователям возможность создавать аннотации по произвольным темам без необходимости предоставления каких-либо обучающих данных. Classify будет использовать как знание языка, так и понимание классификации текста, полученное во время предварительного обучения, и адаптирует его к заданным пользователем темам. Например, указание электромобилей в качестве концепции — единственное необходимое усилие, чтобы пометить контент, имеющий отношение к электромобилям.

Наконец, настраиваемыйAPI позволяет пользователям, заинтересованным в максимальной эффективности классификации, обучать свои собственные модели на собственных данных и темах. Для каждой интересующей темы Classify требуется до 15 положительных и 15 отрицательных фрагментов текста (релевантных и не имеющих отношения к интересующей теме) для обучения модели, специально настроенной для этого варианта использования. Classify будет использовать ограниченный объем полученных данных для выполнения как адаптации входного текстового домена, так и адаптации тематического домена.

Хотите попробовать Kensho Classify? Зарегистрируйтесь на бесплатную пробную версию или поговорите с одним из наших экспертов сегодня.