Сбор данных и классификация контента.

В нашей базе данных медиа-профилей есть 2 разных задания. Сбор неосязаемых данных, таких как доход, право собственности, годы онлайн…) и классификация контента для нашей таксономии и того, как сайты «определяются как» (например, «фальшивые новости», «мусорная наука»…)

Сбор данных — это упражнение по множественным ссылкам, перекрестной проверке и мониторингу эволюции, когда…

Классификация контента полностью посвящена машинному обучению.

И все о «мешках слов». Для каждой работы по классификации мы создаем наборы данных, состоящие из слов, частота встречаемости которых используется для обучения классификатора.

Как упоминалось выше, у нас есть 2 типа классификации: таксономия и «помечено как».

Таксономическая классификация.

Как показано на рисунке выше, каждая статья сопоставляется с нашими наборами данных таксономии, поэтому мы можем классифицировать каждую статью. Это дает нам четкое представление о ленте и, следовательно, обо всем медиа.

Это, конечно, делает (большую) партию операций: 75 000 за статью. Да, 75 миллиардов операций на миллион статей в день.

Таксономия ДНК

Далее следует визуализация ДНК технологического раздела New York Times.

Чувствительность и глубина настройки. Специально для аналитика.

Наборы данных, используемые для классификации статей, могут использовать настраиваемый буфер времени для этих наборов данных и, таким образом, управлять тем, насколько чувствительной к ежедневным новостям будет таксономия. Кроме того, скалы также могут быть настроены для выбора глубины экспертизы, от «выделенных» до «покрытых» или даже «всех звуков». И то, и другое вместе, а также фактор «всегда актуальная информация» делают нашу таксономию идеально адаптированной для работы, которую хочет выполнить аналитик. Причина, по которой мы используем «Корпусный интеллект» в качестве нашего слогана.

Картографирование предприятия.

Мы также можем связать нашу таксономию с таксономией нашего корпоративного клиента, чтобы Corpus Intelligence мог использовать бизнес-среду клиента (мы расскажем об этом в отдельном посте позже. Если вы не можете ждать, спросите, используя форму ниже)

«Отмечено как» Классификация.

Суть управления ИИ в том, что у нас нет никаких эмоций или мнений. Все сделано для того, чтобы наш клиент мог определить, что ему действительно нужно, и доверять контенту.

TrustedOut не оценивает и не осуждает ничего и никого. Кроме того, такие понятия, как фейковые новости, не так кристально ясны, как люди могут подумать. В Отчете о СМИ, доверии и демократии прекрасно сказано во введении: Обеспокоенность по поводу «фейковых новостей высока, но мы не можем прийти к единому мнению относительно того, что это значит».

Яркая картина того, как СМИ «засветились».

Поскольку TrustedOut профилирует медиа и ценности их брендов, мы разработали сложный способ классификации того, как медиа «замечается». Другими словами, мы не оцениваем и не судим, мы сообщаем вам, например, если СМИ «замечено» как публикация фейковых новостей.

Кроме того, то, как СМИ «определяется как», меняется со временем. Какие-то становятся хуже, какие-то просто возрождения ранее закрытых, какие-то, конечно, исправлены и улучшены. Вот почему необходимо постоянно обновлять классификацию. И, следовательно, иметь свой корпус документов всегда актуальным.

Работает с любыми терминами. Плохо или хорошо.

«Фейковые новости» всегда приходят на ум первыми, а затем все токсичные или подозрительные термины, такие как «крайняя предвзятость», «мусорная наука»… но он также может отлично работать для нейтральных или позитивных терминов, таких как «дальновидный», «оптимистичный»… Это открывает двери для персонализации в масштабах всего предприятия.