Открытые наборы данных с редкой текстовой классификацией

Привет !! снова с некоторыми интересными и сложными наборами данных для обучения вашего компьютера. Небольшой вопрос !! Как часто вы проверяете рейтинги / обзоры мест или автобусов? Может быть, регулярно или хотя бы раз в день. Вы заметили, что когда вы заходите в какой-нибудь ресторан в Google, он начинает показывать вашу новостную ленту в соответствии с тем, что вы искали в последние несколько дней.

Ага !! Это все из-за алгоритмов, которые есть в системах. Этот алгоритм необходимо обучить на нескольких разных и сложных наборах данных, чтобы он работал наилучшим образом.

Важным шагом в машинном обучении является создание или поиск подходящих данных для обучения и тестирования алгоритма. Работа с хорошим набором данных поможет вам избежать или заметить ошибки в вашем алгоритме и улучшить результаты вашего приложения.

Набор данных объектива для фильма:

Набор данных собирался за различные периоды времени, в зависимости от размера набора. Стабильный набор данных тестов. 138 000 пользователей применили 20 миллионов оценок и 465 000 приложений тегов к 27 000 фильмам. Включает данные генома тегов с 12 миллионами оценок релевантности для 1100 тегов.

Формат: текст
Задача по умолчанию: классификация текста, регрессия, кластеризация.
Создано: GroupLens Research в 2016 г.
Ссылка для скачивания набора данных

Набор данных OPIN-RANK REVIEW:

Этот набор данных содержит полные обзоры автомобилей и отелей, собранные на TripAdvisor (~ 259 000 отзывов) и Edmunds (~ 42 230 отзывов ).

Обзоры автомобилей:

Полные обзоры автомобилей 2007, 2008 и 2009 годов выпуска.
На каждый модельный год приходится около 140–250 автомобилей.
Извлеченные поля включают даты, имена авторов, избранное и полный текстовый обзор.
Общее количество отзывов: ~ 42 230
2007 год -18 903 отзыва
2008 год -15 438 отзывов
Год 2009–7947 отзывов

Отзывы об отелях:

Полные обзоры отелей в 10 разных городах (Дубай, Пекин, Лондон, Нью-Йорк, Нью-Дели, Сан-Франциско, Шанхай, Монреаль, Лас-Вегас, Чикаго)
В каждом городе около 80–700 отелей.
Извлеченные поля включают дату, заголовок отзыва и полный отзыв.
Общее количество отзывов: ~ 259,000

Формат: текст
Задача по умолчанию: классификация, анализ тональности, кластеризация.
Создано: K. Ganesan et al. в 2011.
Ссылка для скачивания набора данных.

Набор данных кибер-троллей:

Набор данных, используемый для классификации твитов как агрессивных или непригодных для борьбы с троллями. Набор данных содержит 20001 элемент, из которых 20001 элемент был помечен вручную. Есть 2 категории: 1 (кибер-агрессия) и 0 (не кибер-агрессия). Это набор данных, помеченный людьми.

Формат: текст
Задача по умолчанию: классификация текста
Создал: Data Turks
Ссылка для скачивания набора данных.

Сообщения чата по категориям, набор данных:

Набор данных содержит 20001 элемент, 68 из которых были помечены вручную. Набор данных классификации текста с 8 классами, такими как алкоголь и наркотики, ненормативная лексика и непристойность, секс, религия и т. Д.

Формат: текст
Задача по умолчанию: классификация текста
Создал: Data Turks
Ссылка для загрузки набора данных

Набор данных SPAMBASE:

База данных спама включает 4601 наблюдение, соответствующее электронным сообщениям, 1813 из которых являются спамом. Из исходных сообщений электронной почты было вычислено 58 различных атрибутов. Придется либо закрывать такие индикаторы нежелательной почты, либо получить очень широкую коллекцию не-спама для создания универсального спам-фильтра.

Формат: текст
Задача по умолчанию: обнаружение спама, классификация
Создатели: Марк Хопкинс, Эрик Рибер, Джордж Форман и Яап Сурмондт из Hewlett-Packard Labs.
Ссылка для загрузки набора данных.

Набор данных Sentiment140:

Sentiment140 позволяет узнать настроение бренда, продукта или темы в Twitter. использование вызывает управление брендом (например, Windows 10), опрос (например, Обама), планирование покупки (например, Kindle)

Формат: текст
Задача по умолчанию: анализ настроений
Создатели: Алек Го, Рича Баяни и Лей Хуанг, аспиранты по информатике в Стэнфордском университете.
Ссылка для скачивания набора данных.

Набор данных классификации новостей:

Описания новостей классифицируются по категориям «Мир», «Бизнес», «Спорт» и т. Д. Подбираемый вручную набор данных с описанием новостей и их классами с AGWeb.com. Разделены на 4 категории SciTech, мир, бизнес, спорт. Этот набор данных можно использовать как золотой набор для оценки текста, классифицирующего новости, например, для отображения тегов на новостном сайте.

Формат: текст
Задача по умолчанию: классификация текста
Создал: Data Turks
Ссылка для скачивания набора данных

Набор данных классификации бедствия:

Это набор данных классификации текстов для классификации заголовков / статей новостей в зависимости от того, обеспокоены они или нет. Набор данных состоит из 1983 элементов, из которых 1983 были помечены вручную. Ярлыки - это бедствие, а не бедствие.

Формат: текст
Задача по умолчанию: классификация текста
Создал: Data Turks
Ссылка для скачивания набора данных

Набор данных об авторстве блога:

Корпус авторов блогов состоит из собранных сообщений 19 320 блоггеров, собранных с blogger.com в августе 2004 года. Корпус включает в общей сложности 681 288 сообщений и более 140 миллионов слов, или примерно 35 сообщений и 7250 слов на человека. Каждый блог представлен в виде отдельного файла, в названии которого указывается номер идентификатора блоггера, а также пол, возраст, отрасль и астрологический знак, указанные самим блоггером. Для каждой возрастной группы существует равное количество блоггеров мужского и женского пола.

Формат: текст
Задача по умолчанию: анализ тональности, обобщение, классификация
Создано: J. Schler и др. В 2006 году.
Ссылка на скачивание набора данных.

Набор данных Маска:

Этот набор данных описывает набор из 102 молекул, из которых 39, по мнению специалистов, являются мускусами, а остальные 63 молекулы - немускусами. Цель состоит в том, чтобы научиться предсказывать, будут ли новые молекулы мускусными или немускусными. Поскольку связи могут вращаться, одна молекула может принимать множество различных форм. Эта взаимосвязь «многие к одному» между векторами признаков и молекулами называется «проблемой множества экземпляров». Изучая классификатор для этих данных, классификатор должен классифицировать молекулу как «мускус», если ЛЮБАЯ из ее конформаций классифицируется как мускус. Молекула должна быть классифицирована как «немускусная», если НИКАКАЯ из ее конформаций не классифицируется как мускус.

Формат: текст
Задача по умолчанию: классификация текста
Создано: Arris Pharmaceutical Corporation в 1994 году.
Ссылка на скачивание базы данных

Набор данных комментария:

Комментарии в матчах классифицируются как юмор, похвала, статистика, дразнить и т. Д. Набор данных содержит 1408 элементов, из которых 1287 элементов были помечены вручную. Эти ярлыки подразделяются на 23 категории, такие как травма, аудитория, чувства, общение, поддразнивание и т. Д.

Формат: текст
Задача по умолчанию: классификация текста
Создал: Data Turks
Ссылка для скачивания набора данных

Набор данных классификации эмоций:

Набор данных состоит из данных, которые помечены разными тонами. В наборе данных 269 элементов, 269 из которых были помечены вручную. Они разделены на 7 категорий: счастливые, грустные, возбужденные, злые, напуганные, нежные и другие.

Формат: текст
Задача по умолчанию: классификация текста
Создал: Data Turks
Ссылка для загрузки набора данных

Набор данных NSDUH:

Серия Национальных обследований употребления наркотиков и здоровья (NSDUH), ранее называвшаяся Национальным обследованием домашних хозяйств по злоупотреблению наркотиками, является основным источником статистической информации об употреблении запрещенных наркотиков, алкоголя и табака, а также о проблемах психического здоровья среди жителей США. В наборе данных 55 268 экземпляров.

Формат: текст
Задача по умолчанию: классификация текста, регрессия
Создано: Министерство здравоохранения и социальных служб США в 2012 г.
Ссылка для скачивания набора данных

Набор данных зоопарка:

Простая база данных, содержащая 17 атрибутов с логическими значениями. Животные подразделяются на 7 категорий, каждая из которых имеет характеристики. Вот разбивка того, какие животные к какому типу:

Набор животных:

1 - трубкозуб, антилопа, медведь, кабан, буйвол, теленок, морская свинка, гепард, олень, дельфин, слон, летучая мышь, жираф, девочка, коза, горилла, хомяк, заяц, леопард, лев, рысь, норка, крот, мангуст, опоссум, орикс, утконос, хорек, пони, морская свинья, пума, киса, енот, северный олень, тюлень, морской лев, белка, вампир, полевка, валлаби, волк
2 - курица, ворона, голубь, утка, фламинго, чайка , ястреб, киви, жаворонок, страус, попугай, пингвин, фазан, рея, скиммер, поморник, воробей, лебедь, гриф, крапивник
3 - змея, морская змея, медленный червь, черепаха, туатара
4 - окунь , карп, сом, голавль, морская собака, пикша, сельдь, щука, пиранья, морской конек, камбала, скат, тунец
5 - лягушка, лягушка, тритон, жаба
6 - блоха, комар, пчела, комнатная муха , божья коровка, моль, термит, оса
7 - моллюск, краб, рак, лобстер, осьминог, скорпион, морская шкура, слизняк, морская звезда, червь

Формат: текст
Задача по умолчанию: классификация текста
Создал: Р. Форсайт, 1990 г.
Ссылка для скачивания набора данных

Набор данных URL:

Этот набор данных предназначен для создания системы реального времени, которая использует методы машинного обучения для обнаружения вредоносных URL-адресов (спама, фишинга, эксплойтов и т. Д.). С этой целью мы изучили методы, которые включают классификацию URL-адресов на основе их лексических характеристик и характеристик хоста, а также онлайн-обучение для обработки большого количества примеров и быстрой адаптации к изменяющимся URL-адресам с течением времени.

Были взяты данные URL-адресов за 120 дней с большой конференции, и многие особенности каждого URL-адреса были взяты.

Формат: текст
Задача по умолчанию: классификация текста
Создал: J. Ма в 2015 году.
Ссылка на набор данных.

Последнее слово «практика - главный ключ к успеху». Свяжитесь с как можно большим количеством наборов данных. Каждый набор данных, с которым вы работаете, поможет улучшить ваши навыки программирования.

Вы можете найти тысячи таких открытых наборов данных здесь.

Надеюсь, этот блог дал бы вам лучшее представление о различных наборах данных!

Я хотел бы услышать любые предложения или вопросы. Напишите мне на [email protected]