Классификация сообщений о чрезвычайных ситуациях и бедствиях с помощью восьмерки

Figure Eight, ранее известная как Crowdflower, использовала теги и перевод сообщений для применения искусственного интеллекта к реагированию на стихийные бедствия. В этом проекте, соответствующем программе Data Scientist Nano Degree (Udacity), я создам конвейер машинного обучения для категоризации экстренных текстовых сообщений в зависимости от потребности, о которой сообщил отправитель.

Блокнот Google Colab можно найти по адресу:

Google Colaboratory
Блокнот Colab, классифицирующий сообщения о чрезвычайных ситуациях colab.research.google.com

Результатами обучения по данному проекту являются:

Обработка естественного языка:

Подготовьте текстовые данные для анализа с помощью токенизации, лемматизации и удаления стоп-слов.
Используйте scikit-learn для преобразования и векторизации текстовых данных
Создавайте функции с помощью набора слов и tf-idf
Извлекайте функции с помощью таких инструментов, как распознавание именованных объектов и тегирование частей речи.
Понять преимущества использования конвейеров машинного обучения для оптимизации процесса подготовки данных и моделирования.

Конвейеры машинного обучения

Преобразование цепочек данных и оценщик с конвейером scikit-learn
Используйте объединения функций для параллельного выполнения шагов и создания более сложных рабочих процессов.
Поиск сетки по конвейеру для оптимизации параметров всего рабочего процесса
Выполните тематическое исследование, чтобы создать полный конвейер машинного обучения, который подготавливает данные и создает модель для набора данных.

Конвейеры ETL

Доступ и объединение данных из CSV, JSON
Стандартизируйте кодировки и столбцы
Нормализация данных и создание фиктивных переменных
Обработка выбросов, отсутствующих значений и повторяющихся данных
Разрабатывайте новые функции, выполняя расчеты
Создайте базу данных SQLite для хранения очищенных данных

Классификация сообщений о чрезвычайных ситуациях и бедствиях с помощью восьмерки

Вопросы по теме