Figure Eight, ранее известная как Crowdflower, использовала теги и перевод сообщений для применения искусственного интеллекта к реагированию на стихийные бедствия. В этом проекте, соответствующем программе Data Scientist Nano Degree (Udacity), я создам конвейер машинного обучения для категоризации экстренных текстовых сообщений в зависимости от потребности, о которой сообщил отправитель.

Блокнот Google Colab можно найти по адресу:



Google Colaboratory
Блокнот Colab, классифицирующий сообщения о чрезвычайных ситуациях colab.research.google.com



Результатами обучения по данному проекту являются:

Обработка естественного языка:

  • Подготовьте текстовые данные для анализа с помощью токенизации, лемматизации и удаления стоп-слов.
  • Используйте scikit-learn для преобразования и векторизации текстовых данных
  • Создавайте функции с помощью набора слов и tf-idf
  • Извлекайте функции с помощью таких инструментов, как распознавание именованных объектов и тегирование частей речи.
  • Понять преимущества использования конвейеров машинного обучения для оптимизации процесса подготовки данных и моделирования.

Конвейеры машинного обучения

  • Преобразование цепочек данных и оценщик с конвейером scikit-learn
  • Используйте объединения функций для параллельного выполнения шагов и создания более сложных рабочих процессов.
  • Поиск сетки по конвейеру для оптимизации параметров всего рабочего процесса
  • Выполните тематическое исследование, чтобы создать полный конвейер машинного обучения, который подготавливает данные и создает модель для набора данных.

Конвейеры ETL

  • Доступ и объединение данных из CSV, JSON
  • Стандартизируйте кодировки и столбцы
  • Нормализация данных и создание фиктивных переменных
  • Обработка выбросов, отсутствующих значений и повторяющихся данных
  • Разрабатывайте новые функции, выполняя расчеты
  • Создайте базу данных SQLite для хранения очищенных данных