Figure Eight, ранее известная как Crowdflower, использовала теги и перевод сообщений для применения искусственного интеллекта к реагированию на стихийные бедствия. В этом проекте, соответствующем программе Data Scientist Nano Degree (Udacity), я создам конвейер машинного обучения для категоризации экстренных текстовых сообщений в зависимости от потребности, о которой сообщил отправитель.
Блокнот Google Colab можно найти по адресу:
Результатами обучения по данному проекту являются:
Обработка естественного языка:
- Подготовьте текстовые данные для анализа с помощью токенизации, лемматизации и удаления стоп-слов.
- Используйте scikit-learn для преобразования и векторизации текстовых данных
- Создавайте функции с помощью набора слов и tf-idf
- Извлекайте функции с помощью таких инструментов, как распознавание именованных объектов и тегирование частей речи.
- Понять преимущества использования конвейеров машинного обучения для оптимизации процесса подготовки данных и моделирования.
Конвейеры машинного обучения
- Преобразование цепочек данных и оценщик с конвейером scikit-learn
- Используйте объединения функций для параллельного выполнения шагов и создания более сложных рабочих процессов.
- Поиск сетки по конвейеру для оптимизации параметров всего рабочего процесса
- Выполните тематическое исследование, чтобы создать полный конвейер машинного обучения, который подготавливает данные и создает модель для набора данных.
Конвейеры ETL
- Доступ и объединение данных из CSV, JSON
- Стандартизируйте кодировки и столбцы
- Нормализация данных и создание фиктивных переменных
- Обработка выбросов, отсутствующих значений и повторяющихся данных
- Разрабатывайте новые функции, выполняя расчеты
- Создайте базу данных SQLite для хранения очищенных данных