Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на успешность проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечистые.
Считается, что данные нечистые, если в них отсутствуют атрибуты, значения атрибутов, есть шум или выбросы, а также повторяющиеся или неправильные данные. Присутствие любого из них ухудшит качество результатов.
Вот несколько важных методов предварительной обработки данных, которые можно выполнить перед тем, как перейти к выбору алгоритма.
1. Агрегация
Это объединяет два или более атрибутов в один атрибут. Целью агрегирования может быть
- Уменьшить количество атрибутов
- Изменить масштаб данных: пример - агрегация городов по регионам
- Снижение изменчивости данных
2. Отбор проб
- Этот метод помогает в сокращении данных во время начального и окончательного анализа данных.
- Это может быть чрезвычайно полезно, когда обработка целых данных является дорогостоящей или требует много времени.
- Работает, когда образец является репрезентативным для всего набора данных
- Отбор проб можно производить двумя способами.
i) Простая случайная выборка
Вероятность выбора любого предмета одинакова. Отбор проб может производиться двумя способами: с заменой и без замены.
ii) Стратифицированная выборка
Данные разбиваются на несколько разделов, а затем из каждого раздела берутся случайные выборки.
3. Снижение размерности
Разреженность данных увеличивается по мере увеличения размерности, что делает такие операции, как кластеризация и обнаружение выбросов, менее значимыми, поскольку они сильно зависят от плотности и расстояния между точками.
Целью уменьшения размерности является:
- Избегайте проклятия размерности
- Сокращает время, необходимое для алгоритмов
- Значительно снижает потребление памяти
- Легкость визуализации данных
- Удалите нерелевантные функции
- Например: PCA, SVD, LLE, случайные проекции, LDA и т. Д.
4. Выбор подмножества функций
- Это еще один способ уменьшить размерность данных.
- Удаляет повторяющиеся или нерелевантные функции
5. Создание функций
Могут быть созданы новые функции, которые могут лучше всего захватывать важную и актуальную информацию, чем предоставленные атрибуты. Три основных метода создания функций:
- Извлечение функций: извлечение краев из изображений
- Конструкция элемента: получение плотности из заданной массы и объема
- Отображение данных в новом пространстве
6. Дискретность
- Чаще всего используется в целях классификации
- Он работает путем преобразования непрерывного атрибута в порядковый атрибут.
- Может быть выполнено двумя способами контролируемой и неконтролируемой дискретизации.
- Контролируемый метод работает, находя разрывы в значениях данных путем их визуализации.
- В неконтролируемом методе метки классов используются для поиска разрывов
- Методы дискретизации. Для всех приведенных ниже методов учитывайте количество сегментов, на которые следует разделить данные.
i) Равная ширина интервала - (максимальное значение - min_value) / Количество сегментов
ii) Равная частота - (количество значений / количество сегментов)
iii) кластеризация
7. Бинаризация
- Сопоставляет непрерывный или категориальный атрибут бинарной переменной
- В основном используется в ассоциативном анализе.
8. Преобразование атрибутов
- Сопоставьте значения атрибутов с совершенно другим новым набором значений атрибутов, используя простые функции, такие как X ^ (k), log (X), | x |
- Нормализация: корректировка различий между атрибутами с точки зрения среднего значения, диапазона, дисперсии и частоты появления.
- Стандартизация: вычтите среднее значение и разделите на стандартное отклонение.
……. Продолжение следует
(На основе моего курса интеллектуального анализа данных)