Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на успешность проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечистые.

Считается, что данные нечистые, если в них отсутствуют атрибуты, значения атрибутов, есть шум или выбросы, а также повторяющиеся или неправильные данные. Присутствие любого из них ухудшит качество результатов.

Вот несколько важных методов предварительной обработки данных, которые можно выполнить перед тем, как перейти к выбору алгоритма.

1. Агрегация

Это объединяет два или более атрибутов в один атрибут. Целью агрегирования может быть

  • Уменьшить количество атрибутов
  • Изменить масштаб данных: пример - агрегация городов по регионам
  • Снижение изменчивости данных

2. Отбор проб

  • Этот метод помогает в сокращении данных во время начального и окончательного анализа данных.
  • Это может быть чрезвычайно полезно, когда обработка целых данных является дорогостоящей или требует много времени.
  • Работает, когда образец является репрезентативным для всего набора данных
  • Отбор проб можно производить двумя способами.

i) Простая случайная выборка

Вероятность выбора любого предмета одинакова. Отбор проб может производиться двумя способами: с заменой и без замены.

ii) Стратифицированная выборка

Данные разбиваются на несколько разделов, а затем из каждого раздела берутся случайные выборки.

3. Снижение размерности

Разреженность данных увеличивается по мере увеличения размерности, что делает такие операции, как кластеризация и обнаружение выбросов, менее значимыми, поскольку они сильно зависят от плотности и расстояния между точками.

Целью уменьшения размерности является:

  • Избегайте проклятия размерности
  • Сокращает время, необходимое для алгоритмов
  • Значительно снижает потребление памяти
  • Легкость визуализации данных
  • Удалите нерелевантные функции
  • Например: PCA, SVD, LLE, случайные проекции, LDA и т. Д.

4. Выбор подмножества функций

  • Это еще один способ уменьшить размерность данных.
  • Удаляет повторяющиеся или нерелевантные функции

5. Создание функций

Могут быть созданы новые функции, которые могут лучше всего захватывать важную и актуальную информацию, чем предоставленные атрибуты. Три основных метода создания функций:

  • Извлечение функций: извлечение краев из изображений
  • Конструкция элемента: получение плотности из заданной массы и объема
  • Отображение данных в новом пространстве

6. Дискретность

  • Чаще всего используется в целях классификации
  • Он работает путем преобразования непрерывного атрибута в порядковый атрибут.
  • Может быть выполнено двумя способами контролируемой и неконтролируемой дискретизации.
  • Контролируемый метод работает, находя разрывы в значениях данных путем их визуализации.
  • В неконтролируемом методе метки классов используются для поиска разрывов
  • Методы дискретизации. Для всех приведенных ниже методов учитывайте количество сегментов, на которые следует разделить данные.

i) Равная ширина интервала - (максимальное значение - min_value) / Количество сегментов

ii) Равная частота - (количество значений / количество сегментов)

iii) кластеризация

7. Бинаризация

  • Сопоставляет непрерывный или категориальный атрибут бинарной переменной
  • В основном используется в ассоциативном анализе.

8. Преобразование атрибутов

  • Сопоставьте значения атрибутов с совершенно другим новым набором значений атрибутов, используя простые функции, такие как X ^ (k), log (X), | x |
  • Нормализация: корректировка различий между атрибутами с точки зрения среднего значения, диапазона, дисперсии и частоты появления.
  • Стандартизация: вычтите среднее значение и разделите на стандартное отклонение.

……. Продолжение следует

(На основе моего курса интеллектуального анализа данных)