Введение в интеллектуальный анализ данных - предварительная обработка данных

Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на успешность проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечистые.

Считается, что данные нечистые, если в них отсутствуют атрибуты, значения атрибутов, есть шум или выбросы, а также повторяющиеся или неправильные данные. Присутствие любого из них ухудшит качество результатов.

Вот несколько важных методов предварительной обработки данных, которые можно выполнить перед тем, как перейти к выбору алгоритма.

1. Агрегация

Это объединяет два или более атрибутов в один атрибут. Целью агрегирования может быть

Уменьшить количество атрибутов
Изменить масштаб данных: пример - агрегация городов по регионам
Снижение изменчивости данных

2. Отбор проб

Этот метод помогает в сокращении данных во время начального и окончательного анализа данных.
Это может быть чрезвычайно полезно, когда обработка целых данных является дорогостоящей или требует много времени.
Работает, когда образец является репрезентативным для всего набора данных
Отбор проб можно производить двумя способами.

i) Простая случайная выборка

Вероятность выбора любого предмета одинакова. Отбор проб может производиться двумя способами: с заменой и без замены.

ii) Стратифицированная выборка

Данные разбиваются на несколько разделов, а затем из каждого раздела берутся случайные выборки.

3. Снижение размерности

Разреженность данных увеличивается по мере увеличения размерности, что делает такие операции, как кластеризация и обнаружение выбросов, менее значимыми, поскольку они сильно зависят от плотности и расстояния между точками.

Целью уменьшения размерности является:

Избегайте проклятия размерности
Сокращает время, необходимое для алгоритмов
Значительно снижает потребление памяти
Легкость визуализации данных
Удалите нерелевантные функции
Например: PCA, SVD, LLE, случайные проекции, LDA и т. Д.

4. Выбор подмножества функций

Это еще один способ уменьшить размерность данных.
Удаляет повторяющиеся или нерелевантные функции

5. Создание функций

Могут быть созданы новые функции, которые могут лучше всего захватывать важную и актуальную информацию, чем предоставленные атрибуты. Три основных метода создания функций:

Извлечение функций: извлечение краев из изображений
Конструкция элемента: получение плотности из заданной массы и объема
Отображение данных в новом пространстве

6. Дискретность

Чаще всего используется в целях классификации
Он работает путем преобразования непрерывного атрибута в порядковый атрибут.
Может быть выполнено двумя способами контролируемой и неконтролируемой дискретизации.
Контролируемый метод работает, находя разрывы в значениях данных путем их визуализации.
В неконтролируемом методе метки классов используются для поиска разрывов
Методы дискретизации. Для всех приведенных ниже методов учитывайте количество сегментов, на которые следует разделить данные.

i) Равная ширина интервала - (максимальное значение - min_value) / Количество сегментов

ii) Равная частота - (количество значений / количество сегментов)

iii) кластеризация

7. Бинаризация

Сопоставляет непрерывный или категориальный атрибут бинарной переменной
В основном используется в ассоциативном анализе.

8. Преобразование атрибутов

Сопоставьте значения атрибутов с совершенно другим новым набором значений атрибутов, используя простые функции, такие как X ^ (k), log (X), | x |
Нормализация: корректировка различий между атрибутами с точки зрения среднего значения, диапазона, дисперсии и частоты появления.
Стандартизация: вычтите среднее значение и разделите на стандартное отклонение.

……. Продолжение следует

(На основе моего курса интеллектуального анализа данных)

Введение в интеллектуальный анализ данных - предварительная обработка данных

Вопросы по теме