Публикации по теме 'data-cleaning'


AI, ML 101 Python 4 Обработка CSV
Это универсальное решение для решения всех распространенных вопросов, практик и решений для управления данными файла #csv в #python. Существует множество руководств, вот одно, которое помогло мне после консолидации. Когда я впервые начал #AI #ML, основным правилом было научиться Как понимать приведенные данные.? Помните о процессе, а не об инструментах, а не о самих инструментах. Не изобретайте велосипед Избегайте ловушек и имейте под рукой шпаргалку В этом сообщении блога мы..

#KB Очистка данных II
Дорогие друзья! Как замечать препятствия на дороге, пока не стало слишком поздно? Не позволяйте отклонениям изменить ход вашей аналитической поездки! Да, выбросы могут быть интересными и информативными, но они также могут испортить весь ваш анализ и привести к неверным выводам. Узнайте, как обнаруживать и обрабатывать ( ➡️ следующая статья ) выбросы в ваших данных, обеспечивая более точные и надежные результаты в ваших исследованиях и процессах принятия решений. Что такое..

Предварительная обработка данных набора данных kaggle космического корабля-титана для достижения точности 80+%.
Очистка данных и разработка признаков — важные шаги в конвейере предварительной обработки данных, которые существенно влияют на качество и эффективность аналитических моделей. Ссылка на конкурс / Ссылка на набор данных Начнем с изучения набора данных. Ниже перечислены функции, которые у нас есть, определение каждой функции вы можете найти здесь . ['PassengerId', 'HomePlanet', 'CryoSleep', 'Cabin', 'Destination', 'Age', 'VIP', 'RoomService', 'FoodCourt',..

Как вменить категориальную переменную?
В этом блоге я объясню, как обрабатывать пропущенные значения в категориальной переменной. Прежде всего, давайте освежим некоторые основы. Категорная/дискретная переменная . Любая случайная величина, которая может принимать значения из набора конечных значений, называется категориальной или дискретной случайной величиной. Пример: при броске костей у нас есть 6 возможных исходов. Таким образом, категориальная переменная может принимать значения из этих 6 возможных наборов результатов,..

Руководство аналитика данных по очистке данных
Как подойти к очистке разных типов данных Хотя существует множество ресурсов для изучения технических навыков, лишь немногие из них подробно рассказывают о том, как очищать данные — важный навык, необходимый аналитикам данных. Вы можете подумать, что можете применить тот же набор правил к чистым данным, но это не всегда так. Сегодня я хотел бы поделиться тем, что я узнал за годы работы аналитиком данных о том, как подходить к очистке различных типов данных для анализа данных и..

Обучение науке о данных: день 5 - Обработка данных в наборах данных Titanic
Сегодня я решил побольше узнать о Titanic Datasets. На изучение самого Titanic Datasets у меня ушло довольно много времени, так что в итоге у меня не было больше времени на изучение других материалов. Итак, вот что я узнал из наборов данных Titanic, особенно по обработке данных. Краткое описание конкурса Полное описание самого конкурса доступно по ссылке ниже. Титаник: машинное обучение после катастрофы | Kaggle Kaggle - это ваш дом для науки о..

Советы по Pandas, RegEx и коллекциям
Практическое руководство с примерами В предыдущем посте, посвященном очистке данных и разработке функций , мы рассмотрели несколько примеров операций (применение, сопоставление и т. д.) и их смоделированное время выполнения. В этой статье я поделюсь другими примерами, которые помогли мне в моей работе и, надеюсь, помогут вам. Мы рассмотрим примеры… Настройки отображения панд Функциональные шаблоны Компиляция регулярных выражений Понимание словаря defaultdict …с..