Публикации по теме 'data-preparation'


Подготовка данных на этой неделе (3 августа 2020 г.)
14 ссылок в посте этой недели: 5 статей (о машинном обучении, внедрении ИИ, среди прочего, предоставленных Naveego, Landing AI, Zimana, SPR и PixelTitan), 1 объявление об инициативе (от Британского компьютерного общества), 1 интервью (с основатель и технический директор Openet), 5 объявлений компаний (от Talend, Cisco Cloud Security и Matillion, Qlik и IDC, BigID и Naveego), 1 статья с 7 лучшими раундами финансирования больших данных и аналитики в 2020 году (Sisense, Snowflake, Dremio,..

Что делать, если ваш набор классификационных данных несбалансирован.
В этой статье мы рассмотрим различные способы и инструменты, которые можно использовать для решения общей проблемы, возникающей в машинном обучении, - проблемы искаженного набора данных. Ключом к созданию хорошей модели машинного обучения являются данные, на которых она обучается. Поэтому крайне важно, чтобы данные обучения были чистыми и сбалансированными. Чем больше времени вы потратите на совершенствование тренировочных данных, тем меньше усилий вам потребуется потратить на создание..

Как разделить фрейм данных на набор для обучения и тестирования с помощью Python
Краткое руководство по использованию sklearn train_test_split на фреймворке pandas В этой короткой статье я описываю, как разделить набор данных на обучающие и тестовые данные для машинного обучения, применив функцию train_test_split в sklearn. Я использую фрейм данных, который был создан программой из моей последней статьи. Данные основаны на необработанном наборе данных BBC News Article, опубликованном Д. Грином и П. Каннингемом [1]. Не стесняйтесь проверить исходный код здесь ,..

Уловки SQL для специалистов по данным - проверка качества данных
Уловки SQL для специалистов по данным - проверка качества данных Все специалисты по данным немного знают SQL, но его можно использовать не только для извлечения данных в «настоящую» среду анализа. В некотором смысле SQL - это забытый секрет науки о данных, воспринимаемый как само собой разумеющееся как необходимое, но немного не крутое средство получения данных из баз данных, в которых он часто находится, без кеша Pandas или тидиверсии. В некотором смысле это тоже справедливо,..

Способы обработки данных, в которых отсутствует постоянный столбец, и их реализации
В своем последнем блоге Ссылка я объяснил недостающие значения и их типы. В этом блоге я объясню, как обрабатывать отсутствующие значения для столбца непрерывных данных в наборе данных с помощью реализации. Непрерывные данные . Непрерывные данные - это количественные данные, которые можно измерить, они имеют бесконечное количество возможных значений в пределах выбранного диапазона, например диапазон температур, рост, вес и т. д. Набор данных, используемый для объяснения, - это..