Статьи по теме data-science

Публикации по теме 'data-science'

6 моих любимых уловок с пандами для фокусников данных

Демонстрация некоторых из моих любимых возможностей библиотеки Pandas для Python, с некоторыми из которых вы, возможно, не видели раньше Вступление Python, безусловно, вырос из дерева и зарекомендовал себя во многих аспектах как действительный и удобный язык программирования для науки о данных. Это отчасти объясняется тем, что Python имеет одну из самых чудесных экосистем для декларативных пакетов высокого уровня для математики, статистики, машинного обучения и, что наиболее важно;..

Обработка естественного языка — Токенизация с использованием NLTK

Введение: Токенизация — это процесс преобразования абзаца/корпуса в небольшие части. Токенизация может быть выполнена с использованием библиотеки NLTK . Используя библиотеку NLTK, мы можем разбить абзац на слова или предложения. Это означает, что весь абзац делится на предложения в случае токенизации предложений. Принимая во внимание, что абзац можно разделить на слова с помощью токенизации слов. Давайте посмотрим, как мы можем реализовать токенизацию с помощью библиотеки NLTK:..

Интуитивное руководство по линейной регрессии

Частотный, лассо и байесовский выбор переменных с использованием AutoStat® Наша цель — использовать линейную регрессию для изучения содержания алкоголя (%) в вине на основе сорта винограда и дополнительных химических свойств. Данные в этом тематическом исследовании представляют собой измерения характеристик вина из 3 разных сортов винограда. Вина производятся в одном и том же регионе Италии . Данные доступны на https://archive.ics.uci.edu/ml/datasets/wine и содержат измерения по..

Пишем Lighting Fast Code с помощью Spark

Переход от n00b к профессионалу, используя уже имеющиеся знания Многие специалисты по данным начинают обучение на наборах данных, которые легко умещаются в памяти. Действительно, это проще, чем когда-либо прежде, благодаря постепенному увеличению объема оперативной памяти с годами, и даже количество строк, которые может хранить Excel, увеличилось! Трудности начинают проявляться только тогда, когда специалисты по данным начинают работать с крупномасштабными корпоративными данными. По..

Сравнение 10 лучших API обработки речи

Обработка речи - очень популярная область машинного обучения. Существует значительная потребность в преобразовании человеческой речи в текст и текста в речь. Это особенно важно в отношении развития самообслуживания в разных местах: магазинах, транспорте, гостиницах и т. Д. Машины заменяют все больше и больше человеческой рабочей силы, и эти машины должны иметь возможность общаться с нами, используя наш язык. Вот почему распознавание речи - перспективная и важная область искусственного..

Черная пятница: выводы и прогнозы

Черная пятница: сколько потратит покупатель? Пример использования в области науки о данных Здравствуйте 👋, мои коллеги-специалисты по обработке данных и не специалисты по обработке данных! Прежде всего, я очень рад, что вы здесь, это моя первая статья, которая подтолкнет меня к Data Science. Я не умею писать статьи или английский. Прошу прощения, если в этой статье есть недостатки. Вступление В этой статье мы поговорим о Черной пятнице, о том, насколько она важна для..

Парадокс надежности ИИ

Слишком хорошо, чтобы потерпеть неудачу? Каким удивительным образом высокопроизводительная система может навредить вам Представьте себе двух (человеческих) рабочих: Крис Керлесс - это постоянное разочарование для вас, поскольку вы хорошо выполняете свою задачу в 70% случаев и вызываете абсолютную передергивание в остальное время. Наблюдать за тем, как Крис делает 10 попыток, более чем достаточно, чтобы спровоцировать ваш ответ «о, дорогой» . Ронни Надежный - это совсем другая..