Публикации по теме 'big-data'


Столько всего для стрима!
Столько всего для стрима! Инструменты Apache для потоковой обработки данных в реальном времени Приготовьтесь погрузиться в захватывающий мир обработки данных в реальном времени! Apache предоставляет ряд мощных инструментов для потоковой передачи данных в режиме реального времени, включая Spark Streaming, Flink, Kafka, Storm и Samza. Каждый из этих инструментов предлагает уникальные преимущества и используется ведущими компаниями для решения некоторых из крупнейших…

Как построить, обучить и развернуть простую модель классификации в AWS SageMaker
Перейдите в консоль Amazon SageMaker и нажмите «Создать экземпляр блокнота». Теперь дайте имя экземпляру вашей записной книжки. Выберите тип экземпляра записной книжки в соответствии с вашими требованиями к обучению. Теперь предоставьте разрешения экземпляру записной книжки, выбрав роль IAM. Если у вас нет роли IAM, AWS автоматически предоставит роль с вашего разрешения. Для тех, кто хочет получить доступ к ресурсам в ваших VPC, вы можете указать, к какому VPC вы хотите..

Конвейеризация тестовых данных простым и увлекательным способом
Руководство для начинающих: Почему модульные и интеграционные тесты так важны для вашей платформы данных Эта история для тех, кто хотел бы научиться программировать и запускать тесты, автоматизировать проверки CI/CD и запускать их в любой среде, в том числе локально. Модульное тестирование  – это необходимый навык для инженеров по машинному обучению в наши дни. Это отлично смотрится в вашем резюме и увеличивает шансы на трудоустройство. Я Data Engineer, и очень часто мне нужно..

Знать разрешение сущности - значит любить разрешение сущности
Я очень давно занимаюсь созданием алгоритмов разрешения сущностей. Первый раз, в начале 80-х, для кредитных бюро / коллекторских агентств, поскольку они нуждались в «сопоставлении должников». Не дай бог они позвонят одному и тому же человеку дважды по двум разным долгам. Затем наступают 90-е, и я оказываюсь в Лас-Вегасе, когда меня просят выяснить, кто есть кто в их различных системах казино. Цель состояла в том, чтобы лучше понять, с кем они вели дела, сопоставив этих людей с..

Ray Tune: библиотека Python для быстрой настройки гиперпараметров в любом масштабе
Масштабируйте поиск с ноутбука до сотен машин, не меняя код. Попробуйте Ray Tune . Если вы когда-либо пытались настроить гиперпараметры для модели машинного обучения, вы знаете, что это может быть очень болезненный процесс. Простые подходы быстро отнимают много времени. И сейчас, как никогда ранее, вам абсолютно необходимы передовые инструменты настройки гиперпараметров, чтобы идти в ногу со временем. Развитие моделей все больше и больше зависит от новых и лучших..

Чат-бот должен стать следующим шагом в вашем проекте Big Data
Google, Facebook и Microsoft (наконец-то) договорились о чем-то. На их ежегодных конференциях в 2016 году было распространено одно сообщение: за чат-ботами будущее. Эта история все еще продолжается в 2017 году! Просто подумайте о WeChat . Он уже огромен в Китае, вы можете просто управлять своей повседневной жизнью с помощью одного приложения через чат. Но что делает это решение таким модным и почему оно должно заботить вашу команду по работе с большими данными? Итак,..

Понимание экономики данных
Понимание экономики данных Интересная статья Мартин Касадо и Питер Лаутен по экономике данных на сайте Андреессена Горовица под названием Пустое обещание рвов данных поднимает некоторые интересные идеи о предполагаемых конкурентных преимуществах хранения больших объемов данных. Авторы утверждают, что данные сами по себе не защищают от конкурентов. Несомненно, наличие качественных данных о своих клиентах и ​​операциях и установление прочной аналитической культуры может помочь..