Эта статья служит моими личными заметками к курсу CSE 6242 Data and Visual Analytics, пройденному в Технологическом университете Джорджии (GaTech) весной 2023 года.

Этот курс познакомит вас с широким спектром методов и инструментов для анализа и визуализации данных в масштабе.

Акцент делается на том, как дополнить вычисления и визуализацию для эффективного анализа. Мы рассмотрим методы с каждой стороны и гибридные, которые сочетают в себе лучшее из обоих миров.

Урок посвящен сбору данных. Все уроки можно найти здесь.

Как можно собирать данные?

Существует много способов сбора данных, три основных способа сбора данных включают в себя:

  1. Скачать — несложно, так как мы можем сразу начать работать с данными.
  2. API — средние усилия, так как вам нужно написать некоторый код
  3. Очистка/сканирование — большие усилия, это может включать сканирование веб-страницы и последующее извлечение данных.

Существует множество источников данных, доступных в Интернете, что позволяет вам свободно загружать данные и использовать их.

Также существует множество открытых API, которые мы можем использовать для получения данных. Однако, когда данные общедоступны, но сами данные получить нелегко, мы можем полагаться на парсинг как на метод сбора данных.

Парсинг/сканирование для сбора данных

Как мы очищаем данные, предположим, мы хотим собрать некоторые данные из Google Play. Вам интересно понять, какие приложения связаны друг с другом. Вы хотите создать сеть приложений.

Для этого вы можете написать некоторый код/скрипт для поиска приложения и прочитать список похожих приложений — они будут связаны с первым приложением, которое вы искали.

Этот псевдоалгоритм позволит вам построить график, представляющий взаимосвязь приложений в Google Play.

Инструменты для очистки веб-страницы

На изображении ниже показаны некоторые популярные инструменты, такие как селен. Это мощный инструмент, который можно использовать для автоматизации веб-браузера.

Многие примеры, показанные здесь, являются библиотеками Python.

Есть несколько соображений, которые мы должны учитывать при принятии решения об отказе от включения скрытых компонентов на веб-страницу, которые требуют некоторого взаимодействия. Также имейте в виду, что не все веб-браузеры отображают содержимое одинаково.

Надеюсь, вы чему-то научились.

-R