TL;DR: примеры и различия между различными API Spark.

Полный исполняемый код с выводом доступен здесь: http://goo.gl/EdrCUo

(https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/6374798392727515/2002375612871426/4076179716382534/latest.html)

Гитхаб: https://github.com/anoopdixith/RDD-DF-DS-SSQL

Подробности:

Я понял, что большинство людей, которые присоединяются к нашей компании и являются новичками в экосистеме Spark, ошеломлены различным набором API, которые она предлагает! Большинство их вопросов, на которые нужно было ответить человеку или которые ждали ответа на StackOverflow, были связаны с переносом одного вызова API на другой, различиями между ними, использованием наиболее оптимизированного подхода, их использованием и т. д.

Сделал этот пример проекта, чтобы объяснить большую часть этого.

В вымышленном городе Ирвин есть самые разные люди — пары, одинокие, люди в отношениях на расстоянии, однополые пары, открытые отношения, полибраки, а в его крупнейшем работодателе Notox широко распространено кумовство и гендерный дисбаланс!

Вот аудит с использованием

  1. API RDD
  2. API-интерфейсы DataFrame
  3. API наборов данных
  4. Искра SQL

https://github.com/anoopdixith/RDD-DF-DS-SSQL