TL;DR: примеры и различия между различными API Spark.
Полный исполняемый код с выводом доступен здесь: http://goo.gl/EdrCUo
Гитхаб: https://github.com/anoopdixith/RDD-DF-DS-SSQL
Подробности:
Я понял, что большинство людей, которые присоединяются к нашей компании и являются новичками в экосистеме Spark, ошеломлены различным набором API, которые она предлагает! Большинство их вопросов, на которые нужно было ответить человеку или которые ждали ответа на StackOverflow, были связаны с переносом одного вызова API на другой, различиями между ними, использованием наиболее оптимизированного подхода, их использованием и т. д.
Сделал этот пример проекта, чтобы объяснить большую часть этого.
В вымышленном городе Ирвин есть самые разные люди — пары, одинокие, люди в отношениях на расстоянии, однополые пары, открытые отношения, полибраки, а в его крупнейшем работодателе Notox широко распространено кумовство и гендерный дисбаланс!
Вот аудит с использованием
- API RDD
- API-интерфейсы DataFrame
- API наборов данных
- Искра SQL