Я пытаюсь провести анализ рыночной корзины для очень большого набора данных, содержащего около 4800 уникальных продуктов и 2-3 миллиона строк. Я использую pyodbc для получения данных из базы данных сервера sql.
В конечном итоге у меня останется два столбца: номер счета-фактуры и номер продукта для обработки. Количество уникальных товаров в столбце продукта не равно примерно 4800, и это данные за 3 года для одного магазина. Я должен провести анализ для нескольких магазинов, около 10-12 магазинов, максимум 5 магазинов в одном наборе анализа.
Даже если я уменьшу данные до 1 года, это много.
Кто-нибудь знает, каков эффективный подход к обработке такого большого количества данных для анализа рыночной корзины с использованием python?