Что ж, наиболее широко используемыми реализациями оригинального алгоритма Association Rules (первоначально разработанного в исследовательском центре IBM Almaden) являются Apriori и Eclat, в частности реализации C Кристианом Боргельтом.
(Краткое изложение для тех, кто не знаком с Правилами ассоциации (также известными как «Наборы часто встречающихся товаров» или «Анализ рыночной корзины»). Прототипом применения правил ассоциации является анализ потребительских транзакций, например данных супермаркета: среди покупателей, которые покупают польскую колбасу, какой процент из них тоже покупают черный хлеб?)
Я бы порекомендовал статистическую платформу R. Это бесплатно и с открытым исходным кодом, а его репозиторий пакетов содержит ( по крайней мере) четыре библиотеки, предназначенные исключительно для правил ассоциации, все с отличной документацией - три из четырех пакетов включают руководство и отдельную виньетку (неофициальный прозаический документ с примерами кода). И руководства, и виньетки содержат множество примеров в коде R.
Я использовал три из четырех пакетов, приведенных ниже, и я очень рекомендую эти три. Среди них крепления для Eclat и Apriori. Эти библиотеки распространяются как пакеты R, которые доступны в CRAN, основном репозитории пакетов R. Базовая установка и настройка R тривиальны — есть двоичные файлы для Mac, Linux и Windows, доступные по ссылке выше. Точно так же установка/интеграция пакетов настолько проста, насколько вы ожидаете от интегрированной платформы (хотя не каждый из четырех пакетов, перечисленных ниже, имеет двоичные файлы для каждой ОС).
Таким образом, в CRAN вы найдете эти пакеты, все из которых направлены исключительно на правила ассоциации:
Этот набор из четырех пакетов R состоит из привязок R для четырех различных реализаций правил связывания, а также библиотеки визуализации.
Первый пакет, arules, включает привязки R для Eclat и Apriori. Второй, arulesNBMiner, представляет собой привязку к алгоритму правил ассоциации Майкла Хаслера NB-частые наборы элементов с помощью . Третий, arules Sequences, — это привязки для cSPADE Мохаммеда Заки.
Последний из них особенно полезен, поскольку представляет собой библиотеку визуализации для построения выходных данных любого из трех предыдущих пакетов. Я подозреваю, что для изучения вашей социальной сети вы найдете визуализацию графа, то есть явную визуализацию узлов (пользователей в наборе данных) и ребер (связей между ними).
person
doug
schedule
18.04.2011