Анализ правил ассоциации в наборе данных FOAF социальных сетей

Я работаю над проектом под названием «Обнаружение правил ассоциации из данных социальных сетей: введение в интеллектуальный анализ данных в семантической сети». Может ли кто-нибудь предложить хороший источник алгоритма (и его кода. Я слышал, что его можно реализовать с помощью Perl, а также пакетов R) для поиска правил ассоциации из базы данных социальной сети?

Снимок базы данных можно получить по следующей ссылке: https://docs.google.com/uc?id=0B0mXGRdRowo1MDZlY2Q0NDYtYjlhMi00MmNjLWFiMWEtOGQ0MjA3NjUyZTE5&export=download&hl=en_US

Набор данных доступен по следующей ссылке: http://ebiquity.umbc.edu/get/a/resource/82.zip

Я много искал об этом проекте, но, к сожалению, пока не нашел ничего полезного. Следующая ссылка, которую я нашел несколько связанной:

Криминальные данные: http://www.computer.org/portal/web/csdl/doi/10.1109/CSE.2009.435

Ваша помощь будет высоко оценена.

Спасибо,

codious 18.04.2011 источник

comment

если вы нашли ответ полезным, пожалуйста, «примите» ответ, щелкнув зеленую «галочку», которая появляется, когда вы наводите указатель мыши на верхний левый угол ответа («0» с треугольниками сверху и снизу). - doug 20.04.2011

comment

извините за поздний ответ, так как я не заходил на эту страницу. Сейчас все в порядке? - codious 08.05.2011

Ответы (3)

arrow_upward
2
arrow_downward

Это немного шире, чем http://en.wikipedia.org/wiki/Association_rule_learning, но надеюсь полезно.

Некоторые более ранние работы FOAF, которые могут быть интересны (SVD/PCA и т.д.):

http://stderr.org/~elw/foaf/ http://www.scribd.com/doc/353326/The-Social-Semantics-of-LiveJournal-FOAF-Structure-and-Change-from-2004-to-2005 http://datamining.sztaki.hu/files/snakdd.pdf

Также глава 4 https://rads.stackoverflow.com/amzn/click/com/1584888326 посвящен применению методов матричной декомпозиции к графовым структурам данных; настоятельно рекомендуется.

Наконец, Apache Mahout — это естественный выбор для крупномасштабного интеллектуального анализа данных, машинного обучения и т. д. ://cwiki.apache.org/MAHOUT/diversity-reduction.html

Community 31.05.2011

comment

Большое Вам спасибо. Было бы очень интересно просмотреть всю предоставленную вами информацию. - codious; 07.07.2011

arrow_upward
4
arrow_downward

Что ж, наиболее широко используемыми реализациями оригинального алгоритма Association Rules (первоначально разработанного в исследовательском центре IBM Almaden) являются Apriori и Eclat, в частности реализации C Кристианом Боргельтом.

(Краткое изложение для тех, кто не знаком с Правилами ассоциации (также известными как «Наборы часто встречающихся товаров» или «Анализ рыночной корзины»). Прототипом применения правил ассоциации является анализ потребительских транзакций, например данных супермаркета: среди покупателей, которые покупают польскую колбасу, какой процент из них тоже покупают черный хлеб?)

Я бы порекомендовал статистическую платформу R. Это бесплатно и с открытым исходным кодом, а его репозиторий пакетов содержит ( по крайней мере) четыре библиотеки, предназначенные исключительно для правил ассоциации, все с отличной документацией - три из четырех пакетов включают руководство и отдельную виньетку (неофициальный прозаический документ с примерами кода). И руководства, и виньетки содержат множество примеров в коде R.

Я использовал три из четырех пакетов, приведенных ниже, и я очень рекомендую эти три. Среди них крепления для Eclat и Apriori. Эти библиотеки распространяются как пакеты R, которые доступны в CRAN, основном репозитории пакетов R. Базовая установка и настройка R тривиальны — есть двоичные файлы для Mac, Linux и Windows, доступные по ссылке выше. Точно так же установка/интеграция пакетов настолько проста, насколько вы ожидаете от интегрированной платформы (хотя не каждый из четырех пакетов, перечисленных ниже, имеет двоичные файлы для каждой ОС).

Таким образом, в CRAN вы найдете эти пакеты, все из которых направлены исключительно на правила ассоциации:

правила
arulesNBMiner
arulesSequences
arulesViz

Этот набор из четырех пакетов R состоит из привязок R для четырех различных реализаций правил связывания, а также библиотеки визуализации.

Первый пакет, arules, включает привязки R для Eclat и Apriori. Второй, arulesNBMiner, представляет собой привязку к алгоритму правил ассоциации Майкла Хаслера NB-частые наборы элементов с помощью . Третий, arules Sequences, — это привязки для cSPADE Мохаммеда Заки.

Последний из них особенно полезен, поскольку представляет собой библиотеку визуализации для построения выходных данных любого из трех предыдущих пакетов. Я подозреваю, что для изучения вашей социальной сети вы найдете визуализацию графа, то есть явную визуализацию узлов (пользователей в наборе данных) и ребер (связей между ними).

doug 18.04.2011

comment

Я помещаю снимок нашей базы данных docs.google.com/ Можно ли найти правила ассоциации из этой базы данных с помощью пакетов R? Если нет, доступен ли код алгоритма Perl для сопряжения с Java (JDBC). Спасибо огромное. - codious; 11.05.2011

comment

@doug извините за еще один вопрос, хотя вы уже ответили. У меня не было достаточно времени, чтобы изучить пакеты R. Ваш совет по комментарию выше был бы очень полезен. Спасибо. - codious; 11.05.2011

comment

нет проблем - я использовал пакет R, "arules" для хранилища данных в SQLite - на данный момент я не могу вспомнить, работало ли это "из коробки" или было необходимо кодирование небольшого интерфейса --я проверю файлы моего проекта и вернусь к вам сегодня вечером (либо с да, либо с нет, в этом случае я просто дам вам доступ к моему репозиторию github, чтобы вы могли получить код). - doug; 11.05.2011

comment

привет Сиддхартха: да я сделал. На самом деле, я использовал пакет R SQLiteDF (доступен в CRAN, с отличной документацией); проект sqldf размещен в Google Code (code.google.com/p/sqldf) . Я «вспомнил» использование SQL и правил, но на самом деле я обращался к фрейму данных через синтаксис SQL, разрешенный sqldf. - doug; 13.05.2011

arrow_upward
0
arrow_downward

Если вам нужен код Java, вы можете найти программное обеспечение SPMF на моем веб-сайте. Он предоставляет исходный код для более чем 45 алгоритмов для частого анализа наборов элементов, анализа ассоциаций, последовательного анализа шаблонов и т. д.

Более того, он не только предоставляет самые популярные алгоритмы. Он также предлагает множество вариантов, таких как наборы редких элементов, наборы элементов с высокой полезностью, наборы неопределенных элементов, правила неизбыточной ассоциации, правила закрытой ассоциации, правила косвенной ассоциации, правила ассоциации top-k и многое другое...

Phil 15.04.2012

Анализ правил ассоциации в наборе данных FOAF социальных сетей

Ответы (3)

Вопросы по теме