Анализ правил ассоциации в наборе данных FOAF социальных сетей

Я работаю над проектом под названием «Обнаружение правил ассоциации из данных социальных сетей: введение в интеллектуальный анализ данных в семантической сети». Может ли кто-нибудь предложить хороший источник алгоритма (и его кода. Я слышал, что его можно реализовать с помощью Perl, а также пакетов R) для поиска правил ассоциации из базы данных социальной сети?

Снимок базы данных можно получить по следующей ссылке: https://docs.google.com/uc?id=0B0mXGRdRowo1MDZlY2Q0NDYtYjlhMi00MmNjLWFiMWEtOGQ0MjA3NjUyZTE5&export=download&hl=en_US

Набор данных доступен по следующей ссылке: http://ebiquity.umbc.edu/get/a/resource/82.zip

Я много искал об этом проекте, но, к сожалению, пока не нашел ничего полезного. Следующая ссылка, которую я нашел несколько связанной:

Криминальные данные: http://www.computer.org/portal/web/csdl/doi/10.1109/CSE.2009.435

Ваша помощь будет высоко оценена.

Спасибо,


person codious    schedule 18.04.2011    source источник
comment
если вы нашли ответ полезным, пожалуйста, «примите» ответ, щелкнув зеленую «галочку», которая появляется, когда вы наводите указатель мыши на верхний левый угол ответа («0» с треугольниками сверху и снизу).   -  person doug    schedule 20.04.2011
comment
извините за поздний ответ, так как я не заходил на эту страницу. Сейчас все в порядке?   -  person codious    schedule 08.05.2011


Ответы (3)


Это немного шире, чем http://en.wikipedia.org/wiki/Association_rule_learning, но надеюсь полезно.

Некоторые более ранние работы FOAF, которые могут быть интересны (SVD/PCA и т.д.):

http://stderr.org/~elw/foaf/ http://www.scribd.com/doc/353326/The-Social-Semantics-of-LiveJournal-FOAF-Structure-and-Change-from-2004-to-2005 http://datamining.sztaki.hu/files/snakdd.pdf

Также глава 4 https://rads.stackoverflow.com/amzn/click/com/1584888326 посвящен применению методов матричной декомпозиции к графовым структурам данных; настоятельно рекомендуется.

Наконец, Apache Mahout — это естественный выбор для крупномасштабного интеллектуального анализа данных, машинного обучения и т. д. ://cwiki.apache.org/MAHOUT/diversity-reduction.html

person Community    schedule 31.05.2011
comment
Большое Вам спасибо. Было бы очень интересно просмотреть всю предоставленную вами информацию. - person codious; 07.07.2011

Что ж, наиболее широко используемыми реализациями оригинального алгоритма Association Rules (первоначально разработанного в исследовательском центре IBM Almaden) являются Apriori и Eclat, в частности реализации C Кристианом Боргельтом.

(Краткое изложение для тех, кто не знаком с Правилами ассоциации (также известными как «Наборы часто встречающихся товаров» или «Анализ рыночной корзины»). Прототипом применения правил ассоциации является анализ потребительских транзакций, например данных супермаркета: среди покупателей, которые покупают польскую колбасу, какой процент из них тоже покупают черный хлеб?)

Я бы порекомендовал статистическую платформу R. Это бесплатно и с открытым исходным кодом, а его репозиторий пакетов содержит ( по крайней мере) четыре библиотеки, предназначенные исключительно для правил ассоциации, все с отличной документацией - три из четырех пакетов включают руководство и отдельную виньетку (неофициальный прозаический документ с примерами кода). И руководства, и виньетки содержат множество примеров в коде R.

Я использовал три из четырех пакетов, приведенных ниже, и я очень рекомендую эти три. Среди них крепления для Eclat и Apriori. Эти библиотеки распространяются как пакеты R, которые доступны в CRAN, основном репозитории пакетов R. Базовая установка и настройка R тривиальны — есть двоичные файлы для Mac, Linux и Windows, доступные по ссылке выше. Точно так же установка/интеграция пакетов настолько проста, насколько вы ожидаете от интегрированной платформы (хотя не каждый из четырех пакетов, перечисленных ниже, имеет двоичные файлы для каждой ОС).

Таким образом, в CRAN вы найдете эти пакеты, все из которых направлены исключительно на правила ассоциации:


Этот набор из четырех пакетов R состоит из привязок R для четырех различных реализаций правил связывания, а также библиотеки визуализации.

Первый пакет, arules, включает привязки R для Eclat и Apriori. Второй, arulesNBMiner, представляет собой привязку к алгоритму правил ассоциации Майкла Хаслера NB-частые наборы элементов с помощью . Третий, arules Sequences, — это привязки для cSPADE Мохаммеда Заки.

Последний из них особенно полезен, поскольку представляет собой библиотеку визуализации для построения выходных данных любого из трех предыдущих пакетов. Я подозреваю, что для изучения вашей социальной сети вы найдете визуализацию графа, то есть явную визуализацию узлов (пользователей в наборе данных) и ребер (связей между ними).

person doug    schedule 18.04.2011
comment
Я помещаю снимок нашей базы данных docs.google.com/ Можно ли найти правила ассоциации из этой базы данных с помощью пакетов R? Если нет, доступен ли код алгоритма Perl для сопряжения с Java (JDBC). Спасибо огромное. - person codious; 11.05.2011
comment
@doug извините за еще один вопрос, хотя вы уже ответили. У меня не было достаточно времени, чтобы изучить пакеты R. Ваш совет по комментарию выше был бы очень полезен. Спасибо. - person codious; 11.05.2011
comment
нет проблем - я использовал пакет R, "arules" для хранилища данных в SQLite - на данный момент я не могу вспомнить, работало ли это "из коробки" или было необходимо кодирование небольшого интерфейса --я проверю файлы моего проекта и вернусь к вам сегодня вечером (либо с да, либо с нет, в этом случае я просто дам вам доступ к моему репозиторию github, чтобы вы могли получить код). - person doug; 11.05.2011
comment
привет Сиддхартха: да я сделал. На самом деле, я использовал пакет R SQLiteDF (доступен в CRAN, с отличной документацией); проект sqldf размещен в Google Code (code.google.com/p/sqldf) . Я «вспомнил» использование SQL и правил, но на самом деле я обращался к фрейму данных через синтаксис SQL, разрешенный sqldf. - person doug; 13.05.2011

Если вам нужен код Java, вы можете найти программное обеспечение SPMF на моем веб-сайте. Он предоставляет исходный код для более чем 45 алгоритмов для частого анализа наборов элементов, анализа ассоциаций, последовательного анализа шаблонов и т. д.

Более того, он не только предоставляет самые популярные алгоритмы. Он также предлагает множество вариантов, таких как наборы редких элементов, наборы элементов с высокой полезностью, наборы неопределенных элементов, правила неизбыточной ассоциации, правила закрытой ассоциации, правила косвенной ассоциации, правила ассоциации top-k и многое другое...

person Phil    schedule 15.04.2012