Как получить потоковые данные из твиттера, подключиться к pycurl с помощью nltk - регулярное выражение

Я новичок в Python, и мой босс дал задание:

  1. Получение потоковых данных из твиттера, соединение с pycurl и вывод в JSON
  2. Парсинг с использованием NLTK и регулярного выражения
  3. Сохраните его в файл базы данных (mySQL) или файловую базу (txt)

Примечание: это URL-адрес, который я хочу получить ('http://search.twitter.com/search.json?geocode=-0.789275%2C113.921327%2C1.0km&q=+near%3Aindonesia+within%3A1km&result_type=recent&rpp = 10 ')

Кто-нибудь знает, как получить потоковые данные из твиттера, используя шаг выше?

Буду очень признателен за вашу помощь :)


person sdwinanta    schedule 28.07.2011    source источник


Ответы (1)


Я бы посмотрел на шаблон: это очень хорошая библиотека веб-майнинга, и она поставляется с API майнинга Twitter. Документация тоже неплохая.

В противном случае посмотрите https://dev.twitter.com/docs/twitter-libraries. для библиотек twitter, и получение потока тоже должно быть довольно простым.

person Savino Sguera    schedule 08.08.2011