Я изучаю питон. На практике я создаю скребок rss с помощью feedparser, помещая выходные данные в кадр данных pandas и пытаясь использовать NLTK ... но сначала я получаю список статей из нескольких RSS-каналов.
Я использовал этот пост о том, как передавать несколько фидов и объединил его с ответом, который я получил ранее, на другой вопрос о том, как поместить его в Фрейм данных Pandas.
В чем проблема, я хочу видеть данные из всех каналов в моем фрейме данных. В настоящее время я могу получить доступ только к первому элементу в списке каналов.
FeedParser, кажется, выполняет свою работу, но когда он помещается в Pandas df, кажется, что он захватывает только первый RSS в списке.
import feedparser
import pandas as pd
rawrss = [
'http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml',
'https://www.yahoo.com/news/rss/',
'http://www.huffingtonpost.co.uk/feeds/index.xml',
'http://feeds.feedburner.com/TechCrunch/',
]
feeds = []
for url in rawrss:
feeds.append(feedparser.parse(url))
for feed in feeds:
for post in feed.entries:
print(post.title, post.link, post.summary)
df = pd.DataFrame(columns=['title', 'link', 'summary'])
for i, post in enumerate(feed.entries):
df.loc[i] = post.title, post.link, post.summary
df.shape
df