Я пытаюсь просканировать публикации с помощью python и получить опубликованный идентификатор для всех статей, на которые была процитирована статья.
Например, эта статья (ID: 11825149) http://www.ncbi.nlm.nih.gov/pubmed/11825149 Имеет страницу со ссылками на все статьи, в которых она цитируется: http://www.ncbi.nlm.nih.gov/pubmed?linkname=pubmed_pubmed_citedin&from_uid=11825149 Проблема в том, что он содержит более 200 ссылок, но показывает только 20 на странице. Ссылка «следующая страница» недоступна по URL-адресу.
Есть ли способ открыть опцию «отправить» или просмотреть содержимое на следующих страницах с помощью python?
Как я сейчас открываю опубликованные страницы:
def start(seed):
webpage = urlopen(seed).read()
print webpage
citedByPage = urlopen('http://www.ncbi.nlm.nih.gov/pubmedlinkname=pubmed_pubmed_citedin&from_uid=' + pageid).read()
print citedByPage
Из этого я могу извлечь все процитированные ссылки на первой странице, но как их извлечь из всех страниц? Спасибо.