Я надеюсь собрать воедино несколько десятков тысяч страниц правительственных данных (в нескольких тысячах папок), находящихся в сети, и поместить их все в один файл. Чтобы ускорить процесс, я решил сначала загрузить сайт на свой жесткий диск, прежде чем сканировать его с помощью чего-то вроде Anemone + Nokogiri. Когда я пробовал пример кода с URL-адресом правительственного сайта в Интернете, все работало нормально, но когда я меняю URL-адрес на свой локальный путь к файлу, код запускается, но не выводит никаких результатов. Вот код:
url="file:///C:/2011/index.html"
Anemone.crawl(url) do |anemone|
titles = []
anemone.on_every_page { |page| titles.push page.doc.at
('title').inner_html rescue nil }
anemone.after_crawl { puts titles.compact }
end
Таким образом, с локальным именем файла ничего не выводится, но оно успешно работает, если я подключаю соответствующий онлайн-URL. Anemone каким-то образом не может сканировать структуры локальных каталогов? Если нет, есть ли другие предлагаемые способы сканирования/скрапинга, или мне просто запустить Anemone на онлайн-версии сайта? Спасибо.