Вопросы по теме 'nutch'

Nutch 1.1 schema.xml
Я недавно скачал последнюю версию nutch. (nutch-1.1) Просматривая его код, я заметил, что есть файл conf / schema.xml, который определяет схему для части solr в комплекте с nutch. В этом файле schema.xml есть поля для каждого подключаемого...
421 просмотров
schedule 10.11.2021

Получение сниппетов в Solr
Я использую Solr + Nutch, и мне нужно получить фрагмент каждого результата. Я попытался установить hl на true в URL-адресе запроса, но все равно получаю тот же результат XML (без фрагментов). Есть идеи, как это сделать?
2840 просмотров
schedule 19.09.2021

Есть ли способ запустить NUTCH с разными файлами конфигурации?
Мне было интересно, можно ли запустить один и тот же экземпляр NUTCH с другим набором файлов конфигурации? Я не вижу ни одной опции в списке аргументов, чтобы разрешить такую ​​вещь. Я хочу запустить NUTCH только на 1 компьютере и не хочу...
1376 просмотров
schedule 23.11.2021

Как настроить Nutch и solr в ubuntu 10.10?
Я пытаюсь создать поисковую систему для своего последнего года проекта. Я провел много исследований по этой теме за последние 2 месяца. И я обнаружил, что мне понадобится сканер для сканирования Интернета, синтаксический анализатор и индексатор....
1313 просмотров

Liferay + Solr + Nutch
Readme: https://stackoverflow.com/questions/11324162/nutch-and-solr-with-liferay Я сейчас нахожусь в той же точке. Я попытался объединить файлы схемы или просто изменил уникальный ключ, но ничего не помогло. Nutch 1.4 и Solr 3.6.1 работают...
525 просмотров
schedule 24.11.2021

Apache Nutch 2.1 - как получить полный исходный код
Я пытаюсь написать собственный плагин Nutch для сканирования веб-страниц. Проблема в том, что мне нужно определить, есть ли какой-то специальный тег, например на веб-странице. В официальной документации есть примечание о том, что это возможно с...
830 просмотров
schedule 30.10.2021

org.apache.solr.common.SolrException: ОШИБКА: [doc = SOMEURL] неизвестное поле ''
Привет, я получаю это исключение, и я исчерпал все возможные настройки, которые мог придумать. org.apache.solr.common.SolrException: ERROR: [doc=SOMEURL] unknown field '' Проблема в поле '' - кавычки пусты, поэтому я не знаю, что вызывает...
2132 просмотров
schedule 04.10.2021

извлечение информации об исходящей ссылке url в Nutch
Я новичок в Nutch. Я успешно просканировал сайт с помощью nutch 1.2 и извлек дамп сегмента с помощью команды readseg , но проблема в том, что дамп содержит много информации, кроме URL-адреса и исходящих ссылок, также, если я хочу его...
465 просмотров
schedule 10.09.2021

Какая версия Hadoop рекомендована для HBase 0.90.6?
У меня нет другого выбора, кроме как установить HBase 0.90.6, так как это рекомендованная стабильная версия только для Nutch (поискового робота), кроме 0.90.4. Мой вопрос, какая версия Hadoop рекомендуется для HBase 0.90.6 для работы в...
158 просмотров
schedule 12.10.2021

Добавить метаданные из базы данных в индекс Solr, созданный Nutch
У меня есть сделанная на заказ CMS, которая должна быть доступна для поиска в Solr. В настоящее время я использую Nutch для сканирования страниц на основе исходного списка, созданного самой CMS. Мне нужно добавить метаданные, хранящиеся в базе...
730 просмотров
schedule 27.09.2021

Проблема совместимости между Hbase 0.94.2 и зависимостью apache nutch
Я пытаюсь установить apache nutch 2.2.1 и успешно построил его после внесения необходимых изменений в файлы конфигурации, следуя http://www.blogjava.net/paulwong/archive/2013/08/31/403513.html учебное пособие. Но даже после его создания я не могу...
466 просмотров
schedule 30.10.2021

Не удается заставить Nutch добавлять новые документы ниже определенного уровня
У меня есть веб-сайт, обслуживающий серию документов (pdf), и я использую Nutch 1.8 для их индексации в solr. Базовый URL-адрес http://localhost/ и документы хранятся в серии каталогов в каталоге http://localhost/doccontrol/ , e.g....
569 просмотров
schedule 16.11.2021

Команда Cygwin через приложение Java в Windows
Я работаю с nutch 1.9 в окнах, используя cygwin, и он хорошо работает. Уже спрашивали Как запустить nutch 1.9 в eclipse в Windows? , но пока не получил ответа. Есть ли способ запустить команду cygwin через java-программу? Я создал файл...
208 просмотров
schedule 25.10.2021

Nutch пропустить URL, содержащий #
Я изучаю Nutch. Настроил нутч и начал сканировать сайты. Но я не могу понять, как ограничить URL-адрес, содержащий #, поскольку из-за этого # происходит несколько дублирований. Я проверил regex-urlfilter.txt # skip URLs containing certain...
366 просмотров
schedule 07.10.2021

Apache Nutch 1.9 в локальном Eclipse для удаленного запуска на Amazon EMR
Я использую 32-разрядную версию Windows 8, использую Eclipse Juno. Я только начал работать над Amazon EMR. Пока что я могу подключиться к EMR удаленно с моего локального компьютера, используя SSH и внутри Eclipse. Я мог запустить свой собственный...
180 просмотров

Apache Nutch REST API
Пытаюсь запустить сканирование через остальные api. Сканирование начинается с добавления URL-адресов. Используя инструмент разработчика Chrome «Advanced Rest Client», я пытаюсь создать эту полезную нагрузку POST, но получаю ответ 400 Bad Request....
1289 просмотров
schedule 10.09.2021

Nutch не сканирует содержимое страницы
У меня проблема, когда я не могу сканировать контент с веб-сайта, который содержит контент из формы php. Я предполагаю, что это проблема, поскольку все остальные страницы сканируются без проблем. Я использую Nutch 1.11 и Apache Solr 5.4.1 для...
417 просмотров
schedule 04.11.2021

Индексы не активированы - проверьте свою конфигурацию
Где я ошибся? Я использую версию hadoop 2.7.2, Solr 5.4.1 и nutch 1.12. Может ли кто-нибудь помочь мне с этим запросом. сканирование http.agent.name plugin.includes protocol-httpclient | urlfilter-regex | index- (basic | more) | query- (basic |...
517 просмотров
schedule 04.10.2021

Nutch - не удалось загрузить определения из ресурса org / sonar / ant / antlib.xml
Я изучаю Nutch с помощью официального руководства. Поэтому, когда я запускаю Ant в каталоге bin, он говорит: «Не удалось загрузить определения из ресурса org/sonar/ant/antlib.xml . Не удалось найти». Я потратил много времени в...
4748 просмотров
schedule 14.11.2021

Nutch 2.3.1 сканирование только исходного URL
Мне нужно сканировать все входящие ссылки (максимум) нескольких URL-адресов. Для этого я использую Apache Nutch 2.3.1 с hadoop и hbase. Ниже приведен файл nutch-site.xml, используемый для этой цели. <?xml version="1.0"?>...
754 просмотров
schedule 06.10.2021