Дубликаты документов Solrcloud с полем id

Я использую solrcloud-4.3.0 и zookeeper-3.4.5 на компьютере с Windows. У меня есть коллекция индексов с уникальным полем "id". Я заметил, что в индексе были дубликаты документов с одинаковым уникальным значением идентификатора. Насколько я понимаю, этого не должно происходить, потому что цель уникального поля - избегать таких ситуаций. Может ли кто-нибудь помочь мне здесь, что вызывает эту проблему?


person Community    schedule 10.07.2013    source источник


Ответы (2)


В файле "/conf/schema.xml" есть элемент XML с именем "", который по умолчанию выглядит как "id"... который должен быть вашим "ключом".

Однако, согласно документации Solr (http://wiki.apache.org/solr/UniqueKey#Use_cases_what_do_not_require_a_unique_key) вам не всегда нужно всегда иметь «уникальный ключ», если вам не требуется постепенно добавлять новые документы в существующий индекс... возможно, это то, что происходит в вашей ситуации. Но у меня также сложилось впечатление, что вам всегда нужен уникальный идентификатор.

person emgsilva    schedule 10.07.2013

Возможно, слишком поздно добавлять ответ на этот вопрос, но также можно дублировать документы с уникальными ключами/полями путем слияния индексов с дубликатами документов/полей.

По-видимому, когда индексы объединяются либо с помощью lucene IndexMergeTool, либо с помощью solr CoreAdminHandler, любые дубликаты документов будут добавлены к индексу. (начиная с lucene и solr 4.6.0)

кажется, что дедупликация происходит во время поиска.

https://cwiki.apache.org/confluence/display/solr/Merging+Indexes

person gary schulte    schedule 28.12.2013