Я использую solrcloud-4.3.0 и zookeeper-3.4.5 на компьютере с Windows. У меня есть коллекция индексов с уникальным полем "id". Я заметил, что в индексе были дубликаты документов с одинаковым уникальным значением идентификатора. Насколько я понимаю, этого не должно происходить, потому что цель уникального поля - избегать таких ситуаций. Может ли кто-нибудь помочь мне здесь, что вызывает эту проблему?
Дубликаты документов Solrcloud с полем id
Ответы (2)
В файле "/conf/schema.xml" есть элемент XML с именем "", который по умолчанию выглядит как "id"... который должен быть вашим "ключом".
Однако, согласно документации Solr (http://wiki.apache.org/solr/UniqueKey#Use_cases_what_do_not_require_a_unique_key) вам не всегда нужно всегда иметь «уникальный ключ», если вам не требуется постепенно добавлять новые документы в существующий индекс... возможно, это то, что происходит в вашей ситуации. Но у меня также сложилось впечатление, что вам всегда нужен уникальный идентификатор.
Возможно, слишком поздно добавлять ответ на этот вопрос, но также можно дублировать документы с уникальными ключами/полями путем слияния индексов с дубликатами документов/полей.
По-видимому, когда индексы объединяются либо с помощью lucene IndexMergeTool, либо с помощью solr CoreAdminHandler, любые дубликаты документов будут добавлены к индексу. (начиная с lucene и solr 4.6.0)
кажется, что дедупликация происходит во время поиска.
https://cwiki.apache.org/confluence/display/solr/Merging+Indexes