Я работаю над системой, в которой нужно будет хранить много документов (PDF, файлы Word и т. д.). Я использую Solr/Lucene для поиска релевантной информации, извлеченной из этих документов, но мне также нужно место для хранения оригинала. файлы, чтобы они могли быть открыты/загружены пользователями.
Я думал о нескольких возможностях:
- файловая система - вероятно, не очень хорошая идея хранить 1 миллион документов
- sql, но мне не понадобится большинство его реляционных функций, так как мне нужно хранить только двоичный документ и его идентификатор, поэтому это может быть не самое быстрое решение.
- база данных без sql - у меня нет опыта работы с ними, поэтому я не уверен, хороши ли они, их также много, поэтому я не знаю, какую выбрать
Хранилище, которое я ищу, должно быть:
- быстро
- масштабируемый
- с открытым исходным кодом (не критично, но приятно иметь)
Можете ли вы порекомендовать, какой, по вашему мнению, лучший способ хранения этих файлов?