Я делаю приложение, которое создает индексы Lucence для нескольких известных форматов документов (.docx, .odt, .txt и т. д.).
Tika идеальна для извлечения текста, но, похоже, она является виновником увеличения размера моей толстой банки до 62 МБ.
Чтобы сделать толстую банку, я делаю это в своем build.gradle:
buildscript {
repositories { jcenter() }
dependencies { // fatjar
classpath 'com.github.jengelman.gradle.plugins:shadow:1.2.4' }
}
apply plugin: 'com.github.johnrengelman.shadow'
shadowJar {
baseName = project.name
classifier = null
version = project.version
}
task copyJarToBin(type: Copy) {
from shadowJar
into "D:/My Documents/Software projects/Operative/" + project.name
}
Когда я иду gradle dependencies
, у Тики действительно появляются сотни... очевидно, что большинство из них мне не нужны.
Есть ли известный способ Gradle исключения/фильтрации определенных зависимостей?
Конкретно для Tika: если кто-нибудь знает, как определить, какие зависимости обрабатывают какие типы файлов, это тоже было бы очень полезно...