Ошибка SOLR7 при разборе текстового документа

Я использую SOLR7 для полного извлечения файлов Windows doc. у меня такая ошибка:

но с SOLR 5.5 у меня нет ошибок, есть идеи?

Проблема возникает, когда в документе есть изображение. заголовок для изображения получен, и POI ожидает чего-то еще .... но заголовок из документа в порядке.

ожидаемый - из заголовка слова документа, другой - заголовок из изображения, например. парсер всегда ждет одного и того же заголовка, даже если в документе есть другой элемент. изменение парсера сделает трюк.


person cyril    schedule 13.08.2018    source источник
comment
o.a.s.h.RequestHandlerBase org.apache.poi.poifs.filesystem.NotOLE2FileException: недопустимая подпись заголовка; читать 0x0A1A0A0D474E5089, ожидается 0xE11AB1A1E011CFD0 - Ваш файл не является действительным документом OLE2 в org.apache.poi.poifs.storage.HeaderBlock. (HeaderBlock.java:144) в org.apache.poi.poifs.storage HeaderBlock.java:113) в org.apache.poi.poifs.filesystem.NPOIFSFileSystem. (NPOIFSFileSystem.java:301) в org.apache.tika.parser.microsoft.OfficeParser.parse (OfficeParser.java:124) в org. apache.tika.parser.DelegatingParser.parse (DelegatingParser.java:72) в org.apache.tika.extractor.ParsingEmbeddedDocumentExtractor.parseEmbedded (ParsingEmbeddedDocumentExtractor.java:102) в org.apache.pachector.tik java: 220) по адресу org.apache.tika.parser.microsoft.AbstractPOIFSExtractor.handleEmbeddedResource (AbstractPOIFSExtractor.java:124) в org.apache.tika.parser.microsoft.AbstractPOIFSExtractor.handleEmbeddedResource.xtractor.handleEmbeddedResource.xtractor. .tika.parser.microsoft.WordExtr Actor.handlePictureCharacterRun (WordExtractor.java:640) на org.apache.tika.parser.microsoft.WordExtractor.handleParagraph (WordExtractor.java:372) на org.apache.tika.parser.microsoft.WordExtractor.handleHeader (WordExtractor.handleHeader: 259) на org.apache.tika.parser.microsoft.WordExtractor.parse (WordExtractor.java:182) на org.apache.tika.parser.microsoft.OfficeParser.parse (OfficeParser.java:176) на org.apache.tika .parser.microsoft.OfficeParser.parse (OfficeParser.java:132) по адресу org.apache.solr.handler.extraction.ExtractingDocumentLoader.load (ExtractingDocumentLoader.java:228) в org.apache.solr.handler.ContentStreamHandlerBase (ContentReaderBase). .java: 68) в org.apache.solr.handler.RequestHandlerBase.handleRequest (RequestHandlerBase.java:199) в org.apache.solr.core.SolrCore.execute (SolrCore.java:2539) в org.apache.solr. servlet.HttpSolrCall.execute (HttpSolrCall.java:709) в org.apache.solr.servlet.HttpSolrCall.call (HttpSolr Call.java:515) в org.apache.solr.servlet.SolrDispatchFilter.doFilter (SolrDispatchFilter.java:377) в org.apache.solr.servlet.SolrDispatchFilter.doFilter (SolrDispatchFilter.java.java:323) в .servlet.ServletHandler $ CachedChain.doFilter (ServletHandler.java:1634) в org.eclipse.jetty.servlet.ServletHandler.doHandle (ServletHandler.java:533) в org.eclipse.jetty.server.handler. ScopedHandler.handle (ScopedHandler.java:146) в org.eclipse.jetty.security.SecurityHandler.handle (SecurityHandler.java:548) в org.eclipse.jetty.server.handler.HandlerWrapper.handle (HandlerWrapper132 ).java: на org.eclipse.jetty.server.handler.ScopedHandler.nextHandle (ScopedHandler.java:257) на org.eclipse.jetty.server.session.SessionHandler.doHandle (SessionHandler.java:1595) на org.eclipse.jetty. .handler.ScopedHandler.nextHandle (ScopedHandler.java:255) на org.eclipse.jetty.server.handler.ContextHandler.doHandle (ContextHandler.java:1253) на org.eclipse.jetty.server.handler.ScopedHandler.nextS .java: 203) в org.eclipse.jetty.servlet.ServletHandler.doScope (ServletHandler.java:473) в org.eclipse.jetty.server.session.SessionHandler.doScope (SessionHandler.java:1564) в org.eclipse. jetty.server.handler.ScopedHandler.nextScope (ScopedHandler.java:201) в org.eclipse.jetty.server.handler.ContextHandler.doScope (ContextHandler.jav a: 1155) в org.eclipse.jetty.server.handler.ScopedHandler.handle (ScopedHandler.java:144) в org.eclipse.jetty.server.handler.ContextHandlerCollection.handle (ContextHandlerCollection.java:219) в org.eclipse .jetty.server.handler.HandlerCollection.handle (HandlerCollection.java:126) в org.eclipse.jetty.server.handler.HandlerWrapper.handle (HandlerWrapper.java:132) в org.eclipse.jetty.rewrite.handler.RewriteHandler.RewriteHandler. .handle (RewriteHandler.java:335) в org.eclipse.jetty.server.handler.StatisticsHandler.handle (StatisticsHandler.java:169) в org.eclipse.jetty.server.handler.HandlerWrapper.handle (HandlerWrapper.java:132 ) на org.eclipse.jetty.server.Server.handle (Server.java:531) на org.eclipse.jetty.server.HttpChannel.handle (HttpChannel.java:352) на org.eclipse.jetty.server.HttpConnection. onFillable (HttpConnection.java:260) в org.eclipse.jetty.io.AbstractConnection $ ReadCallback.succeeded (AbstractConnection.java:281) в org.eclipse.jetty.io.FillIn terest.fillable (FillInterest.java:102) в org.eclipse.jetty.io.ChannelEndPoint $ 2.run (ChannelEndPoint.java:118) в org.eclipse.jetty.util.thread.QueuedThreadPool.runJob (QueuedThreadPool.java ) в org.eclipse.jetty.util.thread.QueuedThreadPool $ 2.run (QueuedThreadPool.java:678) в java.lang.Thread.run (Thread.java:748)   -  person Simion    schedule 13.08.2018
comment
2018-08-13 13: 50: 58.445 ОШИБКА (qtp1671846437-23) [c: bdl s: shard1 r: core_node3 x: bdl_shard1_replica_n1] o.a.s.s.HttpSolrCall null: org.apache.poi.poifs.file2valid header: заголовок читать 0x0A1A0A0D474E5089, ожидается 0xE11AB1A1E011CFD0 - Ваш файл не является действительным документом OLE2 в org.apache.poi.poifs.storage.HeaderBlock. (HeaderBlock.java:144) в org.apache.poi.poifs.storage HeaderBlock.java:113) в org.apache.poi.poifs.filesystem.NPOIFSFileSystem. (NPOIFSFileSystem.java:301) в org.apache.tika.parser.microsoft.OfficeParser.parse (OfficeParser.java:124) в org. apache.tika.parser.DelegatingParser.parse (DelegatingParser.java:72) в org.apache.tika.extractor.ParsingEmbeddedDocumentExtractor.parseEmbedded (ParsingEmbeddedDocumentExtractor.java:102) в org.apache.pachector.tik java: 220) по адресу org.apache.tika.parser.microsoft.AbstractPOIFSExtractor.handleEmbeddedResource (AbstractPOIFSExtractor.java:124) в org.apache.tika.parser.microsoft.AbstractPOIFSExtractor.handleEmbeddedResource.xtractor.handleEmbeddedResource.xtractor. .tika.parser.microsoft.WordExtr Actor.handlePictureCharacterRun (WordExtractor.java:640) на org.apache.tika.parser.microsoft.WordExtractor.handleParagraph (WordExtractor.java:372) на org.apache.tika.parser.microsoft.WordExtractor.handleHeader (WordExtractor.handleHeader: 259) на org.apache.tika.parser.microsoft.WordExtractor.parse (WordExtractor.java:182) на org.apache.tika.parser.microsoft.OfficeParser.parse (OfficeParser.java:176) на org.apache.tika .parser.microsoft.OfficeParser.parse (OfficeParser.java:132) в org.apache.solr.handler.extraction.ExtractingDocumentLoader.load (ExtractingDocumentLoader.java:228) в org.apache.solr.handler.ContentStreamHandlerBestase (ContentStreamHandlerBestase). .java: 68) в org.apache.solr.handler.RequestHandlerBase.handleRequest (RequestHandlerBase.java:199) в org.apache.solr.core.SolrCore.execute (SolrCore.java:2539) в org.apache.solr. servlet.HttpSolrCall.execute (HttpSolrCall.java:709) в org.apache.solr.servlet.HttpSolrCall.call (HttpSolr Call.java:515) в org.apache.solr.servlet.SolrDispatchFilter.doFilter (SolrDispatchFilter.java:377) в org.apache.solr.servlet.SolrDispatchFilter.doFilter (SolrDispatchFilter.java.java:323) в .servlet.ServletHandler $ CachedChain.doFilter (ServletHandler.java:1634) в org.eclipse.jetty.servlet. ServletHandler.doHandle (ServletHandler.java:533) в org.eclipse.jetty.server.handler.ScopedHandler.handle (ScopedHandler.java:146) в org.eclipse.jetty.security.SecurityHandler.handle (SecurityHandler ).java на org.eclipse.jetty.server.handler.HandlerWrapper.handle (HandlerWrapper.java:132) на org.eclipse.jetty.server.handler.ScopedHandler.nextHandle (ScopedHandler.java:257) на org.eclipse.jetty.ser .session.SessionHandler.doHandle (SessionHandler.java:1595) в org.eclipse.jetty.server.handler.ScopedHandler.nextHandle (ScopedHandler.java:255) в org.eclipse.jetty.server.handler.ContextHandler.doHandler .java: 1253) на org.eclipse.jetty.server.handler.ScopedHandler.nextScope (ScopedHandler.java:203) на org.eclipse.jetty.servlet.ServletHandler.doScope (ServletHandler.java:473) на org.eclipse. jetty.server.session.SessionHandler.doScope (SessionHandler.java:1564) в org.eclipse.jetty.server.handler.ScopedHandler.nextScope (ScopedHandler.ja va: 201) в org.eclipse.jetty.server.handler.ContextHandler.doScope (ContextHandler.java:1155) в org.eclipse.jetty.server.handler.ScopedHandler.handle (ScopedHandler.java:144) в org.eclipse .jetty.server.handler.ContextHandlerCollection.handle (ContextHandlerCollection.java:219) в org.eclipse.jetty.server.handler.HandlerCollection.handle (HandlerCollection.java:126) в org.eclipse.jetty.server.rapper.Handler. .handle (HandlerWrapper.java:132) в org.eclipse.jetty.rewrite.handler.RewriteHandler.handle (RewriteHandler.java:335) в org.eclipse.jetty.server.handler.StatisticsHandler.handle (StatisticsHandler.java:169 ) на org.eclipse.jetty.server.handler.HandlerWrapper.handle (HandlerWrapper.java:132) на org.eclipse.jetty.server.Server.handle (Server.java:531) на org.eclipse.jetty.server. HttpChannel.handle (HttpChannel.java:352) на org.eclipse.jetty.server.HttpConnection.onFillable (HttpConnection.java:260) на org.eclipse.jetty.io.AbstractConnecti на $ ReadCallback.succeeded (AbstractConnection.java:281) на org.eclipse.jetty.io.FillInterest.fillable (FillInterest.java:102) на org.eclipse.jetty.io.ChannelEndPoint $ 2.run (ChannelEndPoint.java:118 ) в org.eclipse.jetty.util.thread.QueuedThreadPool.runJob (QueuedThreadPool.java:760) в org.eclipse.jetty.util.thread.QueuedThreadPool $ 2.run (QueuedThreadPool.java:678.Thread) в java.lang. .run (Thread.java:748)   -  person cyril    schedule 13.08.2018


Ответы (1)


может быть дубликат stackoverflow.com / questions / 33879515 /

read 0x0A1A0A0D474E5089, expected 0xE11AB1A1E011CFD0

вообще не использую SOLR7 библиотеки встроены, я ничего не мог сделать, потому что это сервер. нет кода java или другого языка ....

person cyril    schedule 26.09.2018