这是我的代码:
// getFile() method returns the input stream of a local or online file
InputStream fileStream = getFile(source);
// Convert an InputStream to an InputSource
org.xml.sax.InputSource fileSource = new org.xml.sax.InputSource(fileStream);
// Extract text via the Boilerpipe DefaultExtractor
String text = DefaultExtractor.INSTANCE.getText(fileSource);
// Extract text and metadata via Apache Tika
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
parser.parse(fileStream, handler, metadata, context);
我无法弄清楚为什么只有第一个提取器工作。
在这种情况下只需 Boilerpipe (第一个提取器),而 Apache Tika (第二个提取器)无法提取任何内容。
我尝试创建fileStream
的副本(通过InputStream fileStream2 = fileStream;
)并将fileStream
传递给一位读者,将fileStream2
传递给另一位读者,但它并没有。也工作。
我还尝试将从fileStream
和fileStream
提取的HTML传递给Boilerpipe,但结果是相同的。
我怀疑问题是同一InputStream
无法读取两次。
您能否帮助我如何将1 InputStream
的内容传递给2位读者?
修改 我找到了解决方案并将其发布在
下面答案 0 :(得分:1)
如果您有maven项目,则必须包含这些依赖项(在<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<script src="https://code.jquery.com/ui/1.12.0/jquery-ui.min.js"></script>
<link href="https://code.jquery.com/ui/1.12.1/themes/base/jquery-ui.css" rel="stylesheet" />
<input id="datepicker" type="text" />
<input id="clear" type="button" value="clear" />
<input id="toggle" type="button" value="toggle" />
中),以便 pom.xml
可以正常工作:
boilerpipe
答案 1 :(得分:0)
我发现InputStream
无法在我的旧代码中读取Tika和Boilerpipe两次,因此我发现我可以阅读fileStream
并将其转换为{{ 1}},将其传递给Boilerpipe,将String
转换为String
并将其传递给Tika。
这是我的新代码。
ByteArrayInputStream