无法读取相同的InputStream两次

时间:2017-11-29 19:02:17

标签: java inputstream apache-tika boilerpipe

这是我的代码:

// getFile() method returns the input stream of a local or online file
InputStream fileStream = getFile(source);
// Convert an InputStream to an InputSource
org.xml.sax.InputSource fileSource = new org.xml.sax.InputSource(fileStream);
// Extract text via the Boilerpipe DefaultExtractor
String text = DefaultExtractor.INSTANCE.getText(fileSource);

// Extract text and metadata via Apache Tika
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
parser.parse(fileStream, handler, metadata, context);

我无法弄清楚为什么只有第一个提取器工作。

在这种情况下只需 Boilerpipe (第一个提取器),而 Apache Tika (第二个提取器)无法提取任何内容。

我尝试创建fileStream的副本(通过InputStream fileStream2 = fileStream;)并将fileStream传递给一位读者,将fileStream2传递给另一位读者,但它并没有。也工作。

我还尝试将从fileStreamfileStream提取的HTML传递给Boilerpipe,但结果是相同的。

我怀疑问题是同一InputStream无法读取两次。

您能否帮助我如何将1 InputStream的内容传递给2位读者?

修改 我找到了解决方案并将其发布在

下面

2 个答案:

答案 0 :(得分:1)

如果您有maven项目,则必须包含这些依赖项(在<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script> <script src="https://code.jquery.com/ui/1.12.0/jquery-ui.min.js"></script> <link href="https://code.jquery.com/ui/1.12.1/themes/base/jquery-ui.css" rel="stylesheet" /> <input id="datepicker" type="text" /> <input id="clear" type="button" value="clear" /> <input id="toggle" type="button" value="toggle" />中),以便 pom.xml 可以正常工作:

boilerpipe

答案 1 :(得分:0)

我发现InputStream无法在我的旧代码中读取Tika和Boilerpipe两次,因此我发现我可以阅读fileStream并将其转换为{{ 1}},将其传递给Boilerpipe,将String转换为String并将其传递给Tika。 这是我的新代码。

ByteArrayInputStream