从文件中提取段落样本

时间:2019-06-06 18:13:44

标签: java amazon-web-services apache-tika natural-language-processing

我上传的文件类型未知。可以是doc,pdf,xls等。

我的最终目标是:

  1. 确定文件中是否有文本段落(而不是一堆图片标题或图表或表格中的文本)
  2. 如果(1)为true并且有文本段落,请从文件中提取一些示例段落。

我知道我可以使用Apache Tika之类的程序将文件提取到String

但是,我还想获得提取文本的格式,并确定哪里有完整的书面文本的段落(与标题等相对)。

所以我也想分析提取的文本。具体来说,我希望有一个图书馆可以识别完整的书面段落,而不是仅从照片标题,图表等中提取的文字。

虽然Tika是一个相当大的库,但如果它可以执行我需要的任务,我将愿意添加它。

但是,我在Tika中找不到任何可以让我以这种方式分析文本结构的东西。

有什么我想念的吗?

除了Tika之外,我还知道一些用于分析文本的API,特别是Comprehend或Textract,但是我仍然找不到能够确保提取需要的完整书面段落的东西。

我正在使用上面列出的库或其他库寻找任何建议。再次,我想避免使用诸如照片说明之类的标题,而只获得完整的书面段落中的文字。

是否有任何库可以帮助我解决这个问题,或者我必须自己编写逻辑代码(用于检测段落以及检测从图表和标题中提取的完整段落和文本之间的差异)?

0 个答案:

没有答案