用Java解析结构化文档

时间:2011-04-15 15:00:26

标签: java parsing

我想用Java库将一些法律文档解析成代表标题,段落等的文本。法律文档通常结构良好,所以我想使用比JavaCC(或其他解析器)更简单的东西发电机)。是否有任何允许(几乎)自动检测这种结构的东西?

感谢。

2 个答案:

答案 0 :(得分:2)

我认为没有工具可以“几乎自动”提取这样的结构。如果真的很容易提取结构,你不需要任何工具,你可以自己轻松编写代码。如果不是那么容易,你需要一个足够强大的工具(JavaCC,ANTLR ......)。

我认为使用自定义代码自行解析文本是最好的方法。也许事先阅读一下解析(递归正确,词法分析器/解析器分离......)。对于简单的结构,快速获得可行的解决方案并不困难。

答案 1 :(得分:0)

Apache POI - Microsoft Documents的Java API Apache PDFBox - Java PDF库

更容易的是Apache Tika - 一个内容分析工具包,用于使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。

它在内部使用pdfbox和poi

使用:java -jar tika-app-0.9.jar [option] [file] -t

将解析在。上指定的文件   命令行并输出提取的文本内容