任何人都可以向我建议一种方法,通过该方法可以将pdm文件编入索引,例如 pdfbox for pdf。
答案 0 :(得分:3)
如果您正在谈论Microsoft Compiled HTML Help个文件,则可以使用JChm从中提取文本,然后以正常方式对其进行索引。
答案 1 :(得分:3)
如果您还需要索引其他文档格式,您可以在Apache Tika
中找到更好,更通用的解决方案他们最近刚刚添加了一个CHM Parser(供参考:Support of CHM Format),它将在下一个版本中。