我想在java中读取doc,pdf,ppt等部分或段落中的任何文件的内容,因为我想检索文件的特定部分(如果有)而不是检索整个文件的内容。请任何人都可以告诉我,我怎样才能阅读任何部分或段落文件的内容............
由于
答案 0 :(得分:1)
这完全取决于相关文件的格式。例如,当您有一个.docx
文件时,您可以使用一些XML解析器,然后遍历结果或使用XPath查找所有段落,部分或您想要提取的任何内容。
对于其他文件格式,您必须找到不同的方法。没有一种方法可以提取任何文件的特定部分,因为不同的文件类型具有不同的存储数据的方式。最有可能的是,您将不得不收集一堆库,每种文件类型一个。