在我的申请中,我会收到一份文件。我必须检查文件是否具有可搜索的文本(文本内容)或不可搜索的文本(图像)和显示。
我不能使用文件扩展名,因为在PDF文件中,我们也可以使用不可搜索的类型。
我需要java代码。任何人都可以帮助我。
答案 0 :(得分:0)
此问题的实际解决方案将涉及从文件内容中找出未知文件的MIME类型。然后,您需要构建从MIME类型到类的映射,以便为相应的文件类型提取文本。
有第一部分的库(识别MIME类型),虽然这是一个启发式过程,并且(理论上)可以返回错误答案或(在实践中)“未知”。以下是SO问题的示例以及有关如何执行此操作的其他参考资料:
答案 1 :(得分:0)
这位于data mining区域,还有搜索引擎(Lucene)。有许多转换器(pdftotext,htmltotext,unzip等)。然后角色编码起作用; UTF16-LE每个字符使用两个字节。某些文件类型具有标识标头,魔术cookie(JPEG,GIF,PDF)。
最适合对最适合您需求的项目进行互联网研究。然后在设计出正常运行的管道之后逐步添加功能。
如果您需要一种设计,即数据挖掘的死标准,JDM 2.0可能会提供API。