我知道Apache Tika是一个文本提取器。它可以从doc,pdf,ppt和许多其他文件格式中提取文本。现在我在ios中需要这个功能,所以我想知道Apache Tika for ios有什么替代方案吗?
如果ios没有这样的库,你可以告诉我可以提取指定文件格式的工具。
提前谢谢。
答案 0 :(得分:2)
libopc用于从docx,xlsx,pptx中提取文本。
Antiword用于较旧的MS格式。
You can extract strings from a PDF using CoreGraphics also,和 也使用PDFiPhone。
如果您还在寻找从HTML文档中提取文本,请查看NSXMLParser。