如何从iOS的epub格式中提取文本

时间:2013-04-24 06:59:35

标签: ios text epub extraction

我想从epub文件中提取我的文本到语音iOS应用程序的文本。

如果我可以使用某个库在iOS设备中执行此操作会很棒,但我也想知道是否应该在服务器端处理它。

有没有人知道如何做到这一点?

例如,Voice Dream从epub格式中提取文本。 http://www.voicedream.com/?page_id=134

1 个答案:

答案 0 :(得分:1)

ePub是一个ZIP文件,其中包含XML清单,其中包含摘要(以及一些元数据)并引用一组HTML(请查看所有详细信息的规范:http://idpf.org/epub) 如果你想在设备上做,你很可能必须编写自己的代码:打开zip,在清单中找到你的方式找到你的文本,然后删除所有的HTML标签,以获得纯文本。 如果您可以在服务器端执行,则会更容易:您可以使用Apache Tika(http://tika.apache.org/)来处理ePub(以及许多其他格式)。

很难更精确,因为你没有解释你如何获得epub以及你如何选择epub的哪个部分将被定位...