应用错误收集

提取ePub摘录

时间：2012-05-29 16:12:43

标签： epub

我已经阅读了ePub格式，标准，结构，读者，工具和可用的开发人员技术来操作/转换/创建ePubs但是没有魔法函数（到目前为止））提取特定长度的字符以创建该书的摘录。而这正是我正在寻找的：一种提取ePub的前X个单词的方法。

我正在考虑的第一种方法（不是我最喜欢的btw）是创建一个解析器来读取所有ePub元数据并开始按正确的顺序解析xml文件，直到我有足够的单词来创建一个摘录确定ePub（我将在这方面感谢一些反馈）
第二种方式（到目前为止我找不到）是一个现有的工具/函数或解析器（用任何语言），它返回（希望）ePub的纯文本，这样我就可以收集第一个X单词以便创建我的摘录。

你知道任何可以帮助我实现第二种选择的工具吗？

2 个答案:

答案 0 :(得分：1)

你应该看看Apache Tika：http://tika.apache.org/ 您可以从命令行，或作为Java库，甚至在服务器模式下使用它从ePub中提取文本。希望这会有所帮助， F。

答案 1 :(得分：0)

圣何塞我不知道有什么工具可以做你想要的。不过，让我评论一下你的第一种方法。如果你找到了一个工具，我希望这些评论可以让你评估它。

我认为您的方法很好，如果您想要很好地创建提取，那么您可能想要拥有此步骤。我建议你，

抓取OPF文件并查找GUIDE部分。如果存在GUIDE部分，请检查给定的类型。有些可能与摘录（封面，标题页，版权页）无关。许多书籍都没有明确说明的类型，但这应该有助于他们的工作。
现在在SPINE部分按顺序浏览文件，排除任何不相关的文件，并通读足够的XHTML文件以获取摘录。
在OPF文件中抓取一堆元数据，如果这与摘录相关（标题，创建者，日期是强制性的，我认为，并且一些作者也会放入一大堆其他元数据，如关键字）。

如果您要使用此摘录创建迷你EPUB，则需要选择在用于制作摘录的XHTML文件中引用的任何CSS，音频，视频，图像和自定义字体文件。您甚至可以选择使用原始封面文件作为摘录epub的封面文件。

如果你使用像Read Aloud这样有趣的东西使用固定布局书籍而你想创建一个迷你EPUB作为摘录，你最好不要使用页数而不是字数。不要忘记将任何SMIL文件包含在摘录中并使其看起来不错：（i）不要拆分两页扩展和（ii）确保第一页是奇数页，如果原始页中有奇数页或者甚至在原件中编号 - 要做到这一点，你可能需要添加一个空白的填充页面（得到奇数/甚至错误，随后的两页展开不会相互面对）

我希望有所帮助。