提取ePub摘录

时间:2012-05-29 16:12:43

标签: epub

我已经阅读了ePub格式,标准,结构,读者,工具和可用的开发人员技术来操作/转换/创建ePubs但是没有魔法函数(到目前为止) )提取特定长度的字符以创建该书的摘录。而这正是我正在寻找的:一种提取ePub的前X个单词的方法。

  • 我正在考虑的第一种方法(不是我最喜欢的btw)是创建一个解析器来读取所有ePub元数据并开始按正确的顺序解析xml文件,直到我有足够的单词来创建一个摘录确定ePub(我将在这方面感谢一些反馈)

  • 第二种方式(到目前为止我找不到)是一个现有的工具/函数或解析器(用任何语言),它返回(希望)ePub的纯文本,这样我就可以收集第一个X单词以便创建我的摘录。

你知道任何可以帮助我实现第二种选择的工具吗?

2 个答案:

答案 0 :(得分:1)

你应该看看Apache Tika:http://tika.apache.org/ 您可以从命令行,或作为Java库,甚至在服务器模式下使用它从ePub中提取文本。 希望这会有所帮助, F。

答案 1 :(得分:0)

圣何塞 我不知道有什么工具可以做你想要的。不过,让我评论一下你的第一种方法。如果你找到了一个工具,我希望这些评论可以让你评估它。

我认为您的方法很好,如果您想要很好地创建提取,那么您可能想要拥有此步骤。我建议你,

  • 抓取OPF文件并查找GUIDE部分。如果存在GUIDE部分,请检查给定的类型。有些可能与摘录(封面,标题页,版权页)无关。许多书籍都没有明确说明的类型,但这应该有助于他们的工作。
  • 现在在SPINE部分按顺序浏览文件,排除任何不相关的文件,并通读足够的XHTML文件以获取摘录。
  • 在OPF文件中抓取一堆元数据,如果这与摘录相关(标题,创建者,日期是强制性的,我认为,并且一些作者也会放入一大堆其他元数据,如关键字)。

如果您要使用此摘录创建迷你EPUB,则需要选择在用于制作摘录的XHTML文件中引用的任何CSS,音频,视频,图像和自定义字体文件。您甚至可以选择使用原始封面文件作为摘录epub的封面文件。

如果你使用像Read Aloud这样有趣的东西使用固定布局书籍而你想创建一个迷你EPUB作为摘录,你最好不要使用页数而不是字数。不要忘记将任何SMIL文件包含在摘录中并使其看起来不错:(i)不要拆分两页扩展和(ii)确保第一页是奇数页,如果原始页中有奇数页或者甚至在原件中编号 - 要做到这一点,你可能需要添加一个空白的填充页面(得到奇数/甚至错误,随后的两页展开不会相互面对)

我希望有所帮助。