我已经阅读了ePub格式,标准,结构,读者,工具和可用的开发人员技术来操作/转换/创建ePubs但是没有魔法函数(到目前为止) )提取特定长度的字符以创建该书的摘录。而这正是我正在寻找的:一种提取ePub的前X个单词的方法。
我正在考虑的第一种方法(不是我最喜欢的btw)是创建一个解析器来读取所有ePub元数据并开始按正确的顺序解析xml文件,直到我有足够的单词来创建一个摘录确定ePub(我将在这方面感谢一些反馈)
第二种方式(到目前为止我找不到)是一个现有的工具/函数或解析器(用任何语言),它返回(希望)ePub的纯文本,这样我就可以收集第一个X单词以便创建我的摘录。
你知道任何可以帮助我实现第二种选择的工具吗?
答案 0 :(得分:1)
你应该看看Apache Tika:http://tika.apache.org/ 您可以从命令行,或作为Java库,甚至在服务器模式下使用它从ePub中提取文本。 希望这会有所帮助, F。
答案 1 :(得分:0)
圣何塞 我不知道有什么工具可以做你想要的。不过,让我评论一下你的第一种方法。如果你找到了一个工具,我希望这些评论可以让你评估它。
我认为您的方法很好,如果您想要很好地创建提取,那么您可能想要拥有此步骤。我建议你,
如果您要使用此摘录创建迷你EPUB,则需要选择在用于制作摘录的XHTML文件中引用的任何CSS,音频,视频,图像和自定义字体文件。您甚至可以选择使用原始封面文件作为摘录epub的封面文件。
如果你使用像Read Aloud这样有趣的东西使用固定布局书籍而你想创建一个迷你EPUB作为摘录,你最好不要使用页数而不是字数。不要忘记将任何SMIL文件包含在摘录中并使其看起来不错:(i)不要拆分两页扩展和(ii)确保第一页是奇数页,如果原始页中有奇数页或者甚至在原件中编号 - 要做到这一点,你可能需要添加一个空白的填充页面(得到奇数/甚至错误,随后的两页展开不会相互面对)
我希望有所帮助。