HTML spidering到ePub转换工具

时间:2011-05-08 10:22:21

标签: html parsing epub

目前似乎没有可用于抓取网站并将内容转换为ePub格式的工具。我认为,未经网站所有者明确同意,在网站上执行此操作会产生法律影响。

我问的原因是,我希望能够将Doctrine 2参考指南转换为我的Kindle的ePub格式。

2 个答案:

答案 0 :(得分:1)

通常最好找出文档来源是什么并使用它们。在教义2的情况下,它们是RST文本文件。 docutils工具(用Python编写)将这些工具转换为各种形式,例如您看到的网站。 Sphinx文档构建器以此为基础构建,并且似乎是他们使用的内容。碰巧他们有一个ePub builder

由于它是一个开源项目,因此来源为readily available。或者您可以从他们的git存储库git clone git://github.com/doctrine/doctrine2.git doctrine2-orm获取最新信息。

这是获取Kindle文档的最简单,最直接的途径。

答案 1 :(得分:0)

  

目前似乎没有可用于抓取网站并将内容转换为ePub格式的工具。

您应该查看http://web2fb2.net/

不完美(我没有设法让内部链接工作),但它可以完成这项工作。