按页面拆分大型html文档

时间:2011-06-25 20:23:44

标签: c# html html-parsing text-parsing

我在一篇HTML文档中有一篇篇幅超过50页的文章很长。我想知道是否有一种算法可以将HTML文档按页面(A4大小的页面)分割,类似于打印预览功能,在保持正确格式化的同时将每个页面分成较小的文件。

我使用.NET 4.0 C#

4 个答案:

答案 0 :(得分:0)

这并不总是有效,但有时您可以将文档打印为PDF,将PDF拆分为每页一个PDF,并将这些PDF转换为HTML文件。但结果并不总是很好。

答案 1 :(得分:0)

您可以使用HTMLDOC将HTML拆分为页面:

Here's a blogpost explaining the process

答案 2 :(得分:0)

您是否尝试使用CutePDF等虚拟打印机并将文档打印为PDF?另外,根据我链接的网站,CutePDF拥有自己的SDK。

答案 3 :(得分:0)

目前尚不清楚为什么要这样做,但是,只需在Microsoft Word中打开您的页面即可。 Microsoft Word具有“打印布局”,您将逐页查看文档。最终,您将能够对其进行编辑以使其适合。