拆分动态生成的HTML文件

时间:2017-01-25 17:12:04

标签: c#

我的应用程序将多种类型的文档转换为HTML文件。然后,它将生成的文件公开给用户或搜索引擎机器人。

我的问题是有些文档包含超过100页,生成的HTML文件很大。

我正在寻找一种将HTML文件拆分成多个页面的方法。

一种可能的解决方案是按大小和字符数分割它们,这是一个很难的解决方案,因为我们应该考虑HTML文件的样式。

例如,请考虑以下HTML文件:

<p>

          -- So long paragraph with more than 100 lines 

</p>
<table>
  <tr>
        <td> </td>
  </tr>
  ...... more than 10 rows
</table>

拆分机制应为段落创建多个文件,并且应该为表创建一个文件。如下:

PAGE1.HTML

 <p>

           -- contains 20 lines of original text

 </p>

PAGE2.HTML

 <p>

           -- contains 20 lines of original text

 </p>

PAGE3.HTML

  <p>

       -- contains 20 lines of original text

     </p>

...

PAGE6.HTML

 <p>

  <table>
     <tr>
        <td> </td>
     </tr>
     ...... more than 10 rows
</table>

</p>

如果您知道更好的解决方案或工具来实现解决方案,请告诉我吗?

1 个答案:

答案 0 :(得分:0)

您必须从HTML中解开内容。如果您选择您控制的中间格式,则可以生成包含适当内容的HTML文件。

在生成HTML之后尝试删除它是更糟糕的选择,效率低下。您可以尝试使用(例如)HtmlAgilityPack来导航HTML文档,但是如果不了解您实际生成的结构中的哪些元素,则很难确定实际执行拆分的方式 - 再次,它将比分割它更难。内容在变为HTML之前。