我的应用程序将多种类型的文档转换为HTML文件。然后,它将生成的文件公开给用户或搜索引擎机器人。
我的问题是有些文档包含超过100页,生成的HTML文件很大。
我正在寻找一种将HTML文件拆分成多个页面的方法。
一种可能的解决方案是按大小和字符数分割它们,这是一个很难的解决方案,因为我们应该考虑HTML文件的样式。
例如,请考虑以下HTML文件:
<p>
-- So long paragraph with more than 100 lines
</p>
<table>
<tr>
<td> </td>
</tr>
...... more than 10 rows
</table>
拆分机制应为段落创建多个文件,并且应该为表创建一个文件。如下:
<p>
-- contains 20 lines of original text
</p>
<p>
-- contains 20 lines of original text
</p>
<p>
-- contains 20 lines of original text
</p>
...
<p>
<table>
<tr>
<td> </td>
</tr>
...... more than 10 rows
</table>
</p>
如果您知道更好的解决方案或工具来实现解决方案,请告诉我吗?
答案 0 :(得分:0)
您必须从HTML中解开内容。如果您选择您控制的中间格式,则可以生成包含适当内容的HTML文件。
在生成HTML之后尝试删除它是更糟糕的选择,效率低下。您可以尝试使用(例如)HtmlAgilityPack来导航HTML文档,但是如果不了解您实际生成的结构中的哪些元素,则很难确定实际执行拆分的方式 - 再次,它将比分割它更难。内容在变为HTML之前。