在HTML中取消嵌套表

时间:2014-09-22 18:17:01

标签: html database parsing dom html-parsing

网络上似乎有很多关于如何在HTML中嵌套表的资源。这个过程完全符合它的含义:它将HTML表放在HTML表中。例如,请考虑下表:

<table>
<tr>
<td>First cell in first table. The cell to the right has the second table in it.</td>
<td>

    <table>
    <tr><td>nested table</td></tr>
    <tr><td>nested table</td></tr>
    </table>

</td>
</tr>
</table>

据我所知,以这种格式抓取HTML数据并将其放在任何传统的数据库应用程序中是非常困难的(这是错误的吗?)。由于有很多情况下HTML从Web中提取并存储在数据库中,因此我很难看到频繁使用的嵌套表。由于我无法改变这一点,我想找到一种方法来“取消嵌套”HTML表格。也就是说,获取子表中的所有信息并重新排列它,使其适合主表的新字段或现有字段(从而留下一个表)。

到目前为止,我发现的唯一解决方案涉及学习如何使用HTML解析器,这对我来说远比HTML本身复杂。是否有人创建了一个专门用于在导入数据库时​​“取消嵌套”HTML表格的工具?

0 个答案:

没有答案