解析具有不规则列标题的HTML表

时间:2017-06-30 03:49:00

标签: python-3.x pandas beautifulsoup html-parsing lxml

我是否可以获得一些关于如何解析(在python中)html表的建议,例如示例1中提供的表:

https://www.w3.org/WAI/tutorials/tables/irregular/

正如您所看到的,此处的标题是跨多行的分层结构。我希望对表进行解析,以便最终得到每列的复合列名,即

火星生产

火星已售出

金星制作

金星已售出

到目前为止,我试图用pandas read_html做这个但没有运气。

0 个答案:

没有答案