应用错误收集

解析具有不规则列标题的HTML表

时间：2017-06-30 03:49:00

标签： python-3.x pandas beautifulsoup html-parsing lxml

我是否可以获得一些关于如何解析（在python中）html表的建议，例如示例1中提供的表：

https://www.w3.org/WAI/tutorials/tables/irregular/

正如您所看到的，此处的标题是跨多行的分层结构。我希望对表进行解析，以便最终得到每列的复合列名，即

火星生产

火星已售出

金星制作

金星已售出

到目前为止，我试图用pandas read_html做这个但没有运气。

0 个答案:

没有答案