标签: python-3.x pandas beautifulsoup html-parsing lxml
我是否可以获得一些关于如何解析(在python中)html表的建议,例如示例1中提供的表:
https://www.w3.org/WAI/tutorials/tables/irregular/
正如您所看到的,此处的标题是跨多行的分层结构。我希望对表进行解析,以便最终得到每列的复合列名,即
火星生产
火星已售出
金星制作
金星已售出
到目前为止,我试图用pandas read_html做这个但没有运气。