使用rowspan和colspan将Wikitables稳健地解析为Pandas DataFrame

时间:2017-01-05 22:26:55

标签: python html html-table screen-scraping

考虑DC的维基百科表以及此Wisconsincricketquestion示例。我想将上述表格解析为Pandas DataFrame以进行进一步处理,理想情况下使用BeautifulSoup这就是我熟悉的内容。

我已经尝试过在StackOverflow上找到的所有解析器但是找不到一个甚至在重组后能够正确解析上述三个表的解析器。关注的表格具有以下本质:

<table>
    <tr>
        <th rowspan="2">year</th>
        <th>col1</th>
        <th colspan="2">col2</th>
    </tr>
    <tr>
        <td rowspan="2">aaa</td>
        <td rowspan="2">bbb</td>
        <td rowspan="1">ccc</td>
    </tr>
    <tr>
        <td>2017</td>
        <td rowspan="2">ddd</td>
    </tr>
    <tr>
        <td>2018</td>
        <td>col1</td>
        <td colspan="1">col2</td>
    </tr>
</table>

关注的解析器无法正确跟踪rowspan和colspan属性,因此只能正确解析部分表,其余部分将转换为混乱。是否有一个强大的解析器,可以处理上面的例子和Wikitable示例?

0 个答案:

没有答案