我认为在处理rowspan和/或colspan时,pandas的read_html方法是错误的。
示例:
html_table = io.StringIO(u'''<table>
<thead>
<tr>
<th rowspan="2">Time</th>
<th rowspan="2">Temp</th>
<th colspan="3">Cloud Cover</th>
</tr>
<tr>
<th>Low</th>
<th>Middle</th>
<th>High</th>
</tr>
</thead>
<tbody>
<tr>
<td>22:00</td>
<td>12C</td>
<td>Lorem</td>
<td>Ipsum</td>
<td>Dolor</td>
</tr>
</tbody>
</table>''')
pd.read_html(html_table)的输出是
[ Time Temp Cloud Cover Low Middle High
0 2014-05-16 22:00:00 12C Lorem Ipsum Dolor NaN
[1 rows x 6 columns]]
这是一个错误还是我做错了什么?
答案 0 :(得分:0)
pandas> = 0.24.0可以理解colspan
和rowspan
属性。根据{{3}}:
result = pd.read_html("""
<table>
<thead>
<tr>
<th>A</th><th>B</th><th>C</th>
</tr>
</thead>
<tbody>
<tr>
<td colspan="2">1</td><td>2</td>
</tr>
</tbody>
</table>""")
result
出局:
[ A B C
0 1 1 2
以前,这将返回以下内容:
[ A B C
0 1 2 NaN]