我遇到了问题-我正在尝试使用pandas read_html操作从HTML文件中的表中导入数据。
在下面的示例中,我能够成功导入表,但是每个单元格都将每个单元格中的三个数据元素连接在一起。我没有能力更改HTML的构造方式。
例如,第一个包含数据的单元格加载为“ 3.29.02.3”。如何确保读入数据时被拆分?我会选择一个列表[3.2、9.0、2.3],带有某种分隔符的字符串,或者作为单独的列,或者使用另一种方法-我并不挑剔。
根据read_html文档,我想我应该能够传递一些参数,以便指定HTML的解释方式,但是需要一些有关如何进行的指导-这个领域对我来说还是很新的。
非常感谢!
体重。
HTML示例:
<tr class="property-c4da88">
<td class="property-label">
<a href="/url/page.php" class="property-name">Row Title</a>
<div class="max-cell">max</div>
<div class="min-cell">min</div>
</td>
<td class="center">
3.2
<div class="max-cell">9.0</div>
<div class="min-cell">2.3</div>
</td>
<td class="center">
1.2
<div class="max-cell">1.5</div>
<div class="min-cell">0.9</div>
</td>
<!-- LOTS MORE COLUMNS HERE -->
<td class="center">
12.2
<div class="max-cell">13.6</div>
<div class="min-cell">8.7</div>
</td>
</tr>
Python代码段:
response = requests.get(url, params=params)
df = pd.io.html.read_html(response.text, attrs={'id': 'data'})[0]