大熊猫read_html拆分表数据加入

时间:2019-09-21 14:11:46

标签: python pandas web-scraping

我遇到了问题-我正在尝试使用pandas read_html操作从HTML文件中的表中导入数据。

在下面的示例中,我能够成功导入表,但是每个单元格都将每个单元格中的三个数据元素连接在一起。我没有能力更改HTML的构造方式。

例如,第一个包含数据的单元格加载为“ 3.29.02.3”。如何确保读入数据时被拆分?我会选择一个列表[3.2、9.0、2.3],带有某种分隔符的字符串,或者作为单独的列,或者使用另一种方法-我并不挑剔。

根据read_html文档,我想我应该能够传递一些参数,以便指定HTML的解释方式,但是需要一些有关如何进行的指导-这个领域对我来说还是很新的。

非常感谢!

体重。

HTML示例:

<tr class="property-c4da88">
   <td class="property-label">
      <a href="/url/page.php" class="property-name">Row Title</a>
      <div class="max-cell">max</div>
      <div class="min-cell">min</div>
   </td>
   <td class="center">
      3.2
      <div class="max-cell">9.0</div>
      <div class="min-cell">2.3</div>
   </td>
   <td class="center">
      1.2
      <div class="max-cell">1.5</div>
      <div class="min-cell">0.9</div>
   </td>

   <!-- LOTS MORE COLUMNS HERE -->

   <td class="center">
      12.2
      <div class="max-cell">13.6</div>
      <div class="min-cell">8.7</div>
   </td>
</tr>

Python代码段:

response = requests.get(url, params=params)
df = pd.io.html.read_html(response.text, attrs={'id': 'data'})[0]

0 个答案:

没有答案