Question

我遇到了问题-我正在尝试使用pandas read_html操作从HTML文件中的表中导入数据。

在下面的示例中，我能够成功导入表，但是每个单元格都将每个单元格中的三个数据元素连接在一起。我没有能力更改HTML的构造方式。

例如，第一个包含数据的单元格加载为“ 3.29.02.3”。如何确保读入数据时被拆分？我会选择一个列表[3.2、9.0、2.3]，带有某种分隔符的字符串，或者作为单独的列，或者使用另一种方法-我并不挑剔。

根据read_html文档，我想我应该能够传递一些参数，以便指定HTML的解释方式，但是需要一些有关如何进行的指导-这个领域对我来说还是很新的。

非常感谢！

体重。

HTML示例：

<tr class="property-c4da88">
   <td class="property-label">
      <a href="/url/page.php" class="property-name">Row Title</a>
      <div class="max-cell">max</div>
      <div class="min-cell">min</div>
   </td>
   <td class="center">
      3.2
      <div class="max-cell">9.0</div>
      <div class="min-cell">2.3</div>
   </td>
   <td class="center">
      1.2
      <div class="max-cell">1.5</div>
      <div class="min-cell">0.9</div>
   </td>

   <!-- LOTS MORE COLUMNS HERE -->

   <td class="center">
      12.2
      <div class="max-cell">13.6</div>
      <div class="min-cell">8.7</div>
   </td>
</tr>

Python代码段：

response = requests.get(url, params=params)
df = pd.io.html.read_html(response.text, attrs={'id': 'data'})[0]

大熊猫read_html拆分表数据加入

0 个答案: