将html表转换为CSV(最好是python)的脚本

时间:2015-03-19 10:15:16

标签: python html html-table export-to-csv

我有大量的html表格,我想将其转换为CSV格式。将单个表粘贴到excel并将其保存为.csv,将html表粘贴到简单的在线转换器中。但是我有数千个单独的表,因此我需要一个可以自动执行转换过程的脚本。

我想知道是否有人对如何做到这一点有任何建议? Python是我唯一知道的语言,所以某种python脚本是理想的。我搜索过类似的问题,但是我发现的所有python例子对我来说都很复杂,超出了我的基本理解水平。

非常感谢任何建议。

1 个答案:

答案 0 :(得分:4)

使用pandas。它具有将html表读入数据结构的功能,然后是将该数据结构写入csv文件的函数。

import pandas as pd
url = 'http://myurl.com/mypage/'

for i, df in enumerate(pd.read_html(url)):
    df.to_csv('myfile_%s.csv' % i)

请注意,由于html页面可能有多个表,因此获取表的函数始终返回一个表列表(即使只有一个表)。这就是我在这里使用循环的原因。