我有大量的html表格,我想将其转换为CSV格式。将单个表粘贴到excel并将其保存为.csv,将html表粘贴到简单的在线转换器中。但是我有数千个单独的表,因此我需要一个可以自动执行转换过程的脚本。
我想知道是否有人对如何做到这一点有任何建议? Python是我唯一知道的语言,所以某种python脚本是理想的。我搜索过类似的问题,但是我发现的所有python例子对我来说都很复杂,超出了我的基本理解水平。
非常感谢任何建议。
答案 0 :(得分:4)
使用pandas
。它具有将html表读入数据结构的功能,然后是将该数据结构写入csv文件的函数。
import pandas as pd
url = 'http://myurl.com/mypage/'
for i, df in enumerate(pd.read_html(url)):
df.to_csv('myfile_%s.csv' % i)
请注意,由于html页面可能有多个表,因此获取表的函数始终返回一个表列表(即使只有一个表)。这就是我在这里使用循环的原因。