我正在尝试从此网站自动执行数据收集过程:https://sitem.herts.ac.uk/aeru/ppdb/en/Reports/399.htm
该网站以表格格式设置,因此我认为将数据解析为一组列表必须相对简单,但我不知道从哪里开始。
因此,例如在上面链接的网页中,部分数据如下所示:
我知道如何使用python读取源代码:
import urllib2
data = urllib2.urlopen("https://sitem.herts.ac.uk/aeru/ppdb/en/Reports/399.htm").read(20000) # read only 20 000 chars
data = data.split("\n") # then split it into lines
for line in data:
print line
但我不知道如何实际阅读文本本身,理想情况是以保留格式的方式,以便我可以识别每个表格,然后查看,例如,GUS浸出潜力是什么。
指导我可以使用的一些方法会非常有帮助,因为我不知道从哪里开始!