将列表网站读入列表

时间:2017-10-16 20:32:21

标签: python web web-crawler

我正在尝试从此网站自动执行数据收集过程:https://sitem.herts.ac.uk/aeru/ppdb/en/Reports/399.htm

该网站以表格格式设置,因此我认为将数据解析为一组列表必须相对简单,但我不知道从哪里开始。

因此,例如在上面链接的网页中,部分数据如下所示:

enter image description here

我知道如何使用python读取源代码:

    import urllib2

data = urllib2.urlopen("https://sitem.herts.ac.uk/aeru/ppdb/en/Reports/399.htm").read(20000) # read only 20 000 chars
data = data.split("\n") # then split it into lines

for line in data:
    print line

但我不知道如何实际阅读文本本身,理想情况是以保留格式的方式,以便我可以识别每个表格,然后查看,例如,GUS浸出潜力是什么。

指导我可以使用的一些方法会非常有帮助,因为我不知道从哪里开始!

0 个答案:

没有答案