Question

我正在尝试从此网站自动执行数据收集过程：https://sitem.herts.ac.uk/aeru/ppdb/en/Reports/399.htm

该网站以表格格式设置，因此我认为将数据解析为一组列表必须相对简单，但我不知道从哪里开始。

因此，例如在上面链接的网页中，部分数据如下所示：

我知道如何使用python读取源代码：

    import urllib2

data = urllib2.urlopen("https://sitem.herts.ac.uk/aeru/ppdb/en/Reports/399.htm").read(20000) # read only 20 000 chars
data = data.split("\n") # then split it into lines

for line in data:
    print line

但我不知道如何实际阅读文本本身，理想情况是以保留格式的方式，以便我可以识别每个表格，然后查看，例如，GUS浸出潜力是什么。

指导我可以使用的一些方法会非常有帮助，因为我不知道从哪里开始！

将列表网站读入列表

0 个答案: