Question

我是Python新手。我试图从网站上抓取数据，我想要的数据无法在视图中看到＆gt;浏览器中的源代码。它来自另一个文件。可以使用Beautifulsoup和Python来屏蔽屏幕上的实际数据吗？

示例网站www [dot] catleylakeman [dot] co（dot）uk / cds_banks.php

如果没有，是否可以使用其他路线？

由于

Answer 1

“其他文件”是http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369145707664 - 您可以使用chrome的开发人员工具，网络标签（或浏览器中的等效文件）找到这个（我怀疑您已经拥有）。

这种格式比最终的html更容易解析;如果网站不发布如上所述的原始数据，则通常使用HTML scraper作为最后的手段。

Answer 2

我的猜测是，您实际需要的网址是：

http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369146012122

我发现它使用开发人员工具栏并查看网络流量（内置于chrome和firefox，也使用firebug）。它被Ajax调用。你甚至不需要美味的汤来解析那个，因为它似乎是一个用*|分隔的长字符串，有时是**|。以下内容可让您初步访问该数据：

import urllib2
f = urllib2.urlopen('http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369146012122')
try:
    data = f.read().split('*|')
finally:
    f.close()
print data

美丽的汤 - 数据不在HTML文件中

2 个答案: