美丽的汤 - 数据不在HTML文件中

时间:2013-05-21 14:11:38

标签: python beautifulsoup

我是Python新手。我试图从网站上抓取数据,我想要的数据无法在视图中看到>浏览器中的源代码。它来自另一个文件。可以使用Beautifulsoup和Python来屏蔽屏幕上的实际数据吗?

示例网站www [dot] catleylakeman [dot] co(dot)uk / cds_banks.php

如果没有,是否可以使用其他路线?

由于

2 个答案:

答案 0 :(得分:2)

“其他文件”是http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369145707664 - 您可以使用chrome的开发人员工具,网络标签(或浏览器中的等效文件)找到这个(我怀疑您已经拥有)。

这种格式比最终的html更容易解析;如果网站不发布如上所述的原始数据,则通常使用HTML scraper作为最后的手段。

答案 1 :(得分:1)

我的猜测是,您实际需要的网址是:

http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369146012122

我发现它使用开发人员工具栏并查看网络流量(内置于chrome和firefox,也使用firebug)。它被Ajax调用。你甚至不需要美味的汤来解析那个,因为它似乎是一个用*|分隔的长字符串,有时是**|。以下内容可让您初步访问该数据:

import urllib2
f = urllib2.urlopen('http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369146012122')
try:
    data = f.read().split('*|')
finally:
    f.close()
print data