我是Python新手。我试图从网站上抓取数据,我想要的数据无法在视图中看到>浏览器中的源代码。它来自另一个文件。可以使用Beautifulsoup和Python来屏蔽屏幕上的实际数据吗?
示例网站www [dot] catleylakeman [dot] co(dot)uk / cds_banks.php
如果没有,是否可以使用其他路线?
由于
答案 0 :(得分:2)
“其他文件”是http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369145707664 - 您可以使用chrome的开发人员工具,网络标签(或浏览器中的等效文件)找到这个(我怀疑您已经拥有)。
这种格式比最终的html更容易解析;如果网站不发布如上所述的原始数据,则通常使用HTML scraper作为最后的手段。
答案 1 :(得分:1)
我的猜测是,您实际需要的网址是:
http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369146012122
我发现它使用开发人员工具栏并查看网络流量(内置于chrome和firefox,也使用firebug)。它被Ajax调用。你甚至不需要美味的汤来解析那个,因为它似乎是一个用*|
分隔的长字符串,有时是**|
。以下内容可让您初步访问该数据:
import urllib2
f = urllib2.urlopen('http://www.catleylakeman.co.uk/bankCDS.php?ignoreMe=1369146012122')
try:
data = f.read().split('*|')
finally:
f.close()
print data