在网站中搜索动态内容

时间:2011-11-30 09:33:27

标签: python perl web-scraping

我需要从这个网站上抓取新闻公告Link。 公告似乎是动态生成的。他们没有出现在源头。我通常使用机械化,但我认为它不会起作用。我能为此做些什么?我对python或perl没问题。

4 个答案:

答案 0 :(得分:11)

如果内容是动态生成的,您可以使用WindmillSeleninum来驱动浏览器,并在呈现数据后获取数据。

您可以找到示例here

答案 1 :(得分:3)

礼貌的选择是询问网站的所有者是否拥有允许您访问其新闻报道的API。

不太礼貌的选择是跟踪页面加载时发生的HTTP事务,并找出哪个是AJAX调用,它会引入数据。

看起来像是this one。但看起来它可能包含会话数据,所以我不知道它将继续工作多久。

答案 2 :(得分:0)

还有WWW::Scripter“用于编写具有脚本的网站脚本”。从未使用过它。

答案 3 :(得分:-6)

在python中,您可以使用urlliburllib2连接到网站并收集数据。例如:

from urllib2 import urlopen
myUrl = "http://www.marketvectorsindices.com/#!News/List"
inStream = urlopen(myUrl)
instream.read(1024) # etc, in a while loop
# all your fun page parsing code (perhaps: import from xml.dom.minidom import parse)