Question

我需要从这个网站上抓取新闻公告Link。公告似乎是动态生成的。他们没有出现在源头。我通常使用机械化，但我认为它不会起作用。我能为此做些什么？我对python或perl没问题。

Answer 1

如果内容是动态生成的，您可以使用Windmill或Seleninum来驱动浏览器，并在呈现数据后获取数据。

您可以找到示例here。

Answer 2

礼貌的选择是询问网站的所有者是否拥有允许您访问其新闻报道的API。

不太礼貌的选择是跟踪页面加载时发生的HTTP事务，并找出哪个是AJAX调用，它会引入数据。

看起来像是this one。但看起来它可能包含会话数据，所以我不知道它将继续工作多久。

Answer 3

还有WWW::Scripter“用于编写具有脚本的网站脚本”。从未使用过它。

Answer 4

在python中，您可以使用urllib和urllib2连接到网站并收集数据。例如：

from urllib2 import urlopen
myUrl = "http://www.marketvectorsindices.com/#!News/List"
inStream = urlopen(myUrl)
instream.read(1024) # etc, in a while loop
# all your fun page parsing code (perhaps: import from xml.dom.minidom import parse)

在网站中搜索动态内容

4 个答案: