我需要从这个网站上抓取新闻公告Link。 公告似乎是动态生成的。他们没有出现在源头。我通常使用机械化,但我认为它不会起作用。我能为此做些什么?我对python或perl没问题。
答案 0 :(得分:11)
如果内容是动态生成的,您可以使用Windmill
或Seleninum
来驱动浏览器,并在呈现数据后获取数据。
您可以找到示例here。
答案 1 :(得分:3)
礼貌的选择是询问网站的所有者是否拥有允许您访问其新闻报道的API。
不太礼貌的选择是跟踪页面加载时发生的HTTP事务,并找出哪个是AJAX调用,它会引入数据。
看起来像是this one。但看起来它可能包含会话数据,所以我不知道它将继续工作多久。
答案 2 :(得分:0)
还有WWW::Scripter“用于编写具有脚本的网站脚本”。从未使用过它。
答案 3 :(得分:-6)