使用HTML5 <input />字段刮取动态生成的网页

时间:2013-12-12 01:00:39

标签: javascript python html web web-scraping

我想从this page收集数据。我想在搜索框中输入关键字,该搜索框定义为带有<input>的HTML5 eventlistener,可根据查询动态更改网页。

例如,我想要一个脚本在搜索字段中输入术语“hello world”,然后抓取动态生成的内容,比如出现的集合的名称。由于同源策略我不能使用JavaScript,我花了最近3个小时研究Python,但在那里找不到任何东西。

我无法分辨这是否是如此明显,没有人写/询问它,或者这是一种不让脚本从你的网站上刮掉的聪明方法。

1 个答案:

答案 0 :(得分:2)

Chrome的调试器 Firebug in Firefox 中打开页面,然后查看网络标签,找出JavaScript正在执行的AJAX请求当您在输入字段中输入文本时。

然后使用以下任何一个编写webscraper: