使用Scrapy与Javascript和iFrames和替代品

时间:2011-05-16 20:48:13

标签: python web-scraping scrapy

我正在尝试使用Scrapy来刮取美国政府法规网站(www.regulations.gov)。它有很多关于它的信息,但它是一个糟糕的网站,充满了javascript和iframe。我尝试运行一些简单的Scrapy蜘蛛,但我无法解析任何问题,因为所有内容都通过Javascript和iframe加载。

例如,在main search page上,这段代码实际上加载了结果表:

<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script>

<title>Regulations.gov</title>
<link rel="stylesheet" type="text/css" href="css/print.css" media="print" />
</head>

<body class="bodyLoading">
<!-- this is required for GWT history support -->
<iframe src="javascript:''" id="__gwt_historyFrame" tabIndex='-1' style="position:absolute;width:0;height:0;border:0"></iframe>
<!-- For printing window contents  -->
<iframe id="__printingFrame" style="width:0;height:0;border:0;" ></iframe>

而且,个别结果页面也有同样的问题。例如,this page具有与上述相同的来源。

Scrapy可以解决这个问题吗?有没有其他可能的选择?

1 个答案:

答案 0 :(得分:3)

替代品: 试试

1)selenium

2)imacros

3)PhantomJS CasperJS