我想使用不同报纸网站的搜索引擎来获取通过关键字选择的所有报纸文章,然后删除太相似的文章。 我试图使用http://www.20minutes.fr/search?q=test搜索引擎,但是其他许多搜索引擎都会通过javascript生成html结果:
<script>
(function() {
var cx = '011646568010423734157:bmweo2mlsou';
var gcse = document.createElement('script');
gcse.type = 'text/javascript';
gcse.async = true;
gcse.src = (document.location.protocol == 'https:' ? 'https:' : 'http:') +
'//www.google.com/cse/cse.js?cx=' + cx;
var s = document.getElementsByTagName('script')[0];
s.parentNode.insertBefore(gcse, s);
})();
</script>
我无法使用curl访问该网址。 我怎样才能得到这些网址? 谢谢你的阅读。