蟒蛇。在整个网站内寻找关键字。谷歌API或beautifulsoup&类似?

时间:2013-07-04 17:40:51

标签: python google-api web-scraping beautifulsoup keyword-search

我有一组约500个网站,我想在Python的帮助下搜索一些关键短语(我认为从5到10个短语)。

我有两个解决方案:

  1. 使用Beautifulsoup,并创建一个脚本,为每个URL执行两项操作:查找文本中的每个短语,查找内部URL,为每个短语重复此过程,依此类推。考虑到我正在处理大型网站这一事实,我不确定这个解决方案是否可行。

  2. 改为使用Google API。我拒绝接受这个想法,因为我从未使用过那个API,而且我从未在其他与此相关的帖子中看到过这个解决方案。

  3. 哪种解决方案更好?

    (我刚刚发布了a similar question关于相同数量的网站,但专注于图片抓取)。

0 个答案:

没有答案