我有一组约500个网站,我想在Python的帮助下搜索一些关键短语(我认为从5到10个短语)。
我有两个解决方案:
使用Beautifulsoup,并创建一个脚本,为每个URL执行两项操作:查找文本中的每个短语,查找内部URL,为每个短语重复此过程,依此类推。考虑到我正在处理大型网站这一事实,我不确定这个解决方案是否可行。
改为使用Google API。我拒绝接受这个想法,因为我从未使用过那个API,而且我从未在其他与此相关的帖子中看到过这个解决方案。
哪种解决方案更好?
(我刚刚发布了a similar question关于相同数量的网站,但专注于图片抓取)。