关于使用互联网收集信息

时间:2013-02-28 18:54:56

标签: web-crawler google-search-api

现在,我有一个有趣的情况......我的目标是拥有一个软件,它接受一个人的全名,出生日期和其他一些凭证(它们是有争议的)并提取尽可能多的关于他的信息尽可能从互联网上...

现在我做了一些研究,发现通过使用谷歌的搜索API和Scrapy这样的网络爬虫,我可以在某种程度上实现这个目标......但是简单地用双引号搜索google上的人名并不总是屈服正确的结果......

这里有两个问题......如何提高准确性,其次,我是在重新发明轮子(因为有些网站有能力找到人......)?如果是,那么是否已经有开源代码(或其他任何可用的代码)可以执行此操作或与此类似的内容...?

1 个答案:

答案 0 :(得分:1)

这个答案与如何在大量URL上使用刮刀有关。例如,您可以从SmokeDoc开始。