我正在制作一个小小的个人项目。 理想情况下,我希望能够以编程方式进行谷歌搜索,并计算结果。 (我的目标是比较不同短语(100000+)之间的结果数。)
是否有免费方式进行网络搜索,并使用Google Bing或其他方式比较不同文本的popularity
(来源并不重要)。
我试过谷歌,但似乎可以自由地每天只能做10次请求。 Bing更宽松(每月5000个免费请求)。
是否有其他工具或方法可以自由计算特定句子的结果数量? 提前致谢。
答案 0 :(得分:2)
如果您正在寻求创建一个简单的搜索引擎,那么您需要做几件事。
首先,您应该阅读并了解信息检索领域从G. Salton's paper开始的位置,或者至少阅读wiki page on the vector space model。它将要求你至少学习一些本科线性代数。我建议Gilbert Strang's MIT video lectures for this。
然后,您可以转到布林/ Page Pagerank论文,该论文将超链接矩阵背后的原始概念展开,并快速计算特征向量以进行排名或读取the wiki page。
您可能也有兴趣查看Apache Lucene
的代码要了解当代搜索算法技术,您需要使用微积分和回归分析来学习机器学习和深度学习,因为当前的Google搜索已经从Pagerank转移并利用这些。部分原因在于链接耕作如何使人们能够人为地设计搜索结果以及现代浏览器和Web服务器允许收集的大量元数据。
编辑:
对于仅限漫画者的部分,我建议使用WebSPHINX。我在大学的高级研究中与Lucene一起使用了这个。