如何在PHP中构建搜索引擎以搜索多个站点的实时内容?

时间:2013-02-21 10:20:12

标签: php curl web-scraping search-engine

我是一个相对新手的程序员,对PHP有很好的理解,但更多的是阅读,理解和复制我需要的东西,而不是从头开发。

我有一个我想要搜索的超过1000个网址的列表。我想按需搜索这些页面的内容,并仅返回包含我提供的文本查询的结果。我已经将谷歌自定义搜索引擎看作一个简单的选项,这很好用,但限制了我可以添加的页面数量。

我看过cURL,但似乎没有提供我正在寻找的东西,除非我遗漏了什么?

或者Google CSE等其他选项是否免费且易于使用?

1 个答案:

答案 0 :(得分:0)

您可以为所需页面编写爬虫,并使用Sphinx引擎(http://sphinxsearch.com/)进行页面搜索。对于我的观点,应该编写一个HTTP扩展的爬虫比纯cURL lib更好。