是否可以使用PHP中的搜索引擎来基于关键字抓取网络?
类似于某些put关键字时,脚本将搜索google并呈现结果,然后呈现页面并剪贴/提取包含匹配关键字的行?
有什么想法或图书馆可以参考吗?
答案 0 :(得分:0)
您可以使用php函数调用
file_get_contents('网址进入此处');
示例 file_get_contents('http://www.google.com');
该函数将获取从url返回的html,然后您可以使用xpath提取html的元素以获取所需的数据。
您可以在下面查看示例和更多说明网址。
https://gist.github.com/anchetaWern/6150297
我个人所做的事情与您的问题类似,但是它在红宝石中,您可以在此处进行探索。
https://github.com/dvarun/gextract
我使用的xpath在这里: https://github.com/dvarun/gextract/blob/master/app/jobs/fetch_keyword_job.rb
答案 1 :(得分:0)
您可以使用Google api https://developers.google.com/custom-search/json-api/v1/overview和相关的php客户端https://github.com/google/google-api-php-client来实现。
稍后,您需要编写一个网络抓取工具,以下载网站(curl)并解析html解析器(即https://github.com/paquettg/php-html-parser)。
但是,我不建议为后一项任务使用php。有许多适用于python的更先进的抓取工具(例如BeautifulSoup或Scrapy)使您的生活比使用php容易得多。