基于搜索引擎的数据收集

时间:2018-06-29 07:12:05

标签: php search web-scraping scraper

是否可以使用PHP中的搜索引擎来基于关键字抓取网络?

类似于某些put关键字时,脚本将搜索google并呈现结果,然后呈现页面并剪贴/提取包含匹配关键字的行?

有什么想法或图书馆可以参考吗?

2 个答案:

答案 0 :(得分:0)

您可以使用php函数调用

file_get_contents('网址进入此处');

示例 file_get_contents('http://www.google.com');

该函数将获取从url返回的html,然后您可以使用xpath提取html的元素以获取所需的数据。

您可以在下面查看示例和更多说明网址。

https://gist.github.com/anchetaWern/6150297

我个人所做的事情与您的问题类似,但是它在红宝石中,您可以在此处进行探索。

https://github.com/dvarun/gextract

我使用的xpath在这里: https://github.com/dvarun/gextract/blob/master/app/jobs/fetch_keyword_job.rb

答案 1 :(得分:0)

您可以使用Google api https://developers.google.com/custom-search/json-api/v1/overview和相关的php客户端https://github.com/google/google-api-php-client来实现。

稍后,您需要编写一个网络抓取工具,以下载网站(curl)并解析html解析器(即https://github.com/paquettg/php-html-parser)。

但是,我不建议为后一项任务使用php。有许多适用于python的更先进的抓取工具(例如BeautifulSoup或Scrapy)使您的生活比使用php容易得多。