如何存储来自网页的已爬网数据

时间:2011-05-07 01:56:31

标签: php web-crawler

我想在我的网络应用程序上构建一个教育搜索引擎,所以我决定从我的网页上使用PHP抓取大约10个网站,并将数据存储到我的数据库中供以后搜索。如何检索此数据并将其存储在我的数据库中?

2 个答案:

答案 0 :(得分:0)

您可以使用file_get_contents()功能获取它们。所以你有

$homepage = file_get_contents('http://www.example.com/homepage');

此函数将页面返回到字符串中。

希望这会有所帮助。干杯

答案 1 :(得分:0)

构建一个抓取工具我会列出要获取的URL列表并最终获取它们

:一种。列表

  1. 定义要抓取的网址列表
  2. 将此网址添加到要抓取的网址列表(作业列表)
  3. 定义最大深度
  4. 解析第一页,获取所有找到的href,获取链接。
  5. 对于每个链接:如果它来自同一个域或相关,请将其添加到作业列表。
  6. 从作业列表中删除当前网址
  7. 如果非空,请从下一个URL作业列表重新启动。
  8. 为此你可以使用这个类,这使得解析html非常简单: http://simplehtmldom.sourceforge.net/

    <强> B中。获取内容

    在阵列上循环并获取内容。 file_get_contents将为您执行此操作: http://www.php.net/manual/fr/function.file-get-contents.php

    这对于一个开始基本上是有效的,在步骤A中,你应该保留一个已经解析过的URL列表,只检查一个。查询字符串也可以是您所关注的内容,以避免使用不同的查询字符串扫描多个页面。