我如何通过PHP查找所有URL?

时间:2012-07-07 21:27:06

标签: php search search-engine web-scraping

我想知道是否有一些代码或库可以获取域名下的所有网址。我需要找到域名的所有网址。

例如,如果我的域名是https://stackoverflow.com/,我想找到所有问题网址:

  1. [Java lib or app to convert CSV to XML file?
  2. [https://stackoverflow.com/questions/456/what-can-i]
  3. [https://stackoverflow.com/questions/789/where-can-i]
  4. 我不知道域下有多少问题,但我必须创建一个搜索所有网址的引擎,然后找到网址后我需要将内容插入我的数据库。

    我将为我的5个网页创建一个小型搜索引擎。

    有人可以帮忙吗?

    谢谢,

1 个答案:

答案 0 :(得分:0)

Lucene search可让您轻松索引网页,以便有效准确地搜索网页。

有关Lucene serach的PHP实现,请参阅Zend_Search_Lucene

您仍需要抓取您的网站并构建索引,这是另一个问题。您可以使用Teleport Pro之类的软件来抓取您的网站,并为您提供一个网址列表,然后您可以将这些网址提供给PHP脚本,该脚本可获取所有网页的内容并将其提供给Zend_Search_Lucene以构建索引。您还可以使用PHP编写爬网程序或使用现有解决方案。搜索php crawler会产生很多内容,包括这个有用的php crawler