我想知道是否有一些代码或库可以获取域名下的所有网址。我需要找到域名的所有网址。
例如,如果我的域名是https://stackoverflow.com/,我想找到所有问题网址:
我不知道域下有多少问题,但我必须创建一个搜索所有网址的引擎,然后找到网址后我需要将内容插入我的数据库。
我将为我的5个网页创建一个小型搜索引擎。
有人可以帮忙吗?
谢谢,
答案 0 :(得分:0)
Lucene search可让您轻松索引网页,以便有效准确地搜索网页。
有关Lucene serach的PHP实现,请参阅Zend_Search_Lucene。
您仍需要抓取您的网站并构建索引,这是另一个问题。您可以使用Teleport Pro之类的软件来抓取您的网站,并为您提供一个网址列表,然后您可以将这些网址提供给PHP脚本,该脚本可获取所有网页的内容并将其提供给Zend_Search_Lucene以构建索引。您还可以使用PHP编写爬网程序或使用现有解决方案。搜索php crawler
会产生很多内容,包括这个有用的php crawler。