Question

我编写脚本PHP，它应该抓取一个域的所有子页面，将文本（所有关键字）从子页面上传到数据库（MySQL）。接下来，我想快速找到具有特定关键字的网址。在我的案例中如何保存和处理大文本数据？它应该像谷歌的网站搜寻器一样工作

我找到了2个解决方案：

您能推荐其他解决方案吗？

Answer 1

您可以使用正则表达式处理完整的html内存，然后仅将相关数据保存到数据库，或将全文保存到数据库以进行批处理。这是一篇关于regular expression crawling的文章。

例如，此正则表达式模式将匹配html中的超链接：

preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );