我编写脚本PHP,它应该抓取一个域的所有子页面,将文本(所有关键字)从子页面上传到数据库(MySQL)。接下来,我想快速找到具有特定关键字的网址。在我的案例中如何保存和处理大文本数据?它应该像谷歌的网站搜寻器一样工作
我找到了2个解决方案:
您能推荐其他解决方案吗?
答案 0 :(得分:0)
您可以使用正则表达式处理完整的html内存,然后仅将相关数据保存到数据库,或将全文保存到数据库以进行批处理。这是一篇关于regular expression crawling的文章。
例如,此正则表达式模式将匹配html中的超链接:
preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );