我需要将网站迁移到新的CMS。除http://mysite.com外,我们无法访问原始网站。 我们目前有各种各样的脚本i)。索引网站和ii)。创建一些层次结构和iii)。刮掉独特的内容(即忽略页眉/页脚/模板等)。 除了索引网站之外,脚本实际上工作得非常好。是否有一个很好的实用程序可以索引站点的所有唯一URL。
目前我们使用
的混合物$oHTML = new simple_html_dom();
$oHTML->setBody(file_get_contents('http://mysite.com'));
foreach($oHTML->find('a') as $oLink) {}
和一个用于命中所有唯一链接的递归函数...
问题是...... PHP很慢并且快速达到内存限制......这是正确的做法吗?我可以使用sphinx或开源搜索引擎或其他东西为我做这件事......
答案 0 :(得分:0)
或者,在步骤2之后 只需为sphinx re-index
运行索引器