TYPO3:索引搜索和爬虫关系

时间:2017-04-25 22:41:54

标签: content-management-system web-crawler typo3

我用TYPO3 indexed_search完成了几个网站。但是我觉得我仍然不理解indexed_search和crawler之间关系的本质。例如,据一些作者索引tt_news我只需要一个通用的爬虫配置和一个tt_news的indexed_search配置;但是对于教程的其他作者而言,我应该为tt_news创建一个爬虫配置。

我不清楚crawler和indexed_search之间的关系是什么。它们如何匹配?根爬虫程序配置在找到indexed_search配置时运行它是不是足够了?或者两者都需要生成URL?我设法只使用一个爬虫根配置创建索引,但我通过调用cli_dispatch.phpsh的自己的shell脚本运行索引。

indexed_search和crawler在功能(生成URL)方面是多余的吗?

欢迎任何线索。

贝斯茨,

1 个答案:

答案 0 :(得分:0)

Indexed_search可以通过索引访问者访问的网页而无需抓取工具。明显的缺点是未访问的页面将不会被编入索引,因此不会显示在搜索结果中。如果您配置了多个前端用户组,那么访问页面的可能性会更低。

抓取工具可以通过访问每个页面来解决此问题。此外,它可以访问页面,就好像它是FE用户组(的组合)的成员一样。这样,它可以帮助为所有类型的用户构建整个网站的索引。

Xavier Perseguers在tutorial中解释了大部分细节。它是为旧版本编写的,但我猜大多数版本仍然有效。 (自从我上次使用indexed_search以来已经有一段时间了,但当时这个教程帮了很多忙。)