regex - 配置LucidWorks包含仅捕获某些文件类型的路径 - Thinbug

配置LucidWorks包含仅捕获某些文件类型的路径

时间：2012-10-02 13:26:16

标签： regex web-crawler lucidworks

我正在尝试将LucidWorks Web数据源配置为仅索引某些文件类型。但是，当我将包含路径设置为.*\.html以仅抓取.html文件时（作为简化示例），它只会最终索引顶级文件夹。 抓取深度设置为-1，当我将包含路径留空时，它会按预期抓取整个子树。

我查看了creating a web data source和Using Regular Expressions的文档，但找不到.*\.html不起作用的原因，因为.*应该匹配任何角色。

1 个答案:

答案 0 :(得分：0)

当我正在校对这个问题时，我有一个想法是正确的解决方案。将其发布给后人。

正在抓取的内容是文件共享，因此它依赖于Web服务器的目录列表，该目录列表已被过滤掉，因为它没有.html扩展名。因此，只需将.*/添加到包含路径即可解决问题。