我正在尝试将LucidWorks Web数据源配置为仅索引某些文件类型。但是,当我将包含路径设置为.*\.html
以仅抓取.html文件时(作为简化示例),它只会最终索引顶级文件夹。 抓取深度设置为-1
,当我将包含路径留空时,它会按预期抓取整个子树。
我查看了creating a web data source和Using Regular Expressions的文档,但找不到.*\.html
不起作用的原因,因为.*
应该匹配任何角色。
答案 0 :(得分:0)
当我正在校对这个问题时,我有一个想法是正确的解决方案。将其发布给后人。
正在抓取的内容是文件共享,因此它依赖于Web服务器的目录列表,该目录列表已被过滤掉,因为它没有.html扩展名。因此,只需将.*/
添加到包含路径即可解决问题。