索引时如何排除大文件?

时间:2016-07-13 17:27:20

标签: indexing solr web-crawler

有没有办法在索引时配置Solr忽略大文件?

我正在尝试索引网络驱动器,但无法弄清楚如何忽略大文件(> 20MB)。

由于

1 个答案:

答案 0 :(得分:1)

尝试这种性质:

$ find / mnt -type f -size -20M -exec / opt / solr / bin / post -c wizbang {} \;

如果你使用Tika,它有一个文件大小限制,虽然它不是“忽略”文件:

Apache Tika and character limit when parsing documents

How to read large files using TIka?