标签: indexing solr web-crawler
有没有办法在索引时配置Solr忽略大文件?
我正在尝试索引网络驱动器,但无法弄清楚如何忽略大文件(> 20MB)。
由于
答案 0 :(得分:1)
尝试这种性质:
$ find / mnt -type f -size -20M -exec / opt / solr / bin / post -c wizbang {} \;
如果你使用Tika,它有一个文件大小限制,虽然它不是“忽略”文件:
Apache Tika and character limit when parsing documents
How to read large files using TIka?