solr索引java源文件为文本

时间:2016-04-23 14:38:41

标签: solr lucene

我想将大量源文件(例如java)上传到solr,以允许对它们进行索引搜索。 它们应作为纯文本文件发布。

无需特殊解析。 当尝试上传一个java文件时,我收到“Unknown Source”相关错误。

java.lang.NoClassDefFoundError: com/uwyn/jhighlight/renderer/XhtmlRendererFactory

当我重命名最后添加.txt的文件时,它会成功上传。

我每天要上传数千个文件,需要保留原始名称。 如何告诉solr将目录中的所有文件视为.txt? 高级谢谢!

2 个答案:

答案 0 :(得分:2)

对于googlers,关于Solr错误:

java.lang.NoClassDefFoundError: com/uwyn/jhighlight/renderer/XhtmlRendererFactory

你可以通过在Solr中添加jar“jhighlight-1.0.jar”来解决这个问题。为此:

  • 下载旧的solr 4.9。在最近的版本中,jhighlight不存在。

  • 提取solr-4.9.0 \ contrib \ extraction \ lib \ jhighlight-1.0.jar

  • 将jhighlight-1.0.jar复制到solr / server / lib / ext /

  • 下的solr安装
  • 重启服务器。

答案 1 :(得分:0)

你可以通过将solr与tika集成来实现同样的目标。

Apache将帮助您提取源文件的文本。

它有一个支持c,c ++和Java的源代码解析器。

以下链接将为您提供更多详细信息。 https://googleweblight.com/?lite_url=https://tika.apache.org/1.12/formats.html&lc=en-IN&s=1&m=972&host=www.google.co.in&ts=1461564865&sig=APY536wBFFAcFH7yUyvhh2TFslPz6LeClA