标签: solr web-crawler nutch
我正在使用nutch和solr for crawling.nutch抓取并索引来自泰米尔语网站的内容。但在solr搜索期间,我给出泰米尔语单词,给定单词 转换为unicode .so,无法在索引文档中找到特定内容。
答案 0 :(得分:2)
这应该是一个编码问题。尝试此解决方案 UTF-8 characters not showing properly unicode块中的泰米尔字符空间在2944到3071之间