我有一个solr核心,我在DataImportHandler中使用TikaEntityProcessor。
我安装了tesseract,tika可以从图像中提取文本。但默认语言是英语。
这是我的data-import-handler.xml文件的tika部分
<entity processor="TikaEntityProcessor" dataSource="fileDataSource"
name="file_content"
url="${item.FilePath}"
format="text" transformer="TemplateTransformer"
onError='skip'>
<field column="text" name="content" />
<field column="title" meta="true" name="title" />
<field column="subject" meta="true" name="subject" />
<field column="description" meta="true" name="description" />
<field column="Author" meta="true" name="author" />
<field column="category" meta="true" name="category" />
<field column="content_type" meta="true" name="content_type" />
<field column="last_modified" meta="true" name="last_modified" />
</entity>
我在tesseract的tessdata文件夹中也有tur.traineddata和rus.traineddata,我想使用土耳其语作为默认的ocr语言。 我怎样才能做到这一点 ?