<dataConfig>
<dataSource name="test1" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/ACL" user="root"
password="" />
<dataSource name="test2" type="BinFileDataSource" />
<document>
<entity name="files" dataSource="null" rootEntity="false"
processor="FileListEntityProcessor" transformer="RegexTransformer"
baseDir="/home/shah/ResearchTestData/TestScore3" fileName="\.(txt)|(pdf)|(docx)"
onError="skip"
recursive="true">
<field column="fileAbsolutePath" name="ID" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<field column="file" name="fileName" regex="(.txt)" replaceWith=""/>
<entity dataSource="test2"
name="documentImport"
processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="text" name="Text" />
<field column="file" name="fileName" regex="(.txt)" replaceWith=""/>
</entity>
<entity name="item" dataSource="test1" query="select PaperID,PID, Author from ACL.Test where PaperID='${files.file}'">
<field column="PaperID" name="id" />
<field column="Author" name="Author" />
<field column="PID" name="ID" />
</entity>
</entity>
</document>
</dataConfig>
我想索引来自两个数据源的数据,一个是文本文件夹,另一个是mysql。我想知道我在上面代码中的错误。其余的字段都在工作,但tikaprocessor实体内的Text字段不会对文本字段进行索引,单独它的工作,但与mysql一起,它不会索引文本字段。
答案 0 :(得分:0)
我通过在主实体中声明TikaEntityProcessor来解决了这个问题。我正在分享正确的信息代码。
BuildProperties