为什么tikaEntityProcesor不索引以下数据配置文件中的Text字段?

时间:2017-09-26 07:53:54

标签: solr solrj

<dataConfig>
<dataSource name="test1" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/ACL"  user="root"
                  password="" />

 <dataSource name="test2" type="BinFileDataSource" />
        <document>
            <entity name="files" dataSource="null" rootEntity="false"
            processor="FileListEntityProcessor" transformer="RegexTransformer"
            baseDir="/home/shah/ResearchTestData/TestScore3" fileName="\.(txt)|(pdf)|(docx)"
            onError="skip"
            recursive="true">
                <field column="fileAbsolutePath" name="ID" />
                <field column="fileSize" name="size" />
                <field column="fileLastModified" name="lastModified" />
                <field column="file" name="fileName" regex="(.txt)" replaceWith=""/>
<entity dataSource="test2"
                    name="documentImport"
                    processor="TikaEntityProcessor"
                    url="${files.fileAbsolutePath}"
                    format="text">
                <field column="text" name="Text" />
                <field column="file" name="fileName" regex="(.txt)" replaceWith=""/>


                </entity>
<entity name="item" dataSource="test1" query="select PaperID,PID, Author  from ACL.Test where PaperID='${files.file}'">
            <field column="PaperID" name="id" />
            <field column="Author" name="Author" />
<field column="PID" name="ID" />

        </entity>


</entity>
    </document>
</dataConfig>

我想索引来自两个数据源的数据,一个是文本文件夹,另一个是mysql。我想知道我在上面代码中的错误。其余的字段都在工作,但tikaprocessor实体内的Text字段不会对文本字段进行索引,单独它的工作,但与mysql一起,它不会索引文本字段。

1 个答案:

答案 0 :(得分:0)

我通过在主实体中声明TikaEntityProcessor来解决了这个问题。我正在分享正确的信息代码。

BuildProperties