SOLR索引outlook pst文件

时间:2016-12-08 10:19:54

标签: solr outlook pst

我正在尝试将Outlook PST文件索引到SOLR。我听说过OutlookPSTParser,但我不确定如何在以下上下文中使用它。下面的代码非常适合文档。

<dataConfig>  
    <dataSource type="BinFileDataSource"/>
    <document>
        <entity name="files" 
                dataSource="null" 
                rootEntity="false"
                processor="FileListEntityProcessor"
                baseDir="c:/temp/docs" 
                fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)|(pst)"
                onError="skip"
                recursive="true">

            <field column="fileAbsolutePath" name="id" />
            <field column="fileSize" name="size" />
            <field column="fileLastModified" name="lastModified" />

            <entity name="documentImport"
                    processor="TikaEntityProcessor"
                    url="${files.fileAbsolutePath}"
                    format="text">

                <field column="file" name="fileName"/>
                <field column="Author" name="author" meta="true"/>
                <field column="title" name="title" meta="true"/>
                <field column="text" name="text"/>
            </entity>
        </entity>
    </document> 
</dataConfig>

0 个答案:

没有答案