我想索引文本文件。经过大量搜索,我了解了Apache tika。现在在我研究Apache tika的一些站点中,我知道Apache tika将文本转换为XML格式,然后将其发送到solr。但转换它时只创建一个标签示例 ....... 现在我希望索引的文本文件是一个tomcat本地主机访问文件。这个文件是GB的。我无法存储它和单个索引。我希望每一行都有line-id ....... 这样我就可以轻松找回匹配的行。
这可以在Apache Tika中完成吗?
答案 0 :(得分:3)
Solr with Tika支持从多种文件格式中提取数据 可以在link
找到支持的文件格式的完整列表您可以提供任何上述文件格式作为输入,Tika将能够自动检测文件格式并从文件中提取文本并将其提供给Solr进行索引。
编辑: -
在将文本文件交给Solr之前,Tika不会将文本文件转换为XML。
Tika只会提取元数据和文件内容,并根据定义的映射填充Solr中的字段。
您必须将整个文件作为输入提供给solr,它将被索引为单个文档或者您必须逐行读取文件并将其作为单独的文档提供给Solr。
Solr和Tika不会为你处理这件事。
答案 1 :(得分:1)
您可能希望查看DataImportHandler以将文件解析为行或条目。这比在已经具有内部结构的东西上运行Tika更好。