蒂卡安装

时间:2012-08-01 09:57:32

标签: solr nutch apache-tika

我按照this link

中提供的说明将Tika与Solr合并

纠正我,如果我错了,在我看来,它可以索引我自己的系统上的文档文件(pdf,doc,audio)(给定这些文件的目录路径)存储),但是当我使用nutch抓取一些网站时,无法索引位于互联网上的那些文件。

我可以使用Tika索引网站上的文档文件(pdf,audio,doc,zip)吗?

1 个答案:

答案 0 :(得分:3)

基本上有两种方法可以在Solr中索引二进制文档,两者都使用Tika:

  1. 在客户端使用Tika从二进制文件中提取信息,然后在Solr中手动索引提取的文本
  2. 使用ExtractingRequestHandler可以将二进制文件上传到Solr服务器,以便Solr可以为您完成工作。这样就不需要在客户端使用tika。
  3. 在这两种情况下,您都需要在客户端使用二进制文档。在抓取时,nutch应该能够下载二进制文件,使用Tika从中生成文本内容,然后在Solr中索引数据,就像通常使用文本文档一样。 Nutch已经使用Tika,我想这只是通过从以下行中删除要索引的文件扩展名来配置要索引更改regex-urlfilter.txt nutch配置文件的文档类型。

    # skip some suffixes
    -\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
    

    这样你就可以使用我提到的第一个选项了。然后你需要在你的nutch-site.xml中启用nutch上的Tika插件,看看来自nutch邮件列表的this discussion

    这在理论上应该有效,如果没有,请告诉我。