我按照this link
纠正我,如果我错了,在我看来,它可以索引我自己的系统上的文档文件(pdf,doc,audio)(给定这些文件的目录路径)存储),但是当我使用nutch抓取一些网站时,无法索引位于互联网上的那些文件。
我可以使用Tika索引网站上的文档文件(pdf,audio,doc,zip)吗?
答案 0 :(得分:3)
基本上有两种方法可以在Solr中索引二进制文档,两者都使用Tika:
在这两种情况下,您都需要在客户端使用二进制文档。在抓取时,nutch应该能够下载二进制文件,使用Tika从中生成文本内容,然后在Solr中索引数据,就像通常使用文本文档一样。 Nutch已经使用Tika,我想这只是通过从以下行中删除要索引的文件扩展名来配置要索引更改regex-urlfilter.txt nutch配置文件的文档类型。
# skip some suffixes
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
这样你就可以使用我提到的第一个选项了。然后你需要在你的nutch-site.xml中启用nutch上的Tika插件,看看来自nutch邮件列表的this discussion。
这在理论上应该有效,如果没有,请告诉我。