要提取远程文件,请使用tika.open(url)或wget首先下载到本地?

时间:2012-07-23 10:17:30

标签: solr wget apache-tika

Tika可以使用url参数来提取远程文件。我们也可以下载远程文件,然后让tika像本地文件一样提取它。从性能和正确性来看,哪种方式是更好的选择?感谢。

1 个答案:

答案 0 :(得分:0)

从URL中提取它会更快,从而避免在本地系统上进行过多的读/写操作。这就是我用tika解析文件时的所作所为。快速而直接。