Apache Tika服务器请求获取主要内容'而不是纯文本'

时间:2015-07-10 17:51:01

标签: ruby http put apache-tika

我正在尝试使用Apache Tika:app&服务器,gui和命令行。

使用Tika app,我可以做类似

的事情
    java -jar tika-app-1.7.jar --gui

并选择'查看' - > '主要内容'或

    java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html

我需要主要内容,但似乎在服务器模式下我只能获得纯文本。我正在检查this guide

    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika

也许,在http://:9998 /之后出现的东西会起作用吗? 有没有办法在服务器模式下获取主要内容?

最后,请求必须在Ruby,tika-server-1.3.jar中进行。到目前为止看起来像这样:

    require "net/http"

    tika_prefix = URI('http://<server_ip>:9998/tika')
    url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
    request = Net::HTTP::Put.new(tika_prefix.to_s)
    request.body = url
    request.content_type = 'text/html'
    http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
    http.request(request).body

1 个答案:

答案 0 :(得分:2)

截至今天,这是可能的。 Tika 1.15现在实现了TIKA-2343功能请求,在服务器模式下添加了--text-main等效功能。

vaites/php-apache-tika是我使用的Tika的PHP绑定,我已经打开了an issue,所以我们应该能够很快看到它。

编辑:PHP绑定库现在支持此功能。