我正在尝试使用Apache Tika:app&服务器,gui和命令行。
使用Tika app,我可以做类似
的事情 java -jar tika-app-1.7.jar --gui
并选择'查看' - > '主要内容'或
java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html
我需要主要内容,但似乎在服务器模式下我只能获得纯文本。我正在检查this guide。
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika
也许,在http://:9998 /之后出现的东西会起作用吗? 有没有办法在服务器模式下获取主要内容?
最后,请求必须在Ruby,tika-server-1.3.jar中进行。到目前为止看起来像这样:
require "net/http"
tika_prefix = URI('http://<server_ip>:9998/tika')
url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
request = Net::HTTP::Put.new(tika_prefix.to_s)
request.body = url
request.content_type = 'text/html'
http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
http.request(request).body