我有一个关于环境变量的非常基本的问题。我尝试使用的Tika python library提到了以下内容:
TIKA_SERVER_ENDPOINT:设置为正在运行的Tika服务器jar的主机(本地或远程)
我从here下载了服务器jar
并使用java -jar jarname.jar
运行它我尝试将环境变量设置为localhost,但我不确定怎么做到这一点。我尝试了以下方法:
TIKA_SERVER_ENDPOINT=http://localhost:9998
但这只会导致404
,Network Error (dns_unresolved_hostname), Your host cannot be resolved by the DNS
,
我还运行ps aux | grep java
来检查jar
文件是否正在运行,并看到它在端口9998
上运行.......:
java -cp /tmp/tika-server.jar org.apache.tika.server.TikaServerCLi -- port 9998 --host localhost
我的环境变量在这里做错了什么?我对于弄乱jar
文件和环境变量只是一个新手,所以任何帮助都将非常感谢,谢谢!
答案 0 :(得分:1)
我遇到了类似的问题,只需从Apache downloads页下载最新的服务器jar,然后使用以下命令从bash启动本地计算机上的服务器即可解决此问题:
java -jar tika-server -x.x.jar --port xxxx
哪个启动了tika服务器。然后,我可以通过以下方式在python中访问tika:
from tika import parser
parser.from_file('path_to_file')
答案 1 :(得分:0)
也许java安装不正确。您可以检查java安装here
安装(带点子)
pip install tika
安装(没有点子)
python setup.py build
python setup.py install
环境变量
当tika / tika.py最初被加载并在此之后使用时,这些被读取一次。
TIKA_VERSION
- 设置为版本字符串,例如1.12或默认为当前的Tika版本。
TIKA_SERVER_JAR
- 设置为远程Tika服务器jar的完整URL以进行下载和缓存。
TIKA_SERVER_ENDPOINT
- 设置为正在运行的Tika服务器jar的主机(本地或远程)。
TIKA_CLIENT_ONLY
- 如果设置为True,则忽略TIKA_SERVER_JAR
,并依赖TIKA_SERVER_ENDPOINT
的值并将Tika视为REST客户端。
TIKA_TRANSLATOR
- 设置为Tika翻译器实现的完全限定类名(默认为Lingo24)。
TIKA_SERVER_CLASSPATH
- 设置为字符串(由':'为每个附加路径分隔)以预先添加到Tika服务器jar路径。
TIKA_LOG_PATH
- 设置为具有写权限的目录,tika.log和tika-server.log文件将放在此目录中。
您可以获得更多信息here。