我正在使用Tika从几种类型的文档中提取文本。 java -jar tika-app-1.10.jar -T [输入文件] 我意识到Tika-1.10可以检测.wps文件(java -jar tika-app-1.10.jar -m [ .wps]正在返回元数据)但它无法从.wps文件中提取文本(java - jar tika-app-1.10.jar -T [ .wps]文件没有返回任何内容)。有没有其他方法可以从Java中的wps文件中提取文本? 任何帮助是极大的赞赏 谢谢
答案 0 :(得分:1)
截至Tika 1.13,我们没有wps文件的解析器。我们支持旧的Works 7.0电子表格,但不支持wps。如果您希望我们添加支持,请在我们的JIRA上打开一个问题。 (我坦率地不知道需要做多少工作)。
答案 1 :(得分:0)
尝试添加此参数:(对于Tika 1.2)
function [ y2,Phi2 ] = Phi2_operator( x,R,T )
J = R * T;
[S1,S2] = size(x);
y2 = zeros(size(x));
k1 = randperm(S1,R);
k2 = randperm(S2,T);
y2(k1,k2) = x(k1,k2);
X=find(y2);
Phi2 = sparse(1:J,X,ones(1,J));
end
对于Tika 1.1:
--text-main Output plain text content (main content only)
见这里:https://tika.apache.org/1.2/gettingstarted.html
考虑使用1.8或1.9版本的apache tika。