Question

我正在使用Tika从几种类型的文档中提取文本。 java -jar tika-app-1.10.jar -T [输入文件] 我意识到Tika-1.10可以检测.wps文件（java -jar tika-app-1.10.jar -m [ .wps]正在返回元数据）但它无法从.wps文件中提取文本（java - jar tika-app-1.10.jar -T [ .wps]文件没有返回任何内容）。有没有其他方法可以从Java中的wps文件中提取文本？任何帮助是极大的赞赏谢谢

Answer 1

截至Tika 1.13，我们没有wps文件的解析器。我们支持旧的Works 7.0电子表格，但不支持wps。如果您希望我们添加支持，请在我们的JIRA上打开一个问题。（我坦率地不知道需要做多少工作）。

Answer 2

尝试添加此参数:(对于Tika 1.2）

function [ y2,Phi2 ] = Phi2_operator( x,R,T )
    J = R * T;
    [S1,S2] = size(x);

    y2 = zeros(size(x));

    k1 = randperm(S1,R);
    k2 = randperm(S2,T);

    y2(k1,k2) = x(k1,k2);  

    X=find(y2);
    Phi2 = sparse(1:J,X,ones(1,J));
end

对于Tika 1.1：

--text-main     Output plain text content (main content only)

见这里：https://tika.apache.org/1.2/gettingstarted.html

考虑使用1.8或1.9版本的apache tika。

如何使用Apache Tika从.wps文件中提取文本？

2 个答案: