Jackrabbit文本搜索阿拉伯语PDF文件

时间:2011-04-13 12:06:19

标签: java jackrabbit

我可以使用Jackrabbit中的以下代码成功执行阿拉伯文本文件的文本搜索。但对于阿拉伯语PDF文件,相同的搜索不起作用。如果我在文件中给出一些非阿拉伯语文本,它会给我正确的结果,但是如果我在文件中给出一个araic字样,它就不会给我任何结果。

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2);

 QueryResult result = query.execute();
 RowIterator ri = result.getRows();

     while (ri.hasNext()) {      
     Row row = ri.nextRow(); 
     System.out.println("Row: " + row.toString()); 
 }

由于

1 个答案:

答案 0 :(得分:0)

可能是PDFBox无法解析文件。 In this case, there should be a warning in the log file