如何在SOLR中找到版权符号(©)

时间:2017-03-03 12:45:23

标签: apache pdf solr apache-tika

我在Solr(v 6.3)中有20毫升文件。我从pdf文件索引它(使用Apache Tika) 我需要在内容中找到所有带有版权符号(©)的文档。 但是,Solr从查询字符串中删除此符号: 查询:query with copyright symbol with none result

但solr已将带有版权符号的文件编入索引: document in solr with copyright symbol

有什么想法吗?

1 个答案:

答案 0 :(得分:2)

原始查询解析器

  

RawQParser通过创建一个术语查询来扩展QParserPlugin   没有任何文本分析或转换的输入值。这是   在调试中或从术语返回原始术语时很有用   组件(这不是默认值)。唯一的参数是f,其中   定义要搜索的字段。

示例:

use 5.014;
use warnings;

use Text::CSV;
use Data::Dumper;

my $csv = Text::CSV->new( { binary => 1, auto_diag => 1 } );
open my $fh, "<", "gene.csv" or die "gene.csv: $!";
$csv->header( $fh, { munge_column_names => 'none'} );

my @colnames = $csv->column_names;
my $HoA;
while( my $row = $csv->getline_hr($fh) ) {
    push @{$HoA->{$_}}, $row->{$_} for @colnames;
}
my $ret = $csv->getline_all($fh);
$csv->eof or $csv->error_diag();
close $fh;

say "The second val from the 'T' column: $HoA->{T}[1]";
say "Dump of the whole ", Dumper $HoA;

它将返回包含版权符号的所有结果。