Question

我在Solr（v 6.3）中有20毫升文件。我从pdf文件索引它（使用Apache Tika）我需要在内容中找到所有带有版权符号（©）的文档。但是，Solr从查询字符串中删除此符号：查询：

但solr已将带有版权符号的文件编入索引：

有什么想法吗？

Answer 1

原始查询解析器

RawQParser通过创建一个术语查询来扩展QParserPlugin 没有任何文本分析或转换的输入值。这是在调试中或从术语返回原始术语时很有用组件（这不是默认值）。唯一的参数是f，其中定义要搜索的字段。

示例：

use 5.014;
use warnings;

use Text::CSV;
use Data::Dumper;

my $csv = Text::CSV->new( { binary => 1, auto_diag => 1 } );
open my $fh, "<", "gene.csv" or die "gene.csv: $!";
$csv->header( $fh, { munge_column_names => 'none'} );

my @colnames = $csv->column_names;
my $HoA;
while( my $row = $csv->getline_hr($fh) ) {
    push @{$HoA->{$_}}, $row->{$_} for @colnames;
}
my $ret = $csv->getline_all($fh);
$csv->eof or $csv->error_diag();
close $fh;

say "The second val from the 'T' column: $HoA->{T}[1]";
say "Dump of the whole ", Dumper $HoA;

它将返回包含版权符号的所有结果。

如何在SOLR中找到版权符号（©）

1 个答案:

原始查询解析器