我正在尝试在网络应用中实现pdf的搜索结果突出显示。我有原始的pdfs,以及搜索结果中使用的小png版本。基本上我正在寻找一个api:
pdf_document.find_offsets('somestring')
# => { top: 501, left: 100, bottom: 520, right: 150 }, { ... another box ... }, ...
我知道可以从pdf中获取这些信息,因为Apple的Preview.app实现了这一点。
需要在Linux上运行的东西,理想情况下是开源的。我知道你可以在Windows上使用acrobat来做到这一点。
答案 0 :(得分:4)
CAM::PDF可以很好地完成几何体部分,但有时会遇到字符串匹配问题。该技术将类似于以下经过轻微测试的代码:
use CAM::PDF;
my $pdf = CAM::PDF->new('my.pdf') or die $CAM::PDF::errstr;
for my $pagenum (1 .. $pdf->numPages) {
my $pagetree = $pdf->getPageContentTree($pagenum) or die;
my @text = $pagetree->traverse('MyRenderer')->getTextBlocks;
for my $textblock (@text) {
print "text '$textblock->{str}' at ",
"($textblock->{left},$textblock->{bottom})\n";
}
}
package MyRenderer;
use base 'CAM::PDF::GS';
sub new {
my ($pkg, @args) = @_;
my $self = $pkg->SUPER::new(@args);
$self->{refs}->{text} = [];
return $self;
}
sub getTextBlocks {
my ($self) = @_;
return @{$self->{refs}->{text}};
}
sub renderText {
my ($self, $string, $width) = @_;
my ($x, $y) = $self->textToDevice(0,0);
push @{$self->{refs}->{text}}, {
str => $string,
left => $x,
bottom => $y,
right => $x + $width,
#top => $y + ???,
};
return;
}
输出看起来像这样:
text 'E' at (52.08,704.16)
text 'm' at (73.62096,704.16)
text 'p' at (113.58936,704.16)
text 'lo' at (140.49648,704.16)
text 'y' at (181.19904,704.16)
text 'e' at (204.43584,704.16)
text 'e' at (230.93808,704.16)
text ' N' at (257.44032,704.16)
text 'a' at (294.6504,704.16)
text 'm' at (320.772,704.16)
text 'e' at (360.7416,704.16)
text 'Employee Name' at (56.4,124.56)
text 'Employee Title' at (56.4,114.24)
text 'Company Name' at (56.4,103.92)
从输出中可以看出,字符串匹配会有点繁琐,但几何图形很简单(除了字体高度)。
答案 1 :(得分:1)
我认为您可以使用Adobe Acrobat SDK执行此操作,其中的Linux版本可以是downloaded for free from Adobe。您可以将其用于extract text from PDFs,然后计算偏移量。然后可以使用Acrobat XML highlighting file突出显示PDF。这用于指定要突出显示哪些位置的单词,并按如下方式提供给acrobat:
http://example.com/a.pdf#xml=http://example.com/highlightfile.xml
答案 2 :(得分:1)