我在PDF中获得了完整的字数。但我想得到除了页眉,页脚和Folios之外的Pdf字数。 请提前帮助谢谢。
use strict;
use warnings;
use CAM::PDF;
use CAM::PDF::PageText;
my $filename = shift;
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
my $count;
my $cnt = CAM::PDF::PageText->render($pageone_tree);
print"$cnt";
答案 0 :(得分:0)
如果你的文件不太复杂,那就可以解决问题了:
#!/usr/bin/perl
use strict;
use warnings;
use CAM::PDF;
my $file = 'C:\Users\username\Documents\illguts.pdf';
my $pdf = CAM::PDF->new($file);
my $word_count = 0;
for my $pagenum ( 1 .. $pdf->numPages ) {
my $words_on_this_page =
scalar split( /\s+/, $pdf->getPageText($pagenum) );
print "Page: $pagenum $words_on_this_page\n";
$word_count += $words_on_this_page;
}
print "Total words: $word_count\n";
虽然有一点需要注意,PDF可能非常复杂,这是一种非常基本的方法。应该给你一个起点。