Question

我有各种研究论文（近150篇）是PDF文件。我必须在这些文件中找到n个最常用的单词。

这些PDF文件也有数字和数学公式。我知道怎么做只有单词的单个文本文件。我想编写一个脚本来解析所有150个PDF文件，然后返回这些文件中n个最常用单词的列表。

Answer 1

1）用CAM::PDF解析PDF文件 2）在perl中使用split()（空格或制表符）（对于每个pdf和每行内部）来获取每个单词：

$words{$_}++ for split /\s+/, $line;

3）最后，用%words的数值排序（或者测试每个值）并得到第1个元素