我有各种研究论文(近150篇)是PDF文件。我必须在这些文件中找到n个最常用的单词。
这些PDF文件也有数字和数学公式。我知道怎么做只有单词的单个文本文件。我想编写一个脚本来解析所有150个PDF文件,然后返回这些文件中n个最常用单词的列表。
我想要一种方法来解析复杂的PDF文件(包含文字,数字和公式)
然后我想写一个脚本来解析我电脑上特定位置的所有文件,并返回所有PDF文件中n个最常用单词的列表。
答案 0 :(得分:1)
1)用CAM::PDF解析PDF文件
2)在perl中使用split()
(空格或制表符)(对于每个pdf和每行内部)来获取每个单词:
$words{$_}++ for split /\s+/, $line;
3)最后,用%words
的数值排序(或者测试每个值)并得到第1个元素