从文本文档中提取短语

时间:2016-12-25 21:58:49

标签: java

我对编程非常陌生,如果你能节省一些时间,我将不胜感激!我设法使用iText将我学校网站上的PDF解析成.text文件。现在,我的目标是从纯文本中提取关键短语。

来自我的纯文本的样本

Select 1: 3 hrs 
Suggested  ANT 2000  General Anthropology or 3 hrs 
Suggested  PSY 2012  General Psychology or 3 hrs 
Suggested  SYG 2000  Introduction to Sociology  3 hrs 

4. Core Requirements: Advanced Level (49 hrs) 
Primary Core 15 hrs 
ACG 3131  Intermediate Financial Accounting I  3 hrs 
ECO 3411  Quantitative Business Tools II  3 hrs 
FIN 3403  Business Finance  3 hrs 
MAN 3025  Management of Organizations  3 hrs 
MAR 3023  Marketing  3 hrs 

这些部分取自文本文件中的不同位置。我将如何提取诸如ECO,AGC,FIN等短语。我计划将此程序移动到更多文本文档,用于具有不同课程扩展的不同专业,意义课程扩展(ECO,AGC,FIN等)都将保持不变,但后面的四位数将根据类别进行更改。

有没有办法基本上制作某种类型的字典,包括所有可能的类类型,如ECO,AGC,FIN等,然后获取它们唯一的四位数扩展,甚至可能从最低小时到最高小时排名?< / p>

非常感谢您查看我的帖子。感谢所有帮助。

0 个答案:

没有答案