我对编程非常陌生,如果你能节省一些时间,我将不胜感激!我设法使用iText将我学校网站上的PDF解析成.text文件。现在,我的目标是从纯文本中提取关键短语。
来自我的纯文本的样本
Select 1: 3 hrs
Suggested ANT 2000 General Anthropology or 3 hrs
Suggested PSY 2012 General Psychology or 3 hrs
Suggested SYG 2000 Introduction to Sociology 3 hrs
4. Core Requirements: Advanced Level (49 hrs)
Primary Core 15 hrs
ACG 3131 Intermediate Financial Accounting I 3 hrs
ECO 3411 Quantitative Business Tools II 3 hrs
FIN 3403 Business Finance 3 hrs
MAN 3025 Management of Organizations 3 hrs
MAR 3023 Marketing 3 hrs
这些部分取自文本文件中的不同位置。我将如何提取诸如ECO,AGC,FIN等短语。我计划将此程序移动到更多文本文档,用于具有不同课程扩展的不同专业,意义课程扩展(ECO,AGC,FIN等)都将保持不变,但后面的四位数将根据类别进行更改。
有没有办法基本上制作某种类型的字典,包括所有可能的类类型,如ECO,AGC,FIN等,然后获取它们唯一的四位数扩展,甚至可能从最低小时到最高小时排名?< / p>
非常感谢您查看我的帖子。感谢所有帮助。