Question

我对编程非常陌生，如果你能节省一些时间，我将不胜感激！我设法使用iText将我学校网站上的PDF解析成.text文件。现在，我的目标是从纯文本中提取关键短语。

来自我的纯文本的样本

Select 1: 3 hrs 
Suggested  ANT 2000  General Anthropology or 3 hrs 
Suggested  PSY 2012  General Psychology or 3 hrs 
Suggested  SYG 2000  Introduction to Sociology  3 hrs 

4. Core Requirements: Advanced Level (49 hrs) 
Primary Core 15 hrs 
ACG 3131  Intermediate Financial Accounting I  3 hrs 
ECO 3411  Quantitative Business Tools II  3 hrs 
FIN 3403  Business Finance  3 hrs 
MAN 3025  Management of Organizations  3 hrs 
MAR 3023  Marketing  3 hrs

这些部分取自文本文件中的不同位置。我将如何提取诸如ECO，AGC，FIN等短语。我计划将此程序移动到更多文本文档，用于具有不同课程扩展的不同专业，意义课程扩展（ECO，AGC，FIN等）都将保持不变，但后面的四位数将根据类别进行更改。

有没有办法基本上制作某种类型的字典，包括所有可能的类类型，如ECO，AGC，FIN等，然后获取它们唯一的四位数扩展，甚至可能从最低小时到最高小时排名？< / p>

非常感谢您查看我的帖子。感谢所有帮助。

从文本文档中提取短语

0 个答案: