正则表达式:识别并删除列表和菜单

时间:2017-07-13 16:59:32

标签: regex nlp

在我编写自己的方法之前,我很好奇是否有正则表达式可以帮助我。

上下文

我在对条款进行统计分析之前清理原始文本。该文本来自网站,因此包括菜单(来自许多网站的许多菜单)。

典型的列表/菜单如下所示(除了项目之间有一个换行符):

  

学生服务

     

指导&支撑

     

核心服务

     

招生&记录

     

经济援助

     

辅导

     

评估测试

     

Kickstart Orientation

     

辅导

     

职业生涯转学中心

     

学生欢迎中心

手头的任务 我想删除所有列表

我需要删除每隔一个第二,第三或第四个单词之后有换行符的文本块,但前提是这个模式连续重复3次或更多次(我不想删除单个短句等as"学生总是成功。")

正则表达式可以识别这种模式吗?

注意:我在java工作。

使用示例文字更新

[[[我想删除此列表]]] 办公室和办公室服务

学生服务

活动&田径

记录&注册

成本&经济援助

合规性&分集

校友

教职员工资源

BMCC基金会

人力资源

BMCC主页>学术>健康教育>课程列表

[[[我想删除此列表]]] 健康教育之家

课程列表

[[[我想删除此列表]]] 社区健康教育

老年

学校健康教育

公共卫生

访问招生

课程列表

[[[我想保留下面的文字]]] 以下课程由健康教育部提供。

2CRS。,2HRS,0 LAB HRS。  HED 100 健康教育

这是一项关于健康教育的入门调查课程。该课程为学生提供知识,技能和行为模型,以增强他们的身体,情感,社会,智力和精神健康,并促进他们的健康决策能力。主要教学领域包括:健康和保健;强调;人的性欲;酒精,烟草和药物滥用;营养和体重管理;和身体健康。完成HED 110 - 综合健康教育的学生将不会获得该课程的学分。

3CRS。,3HRS,0 LAB HRS。  HED 110 综合健康教育

本健康教育课程提供全面的方法,为学生提供知识,技能和行为模式,以增强他们的身体,情感,社交,智力和精神健康,并促进他们的健康决策能力。专业领域包括:酒精,烟草和滥用物质,精神和情绪健康,人类性行为和家庭生活,营养,身体健康,心血管健康,环境健康和保健服务。 HED 110符合HE 100的所有学位要求。已完成HED 100 - 健康教育的学生将不会获得该课程的学分。

1 个答案:

答案 0 :(得分:2)

假设关于单词数量的部分不重要,请尝试(([A-Za-z& ])*(\n|\r|\r\n)){5,}的正则表达式模式,例如here

根据需要更改五个量词,这只是一个例子。一个五行不会匹配带有额外换行符的两行或没有结束换行符的三行列表。