在String之后重复特定的字符

时间:2014-10-30 11:15:56

标签: regex nlp

我使用命名实体分类器来检测文本中的艺术家。目前我想检测重复出现的文本中的模式。

11.20.12 Dillon Francis + Clockwork / / / Trees .
11.24.12 Michael Woods / / / Lizard Lounge .
12.08.12 Flosstradamus / / / Lizard Lounge .
12.14.12 Mat Zo / / / Lizard Lounge .
12.31.12 New Years Eve with BT / / / Lizard Lounge .

在文中我可以检测到以下命名实体:

11.20.12 Dillon Francis + Clockwork / / / Trees .
[Dillon Francis]
11.24.12 Michael Woods / / / Lizard Lounge .
[Michael Woods, Lounge]
12.08.12 Flosstradamus / / / Lizard Lounge .
[Lizard Lounge]
12.14.12 Mat Zo / / / Lizard Lounge .
[Lizard Lounge]
12.31.12 New Years Eve with BT / / / Lizard Lounge .
[Lizard Lounge]

我想使用正则表达式来检测模式是否重复多次。因此,当发现狄龙弗朗西斯时,我看到在命名实体之后使用特殊字符除了和。 所以它是

[named entity][special chars] [ words ] endline

如何将其转换为正则表达式?

我尝试了什么:

([named entity])*([^\\dA-Za-z : , \\. ]) 
[^(Dillon Francis)]*[^a-zA-Z0-9] 

输出是真还是假。

1 个答案:

答案 0 :(得分:1)

这样的事情:

^[0-9.]{8}\s(Dillon Francis|Michael Woods|Mat Zo)[ \/+]+([A-Za-z0-9 .]+)$

Demo here