我使用命名实体分类器来检测文本中的艺术家。目前我想检测重复出现的文本中的模式。
11.20.12 Dillon Francis + Clockwork / / / Trees .
11.24.12 Michael Woods / / / Lizard Lounge .
12.08.12 Flosstradamus / / / Lizard Lounge .
12.14.12 Mat Zo / / / Lizard Lounge .
12.31.12 New Years Eve with BT / / / Lizard Lounge .
在文中我可以检测到以下命名实体:
11.20.12 Dillon Francis + Clockwork / / / Trees .
[Dillon Francis]
11.24.12 Michael Woods / / / Lizard Lounge .
[Michael Woods, Lounge]
12.08.12 Flosstradamus / / / Lizard Lounge .
[Lizard Lounge]
12.14.12 Mat Zo / / / Lizard Lounge .
[Lizard Lounge]
12.31.12 New Years Eve with BT / / / Lizard Lounge .
[Lizard Lounge]
我想使用正则表达式来检测模式是否重复多次。因此,当发现狄龙弗朗西斯时,我看到在命名实体之后使用特殊字符除了和。 所以它是
[named entity][special chars] [ words ] endline
如何将其转换为正则表达式?
我尝试了什么:
([named entity])*([^\\dA-Za-z : , \\. ])
[^(Dillon Francis)]*[^a-zA-Z0-9]
输出是真还是假。
答案 0 :(得分:1)