Question

我使用命名实体分类器来检测文本中的艺术家。目前我想检测重复出现的文本中的模式。

11.20.12 Dillon Francis + Clockwork / / / Trees .
11.24.12 Michael Woods / / / Lizard Lounge .
12.08.12 Flosstradamus / / / Lizard Lounge .
12.14.12 Mat Zo / / / Lizard Lounge .
12.31.12 New Years Eve with BT / / / Lizard Lounge .

在文中我可以检测到以下命名实体：

11.20.12 Dillon Francis + Clockwork / / / Trees .
[Dillon Francis]
11.24.12 Michael Woods / / / Lizard Lounge .
[Michael Woods, Lounge]
12.08.12 Flosstradamus / / / Lizard Lounge .
[Lizard Lounge]
12.14.12 Mat Zo / / / Lizard Lounge .
[Lizard Lounge]
12.31.12 New Years Eve with BT / / / Lizard Lounge .
[Lizard Lounge]

我想使用正则表达式来检测模式是否重复多次。因此，当发现狄龙弗朗西斯时，我看到在命名实体之后使用特殊字符除了和。所以它是

[named entity][special chars] [ words ] endline

如何将其转换为正则表达式？

我尝试了什么：

([named entity])*([^\\dA-Za-z : , \\. ]) 
[^(Dillon Francis)]*[^a-zA-Z0-9]

输出是真还是假。

Answer 1

这样的事情：

^[0-9.]{8}\s(Dillon Francis|Michael Woods|Mat Zo)[ \/+]+([A-Za-z0-9 .]+)$

Demo here

在String之后重复特定的字符

1 个答案: