应用错误收集

我正在尝试实施Naive Bayes分类器来检测用户输入的联系信息。联系信息可以是

因此，用户输入一个段落。它可能包含有效数据+联系信息。我的工作是检测包含联系信息的部分（半句/满句）并将其删除。

例如：

I am John. I am new to this site. For more details you may contact me on my mobile number xxxxxxxxx.

I am Rahul. My mobile number is xxxxxxxxx.

直到现在这个工作是手动完成的，所以我的数据超过了百万个段落。

早些时候，我实现了一个基于正则表达式的算法来实现相同的效果，但这似乎非常原始。用户输入不同类型的数据，需要智能处理。

其他实施可能是什么？还有其他想法吗？