我正在尝试实施Naive Bayes分类器来检测用户输入的联系信息。联系信息可以是
因此,用户输入一个段落。它可能包含有效数据+联系信息。我的工作是检测包含联系信息的部分(半句/满句)并将其删除。
例如:
I am John. I am new to this site. For more details you may contact me on my mobile number xxxxxxxxx.
I am Rahul. My mobile number is xxxxxxxxx.
直到现在这个工作是手动完成的,所以我的数据超过了百万个段落。
早些时候,我实现了一个基于正则表达式的算法来实现相同的效果,但这似乎非常原始。用户输入不同类型的数据,需要智能处理。
其他实施可能是什么?还有其他想法吗?