联系信息模式检测器使用朴素贝叶斯

时间:2017-01-31 20:03:57

标签: algorithm machine-learning classification naivebayes

我正在尝试实施Naive Bayes分类器来检测用户输入的联系信息。联系信息可以是

  1. 手机号码
  2. 电子邮件ID
  3. 网络链接
  4. 因此,用户输入一个段落。它可能包含有效数据+联系信息。我的工作是检测包含联系信息的部分(半句/满句)并将其删除。

    例如:

    I am John. I am new to this site. For more details you may contact me on my mobile number xxxxxxxxx.
    
    I am Rahul. My mobile number is xxxxxxxxx.
    

    直到现在这个工作是手动完成的,所以我的数据超过了百万个段落。

    早些时候,我实现了一个基于正则表达式的算法来实现相同的效果,但这似乎非常原始。用户输入不同类型的数据,需要智能处理。

    其他实施可能是什么?还有其他想法吗?

0 个答案:

没有答案