如何将字符串分类为个人名称或公司名称,或全都不分类?

时间:2019-01-22 04:36:39

标签: algorithm classification

比方说,我有一个字符串,说“ John Doe”,我想确定这个字符串是一个人的名字,一个公司的名字还是这些都不是。 每分钟都有越来越多的字符串进入我的系统,系统需要将其分类为这三类之一。

3 个答案:

答案 0 :(得分:1)

您需要一个不同类别的字符串字典来与它们进行比较。

没有字典,您将需要某种可以自动执行此操作的AI /机器学习,但这远远超出了您在此处获得的答案的范围。

答案 1 :(得分:1)

NLTK提供了最常用的英语单词(nltk.corpus.words.words('en'))和最常用的英语名称nltk.corpus.names.words())的语料库

答案 2 :(得分:1)

使用gensim word2vec,这是Google提供的库,其中包含所有单词的向量和关系。

现在,当您将文本输入系统时,首先您将获得单词的矢量。 在此之上,您可以应用任何分类算法对任务进行分类。

希望获得帮助!