没有机器学习的文本分类

时间:2017-02-13 19:17:42

标签: database sqlite python-3.x text text-classification

我想将社交媒体帖子(简短文字)与电影/电视节目数据库相匹配。该数据库包含有关电影或电视节目名称,角色和演员的信息。如果在输入文本中找到足够的证据,那么我希望算法将文本分类为它所属的电影,或者如果没有足够的证据则不做任何事情。

我熟悉机器学习方法,但这些方法需要训练样本和有限数量的类别。我的算法应该能够使用上下文,并且可以扩展到新内容。例如,我不希望机器学会识别“哈利波特”电影,但是当它被释放时却未能识别出“神奇的野兽以及在哪里找到它们”。

我理解这个解决方案是部分字符串匹配,但我想指出正确指导这些问题的一些一般指导。我也有兴趣识别拼写错误的单词并为某些匹配分配更多的权重,而对其他匹配则更少。

另外,作为附注,字符串匹配应该通过SQLite还是外部进行?我对这种情况的猜测是在外面,但我想确定一下。

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

您正在寻找的是基于模糊规则的信息检索系统。它需要一些手工制作的规则和模糊匹配(通常使用Lucene)来匹配查询与实体/文档的知识库。

参见本文的例子:

基于模糊逻辑的高效信息检索系统的实现 https://arxiv.org/pdf/1503.03957.pdf