从给定文本确定公司名称

时间:2015-10-26 07:37:28

标签: c# classification text-classification

我有一个位于股票市场领域的网站。该网站在论坛帖子,评论等方面有很多用户生成的内容。

另外,我有一个数据库表,其中包含股票市场上列出的所有公司(约5000家)的名称。

现在,我想要的是,如果用户在评论或论坛帖子中提到了公司名称,我的程序会自动将其超链接以提供它的股票价格详细信息。

现在,问题是用户可能不会使用我的数据库中可用的确切公司名称。例如,用户可能会写" FB"没有" inc"而不是Facebook或公司名称。或者" pvt。 LTD"在它。

我该如何解决这个问题?我认为,由于公司数据库有限,机器学习方法将是一种过度杀伤力。你有什么建议。

1 个答案:

答案 0 :(得分:0)

最简单的方法是为公司提供多种存储方式,例如: FB将同样处理FaceBook。

这可以通过两种方式完成:

1)通过添加所有替代品来增加列表本身(5000项)。这导致了一个相当大的数据库。

2)创建一个只进行转换的转化列表,例如FB-> FaceBook等。使用转换后,可以使用正常的现有公司数据库。这就分担了责任。

您还可以尝试仅使用单词的部分名称(例如,Face Book - > FaceBook,或Facebook-> FaceBook,xxx.INC-> xxx.inc等)。