我们有一个客户正在寻找一种方法来导入和分类大量的文本数据。这些数据必须进行分类,并且有人建议最简单的方法是查看说明字段并尝试匹配那里的单词以查看是否可以为该特定记录派生一个类别。
有人认为,最好的方法是将单词与每个类别的关键词匹配,如果不成功则使用某种同义词查看是否可以使用。因此,例如,如果特定记录中包含“汽车”一词,则同义词查找可以将该词与“汽车”一词匹配,该词将与“车辆”类别相对应。
有没有人知道网络服务或查找字典以查找特定单词的同义词的其他方法?项目经理已经建议为此购买Google Enterprise Search许可证,但我可以从中得出这些不能提供这些人正在寻找的内容。
任何其他建议让客户得到他们想要的东西都会被感激不尽。
谢谢!我会调查Wordnet。
您知道其他任何类型的文本分类软件产品吗?我看到有一些关于使用Bayasian算法的讨论,但我看不到任何真实世界的例子。
答案 0 :(得分:6)
首先想到的是Wordnet。 Wordnet是人类生成的单词和相关单词数据库,包括同义词。 The Wikipedia Wordnet entry列出了Wordnet的几个接口。我相信其中一些是Web服务。 你也可以自己动手。 Manning and Schutze's chapter 5 (free PDF)显示了执行此操作的方法。
话虽如此,你解决了正确的问题吗?你如何建立类别列表? 它是一个层次结构吗?标签云?有关层级类别的批评,请参阅Clay Shirky's Ontology is Overrated。我认为,如果你的分类基于单词集(例如Naive Bayes)而不是单个单词,那么同义词就不那么重要了。
答案 1 :(得分:1)
你应该看看使用WordNet。您可以访问他们的网站http://wordnet.princeton.edu/以获取更多信息,但有些库可用于以多种语言进行集成。
转到他们的在线工具,在此处查看其使用情况:http://wordnetweb.princeton.edu/perl/webwn。如果您查找单词,然后单击每个定义旁边的“S”,您将获得与该定义相关的语义相关单词列表。
我还认为您应该查看允许您执行“文档群集”的软件。这是一个例子:http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview。这应该可以帮助您引导类别创建过程。
我认为这有助于您获得所需的一切!
答案 2 :(得分:0)
对于文本分类,您可以查看Apache Mahout。