我要为很长的单词列表实现文本分类。我已经定义了一些类别,例如如果列表中包含“UK”字样,它将位于“Regions”下。如果这个词是“Pizza”,它将属于“食物”类别。
如何对不同类别的单词进行分类?有没有可用的开源工具?
答案 0 :(得分:2)
我不完全确定你要做什么,但如果你想要的是为多个类别建立一个列表代表词,那么你可以通过选择前N个最常用词来做到这一点,不包括stop words,来自代表每个类别的一组文件。这是创建非常基本的本体的简单方法。
例如,要创建一组关于食物的字词,您可以抓取网页以获取 recipies和menus ,然后选择最多这些经常说的话。我希望,一旦你排除了停止词,你就会有一个很好的食物相关单词列表。对于与编程相关的字词,您可以抓取 stackoverflow.com 等等...
然后,这可能不是你想要做的......