定义单词的类别

时间:2016-09-15 12:30:51

标签: r nlp

我有一套20&000; 000字和简单的短语。我需要选择每个单词并定义它的一般概念或类别。

所以,如果我采取"曲棍球"它应该属于大型运动"类别。如果它是巴拉克奥巴马"然后是政治"政治"。以下是我的单词列表中的示例:

israel
illness
face
experts
throat
tory
moments
numerous

所有奇怪的东西都可能属于" General"类别。

那是我的问题。以下是我的想法,你可能会忽略,因为我不知道如何处理这个问题。

可能我正在寻找某种打开的字典或API,可以定义一个单词的一般概念。但我找不到任何好的。失败的最可能原因是我吮吸屁股,但我仍然需要这样做。我正在考虑使用一个简单的字典并通过解析它的经济类别来运行每个单词。但并非所有的话都有它。

我很感激能帮助你解决这个问题的正确方向,并且它不应该是完美的。

提前致谢。请不要犹豫要求我对细节进行鉴定,因为我认为解释可能含糊不清。

2 个答案:

答案 0 :(得分:3)

我可以指向http://dbpedia.org/。它是许多维基百科信息框数据的神话,它有一个查询的sparql端点。我两年前用过它,但api好像已经改变了,所以我现在不能给你一个例子。但它有很好的文档。

答案 1 :(得分:1)

听起来你想要做主题建模。包quantedaSnowballtm是好的开始。使用mallet包进行主题建模的资源如下:

http://www.matthewjockers.net/materials/dh-2014-introduction-to-text-analysis-and-topic-modeling-with-r/

主题建模的一般概念是,您的文字来自本身关于某个主题的文档。主题建模检查哪些单词在同一文档中一起出现,并假设在许多文档中,这些单词可能是同一主题。希望这会有所帮助。