如何根据上下文对相似类型的句子进行聚类,并从中提取关键字

时间:2017-01-07 10:48:44

标签: machine-learning nlp semantics ibm-watson text-analysis

我想根据语境对句子进行聚类,并从类似的上下文句子中提取常用关键词。

例如 我需要回家 我在吃饭 他明天就要回家了 他在餐馆

句子1和3与关键词如go和home类似,也许它的同义词如travel和house。

预先存在的API会像在某种程度上使用IBM Watson一样有用

2 个答案:

答案 0 :(得分:1)

这个API实际上正在做你正在要求的东西(聚类句子+给出关键词): http://www.rxnlp.com/api-reference/cluster-sentences-api-reference/

不幸的是,用于聚类和生成关键词的算法不可用。

希望这有帮助。

答案 1 :(得分:0)

您可以将RapidMinerText Processing Extension一起使用。

将每个句子插入单独的文件中,并将它们全部放在一个文件夹中。

放置操作符并进行如下设计。 enter image description here

单击文件操作员处理文档,在右侧栏中选择"编辑列表" on"文本目录"领域。然后选择包含文件的文件夹。

双击文件操作员的处理文档,在新窗口中添加如下设计的操作符(只需要你需要的操作符)。

enter image description here

然后运行你的过程。