使用主题关键字进行主题建模

时间:2014-10-04 17:51:02

标签: lda topic-modeling

我需要按以下方式进行主题建模:

例如:

我需要从文档中提取5个主题。文档是单个文档。我有5个主题的关键字,与我需要提取主题的这5个关键字相关。

5个主题的关键字是: 关键字1-(汽车,赛车运动......) 关键字2-(意外,保险......) ......

相应的输出应该是: 主题1-(车辆,扭矩,速度......) 主题2-(索赔,金额,......)

怎么可以这样做?

1 个答案:

答案 0 :(得分:1)

一个好的起点是这个LDA主题建模库,用于NodeJS。

https://www.npmjs.org/package/lda

var lda = require('lda');
// Example document.
var text = 'Cats are small. Dogs are big. Cats like to chase mice. Dogs like to eat bones.';

// Extract sentences.
var documents = text.match( /[^\.!\?]+[\.!\?]+/g );

// Run LDA to get terms for 2 topics (5 terms each).
var result = lda(documents, 2, 5);
The above example produces the following result with two topics (topic 1 is "cat-related", topic 2 is "dog-related"):

Topic 1
cats (0.21%)
dogs (0.19%)
small (0.1%)
mice (0.1%)
chase (0.1%)

Topic 2
dogs (0.21%)
cats (0.19%)
big (0.11%)
eat (0.1%)
bones (0.1%)

这应该让你开始走下去。请注意,您可能需要使用主题和文档的数量来调整它们以获取您想要提取的信息量。

这不是魔术。

http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation