单句分类

时间:2015-03-11 11:20:07

标签: machine-learning nlp nltk lda text-classification

我有4个不同的类别,我也有大约3000个单词属于这些类别。现在,如果有一个新句子,我可以将句子分解为单词并获得更多与之相关的单词。因此,对于每个新句子,我可以从句子中获得20-30个单词。 现在,在上述类别中对这句话进行分类的最佳方法是什么?我知道一袋字很好用。 我也看过LDA,但它适用于文档,因为我有一个单词列表作为训练语料库。在LDA中,它查看文档中单词的位置。所以我无法从LDA那里得到有意义的结果。

2 个答案:

答案 0 :(得分:0)

我不确定我是否完全明白你的问题究竟是什么。 一堆单词适用于某些目的,但在很多情况下,它会抛弃许多潜在有用的信息(例如,可以从单词顺序中获取)。 假设你得到一个语法句子作为输入,为什么不使用你的句子作为文件仍然使用LDA?句子中某个单词的位置仍然非常有意义。

有很多分类方法可供选择。哪一个最好主要取决于你的目的。如果你对这个领域感兴趣,那么看看这个可能很有意思:https://www.coursera.org/course/ml

答案 1 :(得分:0)

像伊戈尔一样,我对你的问题也有些困惑。无论是文档还是句子,这些术语都将以某种形式成为分类功能集的一部分。您可以找出每个类别中最相关的术语,并使用这些知识,对新句子进行更好的分类。例如,如果你的句子如下 - "在我们的布局附近有一只流浪狗咬住了接近它的每个人#34;。如果你从这句话中取出有用的关键词,删除停用词,它们就是一些数字(流浪,狗,布局,咬,近)。您可以将其分类为一个桶," animals_issue"。如果您使用更多的示例训练您的系统,这个单词模型袋可以提供帮助。否则,您可以使用LDA /其他主题建模方法。