二进制特征提取

时间:2013-03-06 20:40:53

标签: machine-learning nlp feature-extraction

我是用于自然语言处理目的的特征提取的初学者。 我想知道如何使用hashmap提取文本的功能。如果每个特征都是hashmap中的“键”,其值是“value”(所有特征都是二进制,0或1),是否意味着我需要有n个hashmap(n是文本中的单词数) )?因为我需要提取每个单词。

我是对的吗?

提前致谢, 爱丽丝

1 个答案:

答案 0 :(得分:0)

是的,您可以使用哈希映射实现此功能,但是根据功能的数量和内存要求,它可能不是最佳或最快的数据结构,它实际上取决于您的域。通常,表示存在与否的特征将产生不良结果。更好的方法是在对特征进行加权时使用TF-IDF。

您正在谈论的方法是“词袋”方法。您可以在此处基于单词边界对文档进行标记,并将单词用作要素。作为第一遍,您应该删除停用词(即“a”,“和”,“the”),然后规范化您的数据(即Now == now == nOw)。然后,您可以执行词干,以进一步减少矢量大小。

现在低估一下提取功能的一个好方法是查看MALLET。 我有一个非常简单的朴素贝叶斯实现与RCV-1的解析器,你可以看一个例子Naive Bayes