如何从CountVectorizer过滤功能?

时间:2016-02-18 01:57:31

标签: machine-learning scikit-learn topic-modeling data-cleansing data-science

我正在进行文本分析(主题建模),当我通过CountVectorizer运行时,我得到了一堆与我的需求无关的数字,日期和位置。我以为我会用preprocessing function喂食,但scikit-learn page for preprocessing似乎没有我在构建预处理器时需要的任何信息。

1 个答案:

答案 0 :(得分:0)

您可以更改token_pattern中的CountVectorizer参数。

令牌模式是表示“令牌”构成内容的正则表达式,仅在analyzer == 'word'时使用。令牌模式的类型是字符串。

默认token_pattern=r"(?u)\b\w\w+\b"。默认正则表达式选择2个或更多字母数字字符的标记(标点符号完全被忽略,并始终被视为标记分隔符)。您可以更改它以满足您的需求(例如忽略日期)。