使用多个分隔符从sklearn获取具有CountVectorizer的标记

时间:2017-08-18 09:53:43

标签: python scikit-learn

我想使用这些分隔符将句子分成标记(每当Python看到一些字符我想在那里分割句子时):

{""/%»…l¦>|=!—\+([„:<#•}‘°_–·˘“›;^$®&”’){€*?.`@«ľ]~}

下面是一个句子示例,我希望在每个句子中分割并计算每个句子的出现次数:

@itkutak (pitanje za intesu: radi li ?neka)

我想获得的代币:itkutakpitanjezaintesuradili,{{1} } 如何使用neka来获取此信息?

这就是我的代码现在的样子:

CountVectorizer

1 个答案:

答案 0 :(得分:3)

我假设你在谈论sklearn的]]>。根据{{​​3}},您可以

  1. 定义CountVectorizer参数。如果您知道您的大多数令牌都是字母数字,那么您可以随时执行此类操作

    token_pattern
  2. 通过编写一个字符串来自行完成标记化的函数来覆盖vectorizer = CountVectorizer(token_pattern=u'(?u)\\b\\w+\\b') 。与第一种方法相比,这通常要慢得多。

    tokenizer