Question

我想使用这些分隔符将句子分成标记（每当Python看到一些字符我想在那里分割句子时）：

{""/%»…l¦>|=!—\+([„:<#•}‘°_–·˘“›;^$®&”’){€*?.`@«ľ]~}

下面是一个句子示例，我希望在每个句子中分割并计算每个句子的出现次数：

@itkutak (pitanje za intesu: radi li ?neka)

我想获得的代币：itkutak，pitanje，za，intesu，radi，li，{{1} } 如何使用neka来获取此信息？

这就是我的代码现在的样子：

CountVectorizer

Answer 1

我假设你在谈论sklearn的]]>。根据{{3}}，您可以

定义CountVectorizer参数。如果您知道您的大多数令牌都是字母数字，那么您可以随时执行此类操作
```
token_pattern
```
通过编写一个字符串来自行完成标记化的函数来覆盖vectorizer = CountVectorizer(token_pattern=u'(?u)\\b\\w+\\b')。与第一种方法相比，这通常要慢得多。
```
tokenizer
```