我想使用这些分隔符将句子分成标记(每当Python看到一些字符我想在那里分割句子时):
{""/%»…l¦>|=!—\+([„:<#•}‘°_–·˘“›;^$®&”’){€*?.`@«ľ]~}
下面是一个句子示例,我希望在每个句子中分割并计算每个句子的出现次数:
@itkutak (pitanje za intesu: radi li ?neka)
我想获得的代币:itkutak
,pitanje
,za
,intesu
,radi
,li
,{{1} }
如何使用neka
来获取此信息?
这就是我的代码现在的样子:
CountVectorizer
答案 0 :(得分:3)
我假设你在谈论sklearn的]]>
。根据{{3}},您可以
定义CountVectorizer
参数。如果您知道您的大多数令牌都是字母数字,那么您可以随时执行此类操作
token_pattern
通过编写一个字符串来自行完成标记化的函数来覆盖vectorizer = CountVectorizer(token_pattern=u'(?u)\\b\\w+\\b')
。与第一种方法相比,这通常要慢得多。
tokenizer