作为参数传递给Tfidfvectorizer的tokenizer的预期返回类型是什么

时间:2018-01-03 07:04:14

标签: scikit-learn vectorization tf-idf tfidfvectorizer

我在看:

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

它只是说:

  

tokenizer:callable或None(默认值)覆盖字符串   标记化步骤,同时保留预处理和n-gram   生成步骤。仅适用于分析器==' word'。

该功能应该返回什么?一个单词列表?是否有一个示例显示了此函数必须返回的数据结构?

编辑:例如,如果我正在编写自己的自定义标记生成器函数,它应该返回什么。

0 个答案:

没有答案