标签: scikit-learn vectorization tf-idf tfidfvectorizer
我在看:
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
它只是说:
tokenizer:callable或None(默认值)覆盖字符串 标记化步骤,同时保留预处理和n-gram 生成步骤。仅适用于分析器==' word'。
该功能应该返回什么?一个单词列表?是否有一个示例显示了此函数必须返回的数据结构?
编辑:例如,如果我正在编写自己的自定义标记生成器函数,它应该返回什么。