应用错误收集

作为参数传递给Tfidfvectorizer的tokenizer的预期返回类型是什么

时间：2018-01-03 07:04:14

标签： scikit-learn vectorization tf-idf tfidfvectorizer

我在看：

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

它只是说：

tokenizer：callable或None（默认值）覆盖字符串标记化步骤，同时保留预处理和n-gram 生成步骤。仅适用于分析器==＆＃39; word＆＃39;。

该功能应该返回什么？一个单词列表？是否有一个示例显示了此函数必须返回的数据结构？

编辑：例如，如果我正在编写自己的自定义标记生成器函数，它应该返回什么。

0 个答案:

没有答案