我是ML.Net的新手,正在研究一些基本的MultiClassClassification方案,想知道它是否现在可以默认处理停用词,还是我应该在数据准备中这样做?
答案 0 :(得分:1)
请查看ML.NET食谱的this section。
如果您在管道中使用mlContext.Transforms.Text.FeaturizeText
,则默认情况下它将删除英语停用词。
当然,您可以使用其他ML.NET提供的组件随意调整NLP预处理,但是根据我对文本分类的一点经验,包罗万象的FeaturizeText
在大多数情况下都做得不错。