当使用来自pytorch的预训练BERT嵌入(然后对其进行微调)时,是否应该像在任何标准NLP任务中一样对输入到模型中的文本数据进行预处理?
例如,应该执行词干删除,去除低频词,去capcapisation,还是应该将原始文本简单地传递给“ transformers.BertTokenizer”?
答案 0 :(得分:1)
我认为预处理不会改变您的输出预测。对于您提到的每种情况,我都会尽力解释-
答案 1 :(得分:0)
在大多数情况下,提供原始文本效果很好。如果您想要更具体的答案,请共享您的用例样本数据。
答案 2 :(得分:0)
对于外壳部分,请检查pretrained models
根据他们的训练方式,输出中包含有大小写的BERT和无大小写的BERT。
因此,没有词干或词根化或类似的NLP任务。
词法化假设词法是词法分析,以返回词的基本形式,而词干化通常是粗加工除去词尾或词缀。