我有一个dataframe对象,该对象具有两个字段,即text和label,我想进行类似于ULMFit的文本分类
以下是具有特定目的的代码
data_lm = TextLMDataBunch.from_df(train_df = df_trn, valid_df = df_val, path = "")
# Language model learner object
data_clas = TextClasDataBunch.from_df(path = "", train_df = df_trn, valid_df = df_val, vocab=data_lm.train_ds.vocab, bs=32)
分类对象
learn = language_model_learner(data_lm, AWD_LSTM, drop_mult=0.5)
# learn language model object
learn.fit_one_cycle(10, 1e-2)
# Fit a language model
learn.save_encoder('good_ft_enc')
# save the encoder of the language model
learn = text_classifier_learner(data_clas,AWD_LSTM,drop_mult=0.7)
learn.load_encoder('good_ft_enc')
# classifier object with the loaded encoder
learn.fit_one_cycle(3, 1e-2)
# fit the classifier
这些是遵循的一系列步骤,但是我无法理解数据加载器是否正确加载了我的text和label字段,因为我没有在函数参数中的任何地方给出它们。任何帮助将不胜感激
答案 0 :(得分:0)
datablock API是最近的fastai 1.0+的基本构建块。
因此,TextLMDataBunch.from_df
(或TextClasDataBunch.from_df
)代表您做几件事,包括定义火炬数据集,创建标签,将它们拆分为训练/测试等。
我强烈建议您阅读数据块文档