我有一项任务,其中我需要根据具有客户所面临问题的文本字段来预测里程表的连续变量读数。该字段不是下拉菜单,而是使用客户的逐字记录进行更新。 因此,我需要根据遇到客户问题的文本字段来预测里程表的读数。例如:
**Text** **Odometer Reading**
Clutch problem 20,000
Axle Issue 150,000
编辑:
我正在使用unigram建立线性模型。但是在执行数据预处理时会收到此警告:
> corp <- Corpus(VectorSource(ISSUES$CUSTOMER_VOICE))
>
> corp <- tm_map(corp,tolower)
Warning message:
In tm_map.SimpleCorpus(corp, tolower) : transformation drops documents
> corp <- tm_map(corp,removePunctuation)
Warning message:
In tm_map.SimpleCorpus(corp, removePunctuation) :
transformation drops documents
> corp <- tm_map(corp,removeWords,stopwords('english'))
Warning message:
In tm_map.SimpleCorpus(corp, removeWords, stopwords("english")) :
transformation drops documents
> corp <- tm_map(corp,stemDocument)
Warning message:
In tm_map.SimpleCorpus(corp, stemDocument) : transformation drops documents
有人可以告诉我如何解决此警告。
答案 0 :(得分:1)
这只是一种方法,但这可能不是最佳解决方案 对于文本列,请进行textminig操作以获取unigram和双字母组,然后将其转换为DTM矩阵,然后使用任何线性模型来预测里程表读数
我希望这可以解决您的问题