所以,我是R的机器学习新手。我正在尝试R中的Kaggle Home Depot产品搜索相关性竞赛。 我的训练数据集的结构是 -
' data.frame':74067 obs。 6个变量:
$ id:int 2 3 9 16 17 18 20 21 23 27 ...
$ product_uid:int 100001 100001 100002 100005 100005 100006 100006 100006 100007 100009 ......
$ product_title:因子w / 53489等级"#62甜心14英寸。低 角杰克飞机",..:44305 44305 5530 12404 12404 51748 51748 51748 30638 25364 ......
$ search_term:因子w / 11795水平" $ hole saw","。外层 stain",..:1952 6411 3752 8652 9528 3499 7146 7148 4417 7026 ...
$相关性:因子w / 13级" 1"," 1.25"," 1.33",..:13 10 13 9 11 13 11 13 11 13 ...
$ levsim1:num 0.1818 0.1212 0.0886 0.1795 0.2308 ......
其中levsim1
是在比较搜索项和产品名后包含Levenshtein相似系数的向量。目标值是相关性,我尝试使用R中的C50包来建模此训练集。但是,一旦我运行此命令:
relevance_model <- C5.0(train.combined[,-5],train.combined$relevance)
(相关向量是13个级别的因子格式)。由于R中的计算,我的计算机挂起大约15-20分钟,后来我在R中收到此消息:
c50代码名为exit,值为1
我知道如果有空单元格,则此错误很常见,但数据集中没有单元格为空。
我不确定我是否在此软件包中使用了错误的数据类型。如果有人能说明为什么我会收到这个错误,或者在如何建模这个数据集方面阅读什么,那就太好了。