我正在研究机器学习和预测大约一个月。我尝试过使用bluemix,amazon机器学习和predictionIO的IBM watson。我想要做的是根据其他字段预测文本字段。我的csv文件有四个text fields
名为Question,Summary,Description,Answer
,大约有4500行/ Recrods。上传的数据集中没有数字字段。典型记录如下所示。
{'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does not boot','Answer':'Switch to safemode and rollback last update'}
在IBM watson上,我找到了question in their forums,并回复说现在无法自定义语料库上传。然后我转到亚马逊机器学习。我按照他们的文档,并能够使用api在自定义应用程序中实现预测。我在movielens data进行了测试,一切都是数字的。我成功上传了数据,并通过python-boto库获得了电影推荐。当我尝试上传我的csv文件时我遇到的问题是no text field can be selected as target
。然后我添加了数值对应于csv中的每个值。这个approcah使预测成功,但准确性不正确。可能是csv必须以更好的方式格式化。
来自movielens数据的记录粘贴在下面。它说userID 196给movieID 242一个两星评级(unix timestamp)881250949。
196 242 3 881250949
目前我正在尝试predictionIO。对movielens数据库的测试成功运行,没有documentation使用推荐模板中所述的问题。但仍然不清楚基于其他文本字段预测文本字段的可能性。
预测是仅在数字字段上运行还是可以根据其他文本字段预测文本字段?
答案 0 :(得分:2)
不,预测不仅仅在数字字段上运行。它可以是任何东西,包括文字。我的猜测是MovieLens数据使用ID而不是实际的用户和电影名称,因为
这节省了存储空间(这个数据集存在很长时间,然后存储肯定是一个问题),
无需知道实际用户名(隐私权问题)
对于您的情况,您可能希望查看文本分类模板https://docs.prediction.io/demo/textclassification/。您需要对每条记录的分类方式进行建模。