我的日期设置较大,其中部分列为(reverse=true)
,其他列为Date
,如状态,部门名称,国家/地区名称。
那么当我调用categorical Data
方法时,如何在graphlab中处理这些数据,我是否必须预先处理这些数据并将其转换为数字或直接提供给graphlab。
答案 0 :(得分:1)
Graphlab
主要用于计算基于表格和图表的数据集,并且具有较高的scalability
和performance
。在graphlab.linear_regression.create
中,graphlab
具有内置功能,可以理解数据类型,并为优化结果提供最合适的linear regression
方法。例如,对于目标和要素的数值数据,大多数情况下,graphlab
需要Newtons Method
线性回归。同样,根据数据集,了解需求并相应地给出方法。
现在,关于预处理,graphlab
只需要SFrame
学习,需要在学习之前正确解析。在创建SFrame
时,始终会反映未处理和错误创建数据并引发错误。因此,为了完成任何学习,您需要拥有干净的数据。如果SFrame
接受了数据,并且您选择了所需的目标和功能,那么您也可以选择pre-processing
和cleaning data
。此外,在任何学习算法之前进行feature engineering
始终是一个好习惯,并且在学习之前重新定义数据类型总是建议准确性。
关于如何在Graphlab
中处理数据的问题,我想说,这取决于!一些数据集是表格式的,并且相应地处理,一些数据集以图形结构处理。当regression tree
和boosted classifiers
遵循decision tree
概念时,Graphlab执行得非常好,并且在graphlab
以外的其他库中耗费时间和资源。
对我来说,graphlab
在创建推荐引擎时表现非常好,其中我有节点和边缘的数据集,而boosted tree classifier
18次迭代在完全可扩展的时间内完美无缺,我必须说,即使是树结构化数据graphlab
表现得非常好。我希望这个答案有所帮助。