如何在graphlab中处理数据和字符串

时间:2017-12-11 12:01:48

标签: pandas jupyter-notebook linear-regression ipython-notebook graphlab

我的日期设置较大,其中部分列为(reverse=true),其他列为Date,如状态,部门名称,国家/地区名称。

那么当我调用categorical Data方法时,如何在graphlab中处理这些数据,我是否必须预先处理这些数据并将其转换为数字或直接提供给graphlab。

1 个答案:

答案 0 :(得分:1)

Graphlab主要用于计算基于表格和图表的数据集,并且具有较高的scalabilityperformance。在graphlab.linear_regression.create中,graphlab具有内置功能,可以理解数据类型,并为优化结果提供最合适的linear regression方法。例如,对于目标和要素的数值数据,大多数情况下,graphlab需要Newtons Method线性回归。同样,根据数据集,了解需求并相应地给出方法。

现在,关于预处理,graphlab只需要SFrame学习,需要在学习之前正确解析。在创建SFrame时,始终会反映未处理和错误创建数据并引发错误。因此,为了完成任何学习,您需要拥有干净的数据。如果SFrame接受了数据,并且您选择了所需的目标和功能,那么您也可以选择pre-processingcleaning data。此外,在任何学习算法之前进行feature engineering始终是一个好习惯,并且在学习之前重新定义数据类型总是建议准确性。

关于如何在Graphlab中处理数据的问题,我想说,这取决于!一些数据集是表格式的,并且相应地处理,一些数据集以图形结构处理。当regression treeboosted classifiers遵循decision tree概念时,Graphlab执行得非常好,并且在graphlab以外的其他库中耗费时间和资源。

对我来说,graphlab在创建推荐引擎时表现非常好,其中我有节点和边缘的数据集,而boosted tree classifier 18次迭代在完全可扩展的时间内完美无缺,我必须说,即使是树结构化数据graphlab表现得非常好。我希望这个答案有所帮助。