我需要一个关于如何分析此类数据的建议。我想对它进行情感分析或线性回归作为机器学习工具。预测因子是得分。
color type make new score
red truck ford y 2
black sedan chevy n 4
silver sedan nissan y 5
silver truck nissan n 2
black coupe toyota y 1
blue van honda y 1
red truck toyota n 4
red coupe ford n 2
black sedan ford y 1
blue truck toyota y 4
white coupe chevy y 3
white van toyota n 5
red van ford y 2
silver truck nissan n 3
black sedan honda n 1
silver truck chevy y 4
red truck chevy y 5
white coupe honda n 5
blue sedan chevy n 2
blue van nissan y 3
我可以在WEKA中运行LinearRegression分类器,产生:
score = 1.6 ( color=red,silver,white) + 1.8 (make=honda,nissan,toyota,chevy) + 0.55
但是,我想在Django中为Web应用程序实现这一点。是否有另一种方法来处理这些数据并产生不使用WEKA的线性回归方程。关于如何分析线性回归以外的任何其他建议?我已经实现了一个决策树。
答案 0 :(得分:4)
您可以使用scikit-learn作为您的机器学习库,尤其是linear regression capability。 This example也可能有用。
此外,您始终可以将Weka java API绑定到您的应用程序,或者您自己实现线性回归,在给定矩阵代数库的情况下实现它是相当容易的算法。