我是Spark ML的新手。 我正在寻找以原始数据作为输入的Streaming ml示例(我的意思是原始字符串分隔数据,而不是矢量化数据)。 我试着查看大多数论坛,找到类似的例子,我找不到任何。
所以,我在Spark 1.6上采用以下方式进行Streaming Kmeans(Streaming Kmeans仍适用于矢量数据而不是数据帧), 但我不确定,如果这是正确的方法。
现在我对我实施此方法的方式存有疑虑。
有人可以指导我或分享一些以原始数据作为输入的流媒体ml示例吗?
Const string DB_CONN_STR = "SERVER=127.0.0.1; DATABASE=test7100; UID=root; PASSWORD=";
MySqlConnection cn = new MySqlConnection(DB_CONN_STR);
DataSet ds = new DataSet();
DataTable dt = new DataTable();
string sqlCmd = "SELECT `PR4`, `DHT`, `DHR` FROM `table 4` WHERE 1";
// PR4= place et DHT= time
MySqlDataAdapter adr = new MySqlDataAdapter(sqlCmd, cn);
adr.SelectCommand.CommandType = CommandType.Text;
adr.Fill(dt);
string[] x = new string[dt.Rows.Count];
string[] y = new string[dt.Rows.Count];
string[] z= new string[dt.Rows.Count]
for (int i = 0; i < dt.Rows.Count; i++)
{
y[i] = dt.Rows[i][0].ToString(); // place
x[i] = dt.Rows[i][1].ToString(); // theoretical hour format : "hh:mm:ss"
z[i] = dt.Rows[i][1].ToString(); // real hour format : "hh:mm:ss"
}
int j= dt.rows.count //j=33
for (int i = 0; i < dt.Rows.Count; i++)
{
grapheSillon.Series["théorique"].Points.AddXY(x[i], j);
grapheSillon.Series["réel"].Points.AddXY(z[i], j);
j=j-1
}