我正在尝试使用新的Microsoft.Spark库设置spark。方法DataFrame.PrintSchema可以正常工作,但是方法DataFrame.Take()提供System.NotImplementedException。其他方法的分配也有此异常。
我查看了源代码,“ Take”方法调用了collect方法,并且在调用collectToPython时失败了。
SparkSession spark = SparkSession
.Builder()
.AppName(".NET Spark")
.GetOrCreate();
DataFrame dataFrame = spark.Read().Json("people.json");
IEnumerable<Row> rows = dataFrame.Take(1);
这只是一个尚未完成的Microsoft库吗?还是我做错了什么?
答案 0 :(得分:0)
您尝试过发布的最新版本吗?我使用了v0.2.0,以下各项按预期工作正常:
var spark = SparkSession.Builder().GetOrCreate();
var df = spark.Read().Json("people.json");
IEnumerable<Row> rows = df.Take(1);
foreach (var row in rows)
{
Console.WriteLine(row.Get("name"));
}
spark.Stop();