标签: apache-spark
我正在构建一个Spark应用程序,用于从MS Ping Server查询大日志数据。
我有一个创建上下文并加载文件的Java类,我还有一个Java解析器来解析它并将其加载到DataFrame中。
我能够成功创建SQLContext并且查询也能正常工作。
日志表如下所示(在SQLContext上)
Timestamp | pfhost | Response Time
我希望获得一整天每小时间隔的每台服务器的平均响应时间。
如何进行查询?