使用GraphX计算连接组件时,Spark遇到了BlockManager

时间:2015-07-04 22:36:21

标签: amazon-web-services amazon-ec2 apache-spark

我在AWS EC2上使用Spark GraphX计算连接组件。 我相信计算是成功的,因为我看到了最终结果的类型信息。 然而,看起来Spark正在做一些清理工作。 BlockManager删除了一堆块并卡在

  

15/07/04 21:53:06 INFO storage.BlockManager:删除块rdd_334_4

     

15/07/04 21:53:06 INFO storage.MemoryStore:block rdd_334_4 of size   25986936从内存中删除(免费15648106262)

没有错误消息,没有像小时一样的更新。如果我按下Enter键,我将与群集断开连接。有谁碰巧知道这里发生了什么?

我使用了8个r3.4xlarge实例。我有700万个边缘和2亿个顶点。

谢谢!

2 个答案:

答案 0 :(得分:0)

块管理器确实在各种情况下进行清理,如果你得到了最终结果,那么可能不会再有任何消息或更新了。尝试查看网络ui,看看是否有任何正在运行的工作&国家最后的工作是什么。如果您的问题是您无法查看最终结果,因为日志消息将其覆盖在shell中,请尝试将其保存到本地变量

答案 1 :(得分:0)

以下是问题的确切解决方法。由于清理日志消息,我没有看到" scala>",所以我认为它仍在处理某些事情。如果我按"输入",我就断开了连接。我终于尝试输入实际有效的变量名。