Question

我正在尝试扫描具有超过1,000,000,000行的远程HBASE表。扫描后，使用扫描的行，尝试在hdfs中使用csv文件。

我尝试了将近3个星期来解决它，但我做不到。

==> 我尝试了compat协议，增加了网络tcp内存缓冲区，增加了超时配置，在扫描参数中将1设置为10000批大小等。

但是它几乎可以在30分钟内正常工作，但是突然发生了错误。几乎完成了1/50倍（效果很好，没有任何错误）请帮帮我。我试图找到错误的原因。但是我不明白。

有人知道如何解决吗？

这是我的代码

ModuleNotFoundError: No module named 'main'

Answer 1

首先确保HBase Thrift服务器已启动并正在运行。您可以使用以下命令运行Thrift服务器：

hbase-daemon.sh start thrift [ -p 9090 ]

如果要指定端口号，请使用-p。默认端口为9090

Answer 2

通过上面的代码，您将使其变得更加复杂，这只是几个简单的步骤