我们正在开发一个场景,我们需要在插入之前检查记录的存在。如果记录已经存在,我们不再插入它。我们正在分批进行。首先,我们创建一批获取,以查看我们要插入的记录的存在。当表大小较小且非常间歇时,不会出现此问题。 获取的建议批量大小是多少。并且在插入之前检查记录是否存在的最佳方法是什么?感谢您的回复..
这是堆栈跟踪..
java.util.concurrent.ExecutionException: java.net.SocketTimeoutException: Call to b16-pf-dv-093.abc.com/10.106.8.103:60020 failed on socket timeout exception: java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/10.106.8.133:41903 remote=b16-pf-dv-093.abc.com/10.106.8.103:60020]
at java.util.concurrent.FutureTask$Sync.innerGet(FutureTask.java:222)
at java.util.concurrent.FutureTask.get(FutureTask.java:83)
at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.processBatchCallback(HConnectionManager.java:1604)
at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.processBatch(HConnectionManager.java:1456)
at org.apache.hadoop.hbase.client.HTable.batch(HTable.java:757)
at org.apache.hadoop.hbase.client.HTable.get(HTable.java:726)
at org.apache.hadoop.hbase.client.HTablePool$PooledHTable.get(HTablePool.java:367)
at com.abc.psp.core.metering.util.HBaseClient.get(HBaseClient.java:263)
at com.abc.psp.core.metering.dao.MeteringHBaseDAOImpl.addMeteredRecords(MeteringHBaseDAOImpl.java:374)
at com.abc.psp.core.metering.dao.MeteringHBaseDAOImpl.addMeteredRecords(MeteringHBaseDAOImpl.java:342)
at HBaseTest.main(HBaseTest.java:32)
Caused by: java.net.SocketTimeoutException: Call to b16-pf-dv-093.abc.com/10.106.8.103:60020 failed on socket timeout exception: java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/10.106.8.133:41903 remote=b16-pf-dv-093.abc.com/10.106.8.103:60020]
at org.apache.hadoop.hbase.ipc.HBaseClient.wrapException(HBaseClient.java:1026)
at org.apache.hadoop.hbase.ipc.HBaseClient.call(HBaseClient.java:999)
at org.apache.hadoop.hbase.ipc.WritableRpcEngine$Invoker.invoke(WritableRpcEngine.java:86)
at $Proxy6.multi(Unknown Source)
at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation$3$1.call(HConnectionManager.java:1433)
at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation$3$1.call(HConnectionManager.java:1431)
at org.apache.hadoop.hbase.client.ServerCallable.withoutRetries(ServerCallable.java:215)
at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation$3.call(HConnectionManager.java:1440)
at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation$3.call(HConnectionManager.java:1428)
at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
at java.util.concurrent.FutureTask.run(FutureTask.java:138)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
at java.lang.Thread.run(Thread.java:662)
Caused by: java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/10.106.8.133:41903 remote=b16-pf-dv-093.abc.com/10.106.8.103:60020]
at org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:164)
at org.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:155)
at org.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:128)
at java.io.FilterInputStream.read(FilterInputStream.java:116)
at org.apache.hadoop.hbase.ipc.HBaseClient$Connection$PingInputStream.read(HBaseClient.java:373)
at java.io.BufferedInputStream.fill(BufferedInputStream.java:218)
at java.io.BufferedInputStream.read(BufferedInputStream.java:237)
at java.io.DataInputStream.readInt(DataInputStream.java:370)
at org.apache.hadoop.hbase.ipc.HBaseClient$Connection.receiveResponse(HBaseClient.java:646)
at org.apache.hadoop.hbase.ipc.HBaseClient$Connection.run(HBaseClient.java:580)
答案 0 :(得分:9)
此处提供的解决方案并非100%正确。我在高负载时读取和写入都遇到了socketTimeOut。除非hbase服务器上的扫描或写入非常大,否则增加hbase.rpc.timeout不是解决方案。
这是我的问题:
我试图在几毫秒内扫描由hbase返回的行。在我将并发扫描线程从10增加到50之前,一切正常。通过这样做,我开始遇到socketTimeoutException(与此线程中的异常相同),这是阻止hbase从一个进程读取或写入的障碍。
要获得确切的解决方案,首先需要先了解原因。
socketTimeout的原因
一个。来自hbase服务器的读取或写入返回很慢
湾客户端无法连接到服务器并超时。 线程拥塞?
如果您遇到“a”,那么增加hbase.rpc.timeout可能是您的解决方案,但您最有可能也会以“b”结束。
我注意到默认情况下hbase客户端每个regionServer只创建一个连接。要进行验证,请从发出hbase读取的客户端运行此命令。确保负载在运行。
netstat -an | grep 60020 | grep EST
令我惊讶的是,对于每个regionServer,该进程只进行了一次连接。这解释了超时。只有一个连接/插座?似乎这是默认的hbase客户端行为。不知道为什么,但是?
<强>解决方案强>:
在客户端的hbase conf中添加这两个属性,然后重新启动客户端
<property>
<name>hbase.client.ipc.pool.type</name>
<value>RoundRobinPool</value>
</property>
<property>
<name>hbase.client.ipc.pool.size</name>
<value>10</value>
</property>
这在每个客户端的每个regionServer上创建了10个套接字。通过此更改,您应该看到客户端的重大改进。我没有遇到过socketTimeOutException,因为这个改变了。
答案 1 :(得分:3)
您收到此错误是因为您获取的时间超过了HBase客户端应用程序可以用于远程调用超时的默认允许时间,即 60秒。当你的表很大(这意味着你有更多的数据要获取)时,需要花费时间。您可以通过将 hbase.rpc.timeout 的值设置为 hbase-site.xml 文件中的某个更高值来增加此值。
Get的推荐批量大小是什么?
取决于您的设计,配置,规格,数据和访问模式。
在插入之前检查记录是否存在的最佳方法是什么?
如果您想检查某些内容,检查是唯一的选择。如果你能详细说明你的用例,那将会很有帮助。这将有助于我提出一些适当的建议。