我有一个python gunicorn Web应用程序,当我尝试使用coredns缓存解析内部DNS名称时,抛出以下错误:
raise ConnectionError(e, request=request)\nrequests.exceptions.ConnectionError: HTTPConnectionPool(host='lb.consul.local', port=80):
Max retries exceeded with url: /hello/ (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f414d5259b0>:
Failed to establish a new connection: [Errno -2] Name or service not known',))"
我可以使用dig来解决同样的问题
dig @172.1.0.54 lb.consul.local
; <<>> DiG 9.9.5-9+deb8u16-Debian <<>> lb.consul.local
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 58411
;; flags: qr rd; QUERY: 1, ANSWER: 4, AUTHORITY: 0, ADDITIONAL: 1
;; WARNING: recursion requested but not available
;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;lb.consul.local. IN A
;; ANSWER SECTION:
lb.consul.local. 1 IN A 172.10.9.0
;; Query time: 1 msec
;; SERVER: 172.1.0.54#53(172.1.0.54)
;; WHEN: Wed Feb 20 02:43:47 UTC 2019
;; MSG SIZE rcvd: 358
要注意的一件事是,根据qr rd
的挖掘响应代码,答案并不具有权威性。如果我切换回/etc/resolv.conf
指向权威的dns服务器,而不是充当缓存的coredns服务器,则一切都可以正常工作。
请求库是否可以解决来自非权威来源的任何问题,或者是否可以配置该库以接受来自非权威dns来源的响应?
编辑2月20日
正在运行应用程序的服务器已正确配置,可以与上面指定的dns服务器对话:
root@server-test-7bff545c5b-42ln5:/app# cat /etc/resolv.conf
nameserver 172.1.0.54
search nstest.svc.cluster.local svc.cluster.local cluster.local
ec2.internal
options ndots:5
EDIT,太平洋标准时间2月20日上午8:50
如果我立即背靠背运行它,我已经能够仅使用机器内部的python shell来复制它:
>>> import socket
>>> socket.getaddrinfo('lb.consul.local', 80, 0, socket.SOCK_STREAM)
[(<AddressFamily.AF_INET: 2>, <SocketKind.SOCK_STREAM: 1>, 6, '', ('172.10.9.0', 80))]
>>> socket.getaddrinfo('lb.consul.local', 80, 0, socket.SOCK_STREAM)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python3.6/socket.py", line 745, in getaddrinfo
for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
socket.gaierror: [Errno -2] Name or service not known
dns端的日志:
2019-02-20T16:35:21.688Z [INFO] 172.10.112.60:41539 - 6366 "AAAA IN lb.consul.local. udp 57 false 512" NOERROR qr,aa,rd 134 0.003542729s
2019-02-20T16:35:21.717Z [INFO] 172.10.112.60:58468 - 40098 "AAAA IN lb.consul.local. udp 57 false 512" NOERROR qr,rd 134 0.000064083s
同样,失败的响应缺少aa
。
修改太平洋标准时间2月20日下午6:05
再花几个小时,我只是通过以下PR来禁用coredns中的负缓存来解决该问题:https://github.com/coredns/coredns/pull/2588。
这似乎已经解决了问题。但是话又说回来,我仍然不知道是什么导致了那些来自coredns缓存的否定ipv6查询结果在明显解决了ipv4问题时在套接字库中导致了异常。