网络抓取Python时出现编码问题

时间:2020-04-30 07:22:24

标签: python html web-scraping python-requests cyrillic

您知道吗,为什么我要获得这个 IDÐоÑÐееÑÑÑÑ°而不是得到 IDГосРеестра。我知道编码有一些问题,因为它是西里尔字母的。不知道如何解决。

抓取网页为link

我的代码是:

dfo_url = "https://opi.dfo.kz/p/ru/DfoObjects/objects/teaser-view/26730?OptionName=ExtraData"
r = requests.get(dfo_url)

tree = html.fromstring(r.content)
tr_elements = tree.xpath('//tr')
#Create empty list
col=[]
i=0
#For each row, store each first element (header) and an empty list
for t in tr_elements[2]:
    i+=1
    name=t.text_content()

    print ('%d:"%s"'%(i,name))
    col.append((name,[]))

1 个答案:

答案 0 :(得分:2)

这可能会解决,请在打印之前尝试执行此操作:

name.encode(encoding='UTF-8',errors='strict')

或尝试使用this链接。