从维基百科阅读表时,Python Pandas read_html失败

时间:2018-06-11 00:18:04

标签: python pandas web-scraping wikipedia

我正在尝试使用以下代码从Wikipedia页面读取表格:

import pandas as pd
pd.read_html('https://en.wikipedia.org/wiki/2013–14_Premier_League')

这样做会产生以下错误:

UnicodeEncodeError: 'ascii' codec can't encode character '\u2013' in    position 14: ordinal not in range(128)

我试过了

pd.read_html('https://en.wikipedia.org/wiki/2013–14_Premier_League', encoding='utf-8')

但仍然得到同样的错误。以下作品:

import requests
r = requests.get('https://en.wikipedia.org/wiki/2017–18_Premier_League')
c = r.content
dfs = pd.read_html(c)

我想知道的是如何让pd.read_html()直接在没有requests的网址上工作。什么是我不了解编码或这是熊猫的问题?

我正在运行Anaconda分发的Pandas 0.21.1和Python 3.5.4。谢谢你的帮助。

1 个答案:

答案 0 :(得分:-1)

问题在于

  

HTTPS

尝试删除https上的S,您可能需要参阅文档here