有人可以解释如何定义用户代理部分,以便我可以避免在尝试从coincheckup.com网页读取表格数据时收到的“403禁止错误”吗?
这是测试代码:
import pandas as pd
tables = pd.read_html("https://coincheckup.com/")
print(tables[0])
其他问题: 1.)如何从其他网站读取特定数据? 我也可以使用pandas lib吗?有问题的网站是samcrypto.com,我想读出BTC和ETH值。
祝你好运!
答案 0 :(得分:0)
Pandas不允许您更改用户代理。
您最好的选择是使用urllib2或其他库(可能是请求),允许您更改用户代理,然后将数据传递给pandas。
以下是使用请求的示例:
import requests
headers = {'User-agent': 'Custom User Agent'}
response = requests.get('https://coincheckup.com', headers=headers)
pd.read_html(response.text)