Question

当我从本地运行时，我尝试过在所有图书馆中使用漂亮的汤，硒，机械汤和西班牙凉菜汤，对玻璃门公司的评论进行网络剪贴。但是，当我尝试从我的AWS ec2实例运行时，相同的代码却遇到了403禁止错误。但是我的期望是从服务器运行代码。我有两个ec2实例，一个是linux，另一个是它们中的Windows，而Iam面临相同的错误

尝试以下代码段返回403 forbidden错误：

import urllib.request

user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'

url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"

request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)

response = urllib.request.urlopen(request)

with open('Output_new.txt', 'w', encoding='utf-8') as f:
    print(response.read(), file=f)

运行此代码时，我得到403尝试添加更多标头

我也使用gazpacho库get方法尝试过

此处：

url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)

soup = Soup(html)
print(soup)

with open('Output.txt', 'w', encoding='utf-8') as f:
    print(soup, file=f)

在这里我也面临着同样的错误。

我想念什么？

Answer 1

我发现Matthew创建的this method很有帮助！我必须对其进行一些微调才能使其正常工作（您可以在main.py函数顶部链接至公司的目标页面，然后将其替换为公司评论的目标页面），然后添加一行在底部将我的结果另存为CSV。

需要刮玻璃门公司的评论

1 个答案: