Question

当我从本地运行时，我尝试过在所有图书馆中使用漂亮的汤，硒，机械汤和西班牙凉菜汤，对玻璃门公司的评论进行网络剪贴。但是，当我尝试从我的AWS ec2实例运行时，相同的代码却遇到了403禁止错误。但是我的期望是从服务器运行代码。我有两个ec2实例，一个是linux，另一个是它们中的Windows，而Iam面临相同的错误

尝试此代码段返回

403禁止的错误

import urllib.request

user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'

url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"

request = urllib.request.Request(url)

request.add_header('User-Agent', user_agent)

response = urllib.request.urlopen(request)

#print(response.read())

with open('Output_new.txt', 'w', encoding='utf-8') as f:

    print(response.read(), file=f)

在运行此代码时，我得到403尝试添加更多标头

我也使用gazpacho libraries get method

进行了尝试

此处：

url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'

html = get(url)

soup = Soup(html)

print(soup)

with open('Output.txt', 'w', encoding='utf-8') as f:

    print(soup, file=f)

在这里我也面临着同样的错误

有人可以帮我解决这个问题

预先感谢

Answer 1

来自Glassdoor Terms of Use：

您同意不会：

未经我们明确的书面许可，将软件或自动化代理引入Glassdoor，或访问Glassdoor，以产生多个帐户，生成自动化消息，或从Glassdoor刮取，剥离或挖掘数据；

我认为您在这里遇到的基本问题不一定是技术问题-这是您违反了本网站的使用条款，而该网站显然有能力阻止您的工作。正确的答案可能是停止刮擦Glassdoor。

在我想从中抓取数据的网站中，我不止一次遇到这个难题。在一天结束时，最好尊重站点所有者的意愿，无论他们是什么样的。毕竟，他们赚钱并向员工付款是因为他们拥有其他人所没有的数据，并因此保护了它。

需要从AWS服务器（Windows或Linux）刮掉glassdoor公司的评论

1 个答案: