我正在运行一些爬网,以测试结果是否有所偏离。为此,我创建了两个测试套件,第一个是使用请求和BeautifulSoup库创建的,另一个是基于硒的。我想找出网页是否以相同的方式检测到两个机器人。
但是我仍然不确定我是否正确,方法是假设请求和BeautifulSoup独立于Selenium。
我希望它不是一个转储问题,但是我还没有找到任何合适的答案(可能是由于关键字错误)。但是,任何帮助将不胜感激。 预先感谢
我检查了请求文档。我写了一封邮件给开发人员,没有任何答复。当然,我检查了谷歌。我发现了一些关于Scrapy与硒的东西,但是...请求和BeautyfulSoup是否与Scrapy有关?
答案 0 :(得分:1)
python请求模块不使用Selenium,BeautifulSoup也不使用。两者都将独立于Web浏览器运行。两者都是纯python实现。
答案 1 :(得分:1)
Selenium automates browsers,因此您将使用用户代理字符串和其他变量(选择使用Selenium驱动的浏览器将显示)向Web服务显示。
You can specify user-agent string,无论是否使用请求,但请求本身不会驱动浏览器,因此从用户代理角度来看,您将呈现为不同的实体,例如python-requests / 2.18。 4。
BeautifulSoup is a parser,因此它通过另一个库(如请求)呈现给Web服务;它没有自己的本地演示文稿。