from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
url = "http://www.csgolounge.com/api/mathes"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data, "html.parser")
print (data)
我正在尝试使用此代码从this page获取文本,但每次我尝试从页面中搜索或获取文本时,我都会被重定向到主页,而我的代码会输出html,主页。我试图抓取的页面是.php文件,而不是html或文本文件。我想从页面中获取文本,然后提取数据并用它做我想做的事。
我尝试更改代码的标题,网站会认为我不是机器人,而是Chrome浏览器,但我仍然会被重定向到主页。我尝试过使用像BeautifulSoup这样的不同的html python解析器,以及类中构建的python,以及许多其他流行的解析器,但它们都给出了相同的结果。
有没有办法阻止这个,并从这个链接获取文本?这是我的代码中的错误还是什么?
答案 0 :(得分:0)
首先,尝试不使用" www"部分。
将http://www.csgolounge.com/api/mathes
重写为https://csgolounge.com/api/mathes
如果它不起作用,请尝试Selenium。
它可能会卡住,因为它无法处理javascript部分。 硒可以更好地处理它。