Question

from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests

url = "http://www.csgolounge.com/api/mathes"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data, "html.parser")

print (data)

我正在尝试使用此代码从this page获取文本，但每次我尝试从页面中搜索或获取文本时，我都会被重定向到主页，而我的代码会输出html，主页。我试图抓取的页面是.php文件，而不是html或文本文件。我想从页面中获取文本，然后提取数据并用它做我想做的事。

我尝试更改代码的标题，网站会认为我不是机器人，而是Chrome浏览器，但我仍然会被重定向到主页。我尝试过使用像BeautifulSoup这样的不同的html python解析器，以及类中构建的python，以及许多其他流行的解析器，但它们都给出了相同的结果。

有没有办法阻止这个，并从这个链接获取文本？这是我的代码中的错误还是什么？

Answer 1

首先，尝试不使用＆＃34; www＆＃34;部分。将http://www.csgolounge.com/api/mathes重写为https://csgolounge.com/api/mathes

如果它不起作用，请尝试Selenium。

它可能会卡住，因为它无法处理javascript部分。硒可以更好地处理它。

尝试使用python解析html时重定向到主页面

1 个答案: