尝试使用python解析html时重定向到主页面

时间:2016-11-02 06:48:51

标签: python html parsing beautifulsoup scraper

from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests

url = "http://www.csgolounge.com/api/mathes"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data, "html.parser")

print (data)

我正在尝试使用此代码从this page获取文本,但每次我尝试从页面中搜索或获取文本时,我都会被重定向到主页,而我的代码会输出html,主页。我试图抓取的页面是.php文件,而不是html或文本文件。我想从页面中获取文本,然后提取数据并用它做我想做的事。

我尝试更改代码的标题,网站会认为我不是机器人,而是Chrome浏览器,但我仍然会被重定向到主页。我尝试过使用像BeautifulSoup这样的不同的html python解析器,以及类中构建的python,以及许多其他流行的解析器,但它们都给出了相同的结果。

有没有办法阻止这个,并从这个链接获取文本?这是我的代码中的错误还是什么?

1 个答案:

答案 0 :(得分:0)

首先,尝试不使用" www"部分。 将http://www.csgolounge.com/api/mathes重写为https://csgolounge.com/api/mathes

如果它不起作用,请尝试Selenium。

它可能会卡住,因为它无法处理javascript部分。 硒可以更好地处理它。