试图刮蝠但却一无所获

时间:2017-01-04 19:33:00

标签: python beautifulsoup python-requests

我知道这是一个标题问题,因为如果我从我的代码中取出标题然后html吐出我是一个机器人但我无法弄清楚如何解决这个问题,即使我添加标题。你能给出什么建议?

import requests
from bs4 import BeautifulSoup


#Get the different pages to begin scraping data from
url = "http://www.manta.com/mb_41_ALL_19/louisiana"
headers = {    'Origin':'http://www.manta.com',
        'Referer':'http://www.manta.com/mb_41_ALL_19/louisiana',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
        , 'Accept-Language':'en-US,en;q=0.8'
        ,'Content-Type':'text/html; charset=utf-8', 'Host':None,}
newurl = requests.get(url, headers=headers)
soup = BeautifulSoup(newurl.text, "html.parser")
print(soup)

1 个答案:

答案 0 :(得分:1)

坏消息,看看你在body

得到了什么
<div id="distil_ident_block"></div>

distil是“Distil Networks”反网络抓取服务的标志。他们有他们的理由。引自"Terms of Service"

  

我们为您提供访问和使用Manta的有限权利。 你不是   授权访问Manta或其计算机,服务器和数据库   刮掉或“挖掘”我们的数据。

从技术上讲,你可以挑战Distil,但从法律上说你不应该这样做。