Question

我需要一个Python Warrior来帮助我（我是一个菜鸟）！我正试图使用Module urllib从网内站点抓取某些数据。但是，由于我的公司网站只供员工查看而不是公众，我认为这就是我得到此代码的原因：

IOError :(＆＃39; http错误＆＃39;，401，＆＃39;未经授权＆＃39;，）

我怎么来这个？它甚至不会使用htmlfile.read（）

读取网站

获取公共网站的示例代码：

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

Answer 1

使用requests尝试requests_ntlm：

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text

如果您需要有关此库的任何细节的帮助而无法在文档中找到它，请发表评论。

如何使用python从Intranet站点抓取URL数据？

1 个答案: