我正在尝试制作一个程序,使用网络抓取来检索股票信息但不知何故该程序无法解码网页。我希望这段代码严格用于python 2.
import urllib2
import re
stock=str(raw_input("Give the stock name"))
url = "https://www.google.com/finance?q="
req = urllib2.Request(url)
response = urllib2.urlopen(req)
data = str(response.read())
data1 = data.decode('utf-8')
print(data)
m = re.search('meta itemprop="price"',data1)
start = m.start()
end = start+50
newString = data1[start:end]
m=re.search('content="',newString)
start = m.end()
newString1 = newString[start:]
m = re.search("/",newString1)
start=0
end=m.end()-3
final= newString1[0:end]
print(final)
答案 0 :(得分:0)
这不是您问题的直接答案,而是建议。尝试使用beautifulsoup python库。它有许多可用于网页抓取和爬行的功能以及其他功能,并处理您在问题中尝试实现的大部分功能以及与所有python版本兼容的功能。
转到https://pypi.python.org/pypi/beautifulsoup4获取文档。
示例示例是;
import BeautifulSoup, urllib
url = 'http://www.py4inf.com/code/romeo.txt'
html = urllib.urlopen(url).read()
soup = BeautifulSoup.BeautifulSoup(html)
x = soup('a')
print x