解码在python 2.7中无法正常工作

时间:2017-03-11 07:41:40

标签: html css

我正在尝试制作一个程序,使用网络抓取来检索股票信息但不知何故该程序无法解码网页。我希望这段代码严格用于python 2.

import urllib2
import re

stock=str(raw_input("Give the stock name"))

url = "https://www.google.com/finance?q="

req = urllib2.Request(url)
response = urllib2.urlopen(req)
data = str(response.read())

data1 = data.decode('utf-8')

print(data)
m = re.search('meta itemprop="price"',data1)
start = m.start()
end = start+50
newString = data1[start:end]
m=re.search('content="',newString)
start = m.end()
newString1 = newString[start:]
m = re.search("/",newString1)
start=0
end=m.end()-3
final= newString1[0:end]

print(final)

1 个答案:

答案 0 :(得分:0)

这不是您问题的直接答案,而是建议。尝试使用beautifulsoup python库。它有许多可用于网页抓取和爬行的功能以及其他功能,并处理您在问题中尝试实现的大部分功能以及与所有python版本兼容的功能。

转到https://pypi.python.org/pypi/beautifulsoup4获取文档。

示例示例是;

import BeautifulSoup, urllib

url = 'http://www.py4inf.com/code/romeo.txt'
html = urllib.urlopen(url).read()
soup = BeautifulSoup.BeautifulSoup(html)
x = soup('a')

print x