在Python中进行Webscraping

时间:2017-09-06 16:40:57

标签: python python-3.x web-scraping python-3.5 urllib

以下代码输出空列表;我希望它能打印股票价格。任何帮助将不胜感激。谢谢!

import urllib.request
import re
companyList = ["aapl","goog","nflx"]
for i in range(len(companyList)):

    url = "https://finance.yahoo.com/quote/"+companyList[i]+"?p="+companyList[i]
    htmlfile = urllib.request.urlopen(url)
    htmltext = htmlfile.read()
    regex = '<span class="Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)" data-reactid="35"><!-- react-text: 36 -->()(.+?)<!-- /react-text --></span>'
    pattern = re.compile(regex)
    price = re.findall(pattern, str(htmltext))
    print(price)

2 个答案:

答案 0 :(得分:0)

我会为其中一家公司做这件事。但我希望你坚定地承诺,你不会告诉任何人我已经告诉你如何去做。

获取该页面的HTML副本并将其保存在本地。

$textFile = Get-Content -Path "C:\..." #reads in the text file
$lineOne = $textFile[0].Split(",") #splits the first line based on commma, repeat for each line
$formattedLine = $lineOne[0] + "," $lineOne[5] #creates new string

检查页面,然后在此页面和类似页面中复制粘贴您想要识别的项目。把它放在评论中以供参考。

>>> import urllib.request
>>> import re
>>> url = 'https://finance.yahoo.com/quote/AAPL/?p=AAPL'
>>> htmlfile = urllib.request.urlopen(url)
>>> htmltext = htmlfile.read()
>>> open('temp.htm', 'w').write(str(htmltext))
533900

将其保存在变量中,例如>>> # <span class="Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)" data-reactid="35"><!-- react-text: 36 -->161.38<

exp

确认字符串中没有多个空白字符。如果有,则用\ s +

替换整个空白字符串
>>> exp = '<span class="Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)" data-reactid="35"><!-- react-text: 36 -->161.38<'

使用单个'\'字符为字符串中的每个字符添加前缀,这些字符对正则表达式很重要。

>>> exp.find('  ')
-1

显示结果并进行检查。

>>> re.sub(r'[().]', lambda m: '\\'+m.group(), exp)
'<span class="Trsdu\\(0\\.3s\\) Fw\\(b\\) Fz\\(36px\\) Mb\\(-4px\\) D\\(ib\\)" data-reactid="35"><!-- react-text: 36 -->161\\.38<'

使用正则表达式查找目标项目。

>>> regex = '<span class="Trsdu\\(0\\.3s\\) Fw\\(b\\) Fz\\(36px\\) Mb\\(-4px\\) D\\(ib\\)" data-reactid="35"><!-- react-text: 36 -->([^<]+)<'

答案 1 :(得分:0)

查看以下脚本是否有帮助。这也包括身份验证。

    https://github.com/PraveenKandregula/JenkinsRSSScrappingWithPython/blob/master/JenkinsRSSScrappingWithPython.py