使用Python进行Web挖掘

时间:2015-04-07 17:08:56

标签: python web web-scraping

我打算用Python抓取汇率。从HTML页面获取原始数据后,我需要为输出/可视化做好准备,需要什么样的处理?我是否需要一些文本处理,NLP算法,图形处理或清理数据?

1 个答案:

答案 0 :(得分:0)

我不确切知道您的需求,但根据您的评论,您可以使用以下代码从该页面中提取所有数据:

import urllib
import bs4
url=urllib.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read().decode('Windows-1252')
soup=bs4.BeautifulSoup(url)
data=soup.get_text(' ')
print(data)

这个脚本在python 2.7上编写,你需要安装beautifulsoup4。

或者您可以使用以下代码。在这段代码中我提取了美元汇率:

import urllib.request
import xml.etree.ElementTree as ET
url=urllib.request.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read()
f=open('data.xml','w+b')
f.write(url)
f.close()
tree = ET.parse('data.xml')
root = tree.getroot()
for i in range(len(root[0])):
           print(root[0][i].text)

或者您可以提取ForexBuying的所有费率:

for i in root.iter('ForexBuying'):
    print(i.text)