我打算用Python抓取汇率。从HTML页面获取原始数据后,我需要为输出/可视化做好准备,需要什么样的处理?我是否需要一些文本处理,NLP算法,图形处理或清理数据?
答案 0 :(得分:0)
我不确切知道您的需求,但根据您的评论,您可以使用以下代码从该页面中提取所有数据:
import urllib
import bs4
url=urllib.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read().decode('Windows-1252')
soup=bs4.BeautifulSoup(url)
data=soup.get_text(' ')
print(data)
这个脚本在python 2.7上编写,你需要安装beautifulsoup4。
或者您可以使用以下代码。在这段代码中我提取了美元汇率:
import urllib.request
import xml.etree.ElementTree as ET
url=urllib.request.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read()
f=open('data.xml','w+b')
f.write(url)
f.close()
tree = ET.parse('data.xml')
root = tree.getroot()
for i in range(len(root[0])):
print(root[0][i].text)
或者您可以提取ForexBuying的所有费率:
for i in root.iter('ForexBuying'):
print(i.text)