Question

我打算用Python抓取汇率。从HTML页面获取原始数据后，我需要为输出/可视化做好准备，需要什么样的处理？我是否需要一些文本处理，NLP算法，图形处理或清理数据？

Answer 1

我不确切知道您的需求，但根据您的评论，您可以使用以下代码从该页面中提取所有数据：

import urllib
import bs4
url=urllib.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read().decode('Windows-1252')
soup=bs4.BeautifulSoup(url)
data=soup.get_text(' ')
print(data)

这个脚本在python 2.7上编写，你需要安装beautifulsoup4。

或者您可以使用以下代码。在这段代码中我提取了美元汇率：

import urllib.request
import xml.etree.ElementTree as ET
url=urllib.request.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read()
f=open('data.xml','w+b')
f.write(url)
f.close()
tree = ET.parse('data.xml')
root = tree.getroot()
for i in range(len(root[0])):
           print(root[0][i].text)

或者您可以提取ForexBuying的所有费率：

for i in root.iter('ForexBuying'):
    print(i.text)

使用Python进行Web挖掘

1 个答案: