使用Applescript从维基百科图表中获取信息

时间:2014-03-10 22:18:35

标签: applescript wikipedia

我在谈论像这样的网页: http://en.wikipedia.org/wiki/Acetone 我想从图表中获取存储密度,摩尔质量,沸点等的信息。我需要程序将信息存储在单独的字符串中。是的不是变量,所以:

vapor_pressure = "24.46"

vapor_pressure = 24.46

这是因为我需要在其他地方再次打字,但我已经把那部分打倒了。 另外,如何从字符串中删除所有字符,除了数字和小数点?这就是我所需要的全部内容。

2 个答案:

答案 0 :(得分:1)

您可以使用MediaWiki API

do shell script "curl -s 'http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&titles=Acetone'|sed -n 's/^| VaporPressure = \\([0-9.]*\\).*/\\1/p'"

答案 1 :(得分:0)

我通过获取整个页面的html来解决这个问题:

import bs4
import urllib2
soup = BeautifulSoup(urllib2.urlopen(http://en.wikipedia.org/wiki/Acetone).read())

将其转换为文字:

page = soup.get_text()

然后,当我打印page时,我发现属性被两个换行符隔开:

list1 = page.split('\n\n')

用蒸汽压力抓住绳子:

vaporpressure = [x for x in list1 if "Vapor pressure" in x]

然后当我打印vaporpressure时,我得到了类似的东西:

Vapor pressure
24.46–24.60 kPa (at 20 °C)

这就是我所做的。