我在谈论像这样的网页: http://en.wikipedia.org/wiki/Acetone 我想从图表中获取存储密度,摩尔质量,沸点等的信息。我需要程序将信息存储在单独的字符串中。是的不是变量,所以:
vapor_pressure = "24.46"
不
vapor_pressure = 24.46
这是因为我需要在其他地方再次打字,但我已经把那部分打倒了。 另外,如何从字符串中删除所有字符,除了数字和小数点?这就是我所需要的全部内容。
答案 0 :(得分:1)
您可以使用MediaWiki API:
do shell script "curl -s 'http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&titles=Acetone'|sed -n 's/^| VaporPressure = \\([0-9.]*\\).*/\\1/p'"
答案 1 :(得分:0)
我通过获取整个页面的html来解决这个问题:
import bs4
import urllib2
soup = BeautifulSoup(urllib2.urlopen(http://en.wikipedia.org/wiki/Acetone).read())
将其转换为文字:
page = soup.get_text()
然后,当我打印page
时,我发现属性被两个换行符隔开:
list1 = page.split('\n\n')
用蒸汽压力抓住绳子:
vaporpressure = [x for x in list1 if "Vapor pressure" in x]
然后当我打印vaporpressure
时,我得到了类似的东西:
Vapor pressure
24.46–24.60 kPa (at 20 °C)
这就是我所做的。