我正在寻找一个允许我从各种网站下载索引组合的包/方式。 索引成分很少变化且很容易获得,但我找不到任何在线可用的csv。
如何加载说出CAC 40定义?
PS:我关心的是名字/ isin / sicovam并不是索引中的权重
答案 0 :(得分:3)
您可以在维基百科上找到CAC40的组成,然后使用包XML
下载和处理。
函数readHTMLTable()
特别有用,因为它将查找并解析页面上的所有表。在这种情况下,相关表是第二个,因此代码中的索引[[2]]
。尝试:
library(XML)
url <- "http://en.wikipedia.org/wiki/CAC_40"
dat <- readHTMLTable(url)[[2]]
head(dat[, 1:3])
Company ICB Sector Ticker symbol
1 Accor hotels AC
2 Air Liquide commodity chemicals AI
3 Alstom industrial machinery ALO
4 ArcelorMittal steel MT
5 AXA full line insurance CS
6 BNP Paribas banks BNP
相同的代码也适用于FTSE 100:
url <- "http://en.wikipedia.org/wiki/FTSE_100_Index"
dat <- readHTMLTable(url)[[2]]
head(dat[, 1:3])
Company Sector Market cap (£bn)
1 Royal Dutch Shell Oil and gas 135
2 HSBC Banking 129
3 BP Oil and gas 85
4 Vodafone Group Telecomms 83
5 GlaxoSmithKline Pharmaceuticals 73
6 British American Tobacco Tobacco 69