在这里度过艰难时期。请导航至http://www.cbioportal.org/public-portal/index.do
在底部它说:“从示例基因集中选择”。如果您点击其中任何一个集合,其上方将显示基因列表。我想要清除列表中每个项目的基因,但列表不在源HTML中。
有什么想法吗?
谢谢!
答案 0 :(得分:3)
网页实际上使用JSON来提取所包含的数据,你可以使用rjson轻松地删除所有这些内容。此代码将读入所有数据:
library(rjson)
json=fromJSON(file='http://www.cbioportal.org/public-portal/portal_meta_data.json')
user_genes = json$gene_sets[2:length(json$gene_sets)] # Remove first 'header' entry
df = data.frame(do.call(rbind,user_genes))
row.names(df) = NULL # Strip off ugly row names