Question

在这里度过艰难时期。请导航至http://www.cbioportal.org/public-portal/index.do

在底部它说：“从示例基因集中选择”。如果您点击其中任何一个集合，其上方将显示基因列表。我想要清除列表中每个项目的基因，但列表不在源HTML中。

有什么想法吗？

谢谢！

Answer 1

网页实际上使用JSON来提取所包含的数据，你可以使用rjson轻松地删除所有这些内容。此代码将读入所有数据：

library(rjson)
json=fromJSON(file='http://www.cbioportal.org/public-portal/portal_meta_data.json')

user_genes = json$gene_sets[2:length(json$gene_sets)] # Remove first 'header' entry
df = data.frame(do.call(rbind,user_genes))
row.names(df) = NULL # Strip off ugly row names

R：现场刮板的想法

1 个答案: