R脚本从KEGG获取路径而不使用任何包

时间:2013-05-17 06:32:41

标签: r

我正在为文本挖掘创建一个R包,我想在包中添加一个函数来获取KEGG的路径列表。我可以从wikipathways获取路径,但无法从KEGG获取。请建议我如何在没有任何包装的情况下从KEGG获取通道,如NBCI2R和其他,我想制作我自己的功能所以请帮助我。

谢谢

1 个答案:

答案 0 :(得分:2)

在继续这个回答之前,我强烈鼓励您阅读http://www.kegg.jp/kegg/legal.html。 KEGG仅供学术使用,您需要适当的许可才能为服务提供API /库。因此,您可能希望对需要此类许可证的ftp://ftp.genome.jp/进行非匿名访问。

但是,关于您的实际问题,您会在http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext下找到所有路径的平面文件。只需下载并解析它:

lines <- readLines(
  "http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext" )
pathways <- do.call(
   rbind,
   str_split( grep( "^[ABCD]\\s+\\d{5}\\s+.*?$", lines, value=TRUE ), "\\s{2,}" )
)
pathways <- as.data.frame( pathways )[-1]
colnames( pathways )  <- c( "ID", "Name" )

head(pathways)

     ID                                         Name
1 01100                           Metabolic pathways
2 01110        Biosynthesis of secondary metabolites
3 01120 Microbial metabolism in diverse environments
4 00010                 Glycolysis / Gluconeogenesis
5 00020                    Citrate cycle (TCA cycle)
6 00030                    Pentose phosphate pathway

请注意,这也可能仅用于非商业目的。但是,版权未说明非浏览器软件是否可以访问该网站用于非商业用途。所以,如果没有与他们联系,你就不要过于广泛地尝试这一点。