Question

我正在尝试使用read.Genbank函数从R中的NCBI访问蛋白质序列数据：

例如

ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", " XP_007536378", 
                  "NP_001268234 XP_004712197", "XP_017531808", "PBC34963","BAN21060",
                  "XP_011342207","ACD03812", "XP_009644718", "XP_023982408",
                  "XP_023982408", "XP_006082035", "BAX24454", "XP_026490557",
                  "AAS10175", "BAO58576", "AAM49148") 

read.GenBank("ref.proteins")

但我不断收到此错误：

file（file，“ r”）中的错误：无法打开与“ https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=ref.proteins&rettype=fasta&retmode=text”的连接另外：警告消息：在file（file，“ r”）中：无法打开URL“ https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=ref.proteins&rettype=fasta&retmode=text”：HTTP状态为“ 400错误请求”

有人可以帮忙吗？如何解决连接问题？从什么香港专业教育学院在线阅读，这似乎是Mac OS上的问题？谢谢

Answer 1

您需要在第二行中的ref.proteins周围加上引号。这有效：

ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", " XP_007536378")
read.GenBank(ref.proteins)

Answer 2

您可以使用refseqR包将蛋白质序列下载到fasta文件中。

#Dependencies
library(refseqR)

ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", "XP_007536378")

save_AAfasta_from_xps(ref.proteins, "Downloads/my_proteins")

使用“ read.GenBank”连接到NCBI以访问蛋白质序列时出现R错误

2 个答案: