编辑:经过一些研究和他人的帮助,我认为我试图做的事不道德。我从OMIM网站申请了OMIM API许可,并向需要做同样事情的任何人提供同样的建议。
我对HTML缺乏经验。
使用一些像“睫状”和“主要”这样的关键字,我想进入OMIM,进入列出的前5个链接,在这些链接中保存文本,并根据“纯合子”,“杂合子”等关键字抓取数据。< / p>
到目前为止我所做的:
rvestedOMIM <- function() {
clinicKeyWord1 <- c('primary', 'ciliary')
OMIM1 <- paste0("https://www.omim.org/search/?index=entry&start=1&limit=10&sort=score+desc%2C+prefix_sort+desc&search=", clinicKeyWord1[1], "+", clinicKeyWord1[2])
webpage <- read_html(OMIM1)
rank_data_html <- html_nodes(webpage,'.mim-hint')
# Go into first 5 links and extract the data based on keywords
allLinks <- rank_data_html[grep('a href',rank_data_html)]
allLinks <- allLinks[grep('omim', allLinks)]
}
此刻,我被困在浏览第一个OMIM搜索中列出的链接(带有'primary'和'ciliary'关键字)。我编写的函数中的allLinks对象旨在提取链接
例如
(https://www.omim.org/entry/244400?search=ciliary%20primary&highlight=primary%20ciliary)
(https://www.omim.org/entry/608644?search=ciliary%20primary&highlight=primary%20ciliary)
即使我可以在链接244400或608644中抓取OMIM id,我也可以自己浏览这些链接,这是我认为的一种解决方法,以防万一我无法抓取到完整的链接。
谢谢您的帮助