rvest-从OMIM提取数据

时间:2018-06-21 08:09:33

标签: r web-scraping rvest

编辑:经过一些研究和他人的帮助,我认为我试图做的事不道德。我从OMIM网站申请了OMIM API许可,并向需要做同样事情的任何人提供同样的建议。

我对HTML缺乏经验。

使用一些像“睫状”和“主要”这样的关键字,我想进入OMIM,进入列出的前5个链接,在这些链接中保存文本,并根据“纯合子”,“杂合子”等关键字抓取数据。< / p>

到目前为止我所做的:

rvestedOMIM <- function() {

  clinicKeyWord1 <- c('primary', 'ciliary')
  OMIM1 <- paste0("https://www.omim.org/search/?index=entry&start=1&limit=10&sort=score+desc%2C+prefix_sort+desc&search=", clinicKeyWord1[1], "+", clinicKeyWord1[2])
  webpage <- read_html(OMIM1)
  rank_data_html <- html_nodes(webpage,'.mim-hint')
  # Go into first 5 links and extract the data based on keywords
  allLinks <- rank_data_html[grep('a href',rank_data_html)]
  allLinks <- allLinks[grep('omim', allLinks)]

}

此刻,我被困在浏览第一个OMIM搜索中列出的链接(带有'primary'和'ciliary'关键字)。我编写的函数中的allLinks对象旨在提取链接

例如

244400。小学运动障碍,1岁; CILD1

https://www.omim.org/entry/244400?search=ciliary%20primary&highlight=primary%20ciliary

608644。小学运动障碍,3岁; CILD3

https://www.omim.org/entry/608644?search=ciliary%20primary&highlight=primary%20ciliary

即使我可以在链接244400或608644中抓取OMIM id,我也可以自己浏览这些链接,这是我认为的一种解决方法,以防万一我无法抓取到完整的链接。

谢谢您的帮助

0 个答案:

没有答案