244400。小学运动障碍，1岁; CILD1

Question

编辑：经过一些研究和他人的帮助，我认为我试图做的事不道德。我从OMIM网站申请了OMIM API许可，并向需要做同样事情的任何人提供同样的建议。

我对HTML缺乏经验。

使用一些像“睫状”和“主要”这样的关键字，我想进入OMIM，进入列出的前5个链接，在这些链接中保存文本，并根据“纯合子”，“杂合子”等关键字抓取数据。< / p>

到目前为止我所做的：

rvestedOMIM <- function() {

  clinicKeyWord1 <- c('primary', 'ciliary')
  OMIM1 <- paste0("https://www.omim.org/search/?index=entry&start=1&limit=10&sort=score+desc%2C+prefix_sort+desc&search=", clinicKeyWord1[1], "+", clinicKeyWord1[2])
  webpage <- read_html(OMIM1)
  rank_data_html <- html_nodes(webpage,'.mim-hint')
  # Go into first 5 links and extract the data based on keywords
  allLinks <- rank_data_html[grep('a href',rank_data_html)]
  allLinks <- allLinks[grep('omim', allLinks)]

}

此刻，我被困在浏览第一个OMIM搜索中列出的链接（带有'primary'和'ciliary'关键字）。我编写的函数中的allLinks对象旨在提取链接

例如

244400。小学运动障碍，1岁; CILD1

（https://www.omim.org/entry/244400?search=ciliary%20primary&highlight=primary%20ciliary）

608644。小学运动障碍，3岁; CILD3

（https://www.omim.org/entry/608644?search=ciliary%20primary&highlight=primary%20ciliary）

即使我可以在链接244400或608644中抓取OMIM id，我也可以自己浏览这些链接，这是我认为的一种解决方法，以防万一我无法抓取到完整的链接。

谢谢您的帮助

rvest-从OMIM提取数据

244400。小学运动障碍，1岁; CILD1

608644。小学运动障碍，3岁; CILD3

0 个答案: