我正在尝试在R
中的该字符中提取此单词gdac.broadinstitute.org_
之后的名称
element <- "<li><a href=\"gdac.broadinstitute.org_BRCA.miRseq_Preprocess.mage-tab.2015020400.0.0.tar.gz.md5\"> gdac.broadinstitute.org_BRCA.miRseq_Preprocess.mage-tab.2015020400.0.0.tar.gz.md5</a></li>"
我正在使用stri_extract
包中的stringi
,但看起来我对正则表达式了解不多。我试过这样的事情:
stri_extract( element,
regex = "gdac.broadinstitute.org_")
任何人都可以提供帮助吗?
答案 0 :(得分:2)
试试这个:
stri_extract_first_regex( element, "(?<=gdac.broadinstitute.org_)[\\w\\.-]+")
通常,使用正则表达式(?<=start)[set]+
,您可以在表达式set
之后提取所有内容(与start
匹配的所有内容)。有关ICU正则表达式的更多信息:http://userguide.icu-project.org/strings/regexp
答案 1 :(得分:1)
我不熟悉stringi
,但可以轻松地使用gsub
完成。我可以得到名称结束的地方,所以我假设名称是"
gsub(".*gdac.broadinstitute.org_(.*)\".*", "\\1", element)