Question

我正在尝试在R

中的该字符中提取此单词gdac.broadinstitute.org_之后的名称

element <- "<li><a href=\"gdac.broadinstitute.org_BRCA.miRseq_Preprocess.mage-tab.2015020400.0.0.tar.gz.md5\"> gdac.broadinstitute.org_BRCA.miRseq_Preprocess.mage-tab.2015020400.0.0.tar.gz.md5</a></li>"

我正在使用stri_extract包中的stringi，但看起来我对正则表达式了解不多。我试过这样的事情：

stri_extract( element, 
                      regex  = "gdac.broadinstitute.org_")

任何人都可以提供帮助吗？

Answer 1

试试这个：

stri_extract_first_regex( element, "(?<=gdac.broadinstitute.org_)[\\w\\.-]+")

通常，使用正则表达式(?<=start)[set]+，您可以在表达式set之后提取所有内容（与start匹配的所有内容）。有关ICU正则表达式的更多信息：http://userguide.icu-project.org/strings/regexp

Answer 2

我不熟悉stringi，但可以轻松地使用gsub完成。我可以得到名称结束的地方，所以我假设名称是"

下面的所有内容

gsub(".*gdac.broadinstitute.org_(.*)\".*", "\\1", element)

哪个正则表达式用于在R中的字符串正则表达式中提取适当的信息？

2 个答案: