我试图在语料库的整个长度上按照正则表达式以不同的组合搜索特定关键字“ME”(i是循环中的迭代器,直到语料库的长度)。因此,作为一个例子,我在语料库的大部分简历中都有ME作为资格证书: - 我 2.电子学硕士 M.E. 4. ME.-计算机科学等。
matchME <- regmatches(as.String(docs[[i]]), gregexpr("\\WM\\.?E\\.?(\\s|\\.|\\-|\\(|\\:|\\,)|((Master)|(MASTER))[sS]?\\s?(((of)|(Of)|(OF))|((in)|(In)|(IN)))\\s?((Engineering)|(ENGINEERING)|(Engg)|(engineering))" , as.String(docs[[i]])))
但是,对于那些曾在平台上工作但未在大量文档中完成资格认证的人,我得到的结果是“Windows - ME”。我希望删除此特定集。所以我试图构建以下正则表达式,不包括“Windows-ME”或“Windows ME”等组合,但它似乎不起作用
[^(Windows)]\WM\.?E\.?(\s|\.|\-|\(|\:|\,)|((Master)|(MASTER))[sS]?\s?(((of)|(Of)|(OF))|((in)|(In)|(IN)))\s?((Engineering)|(ENGINEERING)|(Engg)|(engineering))