我想从一列URL链接(5,000行原始数据)中提取日期。 URL示例包括:
是否有任何R代码可以学习模式并将日期提取到另一列?
谢谢。
文字长度不同可能是个问题...
答案 0 :(得分:1)
至少从您的示例中,似乎日期是唯一的数字,并且它们始终跟随-
。您可以使用正则表达式来捕获它们:
urls <- c('http://en/Pages/Introduction-More_Details-20191103.com',
'http://en/Pages/United-Kingdom-EU-20190502.com',
'http://en/Pages/France-20190612.com',
'http://en/Pages/telephone-in-the-UK-and-USA-190405.com')
gsub('(.*)-(\\d{6,8})(.*)', '\\2', urls)
#[1] "20191103" "20190502" "20190612" "190405"
或
gsub('(.*)-(\\d{6,8})(\\.com)', '\\2', urls)
然后将其保存到新列。显然,获取所有URL的难易程度取决于您拥有多少种不同的格式。