从URL链接/随机字符串中提取日期

时间:2019-06-24 15:25:43

标签: r

我想从一列URL链接(5,000行原始数据)中提取日期。 URL示例包括:

是否有任何R代码可以学习模式并将日期提取到另一列?

谢谢。

文字长度不同可能是个问题...

1 个答案:

答案 0 :(得分:1)

至少从您的示例中,似乎日期是唯一的数字,并且它们始终跟随-。您可以使用正则表达式来捕获它们:

urls <- c('http://en/Pages/Introduction-More_Details-20191103.com',
          'http://en/Pages/United-Kingdom-EU-20190502.com', 
          'http://en/Pages/France-20190612.com',
          'http://en/Pages/telephone-in-the-UK-and-USA-190405.com')

gsub('(.*)-(\\d{6,8})(.*)', '\\2', urls)
#[1] "20191103" "20190502" "20190612" "190405" 

gsub('(.*)-(\\d{6,8})(\\.com)', '\\2', urls)

然后将其保存到新列。显然,获取所有URL的难易程度取决于您拥有多少种不同的格式。