Question

我想从一列URL链接（5,000行原始数据）中提取日期。 URL示例包括：

是否有任何R代码可以学习模式并将日期提取到另一列？

谢谢。

文字长度不同可能是个问题...

Answer 1

至少从您的示例中，似乎日期是唯一的数字，并且它们始终跟随-。您可以使用正则表达式来捕获它们：

urls <- c('http://en/Pages/Introduction-More_Details-20191103.com',
          'http://en/Pages/United-Kingdom-EU-20190502.com', 
          'http://en/Pages/France-20190612.com',
          'http://en/Pages/telephone-in-the-UK-and-USA-190405.com')

gsub('(.*)-(\\d{6,8})(.*)', '\\2', urls)
#[1] "20191103" "20190502" "20190612" "190405"

或

gsub('(.*)-(\\d{6,8})(\\.com)', '\\2', urls)

然后将其保存到新列。显然，获取所有URL的难易程度取决于您拥有多少种不同的格式。

从URL链接/随机字符串中提取日期

1 个答案: