我有一个从网站提取的原始HTML文件(Chrome上为CONTR + SHIFT + I)。现在,我使用以下代码将此文件加载到R中:
raw-HTML <- paste(readLines("sample-site.txt"), collapse="\n")
我现在取消使用此短语的所有内容
text <- unlist(strsplit(rawHTML, "\\."))
我要采取的最后一步是提取网站上的所有链接(因此,最终目标应该是诸如https://www.google.com等的列表。)。我尝试通过以下代码完成此操作:
text[grep(pattern = "href=", text, ignore.case = T)]
但是,这不能给我我想要的东西。对我做错了什么以及应该怎么做才能获得理想结果的任何反馈?