我想为其title
,description
和keywords
抓取很多网站。
我正在使用ContentScraper
软件包中的Rcrawler
,并且知道它正在工作,但是某些URL无法执行,只是在下面生成错误消息。无论如何,它可以跳过特定的URL而不是停止整个执行吗?
Error: 'NULL' does not exist in current working directory
我看过this,但我认为它没有任何答案。这是我正在使用的代码。任何建议都将不胜感激。
Web_Info <- ContentScraper(Url = Websites_List,
XpathPatterns = c('/html/head/title', '//meta[@name="description"]/@content', '//meta[@name="keywords"]/@content'),
PatternsName = c("Title", "Description", "Keywords"),
asDataFrame = TRUE)