如何根据标题删除多个具有不同URL的页面的Web数据?

时间:2019-04-28 00:36:53

标签: r web-scraping rvest

我正在从URL http://iias.ac.in/recent-publications抓取Web数据。我已经使用“ rvest”取消了此页面所有标题的数据。现在我有一个向量,其中包含书名的

  

titl_book    [1]“泰戈尔的一些散文:历史。社会。政治”
   [2]“看不见的网络:关于Jangarh Singh Shyam生死的艺术历史探究”   ..

现在,我要像这样按网址收集每本书的网址, http://iias.ac.in/publication/some-essays-tagore-history-society-politics

由于矢量titl_book包含通用网址“ http://iias.ac.in”的后缀,因此如何一次性删除所有此类网址的数据。

1 个答案:

答案 0 :(得分:0)

似乎需要执行一些数据清理步骤。我强烈推荐stringr软件包。这就是我的做法。

title_book = c("Some Essays of Tagore : History. Society. Politics",
  "INVISIBLE WEBS: An art Historical inquiry into the life and death of Jangarh Singh Shyam")

title_book_edited = title_book %>% 
  str_to_lower() %>% 
  str_replace_all(pattern = " ", replacement = "-") %>% 
  str_remove_all(pattern = ":") %>% 
  str_remove_all(pattern = "\\.")

title_book_list = paste0("http://iias.ac.in/publication/", title_book_edited)

我用str_to_lower()转换字符串的大小写,用str_replace_all()替换所有匹配的模式,用str_remove_all()删除所有匹配的模式。输出看起来像这样。

> title_book_list
[1] "http://iias.ac.in/publication/some-essays-of-tagore--history-society-politics"                                        
[2] "http://iias.ac.in/publication/invisible-webs-an-art-historical-inquiry-into-the-life-and-death-of-jangarh-singh-shyam"

访问this official document了解更多信息。希望对您有所帮助。