关键字提取&来自多个网址

时间:2017-10-07 07:52:24

标签: r tf-idf text-extraction

我有一个项目,使用R从搜索查询生成的URL中提取关键字。然后,确定这些提取的关键字中最常用的关键字,计算TF-IDF等。

作为R的新手,我尝试了以下方法。我用了两个不同的链接:

第1步:我使用以下代码进行了关键字提取:Web Scraping and Text Mining in R。我运行此代码两次,因为我通过更改代码中getURL()中的链接来提取2个URL。 结果:我为每个网址 1 dtm 提取

第2步:为了计算tf-idf,我分析并使用了本文档中的第3章:http://tidytextmining.com/tfidf.html。我根据文档对数据进行了模式化:

  1. 将每个dtm转换为数据帧
  2. 添加新列" Sitename / URL"和"总数没有。条款"到数据帧
  3. 将link2的数据框附加到link1,因为它们具有相同的列
  4. 然后我使用文档中的公式来计算“期限频率”'以及函数 bind_tf_idf 用于计算tf-idf
  5. 目标是从搜索查询生成的URL中提取关键字。我已使用以下代码生成了网址:How to get google search results (请参阅下面的代码段)

    提取后,确定这些关键字的出现次数,使用的最常用关键字,然后计算这些关键字的TF-IDF。

    作为一个初学者,这是我能想到的最好的(我确实尝试过),但我绝对认为这样做的方法更好,而不是为每个网址做第1步和第2步

    非常感谢您的帮助和/或反馈。

    > search.term <- "tour package"
    > quotes <- "FALSE"
    > search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
    > links <- getGoogleLinks(search.url)
    > links <- gsub('/url\\?q=','',sapply(strsplit(links[as.vector(grep('url',links))],split='&'),'[',1)) 
    > links
     [1] "https://www.makemytrip.com/holidays-india/"                 
     [2] "https://www.makemytrip.com/holidays-india/"                 
     [3] "https://www.yatra.com/india-tour-packages"                   
     [4] "http://www.thomascook.in/tcportal/international-holidays"   
     [5] "https://www.yatra.com/holidays"                             
     [6] "https://www.travelguru.com/holiday-packages/domestic-packages.shtml"
     [7] "https://www.chanbrothers.com/package"                       
     [8] "https://www.tourmyindia.com/packagetours.html"               
     [9] "http://traveltriangle.com/tour-packages"                     
    [10] "http://www.coxandkings.com/bharatdeko/"                     
    [11] "https://www.sotc.in/india-tour-packages" 
    

0 个答案:

没有答案