我有一个项目,使用R从搜索查询生成的URL中提取关键字。然后,确定这些提取的关键字中最常用的关键字,计算TF-IDF等。
作为R的新手,我尝试了以下方法。我用了两个不同的链接:
第1步:我使用以下代码进行了关键字提取:Web Scraping and Text Mining in R。我运行此代码两次,因为我通过更改代码中getURL()中的链接来提取2个URL。 结果:我为每个网址 1 dtm 提取。
第2步:为了计算tf-idf,我分析并使用了本文档中的第3章:http://tidytextmining.com/tfidf.html。我根据文档对数据进行了模式化:
目标是从搜索查询生成的URL中提取关键字。我已使用以下代码生成了网址:How to get google search results。 (请参阅下面的代码段)
提取后,确定这些关键字的出现次数,使用的最常用关键字,然后计算这些关键字的TF-IDF。
作为一个初学者,这是我能想到的最好的(我确实尝试过),但我绝对认为这样做的方法更好,而不是为每个网址做第1步和第2步
非常感谢您的帮助和/或反馈。
> search.term <- "tour package"
> quotes <- "FALSE"
> search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
> links <- getGoogleLinks(search.url)
> links <- gsub('/url\\?q=','',sapply(strsplit(links[as.vector(grep('url',links))],split='&'),'[',1))
> links
[1] "https://www.makemytrip.com/holidays-india/"
[2] "https://www.makemytrip.com/holidays-india/"
[3] "https://www.yatra.com/india-tour-packages"
[4] "http://www.thomascook.in/tcportal/international-holidays"
[5] "https://www.yatra.com/holidays"
[6] "https://www.travelguru.com/holiday-packages/domestic-packages.shtml"
[7] "https://www.chanbrothers.com/package"
[8] "https://www.tourmyindia.com/packagetours.html"
[9] "http://traveltriangle.com/tour-packages"
[10] "http://www.coxandkings.com/bharatdeko/"
[11] "https://www.sotc.in/india-tour-packages"