在R中查找tf-idf值

时间:2017-08-30 10:49:35

标签: r web-scraping rvest

我想知道如果我的文本存储在vector中,我们如何计算R中单词的tf-idf值。现在我已经使用rvest Package抓取了一个新闻网站,并从那里提取了链接,文章并保存了那些向量中的文章。

现在,我的vector包含字符格式的文章,帮我从那里找到tf-idf值。提前谢谢。这是代码

library(rvest)
library(xml2)
pagetitle <- read_html("http://indianexpress.com/latest-news/")
pagetitle
url <- pagetitle%>%html_nodes(".title a")%>%html_attr("href")
len <- length(url)
articles <- c()
cnt <- 1
for (i in 1:2)
{
 #url
 h_text=""
 c_text=""
 newpage <- read_html(url[i])
 heading <- newpage%>%html_nodes("h1")%>%html_text()
 content <- newpage%>%html_nodes("p")%>%html_text()
 heading <- sapply(heading,tolower)
 heading <- gsub('[[:punct:] ]+',' ',heading)
 heading <- gsub('[0-9]+','',heading)
 h_text  <- paste(h_text,heading,sep = " ")
 content <- sapply(content,tolower)
 n <- length(content)
 for(i in 1:n)
 {
   content[i] <- gsub('[[:punct:] ]+',' ',content[i])
   content[i] <- gsub('[0-9]+','',content[i])
   c_text <- paste(c_text,content[i],sep = " ")
 }
#h_text
articles[cnt] <- c_text
cnt <- cnt+1
rm(heading,content,h_text,c_text,n,len)
}
articles[1]
articles[2]

0 个答案:

没有答案