我想知道如果我的文本存储在vector中,我们如何计算R中单词的tf-idf值。现在我已经使用rvest Package抓取了一个新闻网站,并从那里提取了链接,文章并保存了那些向量中的文章。
现在,我的vector包含字符格式的文章,帮我从那里找到tf-idf值。提前谢谢。这是代码
library(rvest)
library(xml2)
pagetitle <- read_html("http://indianexpress.com/latest-news/")
pagetitle
url <- pagetitle%>%html_nodes(".title a")%>%html_attr("href")
len <- length(url)
articles <- c()
cnt <- 1
for (i in 1:2)
{
#url
h_text=""
c_text=""
newpage <- read_html(url[i])
heading <- newpage%>%html_nodes("h1")%>%html_text()
content <- newpage%>%html_nodes("p")%>%html_text()
heading <- sapply(heading,tolower)
heading <- gsub('[[:punct:] ]+',' ',heading)
heading <- gsub('[0-9]+','',heading)
h_text <- paste(h_text,heading,sep = " ")
content <- sapply(content,tolower)
n <- length(content)
for(i in 1:n)
{
content[i] <- gsub('[[:punct:] ]+',' ',content[i])
content[i] <- gsub('[0-9]+','',content[i])
c_text <- paste(c_text,content[i],sep = " ")
}
#h_text
articles[cnt] <- c_text
cnt <- cnt+1
rm(heading,content,h_text,c_text,n,len)
}
articles[1]
articles[2]