文本数据集中的最长行

时间:2016-04-20 08:38:21

标签: r text-mining tm

我正在寻找一种方法来查找文本文件中最长行的长度。

E.g。考虑来自 when "stores" @products = @store.products.includes(variant_skus: {master_sku: :vendor_skus}) @variant_skus = @products.map(&:variant_skus).uniq @master_skus = @variant_skus.map(&:master_sku).uniq @vendor_skus = @master_skus.map(&:vendor_skus).flatten.uniq end 包的简单数据集。

tm

install.packages("tm") library(tm) txt <- system.file("texts", "txt", package = "tm") ovid <- VCorpus(DirSource(txt, encoding = "UTF-8"), readerControl = list(language = "lat")) length(ovid) [1] 5 由五个文档组成,每个文档由ovid元素(从16到18)的字符向量组成,我想在其中识别最长的文件。 我找到了pythonC#bash shell的文档,但令人惊讶的是,我没有找到任何关于R的内容。因此,我的尝试非常幼稚,其中包括:

n

1 个答案:

答案 0 :(得分:1)

实际上,一旦我们从空格中删除填充,它就是第四个文本,它是最长的。这是如何做。请注意,其中很多都来自于从 tm (V)语料库对象中获取文本的难度,该对象之前曾被问过(好几次),例如here

请注意,我将关于“行”的问题解释为引用五个文档,每个文档超过五行,但由多行组成(每行有16到18个长度的字符向量)。我希望我已经正确地解释了这一点。

texts <- sapply(ovid$content, "[[", "content")
str(texts)
## List of 5
## $ : chr [1:16] "    Si quis in hoc artem populo non novit amandi," "         hoc legat et lecto carmine doctus amet." "    arte citae veloque rates remoque moventur," "         arte leves currus: arte regendus amor." ...
## $ : chr [1:17] "    quas Hector sensurus erat, poscente magistro" "         verberibus iussas praebuit ille manus." "    Aeacidae Chiron, ego sum praeceptor Amoris:" "         saevus uterque puer, natus uterque dea." ...
## $ : chr [1:17] "    vera canam: coeptis, mater Amoris, ades!" "    este procul, vittae tenues, insigne pudoris," "         quaeque tegis medios, instita longa, pedes." "    nos venerem tutam concessaque furta canemus," ...
## $ : chr [1:17] "    scit bene venator, cervis ubi retia tendat," "         scit bene, qua frendens valle moretur aper;" "    aucupibus noti frutices; qui sustinet hamos," "         novit quae multo pisce natentur aquae:" ...
## $ : chr [1:18] "    mater in Aeneae constitit urbe sui." "    seu caperis primis et adhuc crescentibus annis," "         ante oculos veniet vera puella tuos:" "    sive cupis iuvenem, iuvenes tibi mille placebunt." ...

所以这里我们已经提取了文本,但它们在多行上由每个“文档”包含的每个字符向量的一个元素表示,并且因为它们是经文,所以在开头和结尾都有可变的空格填充其中一些要素。让我们修剪这些并使用 stringi stri_trim_both函数保留文本。

# need to trim leading and trailing whitespace
texts <- lapply(texts, stringi::stri_trim_both)
## texts[1]
## [[1]]
## [1] "Si quis in hoc artem populo non novit amandi,"     "hoc legat et lecto carmine doctus amet."          
## [3] "arte citae veloque rates remoque moventur,"        "arte leves currus: arte regendus amor."           
## [5] ""                                                  "curribus Automedon lentisque erat aptus habenis," 
## [7] "Tiphys in Haemonia puppe magister erat:"           "me Venus artificem tenero praefecit Amori;"       
## [9] "Tiphys et Automedon dicar Amoris ego."             "ille quidem ferus est et qui mihi saepe repugnet:"
## [11] ""                                                  "sed puer est, aetas mollis et apta regi."         
## [13] "Phillyrides puerum cithara perfecit Achillem,"     "atque animos placida contudit arte feros."        
## [15] "qui totiens socios, totiens exterruit hostes,"     "creditur annosum pertimuisse senem."              

# now paste them together to make a single character vector of the five documents
texts <- sapply(texts, paste, collapse = "\n")
str(texts)
##  chr [1:5] "Si quis in hoc artem populo non novit amandi,\nhoc legat et lecto carmine doctus amet.\narte citae veloque rates remoque movent"| __truncated__ ...
cat(texts[1])
## Si quis in hoc artem populo non novit amandi,
## hoc legat et lecto carmine doctus amet.
## arte citae veloque rates remoque moventur,
## arte leves currus: arte regendus amor.
## 
## curribus Automedon lentisque erat aptus habenis,
## Tiphys in Haemonia puppe magister erat:
## me Venus artificem tenero praefecit Amori;
## Tiphys et Automedon dicar Amoris ego.
## ille quidem ferus est et qui mihi saepe repugnet:
##     
## sed puer est, aetas mollis et apta regi.
## Phillyrides puerum cithara perfecit Achillem,
## atque animos placida contudit arte feros.
## qui totiens socios, totiens exterruit hostes,
## creditur annosum pertimuisse senem.

看起来更像是它。现在我们可以弄清楚哪个是最长的。

nchar(texts)
## [1] 600 621 644 668 622
which.max(nchar(texts))
## [1] 4