从语料库中删除部分

时间:2018-06-21 12:42:27

标签: r quanteda

我有数百份文件的量子语料库。如何删除特定部分-如摘要和脚注等。否则,我将面临手动操作。谢谢

根据要求,这是一个文本示例。它来自常规期刊文章。它显示了元数据,然后是摘要,然后是关键字,然后是引言,然后是作者联系方式,然后是文章正文,然后是注释,然后是披露声明,然后是关于贡献者的注释,然后是引用。除了本文的引言和正文,我想删除所有内容。我还想删除作者姓名和期刊标题-

“恐怖主义与政治侵略行为科学

    ISSN: 1943-4472 (Print) 1943-4480 (Online) Journal homepage: http://www.tandfonline.com/loi/rirt20

有时候他们回来了:回应

美国外国战斗人员回返者及其他

难以捉摸的威胁

克里斯托弗·J·赖特

引用本文:Christopher J. Wright(2018):有时他们回来:回应

美国外国战斗机回返者和其他难以捉摸的威胁,恐怖主义行为科学和

政治侵略,DOI:10.1080 / 19434472.2018.1464493

链接到本文:https://doi.org/10.1080/19434472.2018.1464493

     Published online: 23 Apr 2018.

     Submit your article to this journal

     Article views: 57

     View related articles

     View Crossmark data

                     Full Terms & Conditions of access and use can be found at

             http://www.tandfonline.com/action/journalInformation?journalCode=rirt20

” “恐怖主义与政治侵略行为科学,2018年

https://doi.org/10.1080/19434472.2018.1464493

有时候他们会回来:回应美国外国人

战斗人员返回者和其他难以捉摸的威胁

克里斯托弗·J·赖特

美国田纳西州克拉克斯维尔,奥斯汀豌豆州立大学刑事司法系

ABSTRACT                                                                          ARTICLE HISTORY

Much has been made of the threat of battle hardened jihadis from                  Received 8 January 2018

Islamist insurgencies, especially Syria. But do Americans who                     Accepted 10 April 2018

return home after gaining experience fighting abroad pose a

                                                                                  KEYWORDS

greater risk than homegrown jihadi militants with no such                         Terrorism; foreign fighters;

experience? Using updated data covering 1990–2017, this study                     domestic terrorism;

shows that the presence of a returnee decreases the likelihood                    homegrown terrorism;

that an executed plot will cause mass casualties. Plots carried out               lone-wolf; homeland security

引言:害怕。有点害怕

圣战分子会对他们的祖国造成多大的威胁?还有那些

获得在伊斯兰叛乱中出战或参加的经验后返回家乡

恐怖训练营比其他圣战武装分子构成更大的风险?如前所述,恐惧

Hegghammer(2013)的

有两个方面。首先,出国打仗的人可能会

联系方式Christopher J. Wright wrightc@apsu.edu奥斯汀豌豆州立大学刑事司法系,

美国田纳西州克拉克斯维尔37043

©2018恐怖主义研究学会

” “ 2 C. J. WRIGHT

许多有关西方外国战斗人员的最早研究都建议那些

与没有在伊斯兰保险业战斗经验的人相比,返回的人实际上更加致命。

机构。 Hegghammer(2013)的分析表明,这些外国战斗人员返回者

与他们离开时相比,危险更大。同样,拜曼(2015),尼尔森(2015),

Kenney(2015)和Vidno(2011)在提供关键见解的同时得出了类似的结论

将各种将外国战斗与成功的情节执行联系起来的机制,以及

更多的人员伤亡。

其他研究得出的结论不一,或与先前的发现直接矛盾-

ings。在Hegghammer(2013)的早期研究Hegghammer中添加了数年的数据

” “恐怖主义与政治侵略行为科学3

让他们形成大型本地网络的类型,这对于实施一个

大规模攻击而没有引起安全部门的注意”(第92页)。

注意

1. Charges were brought against Noor Zahi Salman, the widow of the Omar Mateen who carried

   out the June, 2016 attack against the Pulse Nightclub in Orlando, Florida (US Department of

   Justice., 2017a, January 17). However, in March of 2018 a jury acquitted her of the charges that

   she had foreknowledge of the attack.

披露声明

作者未报告潜在的利益冲突。

关于贡献者的说明

Christopher J. Wright博士是奥斯汀皮耶州立大学的助理教授,

教导国土安全局。

ORCID

Christopher J. Wright http://orcid.org/0000-0003-0043-6616

参考

Byman,D.(2015年)。归宿:当阿拉伯外国战斗人员在伊拉克和叙利亚时会发生什么

返回?冲突与恐怖主义研究,38(8),581–602。

Byman,D.(2016年)。圣战者返回者的威胁:危险有多大?政治学季刊,第131(1)号,

69–99。

Byman,D.和Shapiro,J.(2014)。害怕。有点害怕:来自西方外国的恐怖主义威胁

叙利亚和伊拉克的战斗人员。布鲁金斯的外交政策。华盛顿特区:布鲁金斯。取自

https://www.brookings.edu/wp-content/uploads/2016/06/Be-Afraid-web.pdf

1 个答案:

答案 0 :(得分:0)

方法

此处的关键是确定每个部分之前的常规标记,然后将其用作对corpus_segment()的调用中的标记。根据标签在整个文档中的规则程度,需要对其进行调整。

基于上面提供的内容,我将其粘贴到了名为example.txt的纯文本文件中。这段代码提取了简介,我认为这是本文的正文,但是为此,我必须确定一个标记其结尾的标签。在下面,我使用了“披露声明”。所以:

library("quanteda")

crp <- readtext::readtext("~/tmp/example.txt") %>% 
    corpus()
pat <- c("\nIntroduction?", "\nCONTACT", "©", "\nDisclosure statement")

crpextracted <- corpus_segment(crp, pattern = pat)

summary(crpextracted)
## Corpus consisting of 4 documents:
##     
##          Text Types Tokens Sentences              pattern
## example.txt.1    62     74         5        Introduction:
## example.txt.2    18     21         2              CONTACT
## example.txt.3   156    253        11                    ©
## example.txt.4   101    180        19 Disclosure statement
## 
## Source: /Users/kbenoit/Dropbox (Personal)/GitHub/quanteda/quanteda/* on x86_64 by kbenoit
## Created: Fri Jul  6 19:51:01 2018
## Notes: corpus_segment.corpus(crp, pattern = pat)

当您检查“ Introduction:”标记的段中的文本时,您会看到从该字符串到下一个标记被提取到新文档中的所有内容:

corpus_subset(crpextracted, pattern == "\nIntroduction:") %>%
    texts() %>% cat()
## being afraid. Being a little afraid
## 
## How great of a threat do would-be jihadis pose to their home country? And do those who
## 
## return home after gaining experience fighting abroad in Islamist insurgencies or attending
## 
## terror training camps pose a greater risk than other jihadi militants? The fear, as first outlined
## 
## by Hegghammer (2013), is two-fold. First, individuals that have gone abroad to fight might

如何删除pdf垃圾

所有pdf转换都会产生不需要的垃圾,例如运行的页眉,页脚等。这是删除它们的方法。 (注意:您将需要在上述步骤之前执行此操作。)如何构造toreplace模式?您将需要了解一些有关正则表达式的知识,并进行一些实验。

library("stringr")
toreplace <- '\\n*\" \" BEHAVIORAL SCIENCES OF TERRORISM AND POLITICAL AGGRESSION,{0,1} \\d+\\n*'
texts(crp) <- str_replace_all(texts(crp), regex(toreplace), "")
cat(texts(crp))

在您的示例的一部分中对此进行演示:

# demonstration
x <- '
" " BEHAVIORAL SCIENCES OF TERRORISM AND POLITICAL AGGRESSION 3

'
str_replace_all(x, regex(toreplace), "")
## [1] ""