从R中的.txt文件中提取相关文本

时间:2016-07-16 10:27:34

标签: r text-analysis

我仍处于r的基本初级水平。我目前正在研究一些自然语言,我使用的是ProQuest报亭数据库。即使数据库允许下载txt文件,我也不需要他们提供的所有内容。您可以在此处下载的文件如下所示:

###############################################################################
____________________________________________________________

Report Information from ProQuest 16 July 2016 09:58
____________________________________________________________




____________________________________________________________

Inhaltsverzeichnis

1. Savills cracks Granite deal to establish US presence ; COMMERCIAL PROPERTY

____________________________________________________________

Dokument 1 von 1

Savills cracks Granite deal to establish US presence ; COMMERCIAL PROPERTY

http:...

Kurzfassung: Savills said that as part of its plans to build...

Links: ...

Volltext: Property agency Savills yesterday snapped up US real estate banking firm Granite Partners...

Unternehmen/Organisation: Name: Granite Partners LP; NAICS: 525910

Titel: Savills cracks Granite deal to establish US presence; COMMERCIAL PROPERTY:   [FIRST Edition]

Autor: Steve Pain Commercial Property Editor

Titel der Publikation: Birmingham Post

Seiten: 30

Seitenanzahl: 0

Erscheinungsjahr: 2007

Publikationsdatum: Aug 2, 2007

Jahr: 2007

Bereich: Business

Herausgeber: Mirror Regional Newspapers

Verlagsort: Birmingham (UK)

Publikationsland: United Kingdom

Publikationsthema: General Interest Periodicals--Great Britain

Quellentyp: Newspapers

Publikationssprache: English

Dokumententyp: NEWSPAPER

ProQuest-Dokument-ID: 324215031

Dokument-URL: ...

Copyright: (Copyright 2007 Birmingham Post and Mail Ltd.)

Zuletzt aktualisiert: 2010-06-19

Datenbank: UK Newsstand

____________________________________________________________

Kontaktieren Sie uns unter: http... Copyright © 2016 ProQuest LLC. Alle Rechte vorbehalten. Allgemeine Geschäftsbedingungen:  ...

###############################################################################

我需要的是一种只将全文提取到csv文件的方法。原因是,当我在一个文件中下载数百篇文章时,很难手动复制和粘贴它们,我认为该文件非常结构化。但是,文本的长度各不相同。然而,人们可以在全文之后使用下一个标题作为停止标志(我猜)。

有没有办法做到这一点?

我真的很感激一些帮助。 亲切的问候, 斯特芬

2 个答案:

答案 0 :(得分:1)

假设您在单个文本文件中包含所有发布信息,请首先复制文件以进行重置。使用Notepad ++和RegEx,您将完成以下步骤:

  • 控制 + ˚F
  • 选择标记标签。
  • 搜索模式:正则表达式
  • 找到:^Volltext:\s
  • Alt + M 检查Bookmark line(如果仅取消选中)
  • 点击全部标记

enter image description here

从主菜单转到:搜索>书签>删除未标记的行

第三步,执行以下步骤:

  • 控制 + ħ
  • 搜索模式:正则表达式
  • 查找内容:^Volltext:\s(从下拉列表中选择)
  • 替换为:NOTHING(明文字段)
  • 点击全部替换

完成......

答案 1 :(得分:0)

试试这个:

con <- file("./R/sample text.txt")
content <- paste(readLines(con),collapse="\n")
content <- gsub(pattern = "\\n\\n", replacement = "\n", x = content)
close(con)
content.filtered <- sub(pattern = "(.*)(Volltext:.*?)(_{10,}.*)", 
                        replacement = "\\2", x=content)

结果:

> cat(content.filtered)
Volltext: Property agency Savills yesterday snapped up US real estate banking firm Granite Partners...
Unternehmen/Organisation: Name: Granite Partners LP; NAICS: 525910
Titel: Savills cracks Granite deal to establish US presence; COMMERCIAL PROPERTY:   [FIRST Edition]
Autor: Steve Pain Commercial Property Editor
Titel der Publikation: Birmingham Post
Seiten: 30
Seitenanzahl: 0
Erscheinungsjahr: 2007
Publikationsdatum: Aug 2, 2007
Jahr: 2007
Bereich: Business
Herausgeber: Mirror Regional Newspapers
Verlagsort: Birmingham (UK)
Publikationsland: United Kingdom
Publikationsthema: General Interest Periodicals--Great Britain
Quellentyp: Newspapers
Publikationssprache: English
Dokumententyp: NEWSPAPER
ProQuest-Dokument-ID: 324215031
Dokument-URL: ...
Copyright: (Copyright 2007 Birmingham Post and Mail Ltd.)
Zuletzt aktualisiert: 2010-06-19
Datenbank: UK Newsstand