在R中第一次出现指定字符后保留所有内容

时间:2019-03-12 14:48:30

标签: r string

我使用rvest从网站提取数据。结果是类似

[1] <div>Pflichtbereich<br> - Allgemeiner Bereich</div> [2] <div>Pflichtbereich<br> - Berufsfachlicher Bereich</div> [3] <div>Wahlpflichtbereich</div> [4] <div>Wahlbereich</div>

我想保留所有常规的“单词”。我首先使用gsub删除了<div>等。但是有时表达式是<br><i>或类似的东西。为了使事情变得简单,我想

  1. 删除>首次出现之前的所有内容(包括“>”

    <div>Wahlbereich</div> becomes Wahlbereich</div>

  2. 删除<首次出现后的所有内容(包括“ <”)

Wahlbereich</div> becomes Wahlbereich

我尝试了一些使用正则表达式的方法,但是我仍然找不到正确的组合。

sub(".*\\>","", <div>Wahlbereich</div>) gives me "<"

我认为这与“ <”出现多次有关。我不知道如何“找到第一次出现”。

最诚挚的问候

0 个答案:

没有答案