应用错误收集

我使用rvest从网站提取数据。结果是类似

[1] <div>Pflichtbereich<br> - Allgemeiner Bereich</div> [2] <div>Pflichtbereich<br> - Berufsfachlicher Bereich</div> [3] <div>Wahlpflichtbereich</div> [4] <div>Wahlbereich</div>

我想保留所有常规的“单词”。我首先使用gsub删除了<div>等。但是有时表达式是<br>或<i>或类似的东西。为了使事情变得简单，我想

删除>首次出现之前的所有内容（包括“>”
）
<div>Wahlbereich</div> becomes Wahlbereich</div>
删除<首次出现后的所有内容（包括“ <”）

Wahlbereich</div> becomes Wahlbereich

我尝试了一些使用正则表达式的方法，但是我仍然找不到正确的组合。

sub(".*\\>","", <div>Wahlbereich</div>) gives me "<"

我认为这与“ <”出现多次有关。我不知道如何“找到第一次出现”。

最诚挚的问候

在R中第一次出现指定字符后保留所有内容

0 个答案: