我使用rvest从网站提取数据。结果是类似
[1] <div>Pflichtbereich<br> - Allgemeiner Bereich</div>
[2] <div>Pflichtbereich<br> - Berufsfachlicher Bereich</div>
[3] <div>Wahlpflichtbereich</div>
[4] <div>Wahlbereich</div>
我想保留所有常规的“单词”。我首先使用gsub删除了<div>
等。但是有时表达式是<br>
或<i>
或类似的东西。为了使事情变得简单,我想
删除>首次出现之前的所有内容(包括“>”
) <div>Wahlbereich</div> becomes Wahlbereich</div>
删除<首次出现后的所有内容(包括“ <”)
Wahlbereich</div> becomes Wahlbereich
我尝试了一些使用正则表达式的方法,但是我仍然找不到正确的组合。
sub(".*\\>","", <div>Wahlbereich</div>) gives me "<"
我认为这与“ <”出现多次有关。我不知道如何“找到第一次出现”。
最诚挚的问候