R从文本中提取名称

时间:2019-03-29 03:34:22

标签: r regex

我正在尝试从字符串中提取橄榄球运动员的名字列表。该字符串包含表中的所有信息,其中包含标题(团队名称)以及每个团队在每个位置的球员名称。它也有玩家排名,但我不在乎。

重要-缺少很多玩家排名。我找到了解决方案,但是无法解决缺少的排名(例如,下面的Rabah Slimani是第一个没有排名的球员)。

请注意,1-15的数字表示位置,每个位置后面总是有两个名称(主场球员和客场球员)。

这是示例字符串:

" Team Sheets # FRA France RPI IRE Ireland RPI 1 Jefferson Poirot 72 Cian Healy 82 2 Guilhem Guirado 78 Rory Best 85 3 Rabah Slimani Tadhg Furlong 85 4 Arthur Iturria 82 Iain Henderson 84 5 Sebastien Vahaamahina 84 James Ryan 92 6 Wenceslas Lauret 82 Peter O'Mahony 93 7 Yacouba Camara 70 Josh van der Flier 64 8 Kevin Gourdon CJ Stander 91 9 Maxime Machenaud Conor Murray 87 10 Matthieu Jalibert Johnny Sexton 90 11 Virimi Vakatawa Jacob Stockdale 89 12 Henry Chavancy Bundee Aki 83 13 Rémi Lamerat Robbie Henshaw 78 14 Teddy Thomas Keith Earls 89 15 Geoffrey Palis Rob Kearney 80 Substitutes # FRA France RPI IRE Ireland RPI 16 Adrien Pelissie Sean Cronin 84 17 Dany Priso 70 Jack McGrath 70 18 Cedate Gomes Sa 71 John Ryan 86 19 Paul Gabrillagues 77 Devin Toner 90 20 Marco Tauleigne Dan Leavy 80 21 Antoine Dupont 92 Luke McGrath 22 Anthony Belleau 65 Joey Carbery 86 23 Benjamin Fall Fergus McFadden "

注意-它来自这里:https://www.rugbypass.com/live/six-nations/france-vs-ireland-at-stade-de-france-on-03022018/2018/info/

所以基本上我想要的只是名称列表,以团队名称为标题

France             Ireland

Jefferson Poirot   Cian Healy
Guilhem Guirado    Rory Best
...              ...

任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:0)

我在高级记事本编辑器上尝试了此操作,并试图查找2个连续数字的出现,并用新行替换了这些数字。 ReGex是

\d+\s+\d+

完成替换后,您将在每行中留下2个名称,并用数字分隔。然后使用下面的ReGex用单个标签替换该数字

\s+\d+\s+

希望有帮助