按第一个字母

时间:2017-04-05 02:18:20

标签: r regex string

我正在进行实体解析项目,我需要在第一个字母的数据集中拆分作者/共同作者名称。

例如,在名为“A Gupta”的作者上提供以下两行数据:

14_7 A Gupta; Luis Orozco-Barbosa ; Nicolas D Georganas<>Switching Modules for ATM Switching Systems and Their Interconnection Networks <>Computer Networks and ISDN Systems

15_30 Alok Gupta; B oris J ukic; Prabhudev Konana<>Pricing Virtual Private Networks - An Economic, Engineering and Experimental Approach,<>Business Modelling A MultiDisciplinary Approach Essays honor of Andrew B Whinston C Holsapple V Jacob H R Rao eds Kluwer Academic Publishers forthcoming

我想在其中生成一个名为“author”的列,其中包含“A Gupta”和“Alok Gupta”,最好全部转换为“A Gupta”。

问题是如何让机器知道“A Gupta”和“Alok Gupta”在这个问题上是一样的“事物”。

我试图学习它的正则表达式,但我不知道如何搜索以字母(A)开头的单词,并且还要接下一个以另一个字母(G)开头的单词并取下他们离开了。

感谢。

0 个答案:

没有答案