我正在进行实体解析项目,我需要在第一个字母的数据集中拆分作者/共同作者名称。
例如,在名为“A Gupta”的作者上提供以下两行数据:
14_7 A Gupta; Luis Orozco-Barbosa ; Nicolas D Georganas<>Switching Modules for ATM Switching Systems and Their Interconnection Networks <>Computer Networks and ISDN Systems
15_30 Alok Gupta; B oris J ukic; Prabhudev Konana<>Pricing Virtual Private Networks - An Economic, Engineering and Experimental Approach,<>Business Modelling A MultiDisciplinary Approach Essays honor of Andrew B Whinston C Holsapple V Jacob H R Rao eds Kluwer Academic Publishers forthcoming
我想在其中生成一个名为“author”的列,其中包含“A Gupta”和“Alok Gupta”,最好全部转换为“A Gupta”。
问题是如何让机器知道“A Gupta”和“Alok Gupta”在这个问题上是一样的“事物”。
我试图学习它的正则表达式,但我不知道如何搜索以字母(A)开头的单词,并且还要接下一个以另一个字母(G)开头的单词并取下他们离开了。
感谢。