我有一个CSV专栏,专门介绍文学作品的作者。它们以标准国会图书馆格式输入:LastName FirstName BirthYear-DeathYear。但也有例外情况,尤其是女性姓名和未知日期。
因此作者列可能包含以下条目:
Pope Alexander 1688-1744
Barbauld Mrs. (Anna Laetitia) 1743-1825
Aylett Robert 1583-1655?
Higden Ranulf d. 1364.
我想做的是在向量中仅隔离作者的名字。作为一个初学者,我对R中数据的预处理/准备阶段仍然有点粗糙,当它在a)多个实例中尝试减少文本时,我感到很茫然b)必须考虑的几个例外情况。
任何帮助或建议将不胜感激。