选择包含标点符号的字符串

时间:2017-11-20 14:29:40

标签: python regex pandas

所以我试图从一组教授中删除标题'名称。 像Dr.Eng, Dr.rer.nat, M.S., Dr., S.Si那样依此类推。基本上任何包含多个点的字符串。

这是根据","

分割名称和标题后的示例列表
2      [CHOTIMAH,  Dr.,  M.S., RINTO ANUGRAHA NQZ,  S...
3      [HARSOJO,  S.U.,  M.Sc.,  Dr., SUDARMAJI,  S.S...
4      [IKHSAN SETIAWAN,  S.Si.,  M.Si., ARI SETIAWAN...
5      [EKO SULISTYA,  Dr.,  M.Si., YOSEF ROBERTUS UT...
6       [SUNARTA,  Drs.,  M.S., WAGINI R.,  Drs.,  M.S.]
7      [BAMBANG MURDAKA EKA JATI,  Drs.,  M.S., KAMSU...
8      [AHMAD KUSUMA ATMAJA,  S.Si.,  M.Sc.,  Dr.Eng....
9                    [MOH. ALI JOKO WASONO,  M.S.,  Dr.]

我已经尝试了r'\S*[^\w\s]\S'但是它返回了

CHOTIMAH,  INTO ANUGRAHA NQZ,   .
HARSOJO,   UDARMAJI,  i.
IKHSAN SETIAWAN,  RI SETIAWAN,   ng.
EKO SULISTYA,  OSEF ROBERTUS UTOMO,  Dr.
SUNARTA,  AGINI   .
BAMBANG MURDAKA EKA JATI,  AMSUL ABRAHA,   Prof.
AHMAD KUSUMA ATMAJA,   ITRAYANA,   Dr.
MOH. ALI JOKO WASONO,  Dr. 

一些教授'名称缩短为XXX。例如:MOHAMMAD TO MOH.我并不希望将其删除。

感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

\w{0,}\.(\w{0,}\.)?此正则表达式测试字符串将获取任意长度的单词后跟一个句点,并将查找任意长度的另一个单词,后跟可选的句点。这会捕获Dr.M.S.等。如果不让我知道的话,我很确定这就是你所要求的。

将来您可以使用regexr.com轻松测试正则表达式匹配。您还使用PythonPandas标记了此信息,但这些信息并不是真正相关的标记。请包含更多代码以使标签相关或避免使用不相关的标签