我正在解析一个数据集,该数据集恼人地决定用逗号分隔TSV中的项目(PharmaGKB路径,我正在看你),但在每个逻辑元素中都允许使用逗号。
基本上,逗号后跟空格表示没有分隔符,而后跟字符的逗号表示新元素。
“这是一个,元素,两个元素,三个元素”
应该是:
我有正则表达式a.split(",\\S+");
,它分割得很好但是它会在每次拆分后删除第一个字符。
正则表达式就像是为我找牙医,非常感谢帮助。
答案 0 :(得分:5)
积极向前看:
a.split(",(?=\\S)");