需要处理具有100万行的flag[j] = 1
文件,然后将其另存为.tsv
文件。我可以通过这种方式成功执行此操作:
.txt
但是,在特定点之外,某些选项卡会意外地跳入某些特殊字符,例如:
如您所见,第一列只期望0到1之间的数字值。但是,在这两者之间会看到特殊字符。
是什么原因造成的?如何有效地解决此问题?
答案 0 :(得分:0)
这些额外的字符存在于输入文件中。由于您没有对该文件的控制,最简单的操作是在处理数据时将其删除。 re模块的sub函数可以做到这一点:
>>> import re
>>> s = '1@'
>>> re.sub(r'\D+', '', s)
'1'
r'\D+'
模式将与要从提供的字符串中删除的任何非数字字符匹配。