将.tsv文件转换为.txt会创建意外字符,是否可以解决?

时间:2018-12-08 11:57:20

标签: python python-2.7

需要处理具有100万行的flag[j] = 1文件,然后将其另存为.tsv文件。我可以通过这种方式成功执行此操作:

.txt

但是,在特定点之外,某些选项卡会意外地跳入某些特殊字符,例如:

enter image description here

如您所见,第一列只期望0到1之间的数字值。但是,在这两者之间会看到特殊字符。

是什么原因造成的?如何有效地解决此问题?

1 个答案:

答案 0 :(得分:0)

这些额外的字符存在于输入文件中。由于您没有对该文件的控制,最简单的操作是在处理数据时将其删除。 re模块的sub函数可以做到这一点:

>>> import re
>>> s = '1@'
>>> re.sub(r'\D+', '', s)
'1'

r'\D+'模式将与要从提供的字符串中删除的任何非数字字符匹配。