我是哥伦比亚大学的研究助理,我一直在使用Open Secret的广告数据进行广告系列游说。我最近遇到了数据问题,因为格式错误,他们提供的.txt文件无法正确转换为.csv文件。我已经解决了由额外的逗号和括号引起的大多数错误,但是,一个错误仍然存在问题。在一个数据集(包含超过300万行数据)中,应该在一行中的单个列中包含特定于问题的信息。但是,文本文件的排列方式使得某些文本已经被换行分隔,从而导致一些应该存在于单个列中的信息被分割在不同的行之间。下面附有EmEditor中的示例。我想知道是否有一个程序或代码,我可以通过它来快速修复这些错误?它可以像查看每行的第一个字符的代码行一样简单,如果它不是数值,或者是字母或符号,只需退格一次,以便将信息放在前一行上。我的编码经验很少,非常感谢任何帮助。
答案 0 :(得分:0)
您可以使用正则表达式。
在查找和替换窗口中,选中“使用正则表达式”框。
在查找和替换文本框中使用以下表达式。
查找:\n([^\d])
替换:\1
搜索所有出现的换行符后跟一个非数字字符,并用非数字字符替换它,从而删除换行符。