如何替换python中包含不可打印字符的子字符串?

时间:2019-07-16 13:22:04

标签: python python-3.x pandas jupyter-notebook non-printing-characters

我需要自动将一些大文本文件导入到我的python脚本中,以进行一些数据整理和分析。我需要删除/纠正不可打印字符的特定实例,以停止熊猫read_csv()将字符串拆分为新行。我正在使用Jupyter Notebook 5.0.0,这是我将提供的最新版本。

我有多个文本文件,这些文件的长度超过500个字符,超过800,000行。这些字符串包含一个字符数组,由于某些行中间插入了'\ n'字符串,因此其中某些字符的处理方式不理想。

我使用PowerShell使用以下代码针对每个文件运行了此问题,作为短期手动修复:

#Encoding Unicode
(Get-Content file.txt -Raw).replace('`nabc', 'abc') | Set-Content Newfile.txt

我尝试将open(filename.txt, 'rb').read()方法用于逐行输出,但是数据馈送太大。我已经逐渐增加了jupyter_notebook_config.py文件中的数据馈送,但最终导致Jupyter无响应,并且崩溃了,没有产生任何好处。

我尝试过:

import pandas as pd

pd.read_csv('filename.txt', sep='\t', header=None, linetermintator='~', encoding='utf-16')

基本上,文本文件已经在'\ n'点处拆分了行,熊猫不会覆盖格式或将其读取为原始格式。

0 个答案:

没有答案