我需要自动将一些大文本文件导入到我的python脚本中,以进行一些数据整理和分析。我需要删除/纠正不可打印字符的特定实例,以停止熊猫read_csv()将字符串拆分为新行。我正在使用Jupyter Notebook 5.0.0,这是我将提供的最新版本。
我有多个文本文件,这些文件的长度超过500个字符,超过800,000行。这些字符串包含一个字符数组,由于某些行中间插入了'\ n'字符串,因此其中某些字符的处理方式不理想。
我使用PowerShell使用以下代码针对每个文件运行了此问题,作为短期手动修复:
#Encoding Unicode
(Get-Content file.txt -Raw).replace('`nabc', 'abc') | Set-Content Newfile.txt
我尝试将open(filename.txt, 'rb').read()
方法用于逐行输出,但是数据馈送太大。我已经逐渐增加了jupyter_notebook_config.py文件中的数据馈送,但最终导致Jupyter无响应,并且崩溃了,没有产生任何好处。
我尝试过:
import pandas as pd
pd.read_csv('filename.txt', sep='\t', header=None, linetermintator='~', encoding='utf-16')
基本上,文本文件已经在'\ n'点处拆分了行,熊猫不会覆盖格式或将其读取为原始格式。