我有一个csv
文件,其中有58万行,其中一列没有定界符。这是唯一的一行数据(例如NM R $ 012018010202AALR3 010ALLIAR ON 000000000149400000000015160000000001470000000000148400000000014890000000001475000000000148900403000000000000094500000000000140140100001000000000099993100000000000000100000010000000000000
我需要对要提取的每个信息进行字符开头,结尾和字符数的分析。
我有布局,例如(日期开始:positon 3结束:位置10字符数= 8)
所以,我需要的是这样的东西:
date=slice(start:3, end:10 , characters : 8)
return =:20180102
谢谢
我正在使用jupyter笔记本和熊猫
我使用此代码,但没有用:
bova_txt["data"]= bova_txt["serie"].str.slice(2,10, 8)
我得到这个:
0 2
1 2
2 2
3 2
答案 0 :(得分:0)
从评论中复制:
Pandas series.str.slice()不是(开始,结束,num_chars),因为开始和结束处隐含了字符数。它(像所有python切片一样)是(开始,停止,步进)。您正在告诉代码在长度8
的子字符串中为您提供第2、10、18等个字符。
如果省略了第三个参数,则该步骤将在您提供的测试行上按原样运行代码
bova_txt["data"].str.slice(2,10)
0 20180102