切片没有分隔符的熊猫数据框

时间:2019-07-19 16:13:57

标签: python

我有一个csv文件,其中有58万行,其中一列没有定界符。这是唯一的一行数据(例如NM R $ 012018010202AALR3 010ALLIAR ON 000000000149400000000015160000000001470000000000148400000000014890000000001475000000000148900403000000000000094500000000000140140100001000000000099993100000000000000100000010000000000000

我需要对要提取的每个信息进行字符开头,结尾和字符数的分析。

我有布局,例如(日期开始:positon 3结束:位置10字符数= 8)

所以,我需要的是这样的东西:

date=slice(start:3, end:10 , characters : 8)

return =:20180102

谢谢

我正在使用jupyter笔记本和熊猫

我使用此代码,但没有用:

bova_txt["data"]= bova_txt["serie"].str.slice(2,10, 8) 

我得到这个:

0         2
1         2
2         2
3         2

1 个答案:

答案 0 :(得分:0)

从评论中复制:

Pandas series.str.slice()不是(开始,结束,num_chars),因为开始和结束处隐含了字符数。它(像所有python切片一样)是(开始,停止,步进)。您正在告诉代码在长度8的子字符串中为您提供第2、10、18等个字符。

如果省略了第三个参数,则该步骤将在您提供的测试行上按原样运行代码

bova_txt["data"].str.slice(2,10)
0    20180102