Question

我有一个csv文件，其中有58万行，其中一列没有定界符。这是唯一的一行数据（例如NM R $ 012018010202AALR3 010ALLIAR ON 000000000149400000000015160000000001470000000000148400000000014890000000001475000000000148900403000000000000094500000000000140140100001000000000099993100000000000000100000010000000000000

我需要对要提取的每个信息进行字符开头，结尾和字符数的分析。

我有布局，例如（日期开始：positon 3结束：位置10字符数= 8）

所以，我需要的是这样的东西：

date=slice(start:3, end:10 , characters : 8)

return =：20180102

谢谢

我正在使用jupyter笔记本和熊猫

我使用此代码，但没有用：

bova_txt["data"]= bova_txt["serie"].str.slice(2,10, 8)

我得到这个：

0         2
1         2
2         2
3         2

Answer 1

从评论中复制：

Pandas series.str.slice()不是（开始，结束，num_chars），因为开始和结束处隐含了字符数。它（像所有python切片一样）是（开始，停止，步进）。您正在告诉代码在长度8的子字符串中为您提供第2、10、18等个字符。

如果省略了第三个参数，则该步骤将在您提供的测试行上按原样运行代码

bova_txt["data"].str.slice(2,10)
0    20180102

切片没有分隔符的熊猫数据框

1 个答案: