使用pandas str.extract / regex提取字符串的唯一部分,它在一种情况下有效,但在另一种情况下无效。为什么?

时间:2019-01-25 09:45:58

标签: regex pandas extract

第一篇文章,希望不要违反任何规则。

我有两个字符串,如下所示

案例A ='\ x01117 = 1 \ x019771'

案例B ='\ x01117 = 5327 \ x01297 = 0 \'

这些实际上是更大的字符串的子字符串,但我相信唯一相关的部分。

我正在使用df.column.str.extract(“ x01117 =(。*)\\ x01”)试图仅获取'117 ='之后的数字

对于情况A,此方法可以正常工作,但对于情况B则不能。

案例A返回“ 1”(我想要的)

案例B重新调整为'5327 \ x01297 = 0 ....',其中切片之后的以下字符为'\ x019771'。 A切入和切出哪种情况。我不知道这是怎么发生的。有人可以解释我所缺少的吗?

为澄清起见,我正在尝试提取'x01117 ='和下一个'\ x01'之间的数据。

str.split在这里不起作用,因为它花费的时间太长。

谢谢

这里的格式使反斜杠很难算作转义符,我怀疑这也与代码中的问题有关。

0 个答案:

没有答案