从python中的文本中提取数字字符串

时间:2018-07-11 13:33:34

标签: python regex pandas text-extraction

我正在尝试使用python从文本中提取数字字符串-示例:“大田区大森北3−24−27ルミエールN103”我只希望从df列中获取“ 3-24-27”。我尝试了this,但错误表明语法无效。我现在正在使用日语脚本,但其他语言也需要此脚本。我是python新手,需要一些帮助-谢谢。

2 个答案:

答案 0 :(得分:2)

使用str.extract

例如:

import pandas as pd
df = pd.DataFrame({"a": [ "大田区大森北3−24−27ルミエールN103"]})
print( df["a"].str.extract(r"(\d+−\d+−\d+)") )

输出:

0    3−24−27
Name: a, dtype: object
  • 注意:我使用而不是键盘上的减号(-

答案 1 :(得分:1)

您可以仅使用正则表达式标准库来做到这一点:

import re

pattern = '(\d+−\d+−\d+)'
text = '大田区大森北3−24−27ルミエールN103'
result = re.search(pattern, text)
print(result.group(0))

该模式使用'\ d +'仅获取数字,并使用'-'作为示例中的分隔符。