我正在执行ocr问题,我有500张图像,并且已经从图像中提取了文本并另存为CSV,因为该文本具有不同的日期格式,所以我想提取日期。 从那个文本。请帮助我如何提取日期表单文本。 日期格式如下:
07-June-2018,08/3/17,30-04-2018, 03/june/19, sep 29,2018,24may'19
我有这样的文字:
file_Name Text
0 01048818.jpeg
1 0156b46f.jpeg SST Z9R|.EPS5132K1ZL\nBILL N0 : ZIIG |)T:25HJ'...
2 01a0cabb.jpeg FourthStreetM|lI\nP174 iirwi iA /\V| Nut\n\n ...
3 02acce30.jpeg
4 02d54805.jpeg <§UU[§3U.|HV’\n\nSubway#1b'/raw Mum. 5/4-<5g4....
5 02f4068e.jpeg \-* 'r"“ \A>~ in u ‘ ..« mu.‘\nR8 Ahv'\ldIh|q...
6 0308aae2.jpeg server: mm Slalum u\n\nmay I H3533 Dy 7\nIame:...
7 0349ff40.jpeg m«.mw\\n\n52 M w u1m:m\n\n|‘C.uw1‘Hu w hm‘
8 0358c6c3.jpeg 5\n4 Lu A!rJ././ O 3\n.. I ..Or3 . B _.h H\n, ...
9 037ef967.jpeg Wemms YUU\n\nEDATHAMARA PETRHLEUM CU\n\nKK ROA...
10 0406cfb1.jpeg mlu tell us about your visit.\nValidation Code...
11 04887bab.jpeg 202\n\nWy A L/mm LNIRH smwmm, DH A IRH\nM1]! I...
12 049c8dfd.jpeg M7110
13 04f988a3.jpeg HAE‘-IGHfi.RPiJRA PLAZA\nFRDH K! [.50 TU MI 220...
14 04fa5e11.jpeg
15 05f91a79.jpeg "_‘d”K yous:\n1MCA‘WSter's D911’\n310 S Ilhnoi...
16 068ea6e6.jpeg Iukul 1:01 cm\n\n,.\n\nMmuy\n\n:1 Mn\nTh‘ ‘\n\...
17 0728f702.jpeg +1\n\nom INDIAN room\n204 Spring St\nNew York,...
18 077124e4.jpeg "" "NR\n§u§I' I‘fl»AR'A, ig tun gglilm.’\n\n(~1...
19 093304e6.jpeg cAsA“:5>”uNL\n\n£N1x'hPR\‘:l‘S\n\nWED\n\n \n\...
我尝试了这段代码,但出现了一个错误:
import re
text=df['Text']
m = re.search('\b(\d{2}-\d{2}-\d{4})\.', 'text')
print (m.group(1))
错误:
AttributeError: 'NoneType' object has no attribute 'group'
答案 0 :(得分:0)
您可以将dateutil.parser与fuzzy=True
结合使用以识别不同的日期时间格式
from dateutil.parser import parse
for item in df['Text'].tolist():
print(parse(item, fuzzy=True))
set dayfirst = true,如果01/05/09
为“日期-月份-年份”格式,则默认为MDY
答案 1 :(得分:0)
您可以使用日期查找器模块。
import datefinder
text = "uiuuiiuu 2010-07-10 love uhiuui07-June-2018hghju banana"
matches = list(datefinder.find_dates(text))
if len(matches) > 0:
# date returned will be a datetime.datetime object. here we are only using the first
#match.
print(matches)
else:
print ('No dates found')