我是一名统计学家,对Python有些新意。我有一个文本文档,如下所示:
逮捕# 1
逮捕日期
01/08/2011
的性
男
的充
攻击
逮捕# 2
逮捕日期
2011年1月13日
的性
的充
越轨
擅
逮捕#3 ....
我想将其转换为以下形式:
逮捕性骚扰
1次男性突击
2失踪
越轨越轨
3 ...
我可以使用正则表达式来说明逮捕日期和性别之间的文本,但我无法弄清楚如何为每次逮捕执行这些操作。这是一个我遇到的问题,因为警察部门倾向于交出PDF(然后我将其转换为上述格式的tex文件),而不是电子表格,所以任何帮助都将非常感激。
答案 0 :(得分:0)
1)使用regex.findall或split()命令将原始数据分解为列表。
2)循环浏览列表并取出重要信息,将其放入字典中,然后将其附加到列表中。 (你想要一个词典列表,[{“逮捕”:1,“日期”:01/08/2011,“性别”:“男性”,“收费”:“突击”},{},{} ...]
3)打开一个txt文件和writerows,big_list [0] {'arrest'},big_list [0] {'date'}等等