应用错误收集

时间：2013-10-09 15:50:33

标签： python text spreadsheet

我是一名统计学家，对Python有些新意。我有一个文本文档，如下所示：

逮捕＃ 1
逮捕日期
01/08/2011
的性
男
的充
攻击

逮捕＃ 2
逮捕日期
2011年1月13日
的性
的充
越轨
擅

逮捕＃3 ....

我想将其转换为以下形式：

逮捕性骚扰
1次男性突击 2失踪越轨越轨 3 ...

我可以使用正则表达式来说明逮捕日期和性别之间的文本，但我无法弄清楚如何为每次逮捕执行这些操作。这是一个我遇到的问题，因为警察部门倾向于交出PDF（然后我将其转换为上述格式的tex文件），而不是电子表格，所以任何帮助都将非常感激。

答案 0 :(得分：0)

1）使用regex.findall或split（）命令将原始数据分解为列表。

2）循环浏览列表并取出重要信息，将其放入字典中，然后将其附加到列表中。（你想要一个词典列表，[{“逮捕”：1，“日期”：01/08/2011，“性别”：“男性”，“收费”：“突击”}，{}，{} ...]

3）打开一个txt文件和writerows，big_list [0] {'arrest'}，big_list [0] {'date'}等等