想要从文本或pdf文件中提取文本作为不同的段落

时间:2019-09-26 05:43:23

标签: python text-extraction corpus expert-system

选中以下文本

在艾哈迈达巴德古吉拉特邦的高级法院 R /刑事上诉编号2009年的251

批准和签名:

尊贵的法官R.P.流行症

================================================ =========== 1是否可以让本地报纸的记者看到判决? 2是否转介给记者? 3他们的君主是否希望看到判决的公正副本? 4此案是否涉及印度宪法解释的实质性法律问题或据此作出的任何命令? ================================================== ========古贾拉特州,拉米州,食品检验员,对决DHARMESHBHAI NARHARIBHAI GANDHI的办公室========================= ================================外观:上诉人的MS HB PUNANI,APP(2)否。1号对手/被告人的MR DK MODI(1317)============================ ============================= CORAM:尊敬的J.ICE。R.P. DHOLARIA先生

日期:12/03/2019

口头审判 1.上诉古吉拉特邦有 倾向于根据第378(1)条提出的本上诉 1973年《刑事诉讼法》(3) 反对过时的无罪判决和命令 第1页,共12页 R / CR.A / 251/2009 判决书 2008年11月17日,由学习到的第二增补 一级民事法官和司法裁判官, 纳迪亚德(Nadiad)在2007年第1号食品案中。

  1. 短事实引起了 目前的上诉是2006年11月10日在 18.00小时,申诉人访问了 被告被告位于朱纳 Makhanpura,Rabarivad,Nadiad和Panch 目击者,被告被发现从事 临时物品。申诉人确定 自己当食品检验员并给予 表格6中的暗示暗示已购买 存在的芥菜籽样品 Panchas,以进行分析。之后, 投诉人的食品检查员将 所述样本分为三等份 完成包装和密封的手续 获得供应商和panchas的签名,以及 在上述三部分中,有一部分被发送到 瓦杜达拉公共分析师进行分析和 其余两部分被送到当地卫生部门 权威,甘地纳加尔。此后,公众 分析师转发了他的报告。在上述报告中, 据说芥末的泥泞样品 种子贴错标签,这违反了 1954年《食品掺假法》的规定 (以下简称“该法”)和本规则的框架 在此之下。因此,据称 芥菜籽样本被贴错标签,并且 因此,被告已犯罪。 **第2页,共12页 R / CR.A / 251/2009 *判决* 因此,投诉被提起 被告被指控。

我希望能够编写一个程序,使其遵循给定的约束。请注意,这只是一个文件,我有40k个文件,它应该在所有文件上运行。所有文件都有一些区别,但是每个文件的基本格式都相同。

约束。

  1. 应从“元数据”之后开始文本提取过程。元数据是指从文件开头(即“古吉拉特邦高级法院”开始)到口头审判的有关文件的数据。在我拥有的所有文件中,字符串结束后有各种要点。因此,我需要将所有这些要点作为一个单独的段落(请参见文本中的2个要点,在不同的段落中需要它)。

  2. 检查以斜体显示的行,这些是text / pdf文件中的窗格。我需要删除这些内容,因为这些内容对我想要的文本内容没有任何意义。

  3. 这些文件都可以使用TEXT或PDF格式,因此我可以使用其中任何一个。但是我是python的新手,所以我不知道如何以及从哪里开始。我只是具有python的基本知识。

  4. 这些数据将被构建成一个“语料库”,以用于构建庞大的专家系统的进一步过程,因此您知道我希望做些什么。

1 个答案:

答案 0 :(得分:0)

  1. 阅读官方python docs
  2. 从python的基本str type and its methods开始。其中一种方法find将在您的文本中找到子字符串。
  3. 使用python切片符号提取所需的文本部分,例如
text = """YOUR TEXT HERE..."""
meta_start = 'In the high court of gujarat'
meta_end = 'ORAL JUDGMENT'
pos1 = text.find(meta_start)
pos2 = text.find(meta_end)
if pos2 > pos1 and pos1 > -1:
    # text is found, extract it
    text1 = text[meta_start + len(meta_start):meta_end - 1]
  1. 之后,您可以继续并将提取的文本保存到数据库中。

当然,更好和更复杂的解决方案是使用regular expressions,但这是另一个故事-尝试为自己找到正确的方法!

对于斜体和其他文本格式,您将永远无法以纯文本对其进行标记(除非您具有一些“元”标记,例如[i]标记)。