选中以下文本
在艾哈迈达巴德古吉拉特邦的高级法院 R /刑事上诉编号2009年的251
批准和签名:
尊贵的法官R.P.流行症
================================================ =========== 1是否可以让本地报纸的记者看到判决? 2是否转介给记者? 3他们的君主是否希望看到判决的公正副本? 4此案是否涉及印度宪法解释的实质性法律问题或据此作出的任何命令? ================================================== ========古贾拉特州,拉米州,食品检验员,对决DHARMESHBHAI NARHARIBHAI GANDHI的办公室========================= ================================外观:上诉人的MS HB PUNANI,APP(2)否。1号对手/被告人的MR DK MODI(1317)============================ ============================= CORAM:尊敬的J.ICE。R.P. DHOLARIA先生
日期:12/03/2019
口头审判 1.上诉古吉拉特邦有 倾向于根据第378(1)条提出的本上诉 1973年《刑事诉讼法》(3) 反对过时的无罪判决和命令 第1页,共12页 R / CR.A / 251/2009 判决书 2008年11月17日,由学习到的第二增补 一级民事法官和司法裁判官, 纳迪亚德(Nadiad)在2007年第1号食品案中。
我希望能够编写一个程序,使其遵循给定的约束。请注意,这只是一个文件,我有40k个文件,它应该在所有文件上运行。所有文件都有一些区别,但是每个文件的基本格式都相同。
约束。
应从“元数据”之后开始文本提取过程。元数据是指从文件开头(即“古吉拉特邦高级法院”开始)到口头审判的有关文件的数据。在我拥有的所有文件中,字符串结束后有各种要点。因此,我需要将所有这些要点作为一个单独的段落(请参见文本中的2个要点,在不同的段落中需要它)。
检查以斜体显示的行,这些是text / pdf文件中的窗格。我需要删除这些内容,因为这些内容对我想要的文本内容没有任何意义。
这些文件都可以使用TEXT或PDF格式,因此我可以使用其中任何一个。但是我是python的新手,所以我不知道如何以及从哪里开始。我只是具有python的基本知识。
这些数据将被构建成一个“语料库”,以用于构建庞大的专家系统的进一步过程,因此您知道我希望做些什么。
答案 0 :(得分:0)
str
type and its methods开始。其中一种方法find
将在您的文本中找到子字符串。text = """YOUR TEXT HERE..."""
meta_start = 'In the high court of gujarat'
meta_end = 'ORAL JUDGMENT'
pos1 = text.find(meta_start)
pos2 = text.find(meta_end)
if pos2 > pos1 and pos1 > -1:
# text is found, extract it
text1 = text[meta_start + len(meta_start):meta_end - 1]
当然,更好和更复杂的解决方案是使用regular expressions,但这是另一个故事-尝试为自己找到正确的方法!
对于斜体和其他文本格式,您将永远无法以纯文本对其进行标记(除非您具有一些“元”标记,例如[i]标记)。