如何提取文本文件中不同的数据子集并将每个子集传递到另一个文本文件中?

时间:2019-04-26 09:48:35

标签: python-3.x text-processing python-textprocessing

我的文本文件很少,我需要对子标题数据和该子标题数据的内容进行子集处理,然后传递给另一个文件。

文本文件如下

Notes 

1. content

2. here also there will be some content till n lines

rule Note 

1. n line content (a) for every section

Add Notes

(a) some content

other Note

1. the rest of file
***Code***
    with open(file,encoding='utf8') as in_file: 
        s = in_file.read() 

        for i, char in enumerate(s): 
            if s[i:i+5] == 'Notes': 
                break      

        for j in range(i,0,-1): 
            if s[j] == '\n': 
                break
        rest_of_file = s[j+1:]

上面的代码从Notes的文本文件中提取数据。 所以我的预期输出在第一次迭代中看起来像这样,需要传递到另一个文件

Notes 

1. content

2. here also there will be some content till n lines

第二次迭代

rule Note 

1. n line content (a) for every section

第三次迭代

Add Notes

(a) some content

最终迭代

other Note

1. the rest of file

注意: :这是一个文件,所有子标题都带有模式,但对于所有文本文件可能并不相同。一些文件可能会丢失Notes,某些文件可能会错过规则注释和添加注释,某些文件可能会直接包含其他注释,如可能会发生

我在这里找到的唯一常见模式是注

任何方法都可以,对此有何帮助? 准备和美丽的汤一起食用

1 个答案:

答案 0 :(得分:0)

此方法是

  1. 将所有内容传递到列表中
  2. 如果注释出现在项目中,则将项目索引添加到列表中
  3. 基于索引列表,将其与不同部分分开

示例代码在这里:

how to get subset of list from index of list in python