浏览一个大的.txt文件并解析为多个较小的.txt文件

时间:2019-05-23 21:18:32

标签: python parsing text-files nltk

我正在根据歌曲歌词对音乐类型进行情感分类。我有四个.txt格式的大型语料库,我需要将它们分成多个.txt文件,以便程序一次读取一个。每首歌我都需要一个.txt文件。我了解我需要做的事情的概念,但是我之前从未解析过任何文本文件。就像大多数网站上的歌词一样,歌词是逐行的,并且每首歌的开头和结尾之间都有一个分隔。边界之间也有一线空白,如下所示。

Lyrics
Lyrics
Lyrics

<SONG_BOUNDARY>

Lyrics
Lyrics
Lyrics

请务必注意,我不希望任何新的.txt文件包含分隔符的文本,因为这可能会影响情绪分类。结果应该只是各种.txt文件,每个文件只有一首歌。可能会有成千上万个。

首先,我是一个非常基础的编码人员,没有太多的经验(只有一个类),因此高级代码将使我无所适从。我知道我可能应该一次使用for循环一次在一个大的.txt文件中循环,但是我从未被教过如何做,而我一直在寻找的答案都涉及到CSV文件,我不想要,或者只是拥有将文件分割为“每十行”之类的代码。

这只是我不知道如何做的第一步;我之前已经完成的培训过程和分类(带有提供的示例.txt文件)。

如果有人可以提供帮助,我将不胜感激。

0 个答案:

没有答案