我正在根据歌曲歌词对音乐类型进行情感分类。我有四个.txt格式的大型语料库,我需要将它们分成多个.txt文件,以便程序一次读取一个。每首歌我都需要一个.txt文件。我了解我需要做的事情的概念,但是我之前从未解析过任何文本文件。就像大多数网站上的歌词一样,歌词是逐行的,并且每首歌的开头和结尾之间都有一个分隔。边界之间也有一线空白,如下所示。
Lyrics
Lyrics
Lyrics
<SONG_BOUNDARY>
Lyrics
Lyrics
Lyrics
请务必注意,我不希望任何新的.txt文件包含分隔符的文本,因为这可能会影响情绪分类。结果应该只是各种.txt文件,每个文件只有一首歌。可能会有成千上万个。
首先,我是一个非常基础的编码人员,没有太多的经验(只有一个类),因此高级代码将使我无所适从。我知道我可能应该一次使用for循环一次在一个大的.txt文件中循环,但是我从未被教过如何做,而我一直在寻找的答案都涉及到CSV文件,我不想要,或者只是拥有将文件分割为“每十行”之类的代码。
这只是我不知道如何做的第一步;我之前已经完成的培训过程和分类(带有提供的示例.txt文件)。
如果有人可以提供帮助,我将不胜感激。