标签: python regex text
我正在尝试解析100个Project Gutenberg文本以获取NLP任务,例如"H. G. Wells' War of the Worlds"。我正在尝试编写一个Python脚本来输出每个文本的句子列表。如何忽略Gutenberg文本的页眉和页脚以将实际书籍文本提取为句子?