我正在努力以最合适的格式准备文本数据,以防出现乱码。 我创建了一个CSV file - DOWNLOAD HERE,它显示了我的原始文本数据的结构。 如果您在excel中打开它,您会看到每个单元格都是一个文档,但是第三个文档包含换行符,但是我不希望将文档中的新行解析为新文档,而只希望使用一个新单元格来表示新行文档。
如果我将CSV导入到pandasDF,则生成的DF保留了我想要的结构,但是spacy不能直接从该DF起作用
df = pd.read_csv('test_line_breaks.csv')
我需要将此数据转换为可通过spacy使用的格式,以便它可以正确识别新文档,并且不会将文档中的新行解释为新文档。
我希望这是有道理的。