应用错误收集

我正在努力以最合适的格式准备文本数据，以防出现乱码。我创建了一个CSV file - DOWNLOAD HERE，它显示了我的原始文本数据的结构。如果您在excel中打开它，您会看到每个单元格都是一个文档，但是第三个文档包含换行符，但是我不希望将文档中的新行解析为新文档，而只希望使用一个新单元格来表示新行文档。

如果我将CSV导入到pandasDF，则生成的DF保留了我想要的结构，但是spacy不能直接从该DF起作用

df = pd.read_csv('test_line_breaks.csv')

我需要将此数据转换为可通过spacy使用的格式，以便它可以正确识别新文档，并且不会将文档中的新行解释为新文档。

我希望这是有道理的。

以正确的格式获取文本以用于spacy

0 个答案: