熊猫read_csv错误标记了古腾堡项目中的文本

时间:2019-02-18 10:28:11

标签: python pandas

我正在尝试使用古腾堡计划的书来创建Python wordcloud。

如果我选择Jule Verne的书A Journey to the Centre of the Earth并下载了纯文本UTF-8文件,则当我使用read_csv时,我会从熊猫中收到错误消息。

这是我正在使用的代码:

from wordcloud import WordCloud, STOPWORDS 
import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.read_csv('pg18857.txt',delimiter=' ')

我收到以下错误消息:

  

pandas.errors.ParserError:标记数据时出错。 C错误:预期为14   176行中的字段,看到了15

我在pd.read_csv中尝试了几个选项,但是我无法解析文本。

1 个答案:

答案 0 :(得分:1)

Pandas专为结构化数据而设计。这意味着将东西组织成行和列,例如电子表格或矩阵。可以尝试一个文本文件,但是松散的文本太混乱了,熊猫无法解析。

您可能想要做的是将其拆分为一个句子列表,然后将该列表提供给熊猫。

这是一个简单的例子:

with open('pg18857.txt') as f:
    content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content] 
df = pd.DataFrame(content)