我直接将文件读入大熊猫,因为一些奇怪的原因,反斜杠作为分隔符。这是代码:尝试使用escapechar作为参数来逃避反斜杠,因为我找到了某个地方,但这不起作用。我怎么能直接读到熊猫?
raw = pd.read_csv('http://language.media.mit.edu/data/public/unesco_langlang_20120722_iso639-3.txt', escapechar='\\', delimiter = "\\")
答案 0 :(得分:1)
我认为escapechar
不是您的问题/解决办法。我用以下代码读取文件没有问题。解决方案是使用变量空格作为分隔符。
import pandas as pd
raw = pd.read_csv(r'C:\temp\unesco_langlang_20120722_iso639-3.txt',
delim_whitespace=True)
raw.head(10)
# original_language target_language num_translations
# 0 abk aze 1
# 1 abk bul 1
# 2 abk deu 1
# 3 abk eng 2
# 4 abk est 2
# 5 abk fin 1
# 6 abk hin 1
# 7 abk kat 38
# 8 abk kaz 1
# 9 abk kbd 2