Question

我正在尝试学习文字处理。并使用nltk。试图遵循NLTK书。当我尝试阅读文本时，它正在阅读它有点不同。

import requests
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
response = requests.get(url)
response.text[:25]

如何在没有上传图片中突出显示部分的情况下阅读文字。

Answer 1

简单的答案是if request.method == 'POST': print(form) if form.is_valid(): form.save() else: form = PostForm() return render(request, 'index.html',{'form':form})，而不是把它放在shell中：

print

应打印：

print(response.text[:25])

shell对值进行The Project Gutenberg E8以找出它应该打印的内容

repr

将再次打印：

print(repr(response.text[25]))

Answer 2

这是您在此处看到的unicode格式。

你应该做的是，如果不是ascii，将unicode字符串转换为ignore ascii。

示例：

a=u'\uffefHello World'
print(a.encode('ascii', 'ignore'))
"Hello World"

Python请求阅读文本

2 个答案: