我正在尝试学习文字处理。并使用nltk。 试图遵循NLTK书。 当我尝试阅读文本时,它正在阅读它有点不同。
import requests
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
response = requests.get(url)
response.text[:25]
如何在没有上传图片中突出显示部分的情况下阅读文字。
答案 0 :(得分:0)
简单的答案是if request.method == 'POST':
print(form)
if form.is_valid():
form.save()
else:
form = PostForm()
return render(request, 'index.html',{'form':form})
,而不是把它放在shell中:
print
应打印:
print(response.text[:25])
shell对值进行The Project Gutenberg E8
以找出它应该打印的内容
repr
将再次打印:
print(repr(response.text[25]))
答案 1 :(得分:0)
这是您在此处看到的unicode
格式。
你应该做的是,如果不是ascii
,将unicode字符串转换为ignore
ascii
。
示例:
a=u'\uffefHello World'
print(a.encode('ascii', 'ignore'))
"Hello World"