我希望用户输入文本,处理它然后在html文本区域显示。文本是英文的。目前我得到的是一些乱码的html标签。 如果我使用除僧伽罗语字符串以外的英语字符串,这可以正常工作。 这是我到目前为止所尝试的
cgitb.enable() #for debugging
form = cgi.FieldStorage()
doc1 = form.getvalue('doc1')
doc2 = form.getvalue('doc2')
sinstopwords = set(stopwords.words("sinhala"))
p = re.compile('[0-9]{1,9}')
p1 = re.compile('[0-9]{1,9}.[0-9]{1,9}')
data1 = doc1.replace('-','')
data2 = doc2.replace('-','')
newdata1 = p1.sub('0', p.sub('0',data1))
words1 = word_tokenize(newdata1)
newdata2 = p1.sub('0', p.sub('0',data2))
words2 = word_tokenize(newdata2)
filtered_sentence1 = [w1 for w1 in words1 if not w1 in sinstopwords]
filtered_sentence2 = [w2 for w2 in words2 if not w2 in sinstopwords]
outtext1 = ''
outtext2 = ''
for i in filtered_sentence1:
outtext1 = outtext1 + i + ' '
for j in filtered_sentence2:
outtext2 = outtext2 + j + ' '
以下是我使用print()
在python中设置输出的方法print("""<textarea class="form-control" rows="20" name="doc1">""")
print(outtext1)
print("""</textarea>
</div>
</div>
<div class="col-lg-6">
<div class="form-group">
<label>Document 2</label>
<textarea class="form-control" rows="20" name="doc2">
""")
print(outtext2)
print("""</textarea>
</div>
</div>
<div class="col-lg-12">
<div class="col-lg-6">
<div class="form-group">
<label>Token length of doc1 before removing stopwords</label>
""")
这似乎是一些转换问题,但我没有任何想法纠正这个问题。