假设我在这里有这个HTML:
ul_tags = [u'<p>If you\u2019re in the pet food industry:</p><ul><li>What challenges do you face on a regular basis</li><li>What is your biggest struggle </li></ul>''']
我想将其写入文本文件,以便在文件中看起来与网页上的内容类似:
我做:
import nltk
import codecs
with codecs.open('test.txt', 'a', encoding="utf8") as file:
for tag in ul_tags:
file.write(nltk.clean_html(tag) + '\n')
当它被写入文件时,它看起来像这样:
如果您从事宠物食品行业:您经常面临哪些挑战您最大的挑战是什么
这只是一行文字。什么是让它看起来像网页原始结构的最佳方式?