我正在尝试使用beautifulsoup从网页中提取所有文本。 我尝试运行我在此处找到的代码:https://www.researchgate.net/post/how_to_scrape_text_from_webpage_using_beautifulsoup_python
除了“é”或“à”等特殊字符外,一切正常。 我尝试了一些修改,但我无法让它工作。 这是我的代码:
a.TGDAFT>=#2018/01/01# AND a.TGDAFT<=#2018/04/01#";
但是,我确信问题来自于我使用bs4,因为我在写入文件时从未遇到过这个问题。
答案 0 :(得分:1)
encoded_str = unicode_str.encode("ascii",'ignore')
您的代码行将您的文本编码为ascii。 Ascii不包含é或à等特殊字符。我不知道你为什么要从包含那些字符的UTF8解码为不包含它们的ascii。