Question

我正在尝试使用beautifulsoup从网页中提取所有文本。我尝试运行我在此处找到的代码：https://www.researchgate.net/post/how_to_scrape_text_from_webpage_using_beautifulsoup_python

除了“é”或“à”等特殊字符外，一切正常。我尝试了一些修改，但我无法让它工作。这是我的代码：

a.TGDAFT>=#2018/01/01# AND a.TGDAFT<=#2018/04/01#";

但是，我确信问题来自于我使用bs4，因为我在写入文件时从未遇到过这个问题。

Answer 1

encoded_str = unicode_str.encode("ascii",'ignore')

您的代码行将您的文本编码为ascii。 Ascii不包含é或à等特殊字符。我不知道你为什么要从包含那些字符的UTF8解码为不包含它们的ascii。