如何使用beautifulsoup从网页中正确提取特殊字符?

时间:2018-04-30 06:33:15

标签: python html utf-8 beautifulsoup

我正在尝试使用beautifulsoup从网页中提取所有文本。 我尝试运行我在此处找到的代码:https://www.researchgate.net/post/how_to_scrape_text_from_webpage_using_beautifulsoup_python

除了“é”或“à”等特殊字符外,一切正常。 我尝试了一些修改,但我无法让它工作。 这是我的代码:

a.TGDAFT>=#2018/01/01# AND a.TGDAFT<=#2018/04/01#";

但是,我确信问题来自于我使用bs4,因为我在写入文件时从未遇到过这个问题。

1 个答案:

答案 0 :(得分:1)

encoded_str = unicode_str.encode("ascii",'ignore')

您的代码行将您的文本编码为ascii。 Ascii不包含é或à等特殊字符。我不知道你为什么要从包含那些字符的UTF8解码为不包含它们的ascii。