python feedparser - 在读取</script>后从feed中删除<script>标记和所有内容

时间:2015-01-16 16:16:27

标签: python django feedparser

我正在使用feedparser阅读Feed,Feed中的一些内容包含类似

的内容
&lt;p&gt; some word &lt;/p&gt;

&lt;script&gt;
    (function(i,s,o,g,r,a,m){i["GoogleAnalyticsObject"]=r;i[r]=i[r]||function(){
      (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
      m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
      })(window,document,"script","//www.google-analytics.com/analytics.js","ga");

      ga("create", "UA-wewewefwef-13", "www.wewefwef.com");
      ga("require", "displayfeatures");
      ga("set", "anonymizeip", true);
      ga("send", "pageview");
&lt;/script&gt;

它正在移除&lt;script&gt;内的所有内容,只读取&lt;p&gt;。为什么?我究竟做错了什么?

好的,我发现in the docs feedparser会自动清理脚本标记。但是如果我知道这个源并且我想要那些脚本标签呢?我该如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

好的,我明白了:

feedparser.SANITIZE_HTML = 0

和中提琴!