Question

我一直在解析网站，结果发现我以一种不太理想的方式将内容保存到json文件中，并且似乎无法对该过程进行反向工程。基本上，我已将BeautifulSoup标签保存为以下

r = requests.get(url).content
soup = BeautifulSoup(r, "html.parser")
article = soup.find("article")

b = article.encode()
c = str(b) 
# save c in json structure using json.dump(f)

，我希望能够获得给出c的文章。

使用编解码器似乎几乎可以帮助我实现这一目标：

import codecs
codecs.getdecoder("unicode_escape")(c)[0]

但是斯堪的纳维亚字母å，ä，ö无法正确解码。

简而言之：

输入：

'b\'<article> \\n L\\xc3\\xa4s bl.a. om Gasporox nya m\\xc3\\xa4tkoncept f\\xc3\\xb6r tr\\xc3\\xa5g, en intervju med styrelseledamoten Per Nystr\\xc3\\xb6m och nyheter fr\\xc3\\xa5n GPX Medical om bland annat projekten Sinuslight och Neo-Lung.\\n</article>''

所需的输出：

<article>
Läs bl.a. om Gasporox nya mätkoncept för tråg, en intervju med
styrelseledamoten Per Nyström och nyheter från GPX Medical om 
bland annat projekten Sinuslight och Neo-Lung.
</article>

谢谢！

Answer 1

您需要评估<?php namespace App; use Illuminate\Database\Eloquent\Model; class Packages extends Model { /** * Get the client. */ public function client() { return $this->hasOneThrough(---what will be params---); } }的值，然后使用b''对其进行解码

UTF-8

（Python）如何将字节字符串恢复为原始字符串？

1 个答案: