我一直在解析网站,结果发现我以一种不太理想的方式将内容保存到json文件中,并且似乎无法对该过程进行反向工程。基本上,我已将BeautifulSoup标签保存为以下
r = requests.get(url).content
soup = BeautifulSoup(r, "html.parser")
article = soup.find("article")
b = article.encode()
c = str(b)
# save c in json structure using json.dump(f)
,我希望能够获得给出c的文章。
使用编解码器似乎几乎可以帮助我实现这一目标:
import codecs
codecs.getdecoder("unicode_escape")(c)[0]
但是斯堪的纳维亚字母å,ä,ö无法正确解码。
简而言之:
输入:
'b\'<article> \\n L\\xc3\\xa4s bl.a. om Gasporox nya m\\xc3\\xa4tkoncept f\\xc3\\xb6r tr\\xc3\\xa5g, en intervju med styrelseledamoten Per Nystr\\xc3\\xb6m och nyheter fr\\xc3\\xa5n GPX Medical om bland annat projekten Sinuslight och Neo-Lung.\\n</article>''
所需的输出:
<article>
Läs bl.a. om Gasporox nya mätkoncept för tråg, en intervju med
styrelseledamoten Per Nyström och nyheter från GPX Medical om
bland annat projekten Sinuslight och Neo-Lung.
</article>
谢谢!
答案 0 :(得分:1)
您需要评估<?php
namespace App;
use Illuminate\Database\Eloquent\Model;
class Packages extends Model {
/**
* Get the client.
*/
public function client() {
return $this->hasOneThrough(---what will be params---);
}
}
的值,然后使用b''
对其进行解码
UTF-8