在.html文件中查找并替换.json文本以供BeautifulSoup解析

时间:2019-07-14 15:32:09

标签: python json python-2.7 beautifulsoup urllib

我有以下代码将JSON数据生成到HTML文件中,BeautifulSoup可以读取该HTML文件以获取我正在制作的插件(我正在使用的系统无法导入许多python模块,例如pandas):

import urllib
import json
import io

url = urllib.urlopen('https://thisiscriminal.com/wp-json/criminal/v1/episodes?posts=10000&page=1')
data = json.loads(url.read().decode('utf-8'))
posts = []
for post in data['posts']:
    posts.append([post['title'], post['episodeNumber'],        post['audioSource'], post['image']['medium'], post['excerpt']['long']])
with io.open('outputfile.html', 'w', encoding='utf-8') as r:
    r.write(json.dumps(posts, ensure_ascii=False))

目标HTML数据将需要以下开始和结束标记:,,,,如本示例所示:

c="http://www.dailyrotation.com/rss-dr2.gif">Subscribe with Daily Rotation</feedburner:feedFlare><item>
      <title>Episode 118: Stowaway </title>
      <enclosure url="https://dts.podtrac.com/redirect.mp3/dovetail.prxu.org/criminal/b005b19b-c9b9-453b-a40c-60c594da0e09/Episode_118_Stowaway_Part_1.mp3" type="audio/mpeg" length="38527954" />
      <itunes:subtitle>One day in 1969, Paulette Cooper decided to see what she could get away with. </itunes:subtitle>
      <itunes:image href="https://f.prxu.org/criminal/b005b19b-c9b9-453b-a40c-60c594da0e09/images/44a61619-6a44-41f5-bc90-0414349c5d91/CRIMINAL_LOGOS_FINAL_wt_sq.png" />       <feedburner:origLink>https://thisiscriminal.com/</feedburner:origLink></item>

对这些标签进行查找/替换的最佳模块是什么?最好是一个使用了一段时间的模块,并且可能更容易实现到我正在使用的系统中(我认为,Kodi主要在xmbcswift2上运行)。任何建议表示赞赏。

0 个答案:

没有答案