我在Windows Vista 64位上使用Python.org版本2.7 64位。我有以下代码,它从Guardian API返回数据:
import requests
from scrapy.utils.markup import remove_tags
def get_content():
api_url = 'http://beta.content.guardianapis.com/football'
payload = {
'api-key': '',
'page-size': 10,
'show-editors-picks': 'true',
'show-elements': 'image',
'show-fields': 'all'
}
response = requests.get(api_url, params=payload)
data = response.json() # convert json to python-readable format
data2 = "".join(data)
print remove_tags(data2).encode('utf-8')
return data
get_content()
如何删除结果中返回的所有HTML标记并转换为Unicode?在scrapy中使用XML之前我已经做了类似的事情,其中以下几个逻辑工作:
print remove_tags(body2).encode('utf-8')
在这个例子中,'body2'是一个字符串。
由于