所以我有一个从事件网页中提取信息的脚本。网址为:http://everguide.com.au/melbourne/event/2012-jul-14/colour/
这个php脚本正在调用python脚本(它是for循环的一部分):
${"tmp" . $i} = utf8_encode (exec("python myscrape.py ${"eu" . $i}"));
它传递了一个URL。 python脚本是这样的:
# -*- coding: utf-8 -*-
import sys
URL = sys.argv[1]
#$URL = 'http://everguide.com.au/melbourne/event/2012-jul-14/colour/'
import urllib2
req = urllib2.Request(URL)
response = urllib2.urlopen(req)
html = response.read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html.decode('utf-8'))
soup.prettify()
import re
for node in soup.findAll(itemprop="name"):
n = ''.join(node.findAll(text=True))
for node in soup.findAll(itemprop="url"):
v = ''.join(node.findAll(text=True))
for node in soup.findAll("div", { "class" : "time" }):
d = ''.join(node.findAll(text=True))
for node in soup.findAll("a", { "id" : "ctl00_holderBody_ctl00_lnkCat" }):
c = ''.join(node.findAll(text=True))
vu = v
vu.encode('utf-8', 'xmlcharrefreplace')
re.escape(vu)
print n,"|", d,"|", vu,"|", c
哪种方法效果很好,但只能在VU之前返回或管道 - 它不能超过它!
在所有文件,HTML和php上设置UTF-8编码。
当V变量中有特殊字符时,它会中断并停止。如果没有特殊字符,那就完美无缺。
预期输出为:
Colour | 14 July @ 7:30PM | 1000 £ Bend | Clubs & Parties
当在服务器上运行脚本时(使用相同的python命令)可以看到此输出但是通过PHP - 我无法重新获得Venue字符串!
请帮忙
瑞克
答案 0 :(得分:2)
vu.encode
返回已编码的字符串...因为您没有分配编码结果,所以这只是被抛弃了。你试过吗
vu = vu.encode('utf-8', 'xmlcharrefreplace')
你还需要跳过转义,因为它会破坏编码的unicode。