我写了一个脚本来从网站上抓取数据。它运行时使用“python script.py”但是当chmod + x直接从shell运行时,它无法正常工作 (不覆盖输出文件)
这是我的代码(只是尝试使用HTMLParser):
#!/usr/bin/env python
from HTMLParser import HTMLParser
import urllib
import codecs
import string
FILE_NAME = 'kq.txt'
LINK = 'http://kqxs.vn/'
class MyHTMLParser(HTMLParser):
"""Parser get content in first table in site"""
def __init__(self):
self.reset()
self.fed = []
self.found = False
self.done = False
def handle_starttag(self, tag, attrs):
if tag == "table":
self.found = True
if tag == "/table":
self.found = False
def handle_endtag(self, tag):
if tag == "table":
self.done = True
def handle_data(self, data):
if self.found and not self.done:
self.fed.append(data)
def get_data(self):
return self.fed
#read data from URL
response = urllib.urlopen(LINK)
#print response.headers['content-type']
html = response.read()
html = unicode(html, 'utf-8')
parser = MyHTMLParser()
parser.feed(html)
result = parser.get_data()
#write to file
fw = codecs.open(FILE_NAME, 'w', 'utf-8')
#line.strip() remove string contains only spaces
#[fw.write(line + '\n') for line in result if line.strip()]
fw.writelines(line + '\n' for line in result if line.strip())
fw.close()
print "Done! data printed to file %s" %(FILE_NAME)
这是我的shell的结果
famihug@hvn:/home/famihug%~/bin/leecher.py; cat ~/bin/kq.txt [0]
Done! data printed to file kq.txt
Giải đặc biệt
**92296**
**(HERE I RUN IT FROM INSIDE VIM with !python %)**
famihug@hvn:/home/famihug/bin%vim leecher.py [0]
Done! data printed to file kq.txt
Press ENTER or type command to continue
zsh: suspended vim leecher.py
famihug@hvn:/home/famihug/bin%cat kq.txt [20]
Giải đặc biệt
****88705****
famihug@hvn:/home/famihug/bin%/usr/bin/env python [0]
Python 2.6.6 (r266:84292, Sep 15 2010, 15:52:39)
famihug@hvn:/home/famihug/bin%python [0]
Python 2.6.6 (r266:84292, Sep 15 2010, 15:52:39)
脚本仍打印出最后一行完成!数据打印到文件kq.txt ,但它并没有真正做到。如果我删除kq.txt文件,它运行良好。如果我在kq.txt中更改一点(更改一个数字),它也可以正常工作。
任何人都可以解释原因吗? 感谢
答案 0 :(得分:1)
我解决了我的问题!
因为我使用带文件名的相对路径,所以当我运行时:
famihug@hvn:/home/famihug%~/bin/leecher.py; cat ~/bin/kq.txt [0]
它在 / home / famihug / 中创建了一个新的 kq.txt ,而不是在 / home / famihug / bin / 中 这就是为什么我在 cat~ / bin / kq.txt
时不断变老的原因解决方法是: 使用绝对路径而不是相对路径:
def fix_path(filename):
filepath = os.path.realpath(__file__)
path = os.path.dirname(filepath)
fixed = os.path.join(path, filename)
return fixed
fw = codecs.open(fix_path(FILE_NAME), 'w', 'utf-8')
答案 1 :(得分:-6)
我不知道,但尝试chmod 755 script_name 这可能是由于没有权限来覆盖文件。 但实际上,我不知道,我无法测试它,因为我不在我的电脑上,我正在使用朋友的电脑。当我拿回电脑时会回复。