我有一个抓取的python脚本和一个批处理文件,当从CMD运行时,它可以完美运行,但是当我尝试从Task Scheduler运行时,没有任何反应。
我知道关于同一问题有很多问题,但是我已经尝试了所有建议的答案,但似乎都没有。
不知道这是否相关,但是脚本会打开Firefox并刮擦某些网站。
尝试向我正在使用的文件夹和文件添加完全权限。 此外,尝试在Task Scheduler中设置“运行或不运行用户”,“以最高权限运行”,“开始于(可选):添加/脚本/文件/路径”等等
批处理文件:
py "C:\python_test\myscript.py"
它应运行python脚本,该脚本可打开Firefox并刮擦某些网站,获取其链接并将其保存在csv文件中
这是myscript.py:
import datetime
import time
import csv
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import os
file_path = r"C:\General\{0:%Y%m%d}\results{0:%Y%m%d%H%M%S}.csv".format(datetime.datetime.now())
directory = os.path.dirname(file_path)
try:
os.stat(directory)
except:
os.mkdir(directory)
from bs4 import BeautifulSoup
def init_driver():
caps = DesiredCapabilities.FIREFOX
caps['marionette'] = True
driver = webdriver.Firefox(capabilities=caps)
driver.wait = WebDriverWait(driver, 15)
return driver
xpath = {
'english': '//*[@id="xxx"]',
'soort': '//*[@id="xxx"]/option[text()=\'|- Announcement of change in denominator or in thresholds\']',
'start': '//*[@id="xxx"]',
'end': '//*[@id="xxx"]',
'submit': '//*[@id="xxx"]',
'pub_sort': '//*[@id="xxx"]',
}
if __name__ == "__main__":
driver = init_driver()
try:
driver.get("http://SOMEWEBSITE")
driver.find_element_by_css_selector('[id$=hplEnglish]').click()
except Exception:
DoNothing = ""
time.sleep(2)
driver.find_element_by_css_selector('[id$=hplEnglish]').click()
time.sleep(3)
#alert_obj = driver.switch_to.alert
#alert_obj.dismiss()
#driver.find_element_by_xpath(xpath['english']).click()
today = datetime.datetime.now()
driver.wait.until(EC.element_to_be_clickable((By.XPATH, xpath['soort']))).click()
driver.find_element_by_xpath(xpath['start']).send_keys((today-datetime.timedelta(weeks=1)).strftime('%d/%m/%Y'))
driver.find_element_by_xpath(xpath['end']).send_keys(today.strftime('%d/%m/%Y'))
driver.find_element_by_xpath(xpath['submit']).click()
for i in range(2):
driver.wait.until(EC.element_to_be_clickable((By.XPATH, xpath['pub_sort']))).click()
time.sleep(5)
html = driver.page_source
driver.quit()
results = BeautifulSoup(html, 'html.parser').find('div', { 'id': 'SearchResults'}).table
res = [['issuer', 'type', 'date']]
for x in results.find_all('tr')[1:]:
# print(x.text.strip())
try:
a, b, c = [i.text.strip() for i in x.find_all('td', class_='resultItemTop')[:3]]
res.append([a,b,c])
except ValueError:
continue
with open(file_path, 'w', newline='') as result:
writer = csv.writer(result, delimiter=',')
writer.writerows(res)
print('finished')
答案 0 :(得分:0)
我建议先阅读What must be taken into account on executing a batch file as scheduled task?
这里的第一个问题很可能是运行批处理文件的当前目录。
在双击批处理文件时,Windows将批处理文件的目录设置为当前目录,但批处理文件路径是以\\computername\share\
开头的UNC路径。
默认情况下,计划任务的当前目录为%SystemRoot%\System32
,即Windows系统目录,当然该目录特别受保护,不能修改。许多批处理文件期望当前目录是该批处理文件的目录,而不是其他任何目录。
在批处理文件中,通常在第一行之后的@echo off
行中插入:
cd /D "%~dp0"
只要未使用UNC路径启动批处理文件,此命令行会将当前目录从默认%SystemRoot%\System32
更改为批处理文件的目录。
打开命令提示符窗口,然后运行cd /?
以获得命令 CD 和选项/D
上的帮助。
如果批处理文件存储在使用UNC路径访问的网络资源上,并且计划任务配置为使用凭据(用户帐户和密码)运行,并且具有读取批处理文件内容的权限,则此解决方案是最佳的。网络资源。
在批处理文件中,通常在第一行之后插入@echo off
行:
setlocal EnableExtensions DisableDelayedExpansion
pushd "%~dp0"
批处理文件应另外包含最后两行,然后退出处理两行的批处理文件:
popd
endlocal
打开命令提示符窗口,然后运行pushd /?
,popd /?
,setlocal /?
和endlocal /?
以获得这四个命令的帮助,并阅读this answer以获得更多信息这四个命令的详细信息。
第四个解决方案是编写批处理文件和Python脚本,以独立于执行批处理文件和Python脚本时的当前目录。
此解决方案要求所有文件和目录均指定完整的合格文件/文件夹名称,即完整路径+文件/文件夹名称+文件扩展名。
完整的文件/文件夹路径可以从执行时的已知路径中获取,例如批处理文件的路径,可以在批处理文件中用%~dp0
进行引用,并且扩展为始终以反斜杠结尾的路径字符串,这意味着可以将其与文件/文件夹名称连接在一起,而无需使用其他反斜杠。
另请参阅有关Windows Environment Variables的维基百科文章。
计划的任务通常使用内置的本地系统帐户执行。因此,仅为在开发和测试批处理文件中使用的用户帐户定义的所有环境变量要么根本没有定义,要么定义不同。
从Windows 控制面板从项目系统打开,高级系统设置,或按组合键 Win + Break 如果键盘上有一个键 Break (通常是备用功能,需要另外按下键 Fn ),然后单击左侧的高级系统设置。使用高级选项卡打开系统属性对话框,该选项卡的底部包含环境变量... 按钮,必须单击该按钮才能打开环境变量窗口。
有两个环境变量列表:用户变量... 和系统变量。为所有帐户(包括内置本地系统帐户)定义了系统变量。 user 变量仅为显示的用户定义。
为当前用户定义的 user 变量很重要,这可能是为什么当前用户双击执行的批处理文件可以工作,但不能作为已计划的任务以内置任务执行的原因-在系统帐户中。如果使用的脚本和可执行文件依赖于 local {中的特定文件夹路径,则用户 PATH
通常是无法将批处理文件作为计划任务执行的主要来源在{strong>用户 PATH
中定义的{1}}。
请查看What is the reason for "X is not recognized as an internal or external command, operable program or batch file"?,以获取有关系统,用户和本地 PATH
和环境的更多信息变量PATH
仅用于写入批处理文件PATHEXT
,而不是具有完整限定文件名的脚本/可执行文件。
因此使用它绝对更好
py
代替使用
"C:\Python27\python.exe" "C:\python_test\myscript.py"
这会导致py "C:\python_test\myscript.py"
使用 local cmd.exe
和 local py
环境搜索文件PATHEXT
如果在 user PATH
中定义了包含文件py
的文件夹,则可以归档的变量。
我尚未安装 Python ,所以不知道PATH
到底是什么。它可能是文件名为py
或py.cmd
的批处理文件,在这种情况下,如果批处理文件在命令行后带有{ {1}},并且可能取决于 user 环境变量。它可能是指向 Python 安装文件夹中py.bat
的符号链接。我不知道。
许多计划任务通过网络访问文件,文件夹或数据。在这种情况下,必须将计划任务配置为使用凭据(用户帐户和密码)运行,该凭据具有访问网络资源上的文件,文件夹或数据所需的权限。在这种情况下,内置本地系统帐户的使用几乎永远不是运行计划任务的正确选择,因为本地系统帐户通常无权在任何网络资源上读取/写入数据。
在我看来,好的做法是编写一个作为计划任务执行的批处理文件,以尽可能独立于Windows任务计划程序本身执行的其他批处理文件和未在该批处理文件中定义的环境变量。依赖于其他脚本文件和在主脚本之外定义的变量的设计通常会迟早(有时是几年后)导致意外的执行问题。
编写为按计划任务执行的脚本的程序员应该真的非常了解脚本和被调用的可执行文件所依赖的文件,库,环境变量和注册表项/值。
一个批处理文件仅包含一行就可以执行带有某些参数的应用程序是完全没有必要的,而且由于要运行可执行文件,它只是潜在的无法执行计划任务的源,在这种情况下还可以直接在预定的任务。绝对不需要运行带有隐式选项py
的{{1}}来处理仅包含一个命令行的指定批处理文件,以执行具有零个或多个参数的应用程序,因为Windows任务计划程序可以直接运行该应用程序还有它的参数。