背景:在服务器方面,我是一个完全的初学者,但我知道用Python编程的方法。
我正在尝试使用基本的Python 2.7模块(SimpleHTTPServer,CGIHTTPServer等)设置一个简单的服务器。此服务器需要在启动时从文件加载一个包含几GB数据的全局只读变量;然后,当每个用户访问该页面时,服务器使用大数据生成一些输出,然后将其提供给用户。
为了举例,假设我有一个4 GB的文件names.txt
,其中包含所有可能的专有英语名词:
Jack
John
Allison
Richard
...
让我们假设我的目标是将整个名单列表读入内存,然后从这个专有名词列表中随机选择1个名称。我目前能够使用Python的原生CGIHTTPServer模块来实现这一目标。首先,我通过从终端执行来直接运行CGIHTTPServer模块:
python -m CGIHTTPServer
然后,有人访问www.example-server.net:8000/foo.py
并随机获得其中一个名称。我在foo.py
中有以下代码:
#!/usr/bin/env python
import random
name_list = list()
FILE = open('names.txt','r')
for line in FILE:
name = line[:-1]
name_list.append(name)
FILE.close()
name_to_return = random.choice(name_list)
print "Content-type: text/html"
print
print "<title>Here is your name</title>"
print "<p>" + name_to_return + "</p>"
这就是我想要的;但是,效率非常低,因为每次访问都会强制服务器重新读取4 GB文件。
如何将此变为一个高效的过程,其中变量name_list
在服务器启动时立即创建为全局变量,并且每个访问只从该变量读取?
答案 0 :(得分:5)
仅供将来参考,如果有人遇到同样的问题:我最终对CGIHTTPServer
的请求处理程序进行了子类化并实现了新的do_POST()
函数。如果你有一个没有全局变量的工作CGI脚本,这样的事情应该让你开始:
import CGIHTTPServer
import random
import sys
import cgi
class MyRequestHandler(CGIHTTPServer.CGIHTTPRequestHandler):
global super_important_list
super_important_list = range(10)
random.shuffle(super_important_list)
def do_POST(s):
"""Respond to a POST request."""
form = cgi.FieldStorage(fp=s.rfile,headers=s.headers,environ={'REQUEST_METHOD':'POST','CONTENT_TYPE':s.headers['Content-Type'],})
s.wfile.write("<html><head><title>Title goes here.</title></head>")
s.wfile.write("<body><p>This is a test.</p>")
s.wfile.write("<p>You accessed path: %s</p>" % s.path)
s.wfile.write("<p>Also, super_important_list is:</p>")
s.wfile.write(str(super_important_list))
s.wfile.write("<p>Furthermore, you POSTed the following info: ")
for item in form.keys():
s.wfile.write("<p>Item: " + item)
s.wfile.write("<p>Value: " + form[item].value)
s.wfile.write("</body></html>")
if __name__ == '__main__':
server_address = ('', 8000)
httpd = CGIHTTPServer.BaseHTTPServer.HTTPServer(server_address, MyRequestHandler)
try:
httpd.serve_forever()
except KeyboardInterrupt:
sys.exit()
每当有人填写您的表单并执行POST时,变量form
将是一个类似字典的对象,其键值对可能因站点的每个用户而异,但全局变量{{1对每个用户来说都是一样的。
感谢所有回答我问题的人,特别是Mike Steder,他指出了我正确的方向!
答案 1 :(得分:4)
CGI通过生成处理每个请求的进程来工作。您需要运行驻留在内存中的服务器进程来处理HTTP请求。
您可以使用修改后的BaseHTTPServer,只需定义自己的Handler类。您将在代码中加载数据集一次,然后处理程序的do_GET方法将随机选择一个。
就个人而言,我会将CherryPy这样的东西看作是一个比BaseHTTPServer好得多的IMO的简单解决方案。 CherryPy除了瓶子,烧瓶,扭曲,django等之外还有很多选择。当然,如果你需要这个服务器在其他网络服务器后面,你需要考虑设置反向代理或运行{{3} } app。
答案 2 :(得分:2)
您可能希望将名称的值存储在数据库中,并根据它们开头的字母存储名称。然后你可以随机选择a和z之间的一个字母,然后从那里随机再做一个随机起始字母的随机名称。
答案 3 :(得分:2)
构建prefix tree (a.k.a. trie)一次,并在收到查询时生成随机游走。
这应该非常有效。