我遇到了在多台服务器上运行的齿轮工人的问题,这似乎无法解决。
当工作服务器脱机而不是取消工作进程时,会出现问题,并导致所有其他工作进程出错并失败。
只有1个客户和2个工人的示例 -
客户端:
$client = new GearmanClient ();
$client->addServer ('192.168.1.200');
$client->addServer ('192.168.1.201');
$job = $client->do ('generate_tile', serialize ($arrData));
工人:
$worker = new GearmanWorker ();
$worker->addServer ('192.168.1.200');
$worker->addServer ('192.168.1.201');
$worker->addFunction ('generate_tile', 'generate_tile');
while (1)
{
if (!$worker->work ())
{
switch ($worker->returnCode ())
{
default:
echo "Error: " . $worker->returnCode () . ': ' . $worker->error () . "\n";
break;
}
}
}
function generate_tile ($job) { ... }
工作人员代码正在2个独立的服务器上运行。当每个服务器启动并运行时,两个工作程序都按预期执行作业。当其中一个工作进程被取消时,另一个工作程序按预期执行所有作业。
但是,当具有已取消的工作进程的服务器关闭并完全脱机时,对客户端脚本的请求将挂起,而剩余的工作进程将不会获取任何作业。
我从剩余的工作进程中得到以下一组错误:
Error: 46: gearman_con_wait:timeout reached
Error: 46: gearman_con_wait:timeout reached
Error: 4: gearman_con_flush:write:110
Error: 46: gearman_con_wait:timeout reached
Error: 4: gearman_con_flush:write:113
Error: 4: gearman_con_flush:write:113
Error: 4: gearman_con_flush:write:113
....
当我启动另一台服务器而不启动其上的工作进程时,剩余的工作进程会立即跳转并执行剩余的任务。
我似乎很清楚,我需要在工作进程中使用一些代码来处理可能处于脱机状态的任何服务器,但我无法看到如何执行此操作。
非常感谢,
安迪
答案 0 :(得分:5)
我们对多个gearman服务器的测试显示,如果列表中的最后一个服务器(在您的情况下为192.168.1.201)被删除,则工作人员将停止执行您描述的方式。 (此外,工作人员从最后一台服务器获取作业。只有在.201没有工作时才会处理.200上的作业。)
似乎这是齿轮箱服务器中链接列表的一个错误,据报道它被修复了多次,但是对于所有可用版本的gearman,错误仍然存在。对不起,我知道这不是一个解决方案,但是我们遇到了同样的问题并没有找到解决方案。 (如果有人可以为这个问题提供工作解决方案,我同意给予大额奖励)
答案 1 :(得分:4)
继上述@Darhazer的评论。我们也发现了这样的解决方案: -
// Gearman workers show a strong preference for servers at the end of a list so randomize the order
$worker = new GearmanWorker();
$s2 = explode(",", Configure::read('workers.servers'));
shuffle($s2);
$servers = implode(",", $s2);
$worker->addServers($servers);
我们在任何时候都会运行6到10名工作人员,并在他们完成x请求后将其终止。
答案 2 :(得分:2)
我使用这个类,它跟踪哪些作业在哪些服务器上工作。它还没有经过彻底的测试,现在就写完了。我已经粘贴了一个编辑过的版本,因此可能会出现拼写错误或其他问题,但似乎可以解决问题。
<?
class MyGearmanClient {
static $server = "server1,server2,server3";
static $server_array = false;
static $workingServers = false;
static $gmclient = false;
static $timeout = 5000;
static $defaultTimeout = 5000;
static function randomServer() {
return self::$server_array[rand(0, count(self::$server_array) -1)];
}
static function getServer($job = false) {
if (self::$server_array == false) {
self::$server_array = explode(",", self::$server);
self::$workingServers = array();
}
$serverList = array();
if ($job) {
if (array_key_exists($job, self::$workingServers)) {
foreach (self::$server_array as $server) {
if (array_key_exists($server, self::$workingServers[$job])) {
if (self::$workingServers[$job][$server]) {
$serverList[] = $server;
}
} else {
$serverList[] = $server;
}
}
if (count($serverList) == 0) {
# All servers have failed, need to insert all the servers again and retry.
$serverList = self::$workingServers[$job] = self::$server_array;
}
return $serverList[rand(0, count($serverList) - 1)];
} else {
return self::randomServer();
}
} else {
return self::randomServer();
}
}
static function serverWorked($server, $job) {
self::$workingServers[$job][$server] = $server;
}
static function serverFailed($server, $job) {
self::$workingServers[$job][$server] = false;
}
static function Connect($server = false, $job = false) {
if ($server) {
self::$server = self::getServer();
}
self::$gmclient= new GearmanClient();
self::$gmclient->setTimeout(self::$timeout);
# add the default job server
self::$gmclient->addServer($server = self::getServer($job));
return $server;
}
static function Destroy() {
self::$gmclient = false;
}
static function Client($name, $vars, $timeout = false) {
if (is_int($timeout)) {
self::$timeout = $timeout;
} else {
self::$timeout = self::$defaultTimeout;
}
do {
$server = self::Connect(false, $name);
$value = self::$gmclient->do($name, $vars);
$return_code = self::$gmclient->returnCode();
if (!$value) {
$error_message = self::$gmclient->error();
if ($return_code == 47) {
self::serverFailed($server, $name);
if (count(self::$server_array) > 1) {
// ADDED SINGLE SERVER LOOP AVOIDANCE // echo "Timeout on server $server, trying another server...\n";
continue;
} else {
return false;
}
}
echo "ERR: $error_message ($return_code)\n";
}
# printf("Worker has returned\n");
$short_value = substr($value, 0, 80);
switch ($return_code)
{
case GEARMAN_WORK_DATA:
echo "DATA: $short_value\n";
break;
case GEARMAN_SUCCESS:
self::serverWorked($server, $name);
break;
case GEARMAN_WORK_STATUS:
list($numerator, $denominator)= self::$gmclient->doStatus();
echo "Status: $numerator/$denominator\n";
break;
case GEARMAN_TIMEOUT:
// self::Connect();
// Fall through
default:
echo "ERR: $error_message " . self::$gmclient->error() . " ($return_code)\n";
break;
}
}
while($return_code != GEARMAN_SUCCESS);
$rv = unserialize($value);
return $rv["rv"];
}
}
# Example usage:
# $rv = MyGearmanClient::Client("Function", $args);
?>
答案 3 :(得分:0)
由于来自gearman客户端的'addServer'无法正常工作,因此该代码可以随机选择一个作业服务器,如果失败则尝试下一个,这样就可以平衡负载。
// job servers
$jobservers = array('192.168.1.1','192.168.1.2');
// prepare gearman client
$gmclient = new GearmanClient();
// shuffle job servers (deliver jobs equally by server)
shuffle($jobservers);
// add job servers
foreach($jobservers as $jobserver) {
// add random jobserver
$gmclient->addServer($jobserver);
// check server state if ok end foreach
if (@$gmclient->ping('ping')) break;
// if connections fails reset client
$gmclient = new GearmanClient();
}
答案 4 :(得分:0)
经过测试的解决方案,可以正常工作。
$client = new GearmanClient();
if(!$client->addServer("11.11.65.73",4730))
$client->addServer("11.11.65.79",4730);