如何解决无响应/失败的bosh-lite云代工厂vms?

时间:2017-01-28 14:18:30

标签: cloudfoundry pivotal-cloud-foundry cf-bosh

我(尝试!)在MacBook Pro上使用bosh-lite学习Cloud Foundry。 我设法让它运行但是每次从头开始它停止工作,我怀疑这与停止[virtualbox] VM /让笔记本电脑进入睡眠有关,但无法确认是否确实如此。

我的经验有限,我不仅在解决问题方面遇到困难,而且还在理解出了什么问题方面遇到了困难。 抱歉,如果这是一个明显的问题,但我还没有能够清楚地确定如何阻止这个问题的发生,而我迄今为止唯一的解决方案是使用Vagrant破坏部署然后启动从头开始 - 这需要一段时间,并不是我确定的最佳解决方案。 :)

我注意到了波什的vms'显示反应迟钝的代理人,他们并没有正确地盯着他们。 bosh cck中的错误表示锁定问题,但我怀疑这可能是一个误称,因为运行波什锁表明没有锁。再一次,我是一个新手,所以这可能只是一个误解......

帮助 - 我该如何解决这个问题!有没有办法快速重置'到工作状态? (vagrant reload --provision没有帮助) 问题究竟在哪里?

此外,vagrant cloudfoundry / bosh-lite VM的(默认)root密码是什么?

> bosh vms

+---------------------------------------------------------------------------+--------------------+-----+-----------+--------------+
| VM                                                                        | State              | AZ  | VM Type   | IPs          |
+---------------------------------------------------------------------------+--------------------+-----+-----------+--------------+
| api_z1/0 (8dfeb143-59b1-46dd-9482-e90931a70a0d)                           | unresponsive agent | n/a | large_z1  | 10.244.0.138 |
| blobstore_z1/0 (7795ce02-d64e-4cc7-be1e-0e328384d568)                     | unresponsive agent | n/a | medium_z1 | 10.244.0.130 |
| consul_z1/0 (e92f6bfd-f623-4ba4-abf3-3d4baa0953fa)                        | unresponsive agent | n/a | small_z1  | 10.244.0.54  |
| doppler_z1/0 (049eaa18-3d4f-48d8-92ed-ea4b6a20cd29)                       | unresponsive agent | n/a | medium_z1 | 10.244.0.146 |
| etcd_z1/0 (e45a7648-e43d-4753-8a18-3ab21b86293d)                          | unresponsive agent | n/a | large_z1  | 10.244.0.42  |
| ha_proxy_z1/0 (ba6e8ce6-8f40-4868-8a71-c74119f173ea)                      | failing            | n/a | router_z1 | 10.244.0.34  |
| hm9000_z1/0 (ff8ae6a3-1889-4fb0-aabf-072012cf9f48)                        | unresponsive agent | n/a | medium_z1 | 10.244.0.142 |
| loggregator_trafficcontroller_z1/0 (8f2e4ea1-dda7-4d15-9050-528338824e3b) | unresponsive agent | n/a | small_z1  | 10.244.0.150 |
| nats_z1/0 (9e4eab32-ac91-4f05-83be-b8189c2991e7)                          | unresponsive agent | n/a | medium_z1 | 10.244.0.6   |
| postgres_z1/0 (fb8d1eee-3ade-480e-aa01-3db26a64b447)                      | unresponsive agent | n/a | medium_z1 | 10.244.0.30  |
| router_z1/0 (f9ce017b-580f-4fce-b79d-01ceef190e19)                        | unresponsive agent | n/a | router_z1 | 10.244.0.22  |
| runner_z1/0 (c0b0871b-c672-46c8-ac4a-1aabd81864f6)                        | unresponsive agent | n/a | runner_z1 | 10.244.0.26  |
| uaa_z1/0 (63b4bfa7-499d-4dba-93f6-2017b04a7588)                           | unresponsive agent | n/a | medium_z1 | 10.244.0.134 |
+---------------------------------------------------------------------------+--------------------+-----+-----------+--------------+



> bosh cck

Acting as user 'admin' on deployment 'cf-warden' on 'Bosh Lite Director'
Performing cloud check...

Director task 96
Error 100: Unable to get deployment lock, maybe a deployment is in progress. Try again later.

Task 96 error

For a more detailed error report, run: bosh task 96 --debug

> bosh locks

Acting as user 'admin' on 'Bosh Lite Director'

No locks

可能会重置'然后使用下面的命令重新启动并运行,但这需要相当长的时间,而且肯定更像是一个锤子'超过要求!

# bosh-lite dir 
vagrant destroy && vagrant up

# cd cf-release dir 
bosh upload release
bosh deploy 

# cd bosh-lite dir
bin/add-route
cf api --skip-ssl-validation https://api.bosh-lite.com
cf create-org my_org
cf create-space development -o my_org

3 个答案:

答案 0 :(得分:0)

您可以在使用sudo su进入带有vagrant ssh的bosh-lite虚拟机后使用bin/post -c mycore3 /home/shubham/combined.csv 成为root用户,而无需输入root密码。

在VM重启/睡眠后,BOSH-lite一直难以复活 有人最近(2016年12月)写了一个实用程序,以便优雅地让运行BOSH Lite的机器进入睡眠状态。并在系统唤醒时恢复它,以解决它: https://github.com/henryaj/ambient

答案 1 :(得分:0)

我通常会vagrant suspend然后vagrant up来避免BOSH Lite中存在死容器/虚拟机的情况。

您可以执行bosh cck,但我的经验表明,重新创建的简单部署更快,更可靠。

答案 2 :(得分:0)

建议我们在不使用时暂停Bosh-lite VM,以便在系统进入睡眠状态/重新启动后可以简单地恢复它;否则VM将被OS暂停(Bosh-lite VM进入中止状态)。在中止的bosh-lite上运行vagrant up,使其运行,但在这种情况下,CF VM进入无响应状态,需要重新部署。

暂停时运行vagrant suspend,重新启动工作时vagrant resume有助于避免无法响应的CF虚拟机出现问题。