高可用安装 - 融合云版本

使用ocboot部署工具高可用安装 Cloudpods 服务，更符合生产环境的部署需求。环境准备操作系统: 根据 CPU 架构不同，支持的发行版也不一样，目前支持的发行版情况如下： CentOS 7.6~7.9 Minimal: 支持 x86_64 和 arm64Debian 10/11: 支持 x86_64 和 arm64Ubuntu

devpresscloudpods

28人浏览 · 2023-12-12 15:17:10

devpresscloudpods · 2023-12-12 15:17:10 发布

使用 ocboot 部署工具高可用安装 Cloudpods 服务，更符合生产环境的部署需求。

环境准备

操作系统: 根据 CPU 架构不同，支持的发行版也不一样，目前支持的发行版情况如下：
- CentOS 7.6~7.9 Minimal: 支持 x86_64 和 arm64
- Debian 10/11: 支持 x86_64 和 arm64
- Ubuntu 22.04: 仅支持 x86_64
- 银河麒麟V10 SP2: 支持 x86_64 和 arm64
- 统信 UOS kongzi: 支持 x86_64 和 arm64
操作系统需要是干净的版本，因为部署工具会重头搭建指定版本的 kubernetes 集群，所以确保系统没有安装 kubernetes, docker 等容器管理工具，否则会出现冲突导致安装异常
最低配置要求: CPU 4核, 内存 8GiB, 存储 100GiB
虚拟机和服务使用的存储路径都在 /opt 目录下，所以理想环境下建议单独给 /opt 目录设置挂载点
- 比如把 /dev/sdb1 单独分区做 ext4 然后通过 /etc/fstab 挂载到 /opt 目录

假设准备好了 3 台 CentOS7 机器，以及 1 台 Mariadb/MySQL 的机器，规划如下：

role	ip	interface	note
k8s primary	10.127.90.101	eth0	第1个控制节点
k8s master 1	10.127.90.102	eth0	第2个控制节点
k8s master 2	10.127.90.103	eth0	第3个控制节点
k8s VIP	10.127.190.10	-	keepalived 使用的 vip ，会优先绑定在 3 个控制节点中的第一个
DB	10.127.190.11	-	数据库独立节点 pswd="0neC1oudDB#", port=3306

其中 DB 的部署目前是不归 ocboot 部署工具管理的，需要提前手动部署。建议使用 MariaDB 数据库，不要使用 MySQL 5.6及以下版本，防止出现索引长度 bug： Index column size too large. The maximum column size is 767 bytes. 的问题。各发行版对应 MariaDB 版本如下：

Centos 7.6-7.9 Minimal(X86_64和ARM64) 默认安装MariaDB 5.5.68
Debian 10-11(X86_64和ARM64) 默认安装MariaDB 10.3.1
Kylin V10 sp2(X86_64和ARM64) 默认安装MariaDB 10.3.4

另外高可用的数据库部署也可以参考文档：部署 Mariadb HA 环境。

高可用集群 ntp 一致性

请在安装之前，确保各个待部署节点的时间一致，否则会出现在签发证书步骤失败。

如果是联网安装，可以参考下面的命令，确保集群内每台服务器都与互联网时间保持一致：

# 您可以选择更方便、可达的授时服务器
# 如果提示没有ntpdate 命令，请使用 os 对应的包管理器自行安装
# 例如在centos 上： yum install -y ntp && systemctl enable ntpd --now
$ ntpdate -u edu.ntp.org.cn && hwclock -w && ntpdate -u -q edu.ntp.org.cn

开始安装

下载 ocboot

# 下载 ocboot 工具到本地
$ git clone -b release/3.10 https://github.com/yunionio/ocboot && cd ./ocboot

编写部署配置

# 设置 shell 环境变量
DB_IP="10.127.190.11"
DB_PORT=3306
DB_PSWD="0neC1oudDB#"
DB_USER=root

K8S_VIP=10.127.190.10
PRIMARY_INTERFACE="eth0"
PRIMARY_IP=10.127.90.101

MASTER_1_INTERFACE="eth0"
MASTER_1_IP=10.127.90.102
MASTER_2_INTERFACE="eth0"
MASTER_2_IP=10.127.90.103

# 生成 yaml 部署配置文件
cat > config-k8s-ha.yml <<EOF
# primary_master_node 表示运行 k8s 和 Cloudpods 服务的节点
primary_master_node:
  # ssh login IP
  hostname: $PRIMARY_IP
  # 不使用本地登录方式
  use_local: false
  # ssh login user
  user: root
  # cloudpods version
  onecloud_version: "v3.10.8"
  # mariadb connection address
  db_host: "$DB_IP"
  # mariadb user
  db_user: "$DB_USER"
  # mariadb password
  db_password: "$DB_PSWD"
  # mariadb port
  db_port: "$DB_PORT"
  # 节点服务监听的地址，多网卡时可以指定对应网卡的地址
  node_ip: "$PRIMARY_IP"
  # 对应 Kubernetes calico 插件默认网卡选择规则
  ip_autodetection_method: "can-reach=$PRIMARY_IP"
  # K8s 控制节点的 IP，对应keepalived 监听的 VIP
  controlplane_host: $K8S_VIP
  # K8s 控制节点 apiserver 监听的端口
  controlplane_port: "6443"
  # 该节点作为 Cloudpods 私有云计算节点，如果不想让控制节点作为计算节点，可以设置为 false
  as_host: true
  # 虚拟机可作为 Cloudpods 内置私有云计算节点（默认为 false）。开启此项时，请确保 as_host: true
  as_host_on_vm: true
  # 产品版本，从 [Edge, CMP, FullStack] 选择一个，FullStack 会安装融合云，CMP 安装多云管理版本，Edge 安装私有云
  product_version: 'FullStack'
  # 服务对应的镜像仓库，如果待部署的机器不在中国大陆，可以用 dockerhub 的镜像仓库：docker.io/yunion
  image_repository: registry.cn-beijing.aliyuncs.com/yunionio
  # 启用高可用模式
  high_availability: true
  # 使用 minio 作为后端虚拟机镜像存储
  enable_minio: true
  insecure_registries:
  - $PRIMARY_IP:5000
  ha_using_local_registry: false
  # 计算节点默认网桥 br0 对应的网卡
  host_networks: "$PRIMARY_INTERFACE/br0/$PRIMARY_IP"

master_nodes:
  # 加入控制节点的 k8s vip
  controlplane_host: $K8S_VIP
  # 加入控制节点的 K8s apiserver 端口
  controlplane_port: "6443"
  # 作为 K8s 和 Cloudpods 控制节点
  as_controller: true
  # 该节点作为 Cloudpods 私有云计算节点，如果不想让控制节点作为计算节点，可以设置为 false
  as_host: true
  # 虚拟机可作为 Cloudpods 内置私有云计算节点（默认为 false）。开启此项时，请确保 as_host: true
  as_host_on_vm: true
  # 从 primary 节点同步 ntp 时间
  ntpd_server: "$PRIMARY_IP"
  # 启用高可用模式
  high_availability: true
  hosts:
  - user: root
    hostname: "$MASTER_1_IP"
    # 计算节点默认网桥 br0 对应的网卡
    host_networks: "$MASTER_1_INTERFACE/br0/$MASTER_1_IP"
  - user: root
    hostname: "$MASTER_2_IP"
    # 计算节点默认网桥 br0 对应的网卡
    host_networks: "$MASTER_2_INTERFACE/br0/$MASTER_2_IP"
EOF

开始部署

$ ./ocboot.py install ./config-k8s-ha.yml

等待部署完成后，就可以使用浏览器访问 https://10.127.190.10 (VIP), 输入用户名 admin 和密码 admin@123，进入前端。

另外部署完成后，可以给已有集群添加节点，参考文档：添加计算节点，注意这里添加节点的控制节点 ip 不要用 vip ，只能用第1个控制节点的实际 ip ，因为 vip 有可能漂移到其他节点上，但通常只有第1个节点配置了 ssh 免密登陆登陆其他节点的权限，用其他控制节点会导致 ssh 登陆不上。

常见问题

1. 如何手动重新添加控制控制节点？

3个控制节点都会运行 kube-apiserver, etcd 这些关键服务，如果遇到某一个节点遇到 etcd 数据不一致，可以将该节点 reset 后重新加入集群，步骤如下：

# 到其他正常的控制节点创建 join token
$ export KUBECONFIG=/etc/kubernetes/admin.conf
$ ocadm token create --description "ocadm-playbook-node-joining-token" --ttl 90m
2fmpbx.7zikd8sp5uhaxrjr

# 获取控制节点认证
$ /opt/yunion/bin/ocadm init phase upload-certs | grep -v upload-certs
6150f8da2dcdf3a8a730f407ddce9f1cb9f24b15ffa4e4b3680e16ed40201cf0

##########  注意下面的命令需要登陆到需要重新加入的节点执行  ###########
# 如果该节点曾经作为计算节点加入过云平台
# 需要备份当前宿主机 /etc/yunion/host.conf 配置
[your-reset-node] $ cp /etc/yunion/host.conf /etc/yunion/host.conf.manual.bk

# 登陆到需要重新 reset 加入的节点，reset 当前的 kubernetes 环境
[your-reset-node] $ kubeadm reset -f

# 假设当前的网卡为 bond0(如果不做 bond ，物理网卡一般为 eth0 之类的名称)，ip 为 172.16.84.40，需要加入集群 172.16.84.101:6443 集群
[your-reset-node] $ ocadm join \
        --control-plane 172.16.84.101:6443 \ # 加入的目标集群
        --token 2fmpbx.7zikd8sp5uhaxrjr --certificate-key 6150f8da2dcdf3a8a730f407ddce9f1cb9f24b15ffa4e4b3680e16ed40201cf0 --discovery-token-unsafe-skip-ca-verification \ # 加入认证信息
        --apiserver-advertise-address 172.16.84.40 --node-ip 172.16.84.40 \ # 该节点 ip
        --as-onecloud-controller \ # 作为 cloudpods 控制节点
        --enable-host-agent \ # 作为 cloudpods 计算节点
        --host-networks 'bond0/br0/172.16.84.40' \ # 计算节点的桥接网络，意思创建 br0 网桥，并把 bond0 加入进来，给 br0 网桥配置 ip 172.16.84.40
        --high-availability-vip 172.16.84.101 --keepalived-version-tag v2.0.25 # keepalived 的 vip ，保证 kube-apiserver 的高可用性

# 等待加入完成后，还原 /etc/yunion/host.conf.manual.bk 配置
[your-reset-node] $ cp /etc/yunion/host.conf.manual.bk /etc/yunion/host.conf

# 重启 host 服务
$ kubectl get pods -n onecloud -o wide | grep host | grep $your-reset-node
$ kubectl delete pods -n onecloud default-host-xxxx

以上手动的步骤参考了 ocboot join master-node 的逻辑，可参考 https://github.com/yunionio/ocboot/blob/master/onecloud/roles/master-node/tasks/main.yml 。

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这