clickhouse-20.8.20.1 部署及创建库表

基础架构多主架构：大多数分布式系统如 HDFS、Spark、HBase 和 Elasticsearch，采用的都是 Master-Slave 主从架构，由一个管控节点作为 Leader，其它节点为 Slave。而 CH 则采用 Multi-Master 多主架构，集群中的每个节点角色相同，客户端访问任意一个节点都能得到同样的效果。这种架构因角色相同使系统架构变得更加简单，不用再区分主控节点、数据节

大数据-陈礼佳

13089人浏览 · 2021-09-01 17:44:29

大数据-陈礼佳 · 2021-09-01 17:44:29 发布

基础架构

在这里插入图片描述
多主架构：大多数分布式系统如 HDFS、Spark、HBase 和 Elasticsearch，采用的都是 Master-Slave 主从架构，由一个管控节点作为 Leader，其它节点为 Slave。而 CH 则采用 Multi-Master 多主架构，集群中的每个节点角色相同，客户端访问任意一个节点都能得到同样的效果。这种架构因角色相同使系统架构变得更加简单，不用再区分主控节点、数据节点和计算节点，集群中的所有节点功能相同，所以就不存在单点故障问题了。
ClickHouse 既可以单机运行，又可以分布式运行。
在单机情况下，可以在一个服务器上运行一个 ClickHouse 进程，在分布式情况下，ClickHouse 分为多个 Shard，Shard 和 Shard 之间的数据是完全隔离的，在数据分配上可以通过 random 的 Shard，或者是 hash 方式的 Shard 去分配数据所去的 Shard。每个 Shard 内部可以有多个副本（主机 + 从机 = 副本），每个 Shard 中的 ClickHouse 互为副本，副本与副本之间的数据是完全一致的，作用就是保证集群的高可用，每一个 Shard 中的副本数是可以随意拓展的，也就是 Shard 与 Shard 之间的副本数可以不一致，假如业务上有些查询热点情况在 Shard0 上，那么 Shard0 的压力会非常大，那么可以为 Shard0 指定更多的副本数，从而缓解 Shard0 上查询热点的压力，但是在拓展时，新加入的副本无法自动进行数据的同步，这是一个不足。

部署

基础安装

下载安装包
https://packagecloud.io/altinity/clickhouse 路径下下载对应系统版本的安装包

wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-test-20.8.20.1-1.el7.x86_64.rpm/download.rpm
wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-server-common-20.8.20.1-1.el7.x86_64.rpm/download.rpm
wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-server-20.8.20.1-1.el7.x86_64.rpm/download.rpm
wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-common-static-20.8.20.1-1.el7.x86_64.rpm/download.rpm
wget --content-disposition https://packagecloud.io/Altinity/clickhouse/packages/el/7/clickhouse-client-20.8.20.1-1.el7.x86_64.rpm/download.rpm
rpm -ivh clickhouse-common-static-20.8.20.1-1.el7.x86_64.rpm 
rpm -ivh clickhouse-server-common-20.8.20.1-1.el7.x86_64.rpm 
rpm -ivh clickhouse-server-20.8.20.1-1.el7.x86_64.rpm 
rpm -ivh clickhouse-client-20.8.20.1-1.el7.x86_64.rpm

rpm安装完毕无误后，clickhouse-server和clickhouse-client配置目录如下

[root@ck01 clickhouse]# ll /etc/clickhouse-server/
-rw-r--r-- 1 root root 34331 8月  24 23:56 config.xml
-rw-r--r-- 1 root root  5587 8月  24 23:56 users.xml
[root@ck01 clickhouse]# ll /etc/clickhouse-server/
-rw-r--r-- 1 root root 34331 8月  24 23:56 config.xml
-rw-r--r-- 1 root root  5587 8月  24 23:56 users.xml

vim /etc/clickhouse-server/config.xml
监听ip修改
<listen_host>0.0.0.0</listen_host>

<!-- Path to data directory, with trailing slash. -->
<path>/home/clickhouse/data/clickhouse</path>

日志路径，数据路径可以适当进行修改，新路径需要改用户、用户组
注意这个配置的目录磁盘空间必须足够大
其他配置可以根据自己的实际情况而定，注意配置端口是否被占用

如果路径修改了，必须预先创建对应的文件夹，不然启动会报错：UNKNOWN

chown -R clickhouse:clickhouse clickhouse/

单机版

单机版不需要zookeeper

启动clickhouse-server

$: /etc/init.d/clickhouse-server start

停止clickhouse-server：

$: /etc/init.d/clickhouse-server stop

进入clickhouse-client：

$: clickhouse-client --host 127.0.0.1 --port 9000

通过查询验证客户端成功：select 1
在这里插入图片描述

集群部署

zookeeper额外部署，这边就不演示zookeeper部署了

配置修改

vim /etc/metrika.xml，添加配置信息如下：

<yandex>
    <clickhouse_remote_servers>
        <my_cluster>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.17.2.143</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <replica>
                    <internal_replication>true</internal_replication>
                    <host>172.17.2.144</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.17.2.145</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>172.17.2.146</host>
                    <port>9000</port>
                </replica>
            </shard>
        </my_cluster>
    </clickhouse_remote_servers>

    <!--zookeeper相关配置-->
    <zookeeper-servers>
        <node index="1">
            <host>172.17.2.63</host>
            <port>2182</port>
        </node>
        <node index="2">
            <host>172.17.2.64</host>
            <port>2182</port>
        </node>
        <node index="3">
            <host>172.17.2.65</host>
            <port>2182</port>
        </node>
    </zookeeper-servers>

    <macros>
        <shard>04</shard>
        <layer>04</layer>
        <replica>172.17.2.146</replica>
    </macros>

    <networks>
        <ip>::/0</ip>
    </networks>

    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>

</yandex>

<!-- 其中大部分配置一样，以下的配置根据节点的IP/域名具体配置 -->
<macros>
    <shard>04</shard>
    <layer>04</layer>
    <replica>172.17.2.146</replica>
</macros>

注意：为什么直接vim /etc/metrika.xml一个新文件，这里很难去理解，有点莫名其妙，其实如果仔细看过clickhouse的配置文件/etc/clickhouse-server/config.xml就能明白，有这么一段被注释的配置说明：

<!-- If element has 'incl' attribute, then for it's value will be used corresponding substitution from another file.
         By default, path to file with substitutions is /etc/metrika.xml. It could be changed in config in 'include_from' element.
         Values for substitutions are specified in /yandex/name_of_substitution elements in that file.
      -->

参考单机版启动服务

验证

在每个节点启动clickhouse客户端，和单节点启动完全一样，查询集群信息

clickhouse-client -h 127.0.0.1 --port 9000 -u default -m

select 1;
select * from system.clusters;

在这里插入图片描述

使用

简介

ClickHouse有多少CPU，吃多少资源，所以飞快；
ClickHouse不支持事务，不存在隔离级别。ClickHouse的定位是分析性数据库，而不是严格的关系型数据库。又有人要问了，数据都不一致，统计个毛。举个例子，汽车的油表是100%准确么？为了获得一个100%准确的值，难道每次测量你都要停车检查么？统计数据的意义在于用大量的数据看规律，看趋势，而不是100%准确。
IO方面，MySQL是行存储，ClickHouse是列存储，后者在count()这类操作天然有优势，同时，在IO方面，MySQL需要大量随机IO，ClickHouse基本是顺序IO。
有人可能觉得上面的数据导入的时候，数据肯定缓存在内存里了，这个的确，但是ClickHouse基本上是顺序IO，用过就知道了，对IO基本没有太高要求，当然，磁盘越快，上层处理越快，但是99%的情况是，CPU先跑满了（数据库里太少见了，大多数都是IO不够用）。

创建库

单机版
CREATE/ATTACH DATABASE test_db ENGINE = Ordinary;

集群版本
create database clj_test on cluster my_cluster

删除分布式数据库：
drop database clj_test on cluster my_cluster
删除分布式表：
drop table clj_test.news on cluster my_cluster

ATTACH 也可以建库，但是metadata目录下不会生成.sql文件，一般用于metadata元数据sql文件被删除后，恢复库表结构使用

创建本地表

单机版本
CREATE TABLE test01( id UInt16,col1 String,col2 String,create_date date ) ENGINE = MergeTree(create_date, (id), 8192);

ENGINE：是表的引擎类型，

MergeTree：最常用的，MergeTree要求有一个日期字段，还有主键。
Log引擎没有这个限制，也是比较常用。
ReplicatedMergeTree：MergeTree的分支，表复制引擎。
Distributed：分布式引擎。

create_date：是表的日期字段，一个表必须要有一个日期字段。
id：是表的主键，主键可以有多个字段，每个字段用逗号分隔。
8192：是索引粒度，用默认值8192即可。

创建分布式表

CREATE TABLE IF NOT EXISTS clj_test.news ON CLUSTER my_cluster \
( \
    `key` String, \
    `title` String, \
    `publish_time` String, \
    `publish_date` String \
) \
ENGINE = ReplicatedMergeTree('/clickhouse/tables/{layer}-{shard}/news', '{replica}') \
PARTITION BY publish_date \
ORDER BY key \
SETTINGS index_granularity = 8192

cluster：配置文件中的群集名称。
ENGINE后面跟着的参数，是提供给ZooKeeper作区分的该表的路径，对于不同分片上的表，都必须要有不同的路径，所以路径都必须唯一。第一个参数的/clickhouse/tables是官方要求的固定前缀，后面jojo_record是自己表名，表名前面其实还可以加分片名，总的来说可以写成：/clickhouse/tables/shard/table_name 。第二个参数{replica}指的是副本名称，{副本名}是直接引用配置文件中的你自己配置的副本名称信息

ClickHouse分布式表的本质并不是一张表，而是一些本地物理表（分片）的分布式视图，本身并不存储数据。支持分布式表的引擎是Distributed

create table clj_test.news2 on cluster my_cluster( \
    `key` String, \
    `title` String, \
    `publish_time` String, \
    `publish_date` String \
)ENGINE Distributed(my_cluster, clj_test, news, rand());

在这里插入图片描述

概念

clickhouse的cluster环境中，每台server的地位是等价的，即不存在master-slave之说，是multi-master模式。
各replicated表的宿主server上要在hosts里配置其他replicated表宿主server的ip和hostname的映射。
上面描述的在不同的server上建立全新的replicated模式的表，如果在某台server上已经存在一张replicated表，并且表中已经有数据，这时在另外的server上执行完replicated建表语句后，已有数据会自动同步到其他server上面。
如果zookeeper挂掉，replicated表会切换成read-only模式，不再进行数据同步，系统会周期性的尝试与zk重新建立连接。
如果在向一张replicated表insert数据的时候zookeeper挂掉，这时候会抛一个异常，等到与zk重新建立连接以后，系统（其他replicated表所在server）会检查本地文件与预期文件（保存在zk上）的差别，如果是轻微的差别，直接同步覆盖，如果发现有数据块损坏或者识别不了，则将这些数据文件移动到“detached”子目录，然后重新根据zk所记录的文件信息进行副本的同步。
drop掉某一台server上的replicated表，不会对其他server上面的replicated表造成影响。

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这