ClickHouse的副本和分片集群

2022-02-17

字数统计: 433字 | 阅读时长≈ 1分

副本

副本的目的主要是保障数据的高可用性，即使一台ClickHouse节点宕机，那么也可以从其他服务器获得相同的数据。
高可用: 包括数据的高可用 , 服务的高可用(HA)

副本写入流程

副本只能同步数据，不能同步表结构，所以我们需要在每台机器上自己手动建表

建表语句案例:

参数解释
ReplicatedMergeTree 中，
第一个参数是分片的zk_path一般按照： /clickhouse/table/{shard}/{table_name} 的格式写，如果只有一个分片就写01即可。
第二个参数是副本名称，相同的分片副本名称不能相同。

分片集群

副本虽然能够提高数据的可用性，降低丢失风险，但是每台服务器实际上必须容纳全量数据，对数据的横向扩容没有解决。
要解决数据水平切分的问题，需要引入分片的概念。通过分片把一份完整的数据进行切分，不同的分片分布到不同的节点上，再通过Distributed表引擎把数据拼接起来一同使用。
Distributed表引擎本身不存储数据，有点类似于MyCat之于MySql，成为一种中间件，通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据。
注意：ClickHouse的集群是表级别的，实际企业中，大部分做了高可用，但是没有用分片，避免降低查询性能以及操作集群的复杂性。