您现在的位置是：Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >

02 stash訂閱配置(如何進入大數據領域，學習路線是什么？)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-04 07:41:14【】8人已围观

简介//cloud.tencent.買粉絲/document/proct/845/19549。在6.5版本官方推出了CCR功能之后，集群間數據同步的難題就迎刃而解了。可以利用CCR來實現ES集群的異地容災

//cloud.tencent.買粉絲/document/proct/845/19549 。

在6.5版本官方推出了CCR功能之后，集群間數據同步的難題就迎刃而解了。可以利用CCR來實現ES集群的異地容災：

CCR是類似于數據訂閱的方式，主集群為Leader, 備集群為Follower, 備集群以pull的方式從主集群拉取數據和寫請求；在定義好Follwer Index時，Follwer Index會進行初始化，從Leader中以snapshot的方式把底層的segment文件全量同步過來，初始化完成之后，再拉取寫請求，拉取完寫請求后，Follwer側進行重放，完成數據的同步。CCR的優點當然是因為可以同步UPDATE/DELETE操作，數據一致性問題解決了，同步延時也減小了。

另外，基于CCR可以和前面提到的跨機房容災的集群結合，實現兩地多中心的ES集群。在上海地域，部署有多可用區集群實現跨機房的高可用，同時在北京地域部署備集群作為Follwer利用CCR同步數據，從而在集群可用性上又向前走了一步，既實現了同城跨機房容災，又實現了跨地域容災。

但是在出現故障時需要把集群的訪問從上海切換到北京時，會有一些限制，因為CCR中的Follwer Index是只讀的，不能寫入，需要切換為正常的索引才能進行寫入，過程也是不可逆的。不過在業務側進行規避，比如寫入時使用新的正常的索引，業務使用別名進行查詢，當上海地域恢復時，再反向的把數據同步回去。

現在問題就是保證上海地域集群數據的完整性，在上海地域恢復后，可以在上海地域新建一個Follower Index，以北京地域正在進行寫的索引為Leader同步數據，待數據完全追平后，再切換到上海地域進行讀寫，注意切換到需要新建Leader索引寫入數據。

數據同步過程如下所示：

1.上海主集群正常提供服務，北京備集群從主集群Follow數據

2.上海主集群故障，業務切換到北京備集群進行讀寫，上海主集群恢復后從北京集群Follow數據

ClickHouse數據導入

目前Kafka數據導入ClickHouse的常用方案有兩種，一種是通過ClickHouse內置的Kafka表引擎實現，另一種是借助數據流組件，如Logstash。

以下會分別介紹這兩種方案。

Kafka表引擎基于librdkafka庫實現與Kafka的通信，但它只充當一個數據管道的角色，負責拉取Kafka中的數據；所以還需要一張物化視圖將Kafka引擎表中的數據實時同步到本地MergeTree系列表中。

為了提高性能，接受的消息被分組為 maxinsertblocksize 大小（由kafkamax_block_size參數空值，默認值為65536）的塊。如果未在 streamflushinterval_ms 毫秒（默認500 ms）內形成塊，則不關心塊的完整性，都會將數據刷新到表中。

相關配置參數：

買粉絲s://github.買粉絲/edenhill/librdkafka/blob/master/CONFIGURATION.md

1）部署Kafka

2）創建Kafka引擎表

必選參數：

可選參數：

3）創建數據表

使用已有的數據表，以下只給出了分布表的創建語句。

4）創建物化視圖

與Elasticsearch寫入類似，通過Logstash的ClickHouse插件，訂閱Kafka中的數據并寫入CH中。其中，ClickHouse插件調用HTTP接口完成數據寫入。

1）部署Logstash

部署Logstash，并安裝ClickHouse插件：

2）創建Logstash配置文件

相關參數：

3）啟動Logstash

Kafka引擎表和Logstash都是常見的數據導入方式，

如何進入大數據領域，學習路線是什么？

分享大數據學習路線：

第一階段為JAVASE+MYSQL+JDBC

主要學習一些Java語言的概念，如字符、流程控制、面向對象、進程線程、枚舉反射等，學習MySQL數據庫的安裝卸載及相關操作，學習JDBC的實現原理以及Linux基礎知識，是大數據剛入門階段。

第二階段為分布式理論簡介

主要講解CAP理論、數據分布方式、一致性、2PC和3PC、大數據集成架構。涉及的知識點有Consistency一致性、Availability可用性、Partition tolerance分區容忍性、數據量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。

第三階段為數據存儲與計算（離線場景）

主要講解協調服務ZK(1T)、數據存儲hdfs(2T)、數據存儲alluxio(1T)、數據采集flume、數據采集logstash、數據同步Sqoop(0.5T)、數據同步datax(0.5T)、數據同步mysql-binlog(1T)、計算模型MR與DAG(1T)、hive(5T)、Impala(1T)、任務調度Azkaban、任務調度airflow等。

第四部分為數倉建設

主要講解數倉倉庫的歷史背景、離線數倉項目-伴我汽車（5T）架構技術解析、多維數據模型處理kylin（3.5T）部署安裝、離線數倉項目-伴我汽車升級后加入kylin進行多維分析等；

第五階段為分布式計算引擎

主要講解計算引擎、scala語言、spark、數據存儲hbase、redis、ku，并通過某p2p平臺項目實現spark多數據源讀寫。

第六階段為數據存儲與計算（實時場景）

主要講解數據通道Kafka、實時數倉druid、流式數據處理flink、SparkStreaming，并通過講解某交通大數讓你可以將知識點融會貫通。

第七階段為數據搜索

主要講解elasticsearch，包括全文搜索技術、ES安裝操作、index、創建索引、增刪改查、索引、映射、過濾等。

第八階段為數據治理

主要講解數據標準、數據分類、數據建模、圖存儲與查詢、元數據、血緣與數據質量、Hive Hook、Spark Listener等。

第九階段為BI系統

主要講解Superset、Graphna兩大技術，包括基本簡介、安裝、數據源創建、表操作以及數據探索分析。

第十階段為數據挖掘

主要講解機器學習中的數學體系、Spark Mlib機器學習算法庫、Python scikit-learn機器學習算法庫、機器學習結合大數據項目。

對大數據分析有興趣的小伙伴們，不妨先從看看大數據分析書籍開始入門！B站上有很多的大數據教學視頻，從基礎到高級的都有，還挺不錯的，知識點講的很細致，還有完整版的學習路線圖。也可以自己去看看，下載學習試試。

很赞哦!（221）

上一篇： 01 外貿分享會該講什么(外貿晨會分享小知識)

下一篇： 05 廣州旭雄貿易有限公司(參加慕尼黑上海電子展展會都有哪些企業？)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业：程序员，设计师

现居：黑龙江省牡丹江西安区

工作室：小组

Email：[email protected]

您现在的位置是：Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >

02 stash訂閱配置(如何進入大數據領域，學習路線是什么？)

ClickHouse數據導入

如何進入大數據領域，學習路線是什么？

相关文章

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

热门文章

站长推荐

友情链接