11111111111
知識共享平臺
知識共享平臺

討教大學平臺

  • 首頁
  • 免費課
  • 精品課
  • 討教題庫
  • 企業服務

    hot

  • 下載APP
  • 證書查詢
  • 關于我們
我問
討教號
搜索
消息
  • 我的文章

    我的關注

    我的問答

    我的秘密

    我的評論

    我的訂閱

    我的打賞

    我的錢包

    我的通知

    我的設置

    退出登錄

  • ×

    登錄

    討教 | 通行證

    登錄
    立即注冊
    忘記密碼?
    使用微信登錄

    提問 ×

    寫下你的問題,準確的表述更容易得到答案

    類型話題

    選擇支付方式
    您的討教幣 111 付費金額

            <font id="qmysz"></font>

              簡歷寫了會Kafka,面試官90%會讓你講講acks參數對消息持久化的影響

              JAVA葵花寶典
              2019-06-17 16:28:10
              16篇 作品
              1919 總閱讀量

              目錄

              (0)寫在前面

              (1)如何保證宕機時數據不丟失?

              (2)多副本冗余的高可用機制

              (3)多副本之間數據如何同步?

              (4)ISR到底指的什么東西?

              (5)acks參數的含義?

              (6)最后的思考

              (0)寫在前面 


              面試大廠時,一旦簡歷上寫了Kafka,幾乎必然會被問到一個問題:說說acks參數對消息持久化的影響?


              這個acks參數在kafka的使用中,是非常核心以及關鍵的一個參數,決定了很多東西。


              所以無論是為了面試還是實際項目使用,大家都值得看一下這篇文章對Kafka的acks參數的分析,以及背后的原理。



              (1)如何保證宕機的時候數據不丟失?


              如果要想理解這個acks參數的含義,首先就得搞明白kafka的高可用架構原理。


              比如下面的圖里就是表明了對于每一個Topic,我們都可以設置他包含幾個Partition,每個Partition負責存儲這個Topic一部分的數據。


              然后Kafka的Broker集群中,每臺機器上都存儲了一些Partition,也就存放了Topic的一部分數據,這樣就實現了Topic的數據分布式存儲在一個Broker集群上。


              但是有一個問題,萬一 一個Kafka Broker宕機了,此時上面存儲的數據不就丟失了嗎?


              沒錯,這就是一個比較大的問題了,分布式系統的數據丟失問題,是他首先必須要解決的,一旦說任何一臺機器宕機,此時就會導致數據的丟失。




              (2)多副本冗余的高可用機制


              所以如果大家去分析任何一個分布式系統的原理,比如說zookeeper、kafka、redis cluster、elasticsearch、hdfs,等等,其實他都有自己內部的一套多副本冗余的機制,多副本冗余幾乎是現在任何一個優秀的分布式系統都一般要具備的功能。


              在kafka集群中,每個Partition都有多個副本,其中一個副本叫做leader,其他的副本叫做follower,如下圖。


              如上圖所示,假設一個Topic拆分為了3個Partition,分別是Partition0,Partiton1,Partition2,此時每個Partition都有2個副本。


              比如Partition0有一個副本是Leader,另外一個副本是Follower,Leader和Follower兩個副本是分布在不同機器上的。


              這樣的多副本冗余機制,可以保證任何一臺機器掛掉,都不會導致數據徹底丟失,因為起碼還是有副本在別的機器上的。




              (3)多副本之間數據如何同步?


              接著我們就來看看多個副本之間數據是如何同步的?其實任何一個Partition,只有Leader是對外提供讀寫服務的


              也就是說,如果有一個客戶端往一個Partition寫入數據,此時一般就是寫入這個Partition的Leader副本。


              然后Leader副本接收到數據之后,Follower副本會不停的給他發送請求嘗試去拉取最新的數據,拉取到自己本地后,寫入磁盤中。如下圖所示:



              (4)ISR到底指的是什么東西?


              既然大家已經知道了Partiton的多副本同步數據的機制了,那么就可以來看看ISR是什么了。


              ISR全稱是“In-Sync Replicas”,也就是保持同步的副本,他的含義就是,跟Leader始終保持同步的Follower有哪些。


              大家可以想一下 ,如果說某個Follower所在的Broker因為JVM FullGC之類的問題,導致自己卡頓了,無法及時從Leader拉取同步數據,那么是不是會導致Follower的數據比Leader要落后很多?


              所以這個時候,就意味著Follower已經跟Leader不再處于同步的關系了。但是只要Follower一直及時從Leader同步數據,就可以保證他們是處于同步的關系的。


              所以每個Partition都有一個ISR,這個ISR里一定會有Leader自己,因為Leader肯定數據是最新的,然后就是那些跟Leader保持同步的Follower,也會在ISR里。




              (5)acks參數的含義


              鋪墊了那么多的東西,最后終于可以進入主題來聊一下acks參數的含義了。


              如果大家沒看明白前面的那些副本機制、同步機制、ISR機制,那么就無法充分的理解acks參數的含義,這個參數實際上決定了很多重要的東西。


              首先這個acks參數,是在KafkaProducer,也就是生產者客戶端里設置的


              也就是說,你往kafka寫數據的時候,就可以來設置這個acks參數。然后這個參數實際上有三種常見的值可以設置,分別是:0、1 和 all。


              第一種選擇是把acks參數設置為0,意思就是我的KafkaProducer在客戶端,只要把消息發送出去,不管那條數據有沒有在哪怕Partition Leader上落到磁盤,我就不管他了,直接就認為這個消息發送成功了。


              如果你采用這種設置的話,那么你必須注意的一點是,可能你發送出去的消息還在半路。結果呢,Partition Leader所在Broker就直接掛了,然后結果你的客戶端還認為消息發送成功了,此時就會導致這條消息就丟失了。

              第二種選擇是設置 acks = 1,意思就是說只要Partition Leader接收到消息而且寫入本地磁盤了,就認為成功了,不管他其他的Follower有沒有同步過去這條消息了。


              這種設置其實是kafka默認的設置,大家請注意,劃重點!這是默認的設置


              也就是說,默認情況下,你要是不管acks這個參數,只要Partition Leader寫成功就算成功。


              但是這里有一個問題,萬一Partition Leader剛剛接收到消息,Follower還沒來得及同步過去,結果Leader所在的broker宕機了,此時也會導致這條消息丟失,因為人家客戶端已經認為發送成功了。


              最后一種情況,就是設置acks=all,這個意思就是說,Partition Leader接收到消息之后,還必須要求ISR列表里跟Leader保持同步的那些Follower都要把消息同步過去,才能認為這條消息是寫入成功了。


              如果說Partition Leader剛接收到了消息,但是結果Follower沒有收到消息,此時Leader宕機了,那么客戶端會感知到這個消息沒發送成功,他會重試再次發送消息過去。


              此時可能Partition 2的Follower變成Leader了,此時ISR列表里只有最新的這個Follower轉變成的Leader了,那么只要這個新的Leader接收消息就算成功了。


              (6)最后的思考


              acks=all 就可以代表數據一定不會丟失了嗎?


              當然不是,如果你的Partition只有一個副本,也就是一個Leader,任何Follower都沒有,你認為acks=all有用嗎?


              當然沒用了,因為ISR里就一個Leader,他接收完消息后宕機,也會導致數據丟失。


              所以說,這個acks=all,必須跟ISR列表里至少有2個以上的副本配合使用,起碼是有一個Leader和一個Follower才可以。


              這樣才能保證說寫一條數據過去,一定是2個以上的副本都收到了才算是成功,此時任何一個副本宕機,不會導致數據丟失。


              所以希望大家把這篇文章好好理解一下,對大家出去面試,或者工作中用kafka都是很好的一個幫助。


              本網站內容僅代表作者本人的觀點,不代表本網站的觀點和看法,與本網站立場無關,如有侵權請聯系討教。
              給作者打賞,鼓勵TA抓緊創作
              0人打賞金額
              JAVA葵花寶典
              16篇 作品
              1919 總閱讀量
              評論
              您可能感興趣的文章

              項目管理服務模式

              敏捷項目管理與傳統項目管理比較

              項目管理的特點

              PMO是什么?是管項目經理的嘛?

              項目經理必須關注的開會十大關鍵問題!

              項目的組成要素

              熱門話題 更多話題
              精益生產 質量管理 智能制造
              職場效率 項目管理 討教
              AI 大數據 六西格瑪
              ×

              給作者打賞,鼓勵TA抓緊創作!

              選擇支付方式
              選擇打賞金額
              注:打賞的收益歸作者,非平臺

              微信掃描支付

              打賞金額: 1元

              ×

              給作者打賞,鼓勵TA抓緊創作!

              您的討教幣
              填寫您打賞討教幣數量
              輸入密碼

              111

              注:打賞的收益歸作者,非平臺

              微信掃描支付

              打賞金額: 1元

              感谢您访问我们的网站,您可能还对以下资源感兴趣:

              国产精品久久久久久久人人看
              主站蜘蛛池模板: 一区二区三区在线免费观看视频| 一区二区福利视频| 国产精品一区二区电影| 国产精品男男视频一区二区三区 | 亚洲午夜一区二区三区| 色综合视频一区二区三区44| 久久精品无码一区二区三区| 精品无人乱码一区二区三区| 中文字幕在线观看一区二区| 国内精品视频一区二区三区| 精品人妻中文av一区二区三区| 亚洲AV永久无码精品一区二区国产| 国产精品视频一区麻豆| 美女福利视频一区| 一区二区三区AV高清免费波多 | 国产亚洲日韩一区二区三区| 中文字幕日韩一区二区不卡 | 精品一区二区91| 91精品福利一区二区| 中文字幕无码一区二区免费| 免费在线观看一区| 成人毛片无码一区二区| 国产91精品一区二区麻豆网站| 国产婷婷色一区二区三区| 麻豆一区二区三区蜜桃免费| 成人h动漫精品一区二区无码| 无码av免费毛片一区二区| 无码国产精品一区二区免费式芒果| 在线观看国产一区| 国产福利电影一区二区三区久久久久成人精品综合 | 亚洲日韩AV一区二区三区中文| 久久国产免费一区| 亚洲AV无码一区二区二三区入口 | 亚洲国产欧美日韩精品一区二区三区| 亚洲成AV人片一区二区| 久久精品一区二区国产| 国产福利精品一区二区| 亚洲午夜福利AV一区二区无码| 大伊香蕉精品一区视频在线| 久久无码一区二区三区少妇| 精品乱子伦一区二区三区高清免费播放|
              • <tt id="bhmjv"></tt>
                <tt id="bhmjv"></tt>
                <tfoot id="bhmjv"></tfoot>