內外兼修,分布式應用系統(tǒng)的高可用監(jiān)控

中國的基礎網絡環(huán)境之復雜堪居世界各國之首,隨著視頻、直播、游戲、語音、電商等流量大、用戶體驗要求高、用戶分布地域廣的互聯(lián)網應用場景,以單點部署方式早已無法滿足業(yè)務的需求,分布式應用部署方式已經成為保障業(yè)務高可用的必然之選。隨之而來的可用性監(jiān)控成為分布式系統(tǒng)的一大難題。

以某頂級IDC服務商同時也是國內最大的第三方獨立數(shù)據中心運營商為例,該服務商將全國的數(shù)據中心劃分為三個層次,即以北上廣等核心城市為核心層,以互聯(lián)網大省、骨干城市為骨干層,以二三級城市為邊緣層。其客戶根據應用等級及用戶分布區(qū)域,通過在全國范圍的科學選點,將應用分別部署在不同層級的城市數(shù)據中心,以降低總部署成本,提升用戶體驗,同時在自身IT運維和客戶服務保障過程中積累了豐富的分布式系統(tǒng)高可用監(jiān)控經驗。

簡單易用的內部應用系統(tǒng)監(jiān)控

眾所周知,當企業(yè)部署了分布式系統(tǒng),IT設備數(shù)量和系統(tǒng)規(guī)模就會呈幾何級數(shù)迅速增長,運維部門規(guī)模往往落后于系統(tǒng)增速,而原有單點監(jiān)控系統(tǒng)的轉型并非易事。下面就以這家IDC服務商為例,從內、外兩個維度探討一下高可用IT監(jiān)控系統(tǒng)的建設。

在內網監(jiān)控方面,注重的是內部IT設備的可用性。運維部門陸續(xù)使用過Smokeping,Open-falcon,cacti之類監(jiān)控系統(tǒng),最終都不了了之:Smokeping依賴的包、組件過多,安裝搭建配置繁瑣,圖形參數(shù)較多,需要查閱大量文檔; Open-falcon部署測試了0.2.0版本,雖然機制不錯,但易用性有待提高;cacti 主要用于收集歷史數(shù)據和畫圖,但在監(jiān)視大量服務器上跑的服務是否正常、告警方面,雖有插件支持,但效果很不理想。

之后,運維部門選擇了入門容易、上手簡單、開源免費的Zabbix。Zabbix易于管理和配置,減輕日常管理的工作量,豐富的數(shù)據采集方式和API接口可以讓用戶靈活進行數(shù)據采集,而分布式系統(tǒng)架構可以支持監(jiān)控更多的IT設備。

通過Zabbix監(jiān)控大網出口對全國ping延遲的綜合匯總頁面:

用Grafana簡單包裝一下,可以看到服務器的詳細運行數(shù)據:

內外兼修的外網高可用監(jiān)控

云計算、虛擬化技術的廣泛應用,分布式系統(tǒng)的后端IT設備和服務的穩(wěn)定性逐步提高,而復雜的用戶網絡接入環(huán)境、IDC機房鏈路、CDN加速等環(huán)節(jié)對業(yè)務質量的影響越來越大。很多時候,造成用戶體驗不佳和服務不可用的原因都是外部的,而這是部署在IT系統(tǒng)內部的Zabbix無法監(jiān)控的。

因此,運維部門需要一套更準確、更全面的入向監(jiān)控(外部監(jiān)控)來保障業(yè)務的高可用。監(jiān)控寶是享譽國內運維圈的IT性能監(jiān)控神器,通過覆蓋全國所有省份和世界主要國家的300多個分布式監(jiān)測節(jié)點,對外部網絡鏈路進行穩(wěn)定性和可用性的實時監(jiān)控和秒級告警服務。監(jiān)控寶支持http/https、ping、udp、tcp、smtp、traceroute等主流數(shù)據傳輸協(xié)議,能夠準確測量鏈路質量、CDN效果及DNS狀態(tài),為企業(yè)的互聯(lián)網業(yè)務進行全網、全地域性能趨勢分析。

監(jiān)控寶除了網站監(jiān)控外,還包含服務器監(jiān)控、API監(jiān)控、中間件和數(shù)據庫監(jiān)控,無需部署,無任何侵入式插件,即可獲得第一手全面實時的監(jiān)控數(shù)據。同時,監(jiān)控寶覆蓋最全面的告警通知方式,包括郵件、短信、電話語音、App Push、URL回調等。而且,監(jiān)控寶根據每月監(jiān)測數(shù)據,出具權威的第三方SLA證書,幫助企業(yè)對CDN質量、云服務質量和業(yè)務質量進行有效評估。

除此之外,監(jiān)控寶通過API實現(xiàn)Zabbix等監(jiān)控平臺的告警數(shù)據的接入和聚合,并在定制化開發(fā)的可視化大屏上進行統(tǒng)一監(jiān)控和統(tǒng)一告警,從而實現(xiàn)IT系統(tǒng)健康和業(yè)務監(jiān)控的統(tǒng)一管理。得益于監(jiān)控寶和Zabbix,這家中國最大的第三方獨立數(shù)據中心運營商實現(xiàn)了分布式系統(tǒng)高可用監(jiān)控的內外兼修。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-08-25
內外兼修,分布式應用系統(tǒng)的高可用監(jiān)控
中國的基礎網絡環(huán)境之復雜堪居世界各國之首,隨著視頻、直播、游戲、語音、電商等流量大、用戶體驗要求高、用戶分布地域廣的互聯(lián)網應用場景,以單點部署方式早已無法滿足業(yè)務的需求,分布式應用部署方式已經成為保障業(yè)務高可用的必然之選。隨之而來的可用性監(jiān)控成為分布式系統(tǒng)的一大

長按掃碼 閱讀全文