容量規(guī)劃
有效的監(jiān)控能夠避免絕大多數(shù)問題的擴(kuò)大化,但是還是做不到防患于未然。監(jiān)控告警機(jī)制完善后,就需要著手考慮容量規(guī)劃(Capacity Planning)的問題。
所謂的容量規(guī)劃,也就是一個(gè)公司為了滿足商業(yè)目標(biāo)的需求而決定生產(chǎn)能力的過程。俗語說,”人無遠(yuǎn)慮,必有近憂”,容量規(guī)劃,需要的是”遠(yuǎn)慮”。對(duì)應(yīng)到運(yùn)維的工作上來,一方面是商業(yè)目標(biāo)帶來的容量需求,一方面是針對(duì)相關(guān)歷史數(shù)據(jù)的分析帶來的預(yù)測。這里的歷史數(shù)據(jù),是需要運(yùn)維團(tuán)隊(duì)采集、整理的。(從這個(gè)角度上說),容量規(guī)劃是一個(gè)長期的過程。
相關(guān)的數(shù)據(jù)保存和圖表生成,基本上都會(huì)采用 RRDtool (http://oss.oetiker.ch/rrdtool/)來做。 RRDtool 也已經(jīng)是業(yè)界的事實(shí)上的標(biāo)準(zhǔn),但畢竟 RRDtool 只能算是一套引擎。而規(guī)模化的數(shù)據(jù)管理工作則需要求助其它工具,則不能不提 Cacti (http://www.cacti.net/)這是現(xiàn)在相當(dāng)通用的做法。老牌的 MRTG 已經(jīng)很少有人用了。
利用 Cacti,很容易得到一段時(shí)間內(nèi)某項(xiàng)數(shù)據(jù)指標(biāo)的變化趨勢(比如網(wǎng)絡(luò)流量的增長趨勢、服務(wù)器負(fù)載的趨勢等)。這是運(yùn)維過程中最主要的參考數(shù)據(jù)之一,缺乏此類數(shù)據(jù)而做決策是不可想象的。
如上圖,可以發(fā)現(xiàn)被監(jiān)控的服務(wù)器上進(jìn)程數(shù)量半年內(nèi)的增長趨勢,在 2 月份間的進(jìn)程數(shù)并不高(春節(jié)期間),隨后的幾個(gè)月突破 4000 個(gè)進(jìn)程,對(duì)于普通的服務(wù)器來說,這是比較危險(xiǎn)的。盡管當(dāng)前系統(tǒng)運(yùn)行可能比較平穩(wěn),但運(yùn)維技術(shù)人員絕對(duì)有必要考慮中期解決方案。
容量規(guī)劃中的另外一個(gè)重要參考維度是 Web 訪問日志的趨勢圖。對(duì)于中小網(wǎng)站來說,Awstats 足以勝任,更大一點(diǎn)的規(guī)?;蚴菍?duì)統(tǒng)計(jì)要求更高的站點(diǎn)或許只能自己寫統(tǒng)計(jì)工具了,還沒聽說有什么針對(duì)大型網(wǎng)站而且性價(jià)比好的商業(yè)工具。這里筆者要強(qiáng)調(diào)一下的是,商業(yè)站點(diǎn)盡量不要用第三方的流量統(tǒng)計(jì)工具,這樣很容易泄漏比較關(guān)鍵的商業(yè)信息。
補(bǔ)充后記
容量規(guī)劃其實(shí)遠(yuǎn)遠(yuǎn)不止這些,比如應(yīng)用服務(wù)器容量規(guī)劃方面、數(shù)據(jù)庫容量規(guī)劃,主機(jī)容量規(guī)劃、存儲(chǔ)容量規(guī)劃等等,把整個(gè)架構(gòu)拆成各個(gè)組件,每個(gè)組件的容量規(guī)劃都是值得大書特書的一塊內(nèi)容。
另外一個(gè)關(guān)鍵點(diǎn)是團(tuán)隊(duì)的”容量規(guī)劃”,團(tuán)隊(duì)成長這一方面如果跟不上也很容易成為瓶頸。