崗位職責(zé):
(1)系統(tǒng)監(jiān)控與優(yōu)化:執(zhí)行云平臺的監(jiān)控巡檢,統(tǒng)計制定監(jiān)控指標,提高平臺服務(wù)可用性
(2)針對ZABBIX API函數(shù)進行二次開發(fā),擴展監(jiān)控功能
(3)開發(fā)日志展示功能,提升日志分析與可視化能力,實現(xiàn)監(jiān)控指標的定制化報表,滿足多樣化的業(yè)務(wù)需術(shù)
(4)設(shè)計并實現(xiàn)告警機制,優(yōu)化告警策略,減少冗余告警,實現(xiàn)業(yè)務(wù)指標的監(jiān)控與展示,保障業(yè)務(wù)系統(tǒng)的穩(wěn)定運行
(5)支撐云主機、云存儲、云數(shù)據(jù)庫等產(chǎn)品組合架構(gòu)的設(shè)計和咨詢、解決操作系統(tǒng)、中間件、數(shù)據(jù)庫等性能、功能問題,協(xié)安全方向同事進行安全事件溯源等
任職要求:
(1)統(tǒng)招本科以上學(xué)歷,計算機相關(guān)專業(yè)畢業(yè),在云計算領(lǐng)域從業(yè)10年以上;
(2)熟悉Linux的體系結(jié)構(gòu),熟悉Shell/Perl/Python等語言中的一種或多種,能夠編寫腳本提高運維效率
(3)熟悉TCP/IP、DNS、NTP、NFS、HTTP等主流網(wǎng)絡(luò)協(xié)議,能夠及時定位及處理基本的網(wǎng)絡(luò)故障;
(4)具有大規(guī)模openstack、k8s等集群運維管理的經(jīng)驗優(yōu)先,包括CI/CD、鏡像、網(wǎng)絡(luò)、存儲、監(jiān)控等管理;
(5)熟練掌握自動化運維平臺和工具,如zabbix、Saltack、Ansible或Fabric等自動化工具,并具備簡單二次開發(fā)能力;
(6)熟悉x86、ARM、海光等架構(gòu)服務(wù)器維護及管理者優(yōu)先;