職位描述
- 超算平臺運維:
負(fù)責(zé)超算平臺服務(wù)器與計算集群的日常運維與性能優(yōu)化,確保資源合理分配與高效利用,管理并監(jiān)控相關(guān)服務(wù)與應(yīng)用的健康狀態(tài),及時發(fā)現(xiàn)和解決問題,保證高可用性。設(shè)計并實施自動化運維方案,包括但不限于持續(xù)集成/持續(xù)部署(CICD)、故障自愈等。
2. 基礎(chǔ)設(shè)施建設(shè):
參與規(guī)劃和搭建云平臺的分布式計算和存儲架構(gòu)。
配合團隊進(jìn)行云資源的管理和運維,包括但不限于Kubernetes、Docker等容器編排工具的使用。
3. 運維策略制定與實施:
根據(jù)業(yè)務(wù)需求和技術(shù)發(fā)展趨勢,制定相應(yīng)的系統(tǒng)運維策略。
進(jìn)行容量規(guī)劃、預(yù)防潛在瓶頸,確保云平臺系統(tǒng)服務(wù)滿足SLA要求
4. 技術(shù)支持與合作:
與開發(fā)團隊緊密協(xié)作,解決跨部門的技術(shù)問題,提供運維相關(guān)的技術(shù)支持與咨詢。編寫和完善運維文檔,提高運維工作的標(biāo)準(zhǔn)化和規(guī)范化程度。
職位要求
- 計算機科學(xué)或相關(guān)領(lǐng)域本科及以上學(xué)歷,具備扎實的計算機基礎(chǔ)知識和實踐經(jīng)驗。
- 熟悉Linux操作系統(tǒng),有豐富的大規(guī)模分布式系統(tǒng)運維經(jīng)驗,尤其是云平臺相關(guān)組件如PyTorch等框架的運維經(jīng)歷。
- 熟悉DevOps理念和實踐,對持續(xù)集成/持續(xù)交付有深入理解和實戰(zhàn)經(jīng)驗。
- 具備良好的問題定位和解決能力,能承受較大壓力,具有高度的責(zé)任心和團隊協(xié)作精神。
- 具有python、shell腳本編寫能力及自動化運維能力。