1.管理和維護智算中心的基礎設施,包括服務器、存儲和網絡設備。
2.監(jiān)控和優(yōu)化智算中心的性能,確保資源的高效利用。
3.部署和配置Kubernetes集群,管理容器化應用的生命周期。
4.設計和實施算力調度策略,以滿足不同的業(yè)務需求。
5.處理故障和突發(fā)事件,快速恢復服務。
6.編寫和維護文檔,包括操作手冊和故障排除指南。
7.與開發(fā)團隊合作,參與智算中心的持續(xù)改進和升級
任職要求
1.計算機科學或相關領域的學士學位。
2.至少3年以上的運維工作經驗,有智算中心或GPU設備運維經驗者優(yōu)先。
3.熟悉Kubernetes(k8s)的部署、管理和故障排除。
4.熟悉算力調度原理和實踐,有實際的調度系統(tǒng)開發(fā)或維護經驗。
5.熟悉Linux操作系統(tǒng)和Shell腳本編程。
6.熟悉網絡基礎知識,包括TCP/IP、DNS、DHCP等。
7.熟悉監(jiān)控工具,如Prometheus、Grafana等。
8.具備良好的問題解決能力,能夠獨立分析和解決復雜問題。
9.良好的溝通能力和團隊合作精神。
10.能夠適應快節(jié)奏的工作環(huán)境,具備較強的抗壓能力。