工作職責(zé):
1、負(fù)責(zé)公司平臺(tái)產(chǎn)品生命周期的維護(hù);
2、處理用戶反饋的技術(shù)問題,配合研發(fā)團(tuán)隊(duì)做產(chǎn)品研發(fā)和迭代升級(jí),提升用戶使用體驗(yàn);
3、通過自動(dòng)化等機(jī)制持續(xù)擴(kuò)展系統(tǒng),并通過推動(dòng)改進(jìn)可靠性和快速變更滿足業(yè)務(wù)需求;
4、事件突發(fā)響應(yīng)和事后優(yōu)化閉環(huán);
5、負(fù)責(zé)編寫各類維護(hù)文檔,如:實(shí)施方案、實(shí)施報(bào)告、巡檢報(bào)告、故障處理報(bào)告等;
6、開發(fā)和維護(hù)自動(dòng)化驗(yàn)收和部署工具;
任職要求:
1、有扎實(shí)的 Linux功底,熟練使用 Shell、Python、Golang、Java、Rust、C、C++等開發(fā)語(yǔ)言的一種或多種;
2、熟練掌握 VMWare、OpenStack、Docker、k8s等平臺(tái)軟件架構(gòu),特別是要對(duì) k8s的各組件工作原理有深入了解,有較強(qiáng)的架構(gòu)選型設(shè)計(jì)能力,對(duì)平臺(tái)運(yùn)行過程中的問題預(yù)防、故障發(fā)現(xiàn)故障定位、故障恢復(fù)、故障改進(jìn)有深入了解,并形成方法論;
3、熟悉機(jī)器學(xué)習(xí)環(huán)境的搭建,特別是 GPU集群的規(guī)劃建設(shè)能力,熟練掌握常用的機(jī)器學(xué)習(xí)框架的搭建、效率優(yōu)化和故障定位;
4、較強(qiáng)的標(biāo)準(zhǔn)化建設(shè)思維,對(duì)一線運(yùn)維工作的工作流程實(shí)現(xiàn)標(biāo)準(zhǔn)化和自動(dòng)化建設(shè);
5、掌握一門以上監(jiān)控相關(guān)組件應(yīng)用(Grafana/Zabbix/promethues/ES 等);
6、 能夠承受較高的工作壓力,有強(qiáng)烈的工作責(zé)任心,較好的溝通能力,良好的團(tuán)隊(duì)合作精神。