職位描述:
1、負(fù)責(zé)全網(wǎng)容器服務(wù)集群的實(shí)施、維護(hù)、故障排查等工作(調(diào)度、網(wǎng)絡(luò)、GPU、監(jiān)控、日志等)。
2、負(fù)責(zé)行業(yè)專屬大模型統(tǒng)一管理平臺(tái)的資源調(diào)度,如平臺(tái)資源開通、調(diào)度擴(kuò)縮容等。
3、負(fù)責(zé)行業(yè)專屬大模型統(tǒng)一管理平臺(tái)的運(yùn)行維護(hù),如平臺(tái)資源監(jiān)控、事件監(jiān)控、性能分析、巡檢診斷等。
4、協(xié)助團(tuán)隊(duì)項(xiàng)目日常維護(hù)、持續(xù)學(xué)習(xí)和分享云原生領(lǐng)域的前沿技術(shù)。
5、公司安排的其它相關(guān)工作。
任職要求:
1、統(tǒng)招計(jì)算機(jī)科學(xué)、軟件工程等計(jì)算機(jī)相關(guān)專業(yè),1-3年以上工作經(jīng)驗(yàn),至少熟悉Go/Python一門語言。
2、熟悉Linux/Unix操作系統(tǒng)和操作命令,包括:tcpdump,iptables等工具的安裝配置和使用。
具有扎實(shí)的虛擬化、容器、網(wǎng)絡(luò)等云計(jì)算平臺(tái)底層技術(shù)基礎(chǔ)。
4、熟悉K8S或OpenStack的平臺(tái),有公有云(阿里云、華為云、騰訊云)或混合云項(xiàng)目研發(fā)與實(shí)施經(jīng)驗(yàn)優(yōu)先。
5、具有相關(guān)的線上問題系統(tǒng)化的分析能力,性能調(diào)優(yōu)經(jīng)驗(yàn),能獨(dú)立定位和解決業(yè)務(wù)系統(tǒng)接入容器云平臺(tái)的各種問題。