崗位職責(zé):
1.負(fù)責(zé)智算中心IT設(shè)施的交付,服務(wù)器上架與裝機(jī);
2.負(fù)責(zé)智算中心IT設(shè)施設(shè)備的驗(yàn)收與測(cè)試,bios、布線、接口等硬件參數(shù)調(diào)試;
3.負(fù)責(zé)服務(wù)器的故障處理和跟進(jìn)、軟硬件參數(shù)調(diào)優(yōu)、軟硬件性能測(cè)試與優(yōu)化;
4.負(fù)責(zé)在硬件層面支持智算中心IT自動(dòng)化運(yùn)維平臺(tái)的開發(fā)、部署、日常運(yùn)行優(yōu)化工作;
5.面向企業(yè)級(jí)AI計(jì)算和高性能計(jì)算應(yīng)用場(chǎng)景,組織實(shí)施智能算力集群的建設(shè)、運(yùn)維、優(yōu)化工作:
6.評(píng)估各類異構(gòu)AI計(jì)算芯片,在各類場(chǎng)景下的適配性,組織算力調(diào)度系統(tǒng)研發(fā)工作;
7.設(shè)計(jì)、優(yōu)化、評(píng)估智算中心網(wǎng)絡(luò),測(cè)試、評(píng)估各類軟、硬件及方案適配性;
8.支撐算力用戶設(shè)計(jì)并實(shí)施個(gè)性化解決方案,配合用戶完成算力增值服務(wù)。
任職要求:
1.熟悉主流GPU硬件架構(gòu),熟悉環(huán)境部署,有智算中心排障調(diào)優(yōu)經(jīng)驗(yàn);
2.熟悉至少一種主流深度學(xué)習(xí)編程框架、熟悉智算底層架構(gòu)和實(shí)現(xiàn)機(jī)制;
3.熟悉liuxn,網(wǎng)絡(luò)設(shè)備、安全設(shè)備,有相關(guān)認(rèn)證優(yōu)先;
4.有全流程的LLM/多模態(tài)大模型部署應(yīng)用經(jīng)驗(yàn),熟悉多機(jī)、多卡集群的部署、調(diào)優(yōu);
5.具備扎實(shí)的編程能力,良好的工程素養(yǎng),團(tuán)隊(duì)合作能力和溝通能力強(qiáng),抗壓能力強(qiáng),具有較強(qiáng)的自我驅(qū)動(dòng)力;
6、有云計(jì)算,存儲(chǔ)經(jīng)驗(yàn),有相關(guān)認(rèn)證優(yōu)先;
7、熟悉Docker和Kubernetes;
8、一定的腳本編寫能力;
9、熟悉監(jiān)控工具;
10、對(duì)服務(wù)器硬件及參數(shù),硬件適配、排障有一定了解。