職位描述
1、負(fù)責(zé)設(shè)計(jì)、開發(fā)和優(yōu)化單機(jī)/多機(jī)多卡GPU互聯(lián)軟件棧,如集合通信庫等;
2、負(fù)責(zé)將通信庫與AI框架進(jìn)行無縫銜接,實(shí)現(xiàn)多機(jī)多卡并聯(lián)的AI模型推理和訓(xùn)練;
3、負(fù)責(zé)協(xié)同軟硬件團(tuán)隊(duì),定位、分析和解決單機(jī)/多機(jī)多卡互聯(lián)的精度和性能問題。
職位要求
1、計(jì)算機(jī)相關(guān)專業(yè),本科及以上學(xué)歷, 5年以上相關(guān)工作經(jīng)驗(yàn);
2、熟悉芯片互聯(lián)和網(wǎng)絡(luò)傳輸編程,有PCIe P2P、RDMA、GPU Direct等相關(guān)開發(fā)經(jīng)驗(yàn);
3、熟悉常用的集合通信原語和集合通信庫,如NCCL 、OpenMPI、Gloo等;
4、熟悉C/C++編程,有良好的編程習(xí)慣和較強(qiáng)的問題解決能力;
5、有很好的團(tuán)隊(duì)協(xié)作能力與溝通能力,對(duì)技術(shù)和代碼品質(zhì)有追求;
6、熟悉CUDA或ROCm軟件棧,有類NCCL通信庫移植、開發(fā)經(jīng)驗(yàn)者優(yōu)先;
7、熟悉AI框架與大規(guī)模分布式訓(xùn)練策略,如FSDP/DeepSpeed/Accelerate/Horovod者優(yōu)先。
工作地點(diǎn):上海,武漢