職位描述

職位描述
負(fù)責(zé)阿里云ai服務(wù)器軟硬件平臺的規(guī)劃、定義和技術(shù)架構(gòu)設(shè)計(jì)。ai服務(wù)器軟硬件平臺,包括服務(wù)器硬件和軟硬件結(jié)合軟件,服務(wù)于ai訓(xùn)練和ai推理業(yè)務(wù)場景。
具體職責(zé)包括:業(yè)務(wù)需求分析、行業(yè)競品分析、技術(shù)可行性分析、關(guān)鍵技術(shù)原型驗(yàn)證、可靠性/穩(wěn)定性設(shè)計(jì)、性能優(yōu)化、技術(shù)方案設(shè)計(jì)、軟硬件平臺交付等,為ai服務(wù)器的核心競爭力負(fù)責(zé)。
職位要求
1、碩士以上學(xué)歷,計(jì)算機(jī)/電子/通信/電氣等相關(guān)專業(yè),10年以上工作經(jīng)驗(yàn);
2、熟悉gpgpu芯片架構(gòu)及服務(wù)器架構(gòu),熟悉gpu軟硬件設(shè)計(jì),gpu虛擬化,gpu性能分析和優(yōu)化,有g(shù)pu driver/opencl開發(fā)/cuda編程/gpu編譯器/gpu服務(wù)器性能優(yōu)化/gpu性能調(diào)優(yōu)工作經(jīng)驗(yàn)者優(yōu)先;
3、熟悉多gpu分布式并行計(jì)算、熟悉nccl通信機(jī)制,熟悉分布式機(jī)器學(xué)習(xí),熟悉熱門llm框架者優(yōu)先,包括但不限于:megatron、deepspeed、pytorch、ft、trt-llm、vllm等;
4、熟悉k8s,有g(shù)pu資源管控或作業(yè)調(diào)度工作經(jīng)驗(yàn)者優(yōu)先;
5、有良好的團(tuán)隊(duì)合作精神和積極主動的學(xué)習(xí)和溝通能力,對新技術(shù)保持熱情;
工作地點(diǎn)
地址:北京北京文一西路969號


職位發(fā)布者
HR
阿里巴巴(中國)有限公司


-
IT服務(wù)·系統(tǒng)集成
-
1000人以上
-
中外合資(合資·合作)
-
杭州濱江區(qū)阿里巴巴濱江園區(qū)699