关注微信 意见反馈

扫描关注摩尔人半导体招聘

摩尔人招聘
确定

您已提交成功

查看帮助中心
哎呀,这个职位已经下线啦
英伟达半导体科技上海有限公司

NVIDIA招聘深度学习性能架构师-上海/北京

  • 40万-80万/年
  • 上海
  • |
  • 3年以上
  • |
  • 本科
  • |
  • 全职

职位诱惑: 五险一金,年终奖金,成长空间大,技术领先

发布时间: 2021-12-22发布

职位描述

我们的目标
推动算法、核心加速软件库及GPU体系结构协同优化,在高速发展及多变的深度学习算法与GPU硬件体系结构之间建立桥梁,并研发先进的软硬件协同的加速计算解决方案。
团队职责
NVIDIA中国计算架构团队历经CUDA并行编程模型从起步至今的所有阶段,参与了几乎所有的通用GPU计算架构的研发工作,包括:Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere,以及面向未来GPU架构。
团队从高性能计算,深度学习,自动驾驶等计算应用领域出发,跟踪学界、工业界最前沿算法,并掌握其发展方向;通过对前沿算法(比如:神经网络结构)的深入理解,分析并提出芯片架构的需求:指令集、编程模型、计算能力、访存带宽、片上存储、片上网络及网络互联等。
团队同时承担基于架构优化的软件栈的开发及产品化工作:自底层加速核心算子开发及优化;TensorRT、cuDNN等核心加速库;直到上层训练框架,编译优化;混合精度、稀疏矩阵训练及量化方法开发。
基于硬件架构开发软件、算法实现,通过算法、软件开发实践反馈并推动硬件架构提升,形成闭环,最终实现软硬件协同优化,达到极致计算加速的目标:
•            建立下一代芯片性能模型, 搭建芯片性能分析平台,调研下一代芯片新特性;
•            研发及设计新的加速指令,开发原型代码,并通过迭代优化下一代芯片架构;
•            跟踪下一代芯片新特性在应用中的落地实现(编程模型、软件栈等);
•            开发集成最终软件产品库 - TesorRT, cuDNN;
•            优化训练框架(MLPerf 各项优化);
•            开发混合精度、稀疏矩阵及量化方法;
其他成果包括:若干GTC talks、学术论文、专利,公司内部技术大会报告
职位介绍:
主要方向
•            通用Accelerator芯片架构
•            基于架构的算子开发、优化、编译等
•            Tensor RT
职位要求
•            计算机体系结构(通用Accelerator芯片架构方向)
•            熟练掌握C/C++编程(算子开发、Tensor RT方向)
•            (加分项)掌握CUDA编程及性能优化
工作地点: 上海、北京、新竹

职位发布者

Tracy Wu

HR

7天

简历处理用时

100%

简历及时处理率