博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
AI推理和高级优化训练营
阅读量:3589 次
发布时间:2019-05-20

本文共 4202 字,大约阅读时间需要 14 分钟。

[感谢大家反馈的各种意见,现在把修正调整后的版本重新发布,对于已经阅读过的格友,如有打扰,请见谅]

谈到AI,几乎每个人都有一些奇思妙想,但想法与产品有很大的距离,对于边缘端的AI应用,目前的一个主要问题是推理过程用时较久,延时较大,用户体验不够理想。导致这个问题的关键原因是边缘设备的算力不足或者优化不够。

本训练营直面影响AI产品落地的关键问题,深度剖析主流深度卷积网络的内部结构和常用推理引擎的工作过程,现场操练各种软硬件加速方案的实际效果,分析影响推理速度的关键因素,分享优化AI应用的最佳实践。

 

时间2019111- 12日(周五-周六)

地点:上海

形式:实战演练、讲解和讨论点评

时间长度:2天一晚(周五晚上挑灯夜战)

培训对象:

主办单位:格蠹科技(上海)有限公司(xedge.ai),A+实验室(https://www.aicademy.org/

 

 --基础篇 --

 

第一部分:卷积神经网络(CNN)剖析 1.5小时)主讲者:段勇

要点:神经网络与MLP,计算机视觉与深度学习,卷积神经网络分层结构(i.卷积层 ii. 激活层 iii.池化层 iv. BN v. Dropout vi. 全连接层),常用的CNN网络介绍(i. MobileNetii.    GoogLeNet iii. ResNet iv. MobileNet-SSDv. YOLO)【在这个部分中,老段会结合他丰富的AI实践,深入浅出地介绍深度网络的精华,详细解析常用的网络层结构】

640?wx_fmt=gif

第二部:边缘端AI推理硬件探微(2小时)主讲者:张银奎

要点:AI推理的计算特征,GEMMSGEMM,谷歌TPU的结构和对其它NPU的影响,NPU的核心调整:高并行度和大数据量,英特尔第二代VPUMyriad 2)解析(内部结构,可编程的DSP加速器(SHAVES),CV加速器,外部接口),基于Myriad 2的产品(USB加速棒和PCIe加速卡,Google Clips),Myriad X VPU解析(NCECV加速器2.0),MA2085MA2485,基于ARM的边缘推理平台,RK3399Hi3559AV00IVENNIE),HiKey970【在这个部分中,我们会携带各种形态的硬件实物,从外到内深挖各类推理平台的结构和优缺点】

640?wx_fmt=png

-- 加速篇 --

第三部分:OpenCV DNN推理引擎(1.5小时)主讲者:张银奎

要点:DNN基础(基本用法,关键的结构体类,MatNetUMat),读取Caffe模型,读取Tensorflow的模型,DNN架构,DNN后端详解,ocl4dnnHALIDE,使用向量化指令加速,DNN的代码结构,裁剪和定制DNN,提高DNN效率的方法和思路【本部分会有较多代码分析,包括解读庞大的OpenCV项目结构,分享构建OpenCV的实践技巧】

 

第四部分:Intel Movidius加速棒(1.5小时)主讲者:段勇

要点:Movidius加速棒概述,NCSDK基础(目录结构,核心文件,快速上手的方法),CaffeTensorFlow模型转换,NCSDK API讲解,案例讲解:i. GoogLeNet ii. MobileNet-SSD 【本部分会客观评价VPU的加速效果,解析VPU软硬件栈的工作原理】

 

第五部分:Intel OpenVINO推理引擎(1.5小时)主讲者:段勇

要点:OpenVINO背景,Intel CV SDK,OpenVX标准,框架对象,数据对象,图(graph),节点,节点参数,执行模型,用户kernel,Vision Algorithm Designer(VAD),模型优化,自动产生C++代码,MKL,案例讲解:Open Model Zoo 【本部分会结合开源部分的代码分析OpenVINO中的精华】

 

第六部分:安卓NNAPI1.5小时) 主讲者:王科平

要点:安卓平台AI推理概述(硬件结构、软件框架、AI Benchmark),NNAPI架构,NNAPI运行时,厂商驱动,NNAPI算子,支持NNAPI的硬件设备,准备NNAPI编程环境,NNAPI编程示例(人脸识别、目标识别/分类)

 

第七部分:使用AVX指令加速(1.5小时) 主讲者:张银奎

要点:SIMD基础,X86平台上的SIMD技术发展历程:MMXSSEAVX,现代汇编语言编程,在VS中编译汇编语言程序(.S文件),AVX2的寄存器,标量浮点指令,组合浮点指令,组合整数指令,组合和解组,IA CPU的微架构,执行流水线,使用AVX指令优化DNN 

640?wx_fmt=jpeg

第八部分:使用NEON指令加速(1.5小时) 主讲者:王科平

要点:ARM平台背景,ARM上的SIMD技术发展历程,NEON基础,利用NEON优化并行计算,ARM平台AI推理优化思考,Intel汇编与AT&T汇编,ARM内联汇编编程,使用intrinsic编程,ARM平台AI推理引擎(TEngine),解读TEngine中的NEON程序,AI推理实例解析

 

 -- 工具篇 --

 

第九部分:使用Intel VTune调优AI应用 1.5小时) 主讲者:张银奎

要点:VTune概要,VTune 2019,创建本地项目和远程项目,选择分析类型,采样和,配置符号路径和重新分析,热点分析(用户空间采样和基于硬件事件的采样),微架构分析(内存带宽分析,内存访问分析),并行分析,VTune的常用分析视图,定制VTune的分析视图,定制VTune的分析方案,在VTune中观察线程的Preempt事件,CNN推理案例解析,内存访问分析,微架构分析,使用VTune调优OpenCL代码

 

第十部分:使用DS-5调优AI应用 1小时) 主讲者:王科平

要点:DS-5基础,DS-5的核心组件,DS-5编译工具,DS-5调试器,DS-5 IDE介绍,Streamline性能分析工具,收集数据的方法,安装Gatord,手动构建和安装Gatord,自定义标注,OpenCL Kernel跟踪,热点分析,调用链分析,矩阵乘法案例分析 

640?wx_fmt=png

  

 

 

附录1:讲师介绍

640?wx_fmt=png

张银奎(Raymond Zhang),1996年毕业于上海交通大学信息与控制工程系,在软件产业工作20余年,一多半时间任职于INTEL公司的上海研发中心,先后在PASDDEGCPGPCCGVPG等部门工作。业余时间喜欢写作和参与各类技术会议,发文数百万字,探讨各类软件问题,其中《在调试器里看阿里的软件兵团》等文章广为流传。2015年起获微软全球最有价值技术专家(MVP)奖励。著有《软件调试》和《格蠹汇编》二书,曾经主笔《程序员》杂志调试之剑专栏。在多家跨国公司历任开发工程师、软件架构师、开发经理、项目经理等职务,对IA-32 架构、操作系统内核、驱动程序、虚拟化技术、云计算、软件调优、尤其是软件调试有较深入研究。从2005年开始公开讲授“Windows内核及高级调试”课程,曾在微软的Webcast和各种技术会议上做过《Windows Vista内核演进》、《调试之剑》(全球软件战役研究峰会)、《感受和思考调试器的威力》(CSDN SD2.0大会)、《Windows启动过程》、《如何诊断和调试蓝屏错误》、《Windows体系结构——从操作系统的角度》(以上三个讲座都是微软“深入研究Windows内部原理系列”的一部分)等。翻译(合译)作品有《现代x86汇编语言编程》、《21世纪机器人》、《观止——微软创建NT和未来的夺命狂奔》、《数据挖掘原理》、《机器学习》、《人工智能:复杂问题求解的结构和策略》等。

 

640?wx_fmt=png

段勇,大数据和机器学习专家

2001年毕业于上海交通大学,拥有16年大数据从业经验,是国内最早一批大数据行业应用的开拓者。精通大数据,商业智能(BI),数据挖掘,机器学习,深度学习等技术。2003-2010年,历任国内数据挖掘先驱企业华院数据的数据挖掘资深经理,研发总监,董事等职务,在商业智能、数据挖掘、精准营销、信用评分等领域有超过50个项目的实施经验。2011-2015年,杭州数云信息技术有限公司联合创始人兼CTO,带领团队研发了国内电商领域领先的CRMBI软件,先后获得“最佳电商CRM服务商”,“金牌淘拍档”等称号,并成功获得了红杉资本A轮和阿里巴巴C轮投资。2016-2017年担任WiFi万能钥匙大数据专家一职。2017年创立在线AI学习平台A+实验室(www.shiyan.ai )。目前担任格蠹信息科技(上海)有限公司产品经理。

640?wx_fmt=png

王科平,1998年毕业于复旦大学计算机科学系,曾在英特尔亚太研发中心工作7年,担任软件工程师、产品经理等职务,长期与国内、国际知名OEM ODM厂商合作,与厂商合作领导PC产品的定义与研发。加入英特尔公司前,曾担任宏碁软件研发经理,领导研发包括宏基服务器性能监视软件在内的多款产品。离开英特尔后,担任赛猊腾龙信息技术有限公司(数据防泄露术提供商)研发总监、首席技官,以及融拓信安公司首席技术官。目前担任格蠹信息科技(上海)有限公司首席技术官。10余年LINUX系统开发经验,精通LINUX内核,熟悉AI架构和计算机系统底层硬件,对GPUNPU和使用向量化指令优化有较深入研究。曾经参与翻译多本技术书籍,包括《现代x86汇编语言编程》和《21世纪机器人》等。

 

附录2:报名与收费

标准收费:6600元每人

包括:

§ 包含训练材料的U盘一个

§ 训练班讲义的电子版本和纸质版本

§ 训练营期间的午餐和茶点

§ 训练营第一天的晚餐

优惠条款:

1)同一单位6人同时报名,可免其中一人费用

2)20181231日前报名可以享受8折优惠

 

报名或垂询

课程顾问:Lisa,微信:13801874134 邮件:lisa.long@xedge.ai

 

公司付款信息:

账户名称: 格蠹信息科技(上海)有限公司

开户行:招商银行股份有限公司上海浦江镇支行                     

账号:1219 3085 8010 501

***********************************************************

正心诚意,格物致知,以人文情怀审视软件,以软件技术改变人生。

欢迎关注格友公众号

640?wx_fmt=jpeg

转载地址:http://vrpwn.baihongyu.com/

你可能感兴趣的文章
ejs中在页面上使用if-else
查看>>
moment中时间为12小时制,dayjs中时间为12小时制
查看>>
vue解决打包后文件过大的问题-使用压缩插件打包后压缩文件-compression-webpack-plugin
查看>>
爆料称字节跳动实习生删库
查看>>
无缝滚动lunbot
查看>>
如何将Map集合写入txt文件中
查看>>
springboot参数检验,Assert使用
查看>>
htonl函数原理
查看>>
MACOS的Python虚拟环境使用笔记
查看>>
MAC系统使用Matplotlib显示中文问题亲测有效
查看>>
JavaScript的类型转换笔记
查看>>
JavaScript闭包实现计数器
查看>>
JavaScript中this关键字
查看>>
JavaScript两种定时器的使用
查看>>
阿里云服务器配置Nginx访问不到问题
查看>>
MAC电脑使用jupyter notebook
查看>>
Windows上设置jupternotebook远程访问
查看>>
查找数组中指定值下标
查看>>
不用strcat进行连接
查看>>
排列组合Cnm,有参数有返回值
查看>>