专访创新工场CTO王咏刚:AI人才真的能进行规模化

更新时间:2019-08-11

  今年的 DeeCamp 在北京、上海、广州、南京四地联动展开,课程设置方面,除了高屋建瓴的梳理、深入到每一个点的技术应用,还强调 AI 如何落地、如何商业化。

  培养一个 AI 工程师大概要花多少时间?如果将数量扩展至一批,这个时间又要多久?李开复的回答是,「我们用两年的实践验证,给我们五周时间其实是足够的。」

  李开复所说的「实践」是指创新工场于 2017 年发起的 DeeCamp 训练营,一个致力于培养人工智能应用型人才的公益项目。

  两年前,创新工场人工智能工程院举办了面向全球高校学生的首期 DeeCamp 深度学习暑期训练营。2018 年,DeeCamp 被教育部选中,作为「中国高校人工智能人才国际培养计划」两个组成部分之一的学生培训营。

  经过两年(2017、2018)摸索,在课程设置方面,DeeCamp 形成「理论知识课+项目实践课」的课程体系。

  第一周,密集做知识课程梳理,包括两部分:一部分跟技术、科研的前沿发展相关,让一些大咖老师(比如周志华、张潼等)帮助学生梳理机器学习的目前进展及未来的发展;后一部分,由来自产业一线的研究员、工程师或技术总监,跟学生讲技术在产业界的应用场景、具体场景中涉及到的技术。知识梳理后,进入三到四周的项目实践,在导师的指导下,使用工业界的真实数据,针对工业界的真实需求,组队做项目。

  「这是我们根据学生反馈,比如,有一些课听不懂、有一些课联系不起来,不断修正一些 debug 改进出来的东西。」创新工场 CTO、创新工场 AI 工程院执行院长王咏刚表示:

  2017 年,更多是实验性质,课程设置相对单点化。主要是做了「基于某些点的、机器学习的知识(比如计算机视觉/自然语言处理/自动驾驶)怎么在产业界应用」的尝试。后来发现,点与点之间相对离散,学生难以建立成体系的概念,也难有高屋建瓴的认识和理解。

  2018 年、2019 年,他们有意聘请了学术界「真正有中坚地位」的专家来讲课,比如周志华、张潼、俞勇、吴恩达、孙剑等。「这些专家在学术界和产业界有相对比较深的积累,可以从一个高度去梳理学生可能课本上已经学过但是没有串成体系的概念。」今年,他们还特别邀请了周志华和张潼两位老师参与课程体系设计,对课程内容进行评估和把关。

  王咏刚旁听了周志华老师在 DeeCamp 所讲的《机器学习现阶段的挑战》,他的感受是:这种概论课程,由非常有资深经验的科研带头人来讲,其条理清晰程度、脉络贯通程度和普通老师是非常不一样的,再把这些知识点用在 DeeCamp 为学生设计的、在每一个行业每一个领域的知识梳理中时,就既有融会贯通的逻辑又有每个点的深度。

  「我们希望先从一个高度帮助学生梳理整个机器学习/深度学习的发展脉络、整个 AI 发展方向做起,再把机器学习和深度学习的具体技术引入到每一个垂直领域,形成整个教学体系结构。」

  2019 年的课程,除了高屋建瓴的梳理、深入到每一个点的技术应用,还强调 AI 如何落地、如何商业化。

  「这些学生虽然是做技术、做科研的,但如果完全不了解 AI 如何落地、如何商业化的逻辑,走到工作岗位后,会很难适应 AI 商业化的潮流趋势。」于是,王咏刚便从产品和技术角度,帮助学生梳理他们未来做的事是要满足 AI 落地和 AI 商业化需求的。同时,他们邀请了其他公司或者合作伙伴的专家给学生们讲解 AI 在商业化落地中可能的方向、会遭遇的困难或者已有的经验教训。

  项目实践方面,DeeCamp 找来企业导师,他们「会给学生数据、方向建议」,项目真正的走向、安排、分工则全由学生自己定义。

  三年来,DeeCamp 招生人数越来越多,招生门槛越来越高。2017 年,从 1000 人中选出 36 人;2018 年,从 7000 人中选出 300 人;到了今年,从一万人中选出了 600 人,每 100 个人中只有 6 人会被选中。

  「扩张太快,我这儿没法分配足够的资源。我们的团队也都相对比较小。」王咏刚说,「每一年,我觉得最最苦恼、最最麻烦的一点就是我们的资源不足。」

  今年 DeeCamp 正处于学生组队做项目的环节,王咏刚依旧头疼:资源(人力、算力)够不够,赶快从哪儿再调一些资源,补充到最缺资源的地方。项目做完后开始准备展示,展示环节资源够不够,未来的展示结营仪式到底需要多少人来运营?

  而且,因为 DeeCamp 是线下培训活动,随着学生人数增加,在一个地方招聘和培训所付出的资源代价非线性增长。

  为了解决资源不足的问题,今年,DeeCamp 在北京、上海、广州、南京四城联动展开。不少公司贡献了便宜的 GPU 资源,贡献了工程师帮忙带学生,也有很多志愿者加入进来,帮助解决了一些问题。

  「这四个地方有几个特色:第一,政府对 AI 发展特别重视;第二,都有非常好的跟 AI 相关的教育,著名的高校都在这几个地方;第三,产业和创业的环境都不错。我们在这四个地方办这个活动,最终,不管是招聘、学生的输出,还是帮助学生去认识这些产业合作伙伴的资源,都相对比较容易解决。」王咏刚这样解释选择这四地的理由。

  招生规模越来越大,最喜闻乐见的,是企业。「这个时代,各个公司都有强烈的人才需求,特别是对能把 AI 商业落地的人才的需求。」

  王咏刚表示,前两年,有需求的企业主要是传统的平台型公司(比如今日头条、搜狗、美团)和 AI 创业公司(比如旷视)。今年,一些并非以 AI 为核心业务的传统领域/垂直领域的公司也找上门来。比如,玛氏(MARS,全球最大的食品生产商之一,拥有众多世界知名品牌,如 M&Ms、士力架、德芙、 益达、宝路狗粮、伟嘉猫粮)。此次,玛氏希望学生们借助计算机视觉技术图像识别宠物的健康评价。

  DeeCamp 的目标是打造AI 应用型人才培养平台,解决真实问题。因此,招生时,他们对生源做了规划:除了招计算机、数学专业的学生,电子工程、应用物理、应用数学等相关专业的学生,也给产品向和用户体验向的同学留了一小部分空间,以让每一个学生组都能像真实世界的工程小组或者产品研发小组一样,有一个丰富的角色配置。

  不可否认,这个夏令营亮点突出,但他们不分年级招收学生,本科生、硕士生、www.110238.com博士生同堂上课,这样的课程安排是否能让每一个学生都能有尽可能多的收获?对于特别拔尖的学生,他们又是否会制定个性化的培训方案?项目实践方面,DeeCamp 是如何选择项目的?是导师主导还是学生主导?学生做的项目又是否创作过价值?从 DeeCamp 毕业的学生,流向是怎样的?企业需求旺盛,未来,DeeCamp 是否会继续扩大招生规模?又如何平衡教学规模和教学质量?

  8 月 2 日,创新工场组织了小范围的媒体专访,创新工场 CTO、创新工场 AI 工程院执行院长王咏刚分享了举办 DeeCamp 多年来的心路历程,对上述问题进行了解答,并对李开复老师「五周培养一批 AI 工程师」的言论做了自己的解读。

  Q:开复老师最近在他公众号的一篇文章中写道,培训一批 AI 工程师,五周的时间就够了。课程设置真的能达到这么好的效果吗?

  王咏刚:开复说我们五周就可以把一个人才从学校阶段培养到使用阶段,这一件事我们证明可以,但是它并不是意味着所有人才都要走这一个路径。有一些人才,开复说,我可以替代博士,那替代是要这个人才取决于他要做什么,如果这个人才未来是说我就是科研向的,我就希望在科研领域树立一个位置,那显然 DeeCamp 对你的帮助不大。DeeCamp 除了给你做一些梳理以外,真正的科研工作还要你扎扎实实去做,该读博士还要读博士、该写博士论文还是要写博士论文的。

  但是反过来讲,如果你是想找到一个未来在产业界有熟练工作、能够快速上手、尽快适应产业链的机会,那你在学校读的研究生、博士阶段的大多数课程对你来说,作用就没有 DeeCamp 这么大了。

  DeeCamp 因为非常简单地把科学知识和产业知识在一个密集的课程,加上一个密集的项目实践中,让你同时体验这么多东西,所以在 DeeCamp 里面,你可以认为是学生不可多得的、在四五周的时间里立体式体验 AI 应用场景的一个机会。

  当他体验过之后,至少在方法论层面,我认为他已经满足了 AI 应用型人才的需求,或者说他知道未来怎么样去学习,能够达到这样一个目标。但是你说是不是所有人经过五周就一定能够成为什么样的人,这个我也没法保证。

  Q:我们招了本硕博、不同年级的学生,其实差别挺大的。我们怎么去保证让每一个学生的参与感都特别好,或者收获到尽可能多的东西?

  周志华老师上来就说,我知道 DeeCamp 在座的,既有本科生也有研究生也有博士生,而且你们学的很多,特别是科研方向领域挺不一样的,我来之前还在想,怎么把一个课程让你们大家都有收获。

  周志华老师实际上给大家讲的是一种逻辑梳理课。这种课适合于所有不同阶段的、学 CS 学 AI 的学生。他不是专门就某一个点的知识去展开说我这个点的问题该怎么解决,(因为)这时候需要的数学知识可能是本科生不具备的。他那一天的课程其实并没有偏重于数学知识的展开,而是理论的梳理。

  比如,为什么说一个完全可微的深度学习框架在某种情况下是有缺陷的,特别是基于符号语义的推理是有缺陷的?在这种缺陷下,我是不是能够在中间加入一些不可微组件,比如树形结构在里面。怎么样连接更好?

  他完全是从逻辑的角度分析为什么 AI 在这个方向的发展会有前途,这个方向的前途到底未来有几条路。他后来完全是用了一种脉络展开的方式、逻辑梳理的方式来帮学生讲这个事情。

  所以我认为,在这件事情上,周志华老师那门课程,其实代表了 DeeCamp 准备课程的思路,就是:我们更愿意给学生一种逻辑、一种方法论,而具体的,比如数学的某一个解法或者某一个知识点,学生完全可以用自己的方式去解决。

  我讲跟 AI 相关的产品和架构时,基本上也是用这样一个方式。我没有办法针对某一个分布式架构、AI 推荐模型和一个分布式架构的结合点,详细推敲里面很多逻辑问题、技术问题、数学问题等等。如果这么讲的话,可能很多本科生不具备这样的背景知识。

  我更多是把所有的典型架构和 AI 结合的方式有哪几种、典型架构在真正实现的时候哪些问题需要关注、AI 和它们的关系什么样,在逻辑上帮学生梳理清楚。可能在某一个领域做的很深的人觉得内容有一点浅,但这种逻辑对他来说,从一个更高的高度去回顾一下,可能也有帮助。所以我觉得,这样找一个教学上的平衡,可能是我们追求的一个东西。

  Q:如果发现 600 多个学生里有一些学生的优势非常大,我们会不会针对这些学生做一些课程调整,或者帮他们加一些新的培训项目?

  王咏刚:我觉得这是很好的建议,我们实际上没有做这件事情。课程本身还是预先安排好的,然后对这些特别在某些方面有特色的学生,我们一般都是鼓励他们以自主交流的方式。有的学生在推荐系统上特别厉害,有的学生在做竞赛上特别厉害,有的学生在发论文上特别厉害,他们都会自己去开一个研讨会,去把自己的经验分享给大家。针对学生的特长,去定制一些课程,我们至少目前还没有做,但是我觉得是挺好的建议,我们以后可以考虑。

  Q:今年是在北京、上海、广州、南京四地联动开营,在教学课程方面,会不会有一些细微的差别?

  王咏刚:大体上我们是使用同一套教学课程体系。但还是有一些少许的侧重、细微的不同。有一些是和需求结合的,但是这个比例并不是很高。

  比如,在大家都有的产业之外,南京和上海在金融方面更强一点,长三角整个跟金融相关的,包括做银行、保险、证券或者投行相关的业务会比较多,而且当地很多AI公司也是在为金融相关的领域服务。所以,我们在南京和上海的团队,有不少项目和课程是偏计算金融的。

  广州的课程设置相对会偏自动驾驶和自然语言处理。自动驾驶在广州比较热门,好几个自动驾驶创业公司在广州,广州政府也非常支持自动驾驶落地。广州当地的金融行业、零售行业、医疗制药行业,很多有跟自然语言处理相关的需求。

  Q:咱们平台有没有针对这些学生做一些渠道,帮助他们更好地发挥自己的优势?

  王咏刚:一方面,我们的平台本身是一个教育资源的聚合平台,像 Udacity、谷歌的 TensorFlow 团队,都会把他们的课程放到我们的平台上给学生使用,学生可以免费在平台上拿到很多优质的课程。

  再一方面,我们平台今年汇聚了华为、快手、Refinitiv(路孚特)、玛氏等著名的国内外公司,一起帮助学生理解产业的需求、理解产业界的任务。学生假设说喜欢华为的项目,想知道在华为工作大概是什么样,就可以直接和华为的人交流。我们也安排了很多企业开放日,让学生到企业里去参观。对学生来讲,实际上对他未来的就业择业和未来的发展方向都提供了一个选择平台。

  王咏刚:头两年,很多是我们去找企业,跟他们介绍我们的项目,问他们是不是有兴趣。今年,至少一半以上企业都是他们主动找过来的,这些企业真的知道我们 DeeCamp 的品牌,知道在我们这儿能获取一批优秀的人才。而且找过来的企业要多于我们现在合作的这些企业。很多企业我们最后都以他们准备的数据或者项目可能不够合适、或者他们今年投入资源的欲望可能跟我们需求不是很匹配为由婉绝了他们。今年真的 DeeCamp 品牌起来之后,我们可能不需要花太多精力找合作企业,很多好的企业都会找过来。

  王咏刚:我们首先会跟合作企业签署合作框架,在签框架的时候就要求他们承诺,他们的义务是什么,比如说,要在什么时候出什么样的导师出什么样课题。他们的课题出来之后,我们有一个统一的评审流程。今年确定的课题大概有 40 个,当时送给我们小组评审的课题大概有 70 个。我们做了很多筛选,把一些技术太简单的、数据有问题的、不是真实场景的课题否定掉了。

  Q:DeeCamp 最后,学生会组团队、做项目,这些项目有没有创造过价值?

  王咏刚:我们学生在 DeeCamp 的项目是短期项目,三到四周的时间。严格来说,每一个项目在工业界只能定义为原型项目。那这种原型项目是不是最终可以帮助工业界创造价值,取决于设置这个项目的企业。

  企业在这里设置一个项目,学生的源码、算法,企业是了解的。那企业会拿学生的源码和算法去做什么事情,是由各个企业决定的。比如说,去年我记得有一个特别好的项目,美团跟学生们一起做的一个项目,泛场景的 OCR 识别,就是可能出现在招牌里、名片上,或者字写得歪歪扭扭的,任何场景、各种不同情况下的文字识别。这件事,实际上行业解决的很不好。但是,我们的学生团队在三四周的时间内做出来的原型在某些方面表现不错,这表现不错的算法、思路、代码,后来就被美团的研发团队吸纳了。

  产生价值,实际上不是以产品原型本身产生价值,而是以被继承的思想、被继承的算法来产生的价值。

  王咏刚:有未来继续深造的,读硕、读博的;有去谷歌、微软、BAT 这样的大公司的;有加入我们和我们的合作企业的,也有加入到其他创业公司的。基本的分布都是正常的学 CS、学 AI 的学生的分布。

  Q:现在都在提人工智能+教育,咱们这个夏令营有没有尝试采取人工智能教育的方式?

  王咏刚:我们目前技术手段上应该说没有,可能本质的原因是,我们本身就是一个相对比较高端的、关于人工智能技术和人工智能研发的训练营。我也关注过今天很多所谓人工智能赋能教育的应用模式和范例,我觉得,可能在 K12 的初级教育阶段,用处更广一点。在真正到了专业领域的教育,目前还很难替代人和人的沟通。想让人工智能自己通过互动的方式或者引导交流的方式,把一个深入到比如深度学习原理或者深度学习某一个具体模型的道理讲清楚,跟学生沟通清楚,我觉得今天的人工智能还不具备这个能力。

  王咏刚:最重要的是取决于我们每一个课程的实际情况,包括课程主讲人对课程的版权、分发方式的建议。我们会听取每一个主讲人的意见,最终只要主讲人愿意把内容分享出来的,我们都会想办法去把它变成一个好分享的方式。比如说,我的课程我就已经分享出来了,而且做了一些补充,分享到了知乎的一篇文章里面。

  Q:DeeCamp是想打造 AI 应用型人才培养平台,有没有想过联合更多大学,推广咱们的方式?

  我们可以面向更大规模的学生去做教学,但是到底如何把控教学质量,特别是实践阶段的教学质量?因为很多理论知识课,我可以用录像、直播的方式让更多人听到。但是实践阶段,涉及到手把手教学生如何做真实的工业项目,如何拿工业数据去完成一个真实任务的事情,我们至少现在感觉,它的可复制性没有那么强。

  第一的需求还是,先把我们所关注的、我们所招聘到的顶尖大学生群体服务好,先把高精尖人才的教学做好。也许我们有了更多资源、更多余力的时候,我们再和这些大学讨论,如何把这样一个模式扩展开。暂时还在和这些大学沟通。

  王咏刚:现在已经接近 600 了,至少还会有这个规模,但是不是要增长很多,取决于明年的合作企业的基本诉求、明年整个就业环境或者明年 AI 整体的市场环境。可能这件事至少要到明年春节期间才会定下来。

  Q:AI 可能跟互联网更相似,头部效应会更明显一些。后续头部现象出来之后,可能需要的 AI 人才没那么多。您怎么看这一种现象?AI 也存在替代重复劳动的问题,AI 人才的需求真的有想象中那么大吗?

  王咏刚:这本质上取决于我们今天 AI 商业化落地的进展,如果 AI 是以我们预期的、稳步增长的速度在每一个垂直领域不断去落地,而不只局限于互联网领域。移动互联网领域的 AI 做的很好,很赚钱;但是在其他领域,比如说制造业、零售业、医疗行业,其实 AI 现在还比较早期。假设说,这些行业每隔一两年都会有一个大的进展,整体上 AI 商业化,就会对人才有持续的需求,可能就不会存在所谓人才需求过剩的情况。

  但是这种持续需求,本质上也还是取决于人才梯队建设。因为行业需求是一个复杂人才结构的需求。不只是说我会做算法,就可以满足所有的人才需求了。我可能还要有既懂 AI 也懂行业、业务的人,既懂 AI 又懂产品的人。这种复杂的人员结构的需求,未来只会更多、不会更少。所以,我们DeeCamp 会强调说,在深度之外,扩展学生视野的广度,强调学生要去解决真实世界的问题,因为我们考虑未来的 AI 商业化落地、真实需求。

  Q:AI 能力是多元的,做产品的人可能不一定需要懂神经网络,也可以做一些跟 AI 相关的产品。您怎么看 AI 智能时代,产品人员跟技术人员的联系?

  王咏刚:对产品、产品人员的定义,其实不同公司差别很大。以前,我在谷歌工作的时候,谷歌所有的产品经理 PM 这个职位,都必须是学 CS 出身的。绝对不是所有公司都这么定义的。

  今天有大量的公司,产品经理其实未必有技术背景,这只是他们对角色的分工或者定义的不同,最终造成不同的产品经理做出来的事情可能很不相同。

  我觉得,今天如果你要做的是一个 AI 相关的产品,你也许不是学技术出身,但你至少除了产品本身的方法论和逻辑以外,你至少还是要有对 AI 基本规律的认识。起码应该知道今天的 AI 主流是类似对数据的数学建模的过程,这个数学建模过程为什么最后要追求对一个函数做优化,为什么优化可以得到一个结果,得到这个结果又能够在实际过程中起作用,至少对这些基本概念要理解清楚。

  今天的 AI 产品经理可能最重要的:一个是对 AI 能做什么、不能做什么的基本概念很清楚;第二是,当 AI 能做一个事的时候,能不能真正从业务的角度出发,去想这个事,而不是单纯从技术角度出发。AI 能做一件事不假,但是能做的事到底是不是真正业务人员需要的,是不是满足你的目标用户,是不是你的目标行业所追求的,或者说是他们的关键业务环节里面的?这是今天 AI 产品人员可能和其他领域的产品人员不太一样的地方。

  王咏刚:我们是把它当成公益的事情来做的,创新工场是纯投入的一个项目。对学生来讲,也是不收学费的。所以我从来没有把 DeeCamp 看作任何一个商业平台、商业产品和商业项目,就是一个公益项目,能够给尖端、头部的学生一个很好的了解世界、认知产业环境的机会,我认为是再做多少都不会后悔的一件事情。我个人是非常愿意去投入这件事的,只要我们有精力去做这个事。如果同时还能给我们的合作企业带来很多真实的利益回报,比如说人才的回报、项目的回报,我觉得是锦上添花的事情。