黄学东宣布,自己将离开已任职30年的微软,出任Zoom的CTO。
从昨天开始,整个业内被这条消息震动了。
自从ChatGPT引爆了大模型之战,全球的大厂都在重新布局战略版图,AI人才的争夺战,也进入了白热化。
而今,黄学东的离职,也是这场时代洪流中浓墨重彩的一笔。
如此重量级的技术大佬出走,江湖上势必掀起一场腥风血雨。
在微软30年,黄学东带领的团队在语音识别、机器翻译、自然语言理解和计算机视觉等方面都取得了里程碑式突破,可以说没有短板,结合下Zoom的业务场景,这一定是盘大棋。
关于黄学东加入Zoom后要从事的业务方向,专家和网友们已经纷纷展开了猜测。
告别信
在新智元独家获得的告别信中,黄学东也透露了自己进军Zoom后的方向——推动从AI到AR的新技术和产品。
在微软度过了30年不可思议的时光,今天是我告别的日子。
能够为这个杰出的公司做出贡献,并与拥有聪明才智的人们一同共事,是我的荣幸。我会永远铭记在这里的回忆和经历。
我将加入Zoom,担任该公司的新任首席技术官(CTO),我将主要推动从AI到AR等领域的新技术和产品。
Zoom承诺将投资于创新领域,这令人鼓舞,我也很兴奋能够成为这个充满活力的「初创企业」的一员。
而对于微软同事们始终如一的支持、指导和合作,我深深感激。
我们共同取得了非凡的里程碑,在Azure AI上取得的建树已经改变了整个行业,包括最新的OpenAI服务。
对于所有朋友和同事们,我无比感谢我们共同拥有的珍贵回忆和知识。
我相信我们的联系将持久存在,我们对技术和人工智能的热情将继续激励所有人。
除了Zoom给出的承诺,创始人袁征的华裔身份或许也是一个原因。作为第一代中国移民,袁征在国内和美国都有学习和工作的经历,和黄学东应该有不少共同语言。
当30年元老选择离开
作为第一位加入微软研究院体系的华人科学家,黄学东一直是微软华人AI版图上不可或缺的一块拼图。
在微软,他已经任职了超过30年。
离职前,黄学东担任Azure AI首席技术官,不仅是微软首位全球华人技术院士,也是微软最高级别的华人科学家
黄学东分别于2017年和2020年,当选ACM和IEEE会士,并于2023年同时当选美国国家工程院院士和美国艺术与科学院院士。共计拥有170多项美国专利,发表100多篇论文和2本著作。
在此之前,他于1989年获得爱丁堡大学的博士学位,1984年获得清华大学的硕士学位,1982年获得湖南大学的学士学位。1989年曾在卡内基梅隆大学进行博士后研究,之后加入卡内基梅隆大学计算机科学学院的教职。
1992年,黄学东领导卡内基梅隆大学语音识别项目Sphinx-II,实现了业界最低的错误率,并刷新了DARPA语音评估史上错误降低速度的最高记录。
这个消息震动了微软,人事部倾巢出动,想要挖来这个团队。最后,盖茨亲自出面,才终于请动黄学东。
1993年,黄学东加入微软研究院,成立了微软的语音技术团队。
在他的牵线搭桥下,微软于1996年在北京建起第一个亚洲研究院,亚研院也在日后成为中国AI届的黄埔军校。
随后,微软研究院陆续加入了李开复、张亚勤、沈向洋、洪小文等知名华人学者。
在三十年间,微软经历了多次人事变动,而黄学东始终坚守,带领微软的人工智能团队取得了一项又一项里程碑式突破。
通过Windows SAPI(1995年)、Speech Server(2004年)和Azure Speech(2015年)等产品的推出,黄学东将语音技术带入大众市场。
在1995年,黄学东主导研发了业界首个语音应用程序编程接口(SAPI),让数百万客户能在Windows应用程序中便捷使用语音人工智能技术。
此后,他负责领导的微软人工智能团队,在语音识别、机器翻译、自然语言理解和计算机视觉等方面,取得了多个历史性突破。
2016年,微软首次在对话式语音识别领域,让计算机能够像人类一样识别每一个单词。2017年,准确率首次超过人类专业速记员。
2018年,微软机器翻译系统,首次达到了与人类持平的水准。
2019年,微软机器阅读理解系统,在对话式问答任务中首次超过人类。
2020年,微软计算机视觉图形传字幕系统,在计算机视觉看图说话任务中首次超过人类。
而最近的高光时刻,是黄学东领导微软认知服务团队和OpenAI合作推出的Azure OpenAI Services, 包括微软云的ChatGPT服务。
正是OpenAI服务,使得ChatGPT能在全世界进行大规模商用。
Azure Speech、Vision、Language和OpenAI Services等Azure认知服务,使Azure成为覆盖数百种语言、为全球数十亿客户提供服务的领先工业人工智能平台,使机器看到、听到、说话和理解人类语言成为现实。
在微软云平台上用一个统一的大规模基础模型和多模态基础模型联合工作,实现了人工智能质的飞跃,并且奠定了微软云平台人工智能产业化的全球竞争力。
微软的技术突破
通过巨量包括文本,图片,语音等多模态数据的预训练,基础模型可以被应用到各类任务上,比如问答、物体识别、信息抽取等。相比于处理单个任务的模型,基础模型在部署速度和性能上都更占优势。
而微软的人工智能技术,便是建立在基础模型(Foundation Models)之上。
其实,我们可以从一个独特的视角来看待人类认知的三个属性之间的关系:单语言文本(X)、音频或视觉感官信号(Y)和多语言(Z)。
在这三者的交叉点上,有一种神奇的东西——XYZ-code。这种联合表征可以创造出更强大的AI,从而更好地说、听、看和理解。
语音
2017年,微软就把基础模型融合到了语音产品中。这种方式不但能减少大量的工程劳动,还提升了模型在各个任务上的性能。
根据斯坦福发布的AI Index2021报告,微软的语音识别准确率处于行业第一。
语言
2022年初,微软发布了全新的机器翻译模型Z-Code,可以通过迁移学习利用跨多种语言的共享语言元素,将知识从一项任务应用到另一项相关任务。
与传统的神经机器翻译方法不同,Z-Code不仅使用多语言的数据在机器翻译任务上进行训练,还使用了单语言数据作为补充,在掩码语言模型(MLM)任务上训练。此外,还通过多任务学习,同时优化多个目标函数。
鉴于Z-Code不俗的表现,黄教授团队又进一步将Z-Code升级拓展为Z-Code++,使其可以完成文本摘要任务,并在GENIE benchmark上取得了第一名的好成绩。
Z-Code++仅针对抽象式文本摘要任务进行优化,在5种语言的13个文本摘要任务中,有9个达到新sota性能,成功超越一众大模型,参数量仅为PaLM的600分之一,GPT-3的200分之一,性价比爆棚。
论文地址:https://arxiv.org/abs/2208.09770
视觉
2021年底,微软发布了一个新的计算机视觉基础模型Florence(佛罗伦萨),目的是要用一个模型一统多模态天下。
论文地址:https://arxiv.org/pdf/2111.11432.pdf
现有的视觉基础模型,如CLIP、ALIGN等,主要侧重于将图像和文本映射到一种跨模态的共享表征。
Florence则将表征进行了拓展,不仅拥有从粗略(场景)到精细(对象)的表征能力,还将视觉能力从静态(图像)扩展到动态(视频),从RGB图像扩展到多模态(文字、深度信息)。
通过整合图像-文本数据的通用视觉语言表示能力,Florence可以轻松适用于各种计算机视觉任务,如分类、目标检测、VQA、看图说话、视频检索和动作识别,在多种类型的迁移学习中均表现出色。
Florence成功地表明基础模型可以适应各种下游任务,最终集成到现代计算机视觉系统中,为现实世界的视觉和多媒体应用提供动力。
微软持续裁员,或将迎来离职潮
除了大佬的出走,整个微软团队最近都很动荡。
据说无论是微软中国还是西雅图,很多华人都要出走。
五月下旬,有一亩三分地的网友透露:「微软今年没有merit,increase不增加,base奖金和股也减少。」
另一位一亩三分地的网友,也吐槽称:「CEO虽然厉害,但是个人的感觉是,对股东是好CEO,对用户和员工来说,是非常差的CEO。」
而一位已经从微软离职的推特网友,也对CEO的表现颇有微词。
根据blind知名爆料人「Rain」的消息,微软七月份将再次裁员数千人。
初步的时间安排是在7月4日之后,但部分团队尤其是国际团队,可能会在6月宣布变动。
具体数量预计会在本月晚些时候得到更明确的消息,可能会根据一些具体的后勤情况有所调整。
大部分裁员将涉及客户服务和支持等面向客户的角色,但其他团队(包括之前已被定为目标的团队)也将受到影响。