如果说 AI 是一场饕餮盛宴,数据是原材料,算力是天然气,算法是菜谱,那么开源就犹如无数厨师经验与智慧合著成的一本永不完结的烹饪百科全书,其他厨师可以从中汲取经验来快速完成菜品,也可以指出书中的问题、贡献更多创意,让这本书经过无数人的完善后逐渐成为神作。
相关统计数据显示,全球开源项目数量呈指数级增长,截至 2019 年 GitHub 托管仓库已有 1.4 亿,2019 年新增仓库 4400 万个,创建第一个项目的用户比 2018 年增加 44%。SourceClear 调查报告预测,2026 年全球开源项目数量将超过 3 亿。
开源,正处于一片狂欢中。
近日,中国信通院发布了《开源生态白皮书》(以下简称白皮书)。白皮书从技术、市场、趋势、挑战等多维度,对我国开源产业生态进行了全面、深度的剖析,指出了我国开源产业发展的几大重要趋势。
如果您想获得本报告的全文pdf,请在雷锋网(公众号:雷锋网)微信公众号回复关键词“ 1022报告”提取。
文档来源:中国信通院
一、开源生态概述
1、开源概念逐渐明晰
开源既是一种协作模式,也是一种特性的产品。
开源形态最早出 现于上世纪六十年代,软件代码附属硬件产品以开源的形式分发。1983 年,Richard Matthew Stallman发起 GNU 计划,推动自由软件概念,成为开源软件早期形态。
开源软件明确定义由 1998 年 OSI 给出,包括十大特性,即自由再发布、源代码公开、允许派生作品、作者源代码完整性、不能歧视任何个人或团体、不能歧视任何领域、许可证的发布、许可证不能只针对某个产品、许可证不能约束其他软件、许可证必须独立于技术。
从过程维度看,开源是一种分布式协作模式,从结果维度看,开源是一种特定形态的产品,具有公开、可使用、可修改、可分发特点。
开源软件比自有软件更宽松,开源软件与免费软件无直接对应关系,公开代码不一定是开源软件。
开源生产模式逐渐成为新一代软件开发模式。随着产业数字化发展,信息技术需要满足业务场景发展需求,具有海量数据处理能力,快速上线迭代特点,多场景异构兼容性,传统软件封闭开发模式在创新度、迭代速度上均存在一定限制。
开源开发模式具有公开透明的特点,有效聚集优质开发人员,形成分布式协作,推动产品快速迭代,同时丰富企业商业模式,促进科技公司良性竞争。
2、开源生态以开源项目为中心构建
开源生态以开源项目为中心构建,依托开源社区协作形成软件、硬件等开源项目。涉及开源贡献者、开源使用者、开源运营者、开源服务者多重角色,包含开源治理、开源运营、开源商业布局等多个环节,需要满足开源规则要求,依托代码托管平台等基础设施构建。
微观层面开源生态依托四大角色进行有效协作。
开源生态涉及开源贡献者、开源使用者、开源运营者、开源服务者等多个角色,企业和个人均可参与。
对于开源贡献者和开源服务者,开源是实现商业布局的一种途径,可将开源布局与商业产品布局进行有效结合,推动用户使用,在应用层面有效降低边界成本,扩大用户使用范围。
对于开源使用者,开源模式推动产品快速迭代,激发产品创新,丰富产业侧供应体系,建立用户需求联动机制。
宏观层面开源生态涉及开源运营、开源治理、开源商业布局、开源规则、基础设施等多个要素。
二、开源生态发展现状
1、开源数量持续攀升,我国开源覆盖全栈技术领 域
全球开源项目数量呈指数级增长。根据全球最大开源代码托管平台 GitHub 年度报告数据显示,截至 2019 年 GitHub 托管仓库已有 1.4 亿,2019 年新增仓库 400 万个,创建第一个项目的用户比 2018 年增加44%,130 万开发者对开源做出首次贡献。SourceClear 调查报告指出开源项目已呈现指数级增长趋势,2026 年预计超过 3 亿。
活跃开源项目集中在新兴技术领域
2019 年 GitHub 代码仓库中,人工智能、云计算等新技术领域开源项目关注度较高,微软的源码编辑器VSCode、机器学习文档 AzureDocs 是 2019 年 GitHub 上贡献者最多的开源项目,其次是谷歌的机器学习平台 TensorFlow、容器编排平台 Kubernetes 和 Facebook 的移动应用开发框架 React Native框架。
我国自发开源项目覆盖全栈技术领域
我国自发开源项目涵盖底层操作系统、物联网操作系统和编译器,中间层边缘计算、容器、中间件、微服务、数据库和大数据,上层前端开发、移动开发和UI框架,另外还有人工智能领域、运维和其他热门开源项目,基本覆盖目前主要的技术领域,接近 30 个的开源项目已经捐赠给开源基金会,走向国 际。
2、开源占据各领域主要市场份额,我国开源应用逐年攀升
全球基础软件领域,开源占据主要市场份额。基础软件主要包括操作系统,数据库和中间件,操作系统可以细分为 PC 操作系统、手机操作系统、物联网操作系统、超级电脑操作系统等。
根据 Linux 年度报告,在操作系统领域,Linux 分别占据 100% 的超级计算机市场和 82% 的智能手机市场,桌面操作系统市场排名第二;数据库可以分为关系型数据库与非关系性数据库,非关系型性数据库又可以细分为文档型数据库、图数据库、时序数据库、K-V存储数据库等。
根据 DB-Engines 数据显示,截至 2020 年 9 月全球开源数据库 182 个,已超过商业数据库 176个;中间件可以按照功能分为消息中间件、事务中间件与远程过程调用(RPC)中间件。
根据 enlyft 数据显示,ApacheKafka 占据应用集成领域 16.5%市场份额,同类型竞品中排名第一,Seata、Dubbo 也分别在事务中间件与 RPC 领域占据领先地位。
全球新兴技术领域,开源成为主要技术路径
云计算领域涉及虚拟化、虚拟化管理等多个技术,以容器为代表的云原生技术路径是未来云计算发展趋势。
根据 CNCF 调查报告,2019 年 84% 的公司在生产中使用容器,其中 78% 的用户使用 Kubernetes 进行容器集群管理;大数据领域,大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用等关键技术。
根据 QYRescearch 调查显示,到 2025 年全球 Hadoop 市场预计将达到 6708 亿美元,2017-2025 年年均增长 65.6%,亚马逊 EMR、谷歌 Dataproc、阿里云 E-MapReduce 和 AzureHDInsight 均选择基于 Hadoop 构建。
人工智能领域涉及机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR 等技术,其中机器学习框架是关键技术,TensorFlow 拥有 8 万多 Fork 数,位居同类型产品排名第一,Caff 和 Keras 在学术界和工业界应用广泛,三者稳居深度学习库前三名。 我国开源软件应用比例略有提升。
根据信通院调查显示,2019 年我国企业已经使用开源技术的企业占比为 87.4%,比去年增长 0.7%,暂未计划使用开源技术的企业占比为 2.3%,比去年降低 0.4%,我国企业对开源技术的接受程度较高,使用开源技术已成主流。
节约成本,大大缩短应用部署时间,成为我国企业选择使用开源技术最主要的原因
有 50.8% 的开源用户企业认为使用开源技术可以节约成本,比去年增长 8.9%,认为使用开源技术可以大大缩短应用部署时间的企业占比为 45.1%,另外自主性、可控性(30.3%)和降低试错风险(20.7%)也是企业认为使用开源技术的两个优点。
我国超半数企业使用开源软件应用于数据库方向
企业在数据库方面对开源软件的使用比例最高,占比为 58.7%,其次企业对大数据和存储的开源软件使用占比也均超过五成,分别为 52.4% 和 51.2%,另外有 48.4% 的企业在网络方面使用开源软件,有 46.3%的企业选择在云计算方面使用开源软件。
我国云计算领域已普遍应用云计算开源技术
据中国信通院调查,云计算开源解决方案部署虚拟服务器的个数在 500 以内的企业占比最高,达到33.5%,虚拟服务器个数在 500 个以上的企业占比 25.8%,还有 35.4% 的企业已少部分试用部署虚拟服务器。
我国超过七成的企业已经应用开源容器技术
据调查,40.7% 的企业已经使用了容器技术,相比 2018 年提高了 4.3% ;其次,正在测试容器技术应用环境的企业占比达到 323%,比去年减少 1.9 个百分点。此外,还有 19.1% 的企业正在评估容器技术。
微服务领域以开源技术路径为主,我国超过六成企业已经应用或正在测试微服务框架
在对企业微服务框架使用情况的调查中发现,24.8% 的企业已经应用微服务框架,相比 2018 年提高 2.0%;其次,正在测试环境的企业占比达到 34.4%,与去年相比提高 2.8%;此外,还有 27.6% 的企业正在评估微服务框架。
Jenkins是目前我国企业使用最广泛的开源集成工具
调查发现,在诸多开源集成工具中,Jenkins 的使用比例最高,达到 36.8% ;其次,分别有 32.9% 和21.1% 的企业表示已经应用 TeamCity 和 GitLab CI。此外,使用 Go CD 的企业占比为 9.2% 。
3、开源企业数量保持稳定增长,我国企业呈现主动开源趋势 ,全球参与开源生态的企业数量激增
全球企业一方面积极参与开源代码贡献,截至 2019 年 12 月 GitHub 参与的企业数接近 300 万;
另一方面积极跟进开源组织,目前 Linux 基金会企业会员数超过 1500,是 5 年前会员数的 5 倍。
我国企业近年开源热度提升
近两年来,我国头部科技公司贡献大量开源项目,百度、阿里、腾讯和华为等企业开源数量连年增长。
技术共建是我国企业参与开源的主要动机
根据信通院调查,60.7% 的企业希望通过建设开源生态的方式影响共建技术,实现产品的完善与提升,其次,有 41.4% 的企业希望能借助开源项目扩大企业名气。
大范围发起开源的企业仍占少数
信通院调查发现,我国自发开源企业中,开源项目数量小于10个的企业占比为40.1%,仅有44%的企业开源项目数量超过100个。
GitHub 成为我国自发开源企业首选的开源代码托管平台
对开源自发企业调查发现,企业开源项目时最多考虑的代码托管平台是美国公司运营的 GitHub,比例高达46.1%,其次选择的代码托管平台是中国公司运营的Gitee,占比为32.8%,另外还会考虑的开源代码托管平台是GiLab(美国公司运营)和Coding(中国公司运营)。
超六成开源服务软件提供闭源软件
调查的开源服务企业中,有67.4%的企业拥有基于开源软件的闭源软件,说明开源服务企业提供开源服务时大多通过售卖封装好的闭源软件创造商业价值。
云计算和数据库是开源服务企业的两大热门领域
调查显示,2019 年中国开源服务企业中 51.9%是基于云计算领域的开源软件进行二次开发提供开源服务,有 47.8% 的产品是基于数据库领域的开源软件进行二次开发,此外网络(28.8%)和人工智能(26.3%)类开源软件也是开源服务企业进行二次开发主要选择的两个领域。
4、开源基金会成为开源运营重要角色
目前主流的开源基金(Linux基金会、Apache基金会等)是在美国国税局注册的501(CX3)或501Cc)非盈利机构,近年来开源基金会会员数及托管项目数不断扩充,我国企业积极参与国际开源基金会。
5、各行业开源生态已经形成,我国行业积极拥抱开源
全球各行业开源应用均占据较高比例。根据新思科技发布的《2020开源安全与风险分析报告》调查显示,在可扫描的代码范围内,在互联网和软件基础设施行业以及物联网行业的代码库中分别有83.4%和82.1%是开放源代码;
其次,在教育技术、网络安全、营销技术领域开源代码分别占比78.8%,78.4%和78.1%;金融服务和技术(75.3%)、能源和清洁技术(71.6%)、以及娱乐媒体行业(70.1%)也都是开源代码应用的热门领域。
全球传统行业积极跟进开源组织,并形成行业特色开源社区
2019 年 Github 企业账号超过 300 万,AT&T、摩根大通、西门子等行业用户积极参与开源贡献;Linux基金会会员同样覆盖重点行业用户,包括通用、NTT、富士通、中国移动、民生银行等。
重点行业及领域逐步形成特定开源社区,对于电信行业,Linux 合并的六个项目(ONAP、OPNFV、OpenDaylight、FD.io、PDNA和 SNAS)成立LFN 工作组,白金会员中覆盖全球 60% 运营商;
金融行业,2016 年成立金融行业开源社区(FINOS),2020 年成为Linux基金会的子基金会;
边缘计算领域,Linux基金会在 2019 年成立LFEDGE基金会,旨在建立独立于硬件、芯片的一个开放的、可互操作的边缘计算框架。
我国互联网、金融、软件和信息技术服务行业是开源服务企业主要的服务对象
开源服务企业对互联网服务的占比最高,为 40.8%,其次是服务软件和信息技术行业,达到32.6%,金融业也是开源服务企业的重要服务对象,服务占比达31.6%。
6、开源风险问题凸显,成为开源应用屏障存在漏洞的开源软件占比较高
根据BD《2020开源安全与风险分析报告》显示,75%的代码库至少含有一个漏洞,49%的已审核代码库包含高风险漏洞,发现最多的高危漏洞为CVE-2018-16487,在513个代码仓库中发现此漏洞(高风险Lodash原型污染漏洞)。
7、全球开源治理理念兴起,我国初步形成开源治理模式
我国企业逐步关注统一开源治理
开源软件数目庞大,统筹管理困难成为企业最关注的开源软件引入风险点,23.6% 的受访企业有统一管理流程和管理团队,13.4%的企业有白名单或黑名单机制,55.1%的企业目前对引入的开源项目没有统一管理,主要由开发运维团队分散管理。
开源软件数量庞大是开源治理的主要难点
对开源用户企业调查 发现,开源软件数量庞大,统筹管理困难是企业关注的开源软件引入的最主要风险,占比达到63.4%,技术更新迭代快、运维成本高(52.8%) 和安全漏洞威胁严重(50.2%)也是企业认为引入开源软件会遇到的主要风险。
三、开源成为企业商业布局的重要手段
企业可通过主动开源进行商业布局,一是积极跟进相关领域顶级开源项目,深度参与开源贡献,影响开源技术路线;二是建立自发开源生态,将有可能影响市场格局的项目开源,同时培育潜在用户,推动形成事实标准;三是收购特定领域开源企业,与自身商业产品配合,扩大用户市场;四是结合开源项目提供开源服务,通过开源服务实现商业转化。
1、全球开源企业已启动收购模式,进一步扩大用户群体
IBM 在过去五年中投入开源近 10 亿美元;微软 2018 年以 75 亿美元收购GitHub。
2、全球开源企业积极布局开源,率先在基础软件领域发力,带动整体商业布局
顶级科技公司成为开源的重要贡献者,微软、谷歌、红帽、英特尔等顶级科技公司的员工是开源项目的重要贡献者。
根据Github统计,微软有7700名员工参与开源投入,谷歌有5500人参与开源投入。谷歌开源移动操作系统Android,截止2019年8月,在全球移动操作系统市场中占有率高达 75.44%;开源 PC操作系统ChromeOS,在美国有一定市场地位,其市场占有率高达4.82%。微软开源跨平台编译器VScode,自2016年起连续占据GitHub开源项目TOP10,2018-2019稳居榜首,由它部署的Azure在2018年市场收益达到48.6亿美元,占据云计算市场17%份额;Facebook开源对象关系数据库服务器PostgreSQL,2020年3月,DB-Engines 数据库流行度排行榜第四名。
3、我国开源企业已初步构建形成有影响力的开源项目
我国积极跟进国际开源生态。参与国际顶级开源社区反馈,实现技术输出,共建技术路径,GitHub国内贡献数 117万,在全球占比11.8%,Linux项目中国在全球贡献度排名第三。
4、头部科技公司在基础软件领域的开源项目呈增长趋势,开源将成为未来新技术发展的重要抓手
华为开源服务器操作系统 EulerOS,跨平台的操作系统 HarmonyOS,单机版数据库GaussDBOLTP,全场景 AI计算框架 MindSpore;腾讯开源轻量级物联网实时操作系统TencentOS tiny,万亿级分布式消息中间件 TubeMQ,企业级分布式HTAP数据库管理系统 TBase;阿里开源实时计算平台Blink,云服务器架构"方升",关系数据库OceanBase。
四、开源生态未来发展趋势与建议
1、发展趋势
开源从个人行为逐渐发展成为企业行为
开源虽起源于个人行为,但由于开源的协作模式和产品特点,影响商业产品的市场格局,企业层面逐渐借助开源模式实现市场布局,企业层面通过主动布局开源,减低边界成本,引导事实标准,改变市场竞争格局,同时吸纳多方参与,激发产品创新,满足用户多场景需求;国内逐步主动布局基础软件领域开源生态,国内早期开源生态发展最早集中在应用侧开发软件领域,虽开源项目数量百万级别,但具有国际影响力的开源项目不足,近年来国内企业逐渐侧重基础软件领域开源项目布局,在操作系统、数据库、中间件等领域涌现多个开源项目,不乏国际基金会的顶级开源项目。
基金会与联盟开源运营呈现多 态发展趋势
开源联盟组织将持续推进与企业的开源运营合作,我国开源基金会逐步形成稳定流程机制,国内开源联盟组织相对灵活,覆盖主要技术领域,可借助联盟标准化与行业推广优势,推动我国自发开源项目应用;国际仍以开源基金会作为主要运营载体,为开源项目运营提供有力法律、协作支撑,建立与国内外开源组织、标准化组织建立联动机制,推动开源项目建立生态。
开源风险问题得到关注,开源治理体系逐步建立
开源项目虽最终形成软件、硬件等最终形态,但需要满足开源许可证要求,相比通用软件具有一定的使用范围和规则要求。
未来开源风险问题进一步凸显,开源应用情况逐渐透明,开源违约、兼容性、被开源等风险进一步暴露,全球开源违约判例可能进一步增加,企业内部逐步建立开源治理体系应对开源风险,通过开源管理机制及平台规避开源风险。
行业开源生态兴起
行业用户在开源生态的角色逐渐发生转变,从开源使用到自发开源发展,金融、工业互联网、电信、政府采购等行业逐渐探索行业内开源生态构建,将企业内部信息建设代码脱敏输出,借助开源公开透明的特点快速迭代,形成满足行业属性的特定开源项目,逐步形成行业开源协作机制,实现行业输出战略布局。
2、建议
企业侧建立稳定的开源模式
我国自发开源企业需要建立稳定的开源商业模式,一是针对国际基金会顶级开源项目,建立社区反馈和联动机制;二是建立自主开源生态,重点在操作系统、数据库、中间件等基础软件领域探索开源。
第三方快速完善开源运营机制
一是国内开源联盟组织持续推进与企业的开源运营合作,借助联盟标准化与行业推广优势,推动我国自发开源项目应用;二是开源基金会形成稳定的决策机制,项目孵化流程,为国内开源项目运营提供有力知识产权托管以及法律、协作支撑。
构建开源治理体系
针对自发开源企业、开源使用企业建立开源软件管理体系,第三方组织需制定开源软件治理的行业标准,通过制定开源软件管理规则,帮助企业规范开源软件的使用和输出,实现企业软件的全覆盖和全流程管理,同时配套建设开源风险检测、开源生态监测等平台,推动企业落地开源治理体系建设。
AI 于开源而言,或许与其他软件别无二致。而开源于 AI 而言,却是促进 AI 应用创新与更多行业智能化普及的重要驱动力。
当前我国在 AI 应用层基本站稳脚跟,在数据资源、数理人才、市场环境等方面均有很大优势,再加上战略引领、政策支持助力,AI 开源开放平台、完整 AI 生态链的相关建设正在持续推动中。
这或许会是一个长期的工作,不仅需要产学研各类机构的协同努力,也需要更多开发者的鼓励与支持。