题图来源 | pexels
Canalys 最新预测数据显示,2024 年,智能手机总出货量中,仅有不到 5% 为 AI 手机(AI-capable smartphone),但这也意味着 AI 手机的出货量仍将达到 6000 万部,而同年 AI PC 的出货量仅为 5300 万台。
目前具备端侧 AI 运行能力的智能手机已经并非新鲜事物。把时间往回推十年,我们当时已经能看到 AI 算法运行在手机的 ISP 以及 NPU 上。但最近大型语言模型(LLM)的出现又促使我们重新思考和定义什么是以生成式 AI 驱动的“AI 手机”。本篇文章将会解释“AI 手机”的定义,以及为何对于厂商来说,在智能手机上实现端侧生成式 AI 将至关重要,以及未来智能手机的端侧 AI 应用将会如何发展。
什么是“AI 手机”?
与 PC 不同,智能手机端侧对于 AI 的应用已有了相对较长的时间,这使得“AI 手机”成为了一个更为广泛且模糊的概念。像高通、联发科、三星以及谷歌这样的芯片厂商多年来都一直在专注于提升 NPU 以及 TPU 的性能,而苹果、华为、vivo 和小米这样的智能手机厂商也正在将 AI 算法应用于设备上,从而提升成像质量、电池寿命和打字体验。然而,在生成式 AI 模型爆发的当下,将 LLM 和其他生成式 AI 模型在端侧跑通将会对计算平台和软件能力提出新的挑战。
Canalys 认为,“AI 手机”应该满足以下标准:
最低要求:满足以下所有标准的智能手机可以被定义为“AI 手机”。
SoC 应包含能够加速 AI 任务的专用单元(例如高通 Hexagon、联发科 APU、Google TPU)。
智能手机应能够在端侧运行 LLM(例如Google Gemini、三星 Gauss)和其他生成式 AI 模型(例如,Stable Diffusion)。
端侧 LLM 的推理性能应快于成人的平均阅读速度,相当于 10 token/s(基于 LLaMA-2 7B, 或同等水平)。
使用端侧 AI 生成图像的时间应小于 2 秒(基于 Stable Diffusion v1.5,20步,512*512 分辨率,或同等水平)。
可选要求:满足上述最低要求的“AI 手机”不一定需要满足下述所有可选要求。然而,满足下述可选要求对于用户体验来说将会是加分项。
设备出厂时应预装 LLM(例如 Google Gemini、三星 Gauss)。
为第三方开发者提供生成式 AI 相关的 API 和 SDK,以方便开发者将生成式 AI 驱动的功能集成于端侧移动应用中。
在设备上预装由厂商第一方开发的生成式 AI 功能,并且保证其可以在端侧高效运行。
为何智能手机是端侧 AI 的重要载体?
庞大的装机量:与其他消费电子产品(如 PC)相比,智能手机拥有最庞大的装机量。Canalys 预计,到 2023 年,全球智能手机的总装机量将达到 50 亿部,远远超过笔记本电脑加上台式机的 14 亿台装机量。并且对于发展中市场和年轻一代而言,这一数量差距将会更加显著。因为这部分群体大多已经跳过了个人电脑时代,更多使用移动原生应用进行内容消费和社交媒体活动。因此,把 AI 应用集成到智能手机端侧将有助于触及更广泛的受众。
便携的产品形态:智能手机的便携特点有助于加速 AI 应用的普及与个性化。口袋大小的尺寸能够使手机更适合各种日常用途,使用场景涵盖从通信到娱乐等多种需求。并且相比起在 PC 上更常用的生产力以及工作场景,手机相对日常的应用场景将会形成互补,从而帮助扩大 AI 在消费者数字生活中的影响力。此外,多种不同的传感器以及与其他设备的互联性进一步增强了手机的数据收集能力,为高度个性化的 AI 应用的开发铺平了道路。
强大的应用生态系统:智能手机的强大应用生态系统将为厂商打造一个欣欣向荣的开发者社区。智能手机与其他 IoT 设备(例如智能手表)相比有更广大的应用市场生态。智能手表生态下能够提供的应用数量往往较少,且更专注于健康和锻炼建议等特定场景,而智能手机更成熟的应用市场生态为 AI 创新提供了更广阔前景。强大的应用生态系统不仅有助于跨应用程序的无缝 AI 集成,也有利于通过茁壮发展的开发者社区创造多样化的第三方 AI 应用。
智能设备生态系统中的枢纽:与其他电子设备相比,智能手机的连接性和泛用性也使其占据了更重要的生态位。行业的主要玩家(例如三星及其 Galaxy 生态系统和小米的手机x AIoT 战略)都将智能手机置于其庞大设备生态系统的核心位置。整合端侧 AI 将有望进一步增强互联体验,使得智能手机通过 AI 功能根据用户行为和情境场景生成个性化的自动化操作来控制其他设备。
端侧 AI 将如何革新智能手机?
下面的金字塔图展示了以需求为导向的智能手机主要应用场景。我们还列出了每种应用场景中一些相对早期的潜在 AI 功能。对于智能手机而言,娱乐、通讯以及信息获取是三大核心应用场景。我们预计绝大部分用户将会被这三大场景中的 AI 功能所触达,例如更先进的照片编辑功能和自动回复信息功能等。而对于厂商来说,这些使用频次较高的 AI 功能将会有助于提升智能手机上的 AI 使用率,并能通过这些场景中的特色 AI 功能抢先占领大多数消费者的心智高地。
此外,与 PC 相比,随着屏幕尺寸的增大以及折叠屏新形态的兴起,智能手机对于大多数用户来说也开始逐渐成为一种轻型“生产力”工具。厂商仍然需要在这一应用场景内开发有意义的功能,从而吸引高端市场的专业消费者。值得注意的一点是,专业消费者往往期望 AI 输出能够保证质量、准确性和可靠性。因此,打造一个负责且值得信任的 AI 功能以及相应的端侧大模型在这一场景下会显得至关重要,在这一能力中占得先机也能够为厂商提供占领高端专业用户市场的机会。
根据对于早期 AI 手机的观察,我们列出了一些即将实现(或已实现)的 AI 功能用例。
后台任务
硬件优化:AI 可以根据用户行为或场景为操作系统提供帮助以优化电池寿命或相机成像。
跨设备自动化:通过利用智能手机传感器获得的数据,AI 将能够理解使用场景,并生成跨设备自动化任务,例如,在用户回家时自动打开灯光或电视。这些自动化任务以往是由用户手动设置,而现在 AI 将智能地在后台进行处理,从而简化用户体验。
娱乐
图像和视频编辑:除了消除物体和智能抠像之外,用户还可以利用 AI 驱动的功能获得更心仪的照片以及更好的视频编辑体验,如自动颜色校正、背景替换和艺术风格化转换等。
社交媒体内容创作:AI 可以根据视频或照片撰写帖文,帮助用户维持社交活跃度。
通讯
自动电话接听:AI 将根据用户的语音语调生成更自然的声音用于自动电话接听。AI 能够更好地理解拨打方的意思,提高对话质量。
自动回复:AI 将利用学习到的用户行为模式,在消息应用程序中生成自然的回复信息,以供用户选择。
信息
视频搜索:AI 可以帮助用户理解视频内容,以便在视频中搜索特定信息。例如,通过搜索对话语句关键词在视频中定位到特定场景。
端侧 AI 驱动的聊天机器人和搜索:AI 将有助于更好地理解用户通过自然语言进行的搜索查询,并改进搜索结果。端侧聊天机器人能够理解和记录用户数据和历史对话,同时确保用户隐私受到保护。
生产力
内容摘要:AI 将能够从各种格式(例如,音频、视频、电子邮件附件)的长篇内容提取内容,生成简洁的摘要,帮助用户更方便地在智能手机上阅读这些内容。
日程助理:AI 将利用来自横跨多个应用程序的数据源,自动创建和管理日历日程,同时确保用户数据受到保护。
此外,我们必须强调,建立第三方开发者社区在智能手机厂商的整体 AI 战略中具有相当的重要性。AI 手机成功的关键在于能否扩大智能手机的应用场景并搭建 AI 原生应用。像抖音以及滴滴打车这类移动原生应用已经塑造了我们目前使用智能手机的基本范式,而这类应用通常由第三方开发者制作。这些第三方开发者在未来也有望去利用厂商的基础大模型而开发出真正创新的且由生成式 AI 驱动的应用。因此智能手机厂商必须与开发者社区紧密合作,以独特的端侧 AI 优势为抓手来获得未来的竞争优势。一些厂商已经采取了行动,我们之前发布的文章已经讨论了三星通过与开发者合作来发展 AI 领导力的路线图。而像 OPPO、vivo 和小米这样的中国厂商也在积极加强开发者社区,并推出了各自的开源 LLM。