国产AI代人操作手机引关注 大模型2.0时代来临?
每经记者 可杨 每经编辑 魏官红
近日,智谱AI(人工智能)推出自主智能体AutoGLM,只需接收简单的文字或语音指令,就可以模拟人类操作手机的“Phone use能力”。相关消息引发市场关注,甚至催生出了“智谱AI概念股”。
一名接近智谱的人士对《每日经济新闻》记者表示,AutoGLM在开发、适配的过程中,优先考虑了用户使用手机时最频繁的场景。当前,智谱依旧在持续迭代AutoGLM功能,并将基于用户使用的高频场景,不断拓展AutoGLM的应用边界。
据悉,智谱已与中国三星深度合作,核心是将智谱的GLM大模型与三星的硬件技术相结合,以提升用户的智能体验。其实,AI在手机端的应用探索并非仅此一例,vivo、荣耀等都有类似的功能升级,苹果也计划在未来进一步集成ChatGPT服务到Siri中。有学者在受访时指出,AI与手机的结合正逐渐成为行业共识,这背后反映的是生成式AI在提升个性化体验方面的潜力。
但也有业内人士向记者指出,当前的“个人智能助手”与此前的语音交互能力并无太大差别。从长期来看,服务端应该是越弱越好,难点并不在于技术或商业模式,而在于用户习惯。
智谱推出AutoGLM
据智谱发布的演示Demo(样本),基于AutoGLM,用户向手机下达“帮我在淘宝下单淘宝里上个月买过的牙膏”的指令,手机就能自动执行“AI打开App—找到历史订单—完成订单筛选—请求用户支付—完成支付”的过程。
智谱方面表示,理论上,Au-toGLM可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
中信证券在研报中提到,随着互联网软件的种类、功能越来越丰富,智能体能否熟练地掌握每个软件的使用方法,满足不同用户的个性化需求,真正成为个人助手值得期待。从以聊天为主的大模型1.0时代迈入个人智能助理的大模型2.0时代,以智谱为代表的国产AI公司完成了从追赶者到领路人的身份转换。
从用户的日常操作到潜在的商业应用,AutoGLM除了在“Phone use能力”层面的想象空间,未来的应用场景会如何拓展?
一名接近智谱的人士对《每日经济新闻》记者表示,在技术突破层面,AutoGLM基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”。其中的核心技术WebRL,克服了大模型智能体在任务规划与动作执行中存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题。同时,借助自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人,在成长过程中,不断获取新技能。
大模型应用加速落地
华鑫证券在其研报中预测,AI Agent(智能体)的中国市场规模有望从2023年的554亿元增长至2028年的8520亿元,年均复合增长率高达72.7%。中信建投则在研报中表示,预计在不久的将来会进入大模型时代的2.0时代:AI Agent。
在接受《每日经济新闻》记者采访时,清华大学新闻学院和人工智能学院双聘教授沈阳指出,AI与手机结合正逐渐成为行业共识,这背后反映的是生成式AI在提升个性化体验方面的潜力。同时,随着硬件与AI服务的一体化设计日趋完善,AI正在引发人机交互的范式变革,推动手机与用户之间的关系从简单的操作工具转变为动态互动。沈阳认为,这一趋势同样将深刻影响国内市场,预计未来将有更多智能设备采用AI驱动的交互模式,从而极大提升用户体验。
在国内,除了智谱推出的AutoGLM,仅今年10月,就有数家厂商在端侧有所动作。比如,vivo推出蓝心端侧大模型3B,称服务超5亿手机用户;字节跳动发布首款AI智能体耳机Ola Friend,与豆包集成;荣耀推出MagicOS9.0,实现一句话充值、一句话点外卖等服务。
在国际市场上,科技巨头们同样动作频频。苹果在10月28日宣布推出AI功能,并计划在未来进一步集成ChatGPT服务到Siri中;微软则开源了OmniParser工具,为用户提供如自动订票等便捷功能;谷歌计划推出Gemini 2.0,并正在开发能自动化执行Chrome网页任务的“Project Jarvis”,该项目将帮助用户执行诸如“收集研究、购买产品或预订航班”等任务。
不过,也有人对当前AI应用在端侧类似“个人智能助手”的探索持反对态度。“在我看来端侧是倒退。”一家AI应用公司创始人在接受《每日经济新闻》记者采访时表示,从长期来看,服务端应该是越弱越好。他认为,当前无论是硬件设备、软件应用,还是交互方式,均未超越上一轮语音交互热潮期间入局企业所进行的探索范畴。或许在某些特定场景下,诸如苹果这样的行业巨头,具备教育用户或改变用户需求的潜力,但极为困难,其难点并不在于技术或商业模式,而在于用户习惯。
上述AI应用公司创始人认为,99%的用户在表达需求时,不可能用一句话阐明具体意图,更多是以一种“挤牙膏式”的互动一步步完成,例如,用户需要订一张北京飞往上海的机票,大部分用户往往发出的第一句指令只有简单的几个字:订机票,余下需求则需要通过提问再完成。“第一是用户没这个需求,第二是真正用起来,肯定会出现各种奇奇怪怪的问题,我对语音助手是非常悲观的。”其表示。
他进一步补充道,尽管相关技术已经经历了多次迭代,相较于过去已有显著提升,但问题的核心仍在于对需求的精准把握与满足。
寻找破局之路
在端侧应用的探索中,智谱当前瞄准的破局点或许与操作系统有关。
AutoGLM是智谱按照AGI通用人工智能升级路线图进行的探索和尝试之一。智谱CEO张鹏曾谈及对AGI分级的思考,他认为,L1是语言能力,L2是逻辑与思维能力,L3是工具能力,L4人工智能意味着AI可以实现自我学习、自我反思和自我改进。L5则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。
上述接近智谱的人士表示,AutoGLM可以看作是智谱在人工智能L3“使用工具能力”方面的探索和尝试,借此努力推动人机交互范式实现新转变,为构建GLM-OS,即以大模型为中心的通用计算系统打好基础。进而,基于已有AllTools能力加上内存记忆(memory)和自我反馈(self-reflection)机制,GLM-OS有望实现模仿人类的Plan-Do-Check-Act循环。
荣耀CEO赵明也曾在该公司发布会上谈到,MagicOS自诞生之初就致力于打造属于未来的操作系统,构建以AI为核心的智能操作系统(AI OS)。
在技术突破之外,另一个破局点或许在于生态的建立以及用户使用习惯的培养。尽管对语音交互持悲观态度,但前述AI应用公司创始人坦言,用户的需求也不是铁板一块,完全不能动摇。尽管他认为改变用户需求的难度很大,但对于科技巨头能否做到,他持观望态度。
数字经济专家刘兴亮也对《每日经济新闻》记者表示,像苹果这样拥有大量用户的公司,AI功能的融入确实有望改变用户的行为习惯,尤其是通过改善用户体验,使其日常使用更加便捷、高效。例如,AI驱动的健康管理、出行助手等功能,将提升用户对品牌的黏性和依赖度,从而带来更多生态系统内的交叉销售机会。其他企业则可以从中借鉴,通过AI来增强用户体验,建立长期的品牌价值,而不仅是局限于一项具体功能的提升。
沈阳指出,在大模型和AI应用融入手机、PC等设备时,还需解决用户个性化不足与上下文理解局限的问题。这需要通过在设备端保存更多对话和用户操作习惯来增强AI的跨会话理解力和准确性。同时,多模态集成也是关键,将文本、语音、图像等输入形式结合,能显著提升AI处理复杂指令的能力。针对跨设备无缝体验的挑战,沈阳建议采用统一的AI框架来增强跨设备的智能助手一致性,确保用户在任何设备上都能获得相同的AI体验,并优化设备间数据同步的速度。
在沈阳看来,未来,AI应用的趋势将朝着多模态AI、深化个性化服务以及3D AIGC与AR/VR结合的方向发展。然而,在这个过程中,用户的期待与现实之间存在差距,如AI的精确性与可靠性问题、隐私与数据使用的顾虑以及使用门槛和学习成本高等挑战。
刘兴亮则表示,在未来一段时间内,AI技术的实际应用前景依然广阔,但的确面临着如何在用户期望和实际需求之间找到平衡的问题。行业可能需要调整发展方向,在商业化过程中保持技术与需求的同步发展。找到商业化与实用性的结合点尤为重要,比如开发更贴合具体场景的AI产品,并且关注用户反馈和使用数据,通过小步快跑的方式持续优化,才能真正提升AI的落地效果和市场接受度。