来源|海克财经
文丨范东成
2023年的重磅关键词“大模型”,2024年热度未减。
近日,微软发布AI阅读学习工具Reading Coach,为学习者提供个性化、定制化的阅读练习。Reading Coach包含语音音节分解、图片词典等工具,部分功能由Azure OpenAI提供支持,拥有微软账户的用户可以免费使用。
微软的动作仅是百模大战棋局下的一角。
据《北京市人工智能行业大模型创新应用白皮书(2023年)》,从全球范围看,世界各地均积极推动大模型研发和应用,其中美国和中国发布的通用大模型总数占全球发布量的80%;截至2023年10月,国内10亿参数规模以上的大模型厂商及高校院所共计254家。
相较于技术突破与厂商竞争,如今大家的目光更聚焦于“落地”。微软发布Rreading Coach的同时,还有Adobe在视频剪辑软件Adobe Premiere Pro中新加入AI驱动音频编辑功能,以及TikTok开始内测基于大模型Bloom的AI生成歌曲功能。
“AI重构一切”并非夸张之语,搜索引擎的变化亦是明证。1月19日,夸克APP宣布基于自研大模型能力推出全新搜索问答产品“元知”, 用户可以在搜索结果中查看到AIGC总结提炼出的回答内容,再度刷新了搜索的体验和效率。
仍在“狂奔”的大模型潜能与落地间仍留有巨大缝隙尚待填充。这正指向AI应用商业化的无限可能性,To C则是其中关键一环。
01大模型应用渐次落地大模型走进聚光灯下已1年有余。
自2022年11月引发全球对大模型的关注后,ChatGPT势头迅猛,分别于2023年3月、9月和11月推出了GPT-4、GPT-4V及GPT-4 Turbo。2024年1月,OpenAI又正式上线了GPT Store,允许用户创建并发布自己的个性化GPT应用。此外还有meta发布的开源大模型LLaMA及LLaMA 2,谷歌发布的Gemini等,均有不小的市场影响力。
国内大模型领域肇始于2023年3月百度发布的文心一言,其后阿里发布通义千问、腾讯发布混元大模型、华为发布盘古大模型,科大讯飞、百川智能、智普AI等也加入“混战”。
在2023年8月《生成式人工智能服务管理暂行办法》实施后,各大厂商的大模型产品陆续通过备案并上线向公众提供服务。这意味着大模型能获得大量真实数据反馈,加快迭代速度。
以百度为例,官方数据显示,截至2023年12月,文心一言用户规模已超过1亿,基于文心大模型的AI应用已超过4000个,应用覆盖效率办公、AI绘画、代码助手、剧本大纲生成器、同声翻译等领域。
与文心一言同一批通过备案的科大讯飞星火大模型也在飞速发展。2023年9月,星火大模型向公众开放。1个月后,科大讯飞便发布了星火大模型的3.0版本。据官宣,2024年1月30日星火大模型将发布新的3.5版本。
反馈能够助推大模型的落地进程,比如阿里、华为都曾推出各类行业大模型。To C的浪潮来得更早。2023年2月,微软就将ChatGPT背后的技术嵌入搜索引擎必应,3个月后又将必应作为ChatGPT的默认搜索引擎。微软还发布了搭载GPT-4大模型能力的AI助手Copilot,并将之嵌入Word等“全家桶”软件中。
可以说,AI与搜索结合是内容形态的趋势之一。大模型的能力正好可以应对互联网的海量数据,搜索则能够满足用户刚需,两者结合可以带来全新的交互体验。
夸克“元知”即是典型案例——AI帮助用户综合了全网的优质内容,用户可以在搜索结果中看到AIGC(生成式人工智能)总结出的相关内容,能够便捷高效地获取信息。
比如当用户搜索“拍身份证可以留长发吗”,元知会依据政策规范、本地生活等可靠信息来源,精准回答“可以留长发”,并给出需要将头发整理好,露出双耳,不要遮挡眼睛等其他关键信息。
由此,数据反馈、功能加强与体验提升在AI与搜索的结合中形成了正向循环,其用户价值和商业前景自然水涨船高。
02AI产品瞄准供需匹配AI市场规模增长趋势极为显著。
咨询公司弗若斯特沙利文《AI大模型市场研究报告(2023)》显示,2022年中国人工智能行业市场规模为3716亿元,2023年为5323亿元,2024年将达7516亿元。报告表明,大模型实现了对传统AI技术的突破,未来发展将趋于通用化和专用化并行。
事实上,“通用化”更针对普通用户,本质上是大模型能力的场景化。
此前走红的产品Heygen即是如此。2023年10月,大量名人说外语的视频曝光量激增,视频中郭德纲、赵本山等人用一口流利的英文说起了段子。这些视频就来自Heygen——用户登录后,上传一段包含人声的视频,Heygen会翻译视频中的声音内容,并生成视频中说话者讲述翻译后语言的视频。翻译后的视频仍会保持原视频的嗓音,口型与翻译后的语言相匹配。
据海克财经了解,HeyGen的服务接入了多个大模型的功能,包括ElevenLabs的语音克隆功能、Wav2Lip的口型同步功能以及ChatGPT-4的语音翻译功能。除了“恶搞”这些名人视频外,HeyGen还被应用于个人创作者或短剧的视频语言转换等。这种集成供给切中了真实的用户需求。
国内大模型To C应用也正在走通用化、产品化的道路,特别是围绕工作、学习这些关键场景。譬如主打智能办公的钉钉魔法棒、专精网文创作的阅文妙笔写作、提升创作效率的WPS AI等。
作为阿里的创新业务之一,夸克在大模型的基础上升级了智能搜索、健康、学习、网盘、扫描等多项内容产品和智能工具,将它们与用户需求紧密结合,能够落到实实在在的使用场景中。
比如夸克“AI讲题助手”能为用户进行英语和部分数学题目的讲解。基于大语言模型和视觉技术,AI能够给用户提供“考点分析”“详解步骤”“答案总结”等详细内容,帮助用户了解考点和知识点,理清解题思路。
对于更为专业的健康领域,夸克也优化了搜索体验,通过AIGC首答、夸克健康百科、智能筛查和夸克健康助手等产品来更好地提供服务。用户可以通过勾选补充症状信息以寻找与自身情况匹配的健康搜索结果,还能筛选出常见病症问题实现精准查找。
更重要的是,夸克找到了AI产品的真实落地场景,用户可以亲自感受到AI带来的效率提升。综观整个国内市场,能覆盖学习、工作、生活三大核心场景,且用户数量过千万的APP凤毛麟角,夸克在AI上的能力和速度,颇让普通用户受益。
03驶向广阔蓝海显而易见,大模型正在改变人们的生活方式。
调研机构IDC发布的《2024 AIGC应用层十大趋势白皮书》指出,AIGC正在工具化,未来的发展侧重于场景落地和应用层面创新;个人与企业步入AI助理时代,“人机协同”将成为新常态。
以AI图片生成工具Midjourney为例,当Midjourney于2023年12月更新至V6版本后,许多用户都惊呼其生成的图片过于逼真,有用户甚至感慨“插画师、摄影师要失业了”。据海克财经了解,Midjourney可以根据用户输入的具体参数来满足要求,包括相机型号、镜头景别、景深、画家风格等,有的图片的确足以“以假乱真”。
微软Copilot也在扩充功能,推出了与Suno AI合作的AI歌曲生成工具。用户只需要输入简短文字描述,Copilot就可以自动生成包含器乐、歌词和演唱的歌曲片段。
同样基于多模态能力,夸克的相关产品着重贴合用户的具体工作或学习场景。比如“夸克听记”功能,能够实现高效的音视频内容整理。“夸克听记”可以精准区分讲话人并进行录音对应转写,支持中、英、粤等主流语言和方言,语音笔记可以在夸克多端中同步保存。
夸克扫描王还具备了一定的思考能力。当遇到被扫描文件有内容模糊或阴影遮挡的情况,扫描王会从从数据库里抽取关键信息,自动判定正确文字并且提升清晰度。比如金融术语“PPI指数”,意为生产者物价指数,不少扫描软件会自动识别成“ppl”。而夸克扫描王能够通过大模型,根据相关专业名词进行精准识别。
此外,夸克网盘还推出了AI自然语言搜索功能,输入简单描述词就能快速找到照片、图片、文档等资料。可以说,夸克通过“内容产品+智能工具”的服务矩阵直击用户痛点,以智能助手的形态为用户提供独到的AI信息服务体验,更好地满足了用户对内容的多元需求。
据清华大学新闻与传播学院新媒体研究中心发布的《大语言模型综合性能评估报告》,夸克大模型在应试和写作能力,以及医疗健康领域内容可靠性上,均展现出突出优势。
撬动内容生产和个人生活的AIGC已为人们提供了全新视角,头部玩家则随之布局,重构生态。应用已然百花齐放,而大模型的潜能和价值正持续释放。