华泰计算机：AI多模态和长文本应用加速-惠闽保

全球AI应用加速成长，我们认为，应用生态丰富的本质原因在于底层模型的能力优化，综合近期大模型的迭代趋势，AI应用有望实现多模态、长文本等场景的加速落地，AI应用生态有望实现进一步拓展。综合全球AI应用发展情况，我们认为，海外2C应用进展与国内大模型能力升级或将成为24年AI应用的关注重点。产业公司梳理请见研报原文。

核心观点

全球AI应用加速成长，模型突破带动多模态、长文本场景

自2020年开始，全球生成式AI应用加速发展，以2022年底ChatGPT发布为时间分界，全球AI应用呈现“使用场景、目标客群、应用模态”全面拓展的发展趋势。1）目标客群：实现从2C（Consumer）到2B（Business）、2C（Consumer）、2D（Developer）的全面覆盖；2）使用场景：实现从通用到垂直、从工具到流程、从云端到终端的不断进阶；3）应用模态：实现从文本到图像、音频、视频、3D的持续丰富。我们认为，应用生态丰富的本质原因在于底层模型的能力优化，综合近期大模型的迭代趋势，AI应用有望实现多模态、长文本等场景的加速落地，AI应用生态有望实现进一步拓展。

多模态：模型音、视频能力持续优化，海外应用加速迭代

海外大模型迭代重视多模态能力拓展，相较于早期图像、音频、视频模型，基础模型能力显著提升。1）图像：24年2月，Stability AI发布新文生图模型Stable Diffusion 3（简称SD 3.0），SD 3.0在多主题提示、图像质量、文本生成能力方面持续提升，同时支持用文字修改画面内容、将图像转换为视频等功能；2）视频：24年2月，OpenAI发布文生视频大模型Sora，实现视频生成质量、时长等全面拓展；3）音频：Suno发布V3版本文生音乐模型，实现音质、咬字、节奏编排等效果优化。我们认为，伴随基础模型能力优化，多模态应用有望在内容创作、AI教育、虚拟陪伴等场景加速落地。

长文本：Kimi凸显长文本优势，关注文本、法律、流程应用

2024年3月18日，月之暗面官方宣布 Kimi 智能助手在长上下文窗口技术上再次取得突破，无损上下文长度从20万字至 200万字，并开放内测。相较于海外大模型，国产大模型在上下文窗口方面的能力持续增强，上下文窗口长度的扩大，为模型提供更详细的数据接地空间，对于模型推理能力提升具有重要意义。我们认为，长文本处理能力有望在文字办公（PDF助手、文档助手）、法律文书（合同审核、文书撰写、法律问答）、企业流程（协同办公、企业知识检索）等应用场景凸显优势，应用能力有望加速迭代升级。

后续展望：关注海外2C应用进展与国内大模型能力升级

综合全球AI应用发展情况，我们认为，海外2C应用进展与国内大模型能力升级或将成为24年AI应用的关注重点。1）海外2C应用进展：2023年海外AI应用针对2B场景全面铺开，大模型逐步嵌入企业IT基础架构。我们认为，伴随模型能力提升，24年2C应用有望迎来新拐点，多模态应用与智能终端（AI手机、AI PC）有望提速；2）国内大模型能力升级：国产大模型能力优化仍是产业重点，长文本能力成为当前多家公司的模型能力重点。伴随基础模型能力提升，国内AI应用产品化、商业化节奏有望全面加快。

风险提示：模型迭代不及预期；AI商业化进展不及预期；本报告内容均基于客观资料整理，不构成投资建议。

正文

全球AI应用：场景、客群、模态加速拓展

大模型带动AI应用持续升级，使用场景、目标客群、应用模态实现全面拓展。自2020年开始，全球生成式AI应用加速发展，据IDC预测，全球AI软件市场规模有望从2022年的640亿美元增长至2027年到2,790亿美元，2022-2027年复合增长率（CAGR）为31.4%。以2022年底ChatGPT发布为时间分界，全球AI应用呈现“使用场景、目标客群、应用模态”全面拓展的发展趋势。我们认为，应用生态丰富的本质原因在于底层模型的能力优化，2024年AI应用拓展趋势有望随模型迭代持续演进，应用生态有望实现进一步丰富。

演进方向一：目标客群实现从2C（Consumer）到2B（Business）、2C（Consumer）、2D（Developer）的全面覆盖。早期生成式AI应用多为GPT-3套壳工具，以消费者（C）和中小型企业（SMB）为核心客群，通过具体场景的功能封装与Prompt优化解决单点问题。伴随模型技术成熟， AI应用实现消费者（C）、企业（B）、开发者（D）的全面客户拓展，B端客户关注大模型能力与IT架构的融合，C端、D端客户关注AI赋能下的生产效率优化。

演进方向二：使用场景实现从通用到垂直、从工具到流程、从云端到终端的不断进阶。垂直行业落地自23年开始成为模型应用重点，海外大模型在医疗、法律、金融等场景持续推进；企业业务流程+AI是23年海外应用发展的另一重要趋势，SAP、Salesforce、ServiceNow等企业全面拥抱AI，实现业务流程触点与AI的充分整合；AI端侧（PC、手机、穿戴设备）落地加速，CES 2024大会上多款AI PC产品亮相，三星AI手机于24年1月正式发布。

演进方向三：应用模态实现从文本到图像、音频、视频、3D的持续丰富。随着图像、音频、视频等模态的模型能力提升，生成式AI应用涵盖更多的模态场景，同时有望形成多模态应用闭环。以虚拟陪伴类应用为例，文本+视频+音频的能力融合有望加速产品迭代升级。

海外AI应用：2B先行，2C提速，关注模态丰富

海外SaaS企业全面拥抱AI，2B业务是23年布局重点。通过统计海外SaaS企业的23年财报，AI融合几乎成为软件企业的战略共识。分板块来看，Microsoft（MaaS服务）、Palantir（AI产品+咨询）、Confluent（数据处理）、Duolingo（AI应用）等企业AI商业化进展顺利，同时大部分企业均已完成AI产品化验证，进入商业化落地环节。我们认为，海外AI 2B先行主要出于三点考量：1）生成式AI引领企业IT架构变革，大模型逐步成为企业的基础IT环节，有望重塑企业IT流程；2）企业专有数据提供生成式AI落地的触点，是模型能力发挥的关键基座；3）企业降本增效意愿强烈，相较于C端客户有更强的付费意愿。

伴随模型能力的升级，2C应用有望迎来加速发展。2C应用核心要解决的是产品性能以及用户的付费意愿，伴随底层基础模型的能力优化，2C应用的使用效果显著提升，同时应用模态正在加速拓展。根据a16z发布的Top100生成式AI消费者应用榜单，网页端、移动端的Top 50 AI应用全面覆盖文本、图像、视频、音频等模态，用户基础良好。

SunoAI V3：AI音乐生成

SunoAI发布V3版本，支持多类风格音乐的AI生成。Suno成立于2022年，是一家人工智能音乐公司，公司产品SunoAI仅通过文本输入，就可以生成高质量的完整原创歌曲、乐器伴奏与人声。与许多AI音乐应用不同，Suno专注于用原创人声创作原创曲调，而不是克隆或模仿流行艺术家的声音或歌曲。Suno主要包含两个音乐生成模型：“Bark”和“Chirp”，分别专注于生成人声和伴奏生成。截至23年底，SunoAI网站访问量达1,412万，超过其竞争对手Soundful的88.5万和Aiva.ai的53.2万。最新发布的V3版本，可生成广播质量音乐，可以在几秒钟内创作出完整的两分钟歌曲，目前已面向所有用户开放使用。

Devin：AI代码工程师

Cognition打造AI代码工程师，基准测试结果优于同类工具。2024年3月，Cognition AI 团队发布AI软件工程师Devin，在SWE-Bench基础测试中，无需人类辅助，Devin可以解决13.86%的问题，而当前SOTA模型，在没有人类辅助的情况下，只能完成1.96%的问题，即使提供人类辅助，当前SOTA模型最优解决4.80%的问题。根据Cognition官网演示案例，Devin可以完成自我学习不熟悉的编程语言、端到端部署应用程序、自主查找并修复代码库中的错误、训练和微调自己的AI模型、解决开源存储库中的错误和功能请求。

Youper：AI心理治疗

Youper提供AI个性化心理治疗，兼具情绪追踪与语言理解优势。Youper成立于2016年，旨在通过虚拟聊天机器人服务提供情感支持以改善情感健康。Youper底层模型与精神科医生合作创建，目前已经为超过250万用户提供正念、冥想、接受承诺疗法（ACT）、认知行为疗法（CBT）等服务。根据Youper官网资料显示，斯坦福大学的研究团队在临床实践中证明了Youper的效用，能够有效缓解焦虑和抑郁症状，为用户提供实质性的帮助与支持。

Perplexity：AI搜索引擎

Perplexity AI打造人工智能搜索引擎，提供基于大模型的对话式问答搜索结果。Perplexity成立于2022年，旨在打造对话式搜索引擎，提供问答式、可溯源的检索结果，实现了传统搜索引擎与大语言模型的能力整合。Perplexity最早基于OpenAI的闭源模型API进行产品开发，近期开始探索开源模型与自研模型的技术实现。2024年1月，Perplexity完成B轮融资，最新估值5.2亿美元，Perplexity 累计融资额超1亿美元。

Harvey AI：AI法律助手

Harvey AI聚焦法律场景，最新估值7.15 亿美元。Harvey AI成立于2022年8月，聚焦法律场景的大模型落地，旨在通过AI技术助力律师实现更高效、更自动化的法律实务操作。目前Harvey AI可提供法律研究（协助律师进行法律研究，解答律师的法律问题）、合同审核（识别出可能违反法律规定的条款，并提供修改建议，降低法律风险）、工作流程改进（辅助律师完成合同分析、尽职调查和法规合规等任务）等多项功能。2023年底，公司完成8000 万美元的B轮融资，总融资金额超1亿美元，最新估值7.15亿美元。Harvey AI与OpenAI 合作，开发法律垂直领域的基础模型，24年3月，公司产品已上线微软Azure云服务。

国内AI应用：模型加速迭代，重视长文本能力

国内大模型能力加速升级，长文本能力成为重点突破，应用落地可期。目前国内大模型市场参与者主要包括互联网科技厂商、人工智能企业、大模型创业企业、高校研究院等四类。1）互联网科技厂商：以百度、华为、阿里、腾讯等企业为代表，其中百度文心一言模型支持多模态输入、输出，面向C端用户推出49.9元/月的会员定价；2）人工智能企业：以昆仑万维、科大讯飞、商汤科技等企业为代表，其中讯飞星火大模型支持文本+图片模态输入、输出，截至24年1月，讯飞星火用户超2,400万；3）大模型创业企业：以智谱清言、MiniMax、百川智能、阶跃星辰、月之暗面等企业为代表，其中月之暗面的Kimi模型支持200万汉字的上下文窗口，阶跃星辰24年3月发布万亿参数MoE大语言模型；4）高校研究院：以智源研究院、中国科学院自动化研究院等为代表，其中智源研究院推出悟道系列开源模型。

Kimi强调长文本能力，国产模型竞相发力拓展上下文长度。2024年3月18日，月之暗面官方宣布 Kimi 智能助手在长上下文窗口技术上再次取得突破，无损上下文长度从20万字至 200 万字，并开放内测。相较于海外大模型，国产大模型在上下文窗口方面能力持续增强，模型上下文窗口长度扩大，可以为模型提供更详细的数据接地空间，对于模型推理能力提升具有重要意义。与Kimi相似，国产模型厂商均加速长文本能力布局，阿里通义千问单文档解析能力约1000万字。我们认为，长文本处理能力有望在文字办公（PDF助手、文档助手）、法律文书（合同审核、文书撰写、法律问答）、企业流程（协同办公、企业知识检索）等应用场景凸显优势，国产模型的能力升级有望加速此类应用的加速落地。