百度文小言官宣支持多模型调度，升级端到端语音大模型、图片问答能力

作者：方泰攻略站时间：2025-03-31 19:41:03

本站 3 月 31 日消息，今日在新一期百度 AI DAY 上，文小言宣布完成品牌焕新与功能升级。除品牌视觉形象焕新外，文小言聚焦模型开放与功能创新，支持多模型融合调度，升级全新语音大模型、图片问答、AI 生图生视频等多项能力。

文小言此次升级的核心亮点在于“多模型融合调度”。通过整合百度自研的文心 X1、文心 4.5 等模型，并接入 DeepSeek-R1、可灵等第三方优质模型，文小言实现了多模型间的智能协同。用户只需选择“自动模式”，即可一键调用最优模型组合，或根据需求灵活选择单一模型完成特定任务，大幅提升响应速度与任务处理能力。

据本站了解，此次功能升级，文小言进一步提升了全新语音大模型、图片问答、AI 生图生视频等能力。全新语音大模型支持方言对话、复杂知识问答及随时打断等场景，用户可进行语音知识问答或趣味角色扮演。

百度语音首席架构师贾磊透露，该模型是百度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。在语音场景满足一定交互指标下，大模型调用成本比行业平均降低 50%-90%，推理响应速度极快，将语音交互等待时间压缩至 1 秒左右，极大提升了交互流畅性。同时，在大模型加持下，实现了流式逐字的 LLM 驱动的多情感语音合成，情感饱满、逼真、拟人，交互听感也得到极大提升。

图片问答功能让用户可以通过拍摄或上传图片，以文字或语音提问直接获取深度解析。例如，拍摄一道数学题可实时生成解题思路与视频解析；上传多款商品图可对比参数、价格，辅助购物决策；拍摄杯子设计图后，AI 可自动解析风格并生成同款手机壳、支架等周边产品。

值得一提的是，新增的“图个冷知识”功能更富趣味性，用户可预设“历史学者”“科技达人”等人设视角，为同一图片赋予**解读。例如，当用户询问“猫窗探秘，为何猫爱窗边的科学真相？"，文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。

WinRAR 旧版本存安全漏洞，可绕过 Windows 安全警告执行恶意软件
本站 4 月 7 日消息，WinRAR 作为电脑用户中广受欢迎的压缩软件，数十年来一直为用户提供便捷的数据压缩服务，方便用户将文件压缩成更小的体积以便于传输。然而，除最新版外的所有 WinRAR 版本

阅读详情
苹果 iPhone 17 Pro 系列新机模渲染曝光，直观展示后置“横向大矩阵”摄像头模组设计
本站 4 月 7 日消息，博主@数码闲聊站发布一张机模渲染图，展示了苹果即将推出的iPhone 17 Pro系列手机设计，直观展示了该机“横向大矩阵”摄像头模组，考虑到该博主发布内容有较高准确度，该

阅读详情
科学家利用细菌修复月球砖块裂缝，助力月球基地建设
本站 4 月 7 日消息，建设月球基地一直是人类太空探索的重要目标之一，而如何利用月球本地资源降低成本是关键问题。近期，印度科学研究所（IISc）的一项新研究为月球基地建设带来了新的希望，该研究基于月

阅读详情
古尔曼称苹果公司不会在美国组装 iPhone：成本太高
本站 4 月 7 日消息，彭博社的马克・古尔曼发文，认为在美国当局最新关税政策下，苹果公司仍然不会在这几年内将iPhone手机生产转移到美国本土，这主要是因为成本太高。古尔曼认为，苹果公司会与其供应链

阅读详情
全国首个，深圳海关智能查验机器人引入“满血版”DeepSeek-R1
本站 4 月 7 日消息，据科技日报本月消息，深圳海关自主研发的智能查验机器人已引入海关系统全国首个“满血版”DeepSeek-R1，实现技术升级，并在进口危化品监管和水果通关领域形成示范。据介绍，在

阅读详情
2025 清明档新片票房破 3 亿，《我的世界大电影》《向阳・花》《不说话的爱》位列前三
感谢本站网友雨雪载途的线索投递！本站 4 月 6 日消息，据猫眼专业版数据，2025 年 4 月 6 日 17 时 20 分，2025 年清明档新片

阅读详情

百度文小言官宣支持多模型调度，升级端到端语音大模型、图片问答能力

相关文章

热门影评