跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.cowagent.ai/llms.txt

Use this file to discover all available pages before exploring further.

小米 MiMo 是原生全模态大模型,单 mimo_api_key 即可同时启用文本对话、图像理解与语音合成。
通过 Web 控制台的「模型管理」页面可一站式配置以下全部能力,无需手动改配置文件。

文本对话

{
  "model": "mimo-v2.5-pro",
  "mimo_api_key": "YOUR_API_KEY",
  "mimo_api_base": "https://api.xiaomimimo.com/v1"
}
参数说明
model默认推荐 mimo-v2.5-pro,也可使用 mimo-v2.5
mimo_api_keyMiMo 开放平台 创建
mimo_api_base可选,默认为 https://api.xiaomimimo.com/v1

模型选择

模型适用场景
mimo-v2.5-pro旗舰,原生全模态 + Agent 能力,最高 100 万 tokens 上下文
mimo-v2.5综合版,原生全模态(文本 / 图像 / 视频 / 音频)

思考模式

MiMo V2.5 系列默认开启「思考模式」:模型在输出最终回答前会先输出 reasoning_content(思维链),提升复杂任务表现。 通过全局配置 enable_thinking 控制是否展示(也可在 Web 控制台 - 配置页面切换):
{
  "enable_thinking": true
}

图像理解

配置 mimo_api_key 后,Agent 的 Vision 工具可以自动使用 MiMo 视觉模型:
  • 当主模型本身是多模态时(mimo-v2.5-pro / mimo-v2.5),直接由主模型识别图像,无需额外配置
  • 当主模型是其他厂商时,Vision 工具会根据顺序自动 fallback 到 mimo-v2.5-pro
如需手动指定 Vision 模型,可在配置文件中显式配置:
{
  "tools": {
    "vision": {
      "provider": "mimo",
      "model": "mimo-v2.5-pro"
    }
  }
}

语音合成

{
  "text_to_voice": "mimo",
  "text_to_voice_model": "mimo-v2.5-tts",
  "tts_voice_id": "冰糖"
}
参数说明
text_to_voice_model当前仅支持 mimo-v2.5-tts(预置音色 + 唱歌模式)
tts_voice_id预置音色名(中文音色直接使用中文名作为 ID)

预置音色

音色 ID说明
冰糖中文 · 女声(默认)
茉莉中文 · 女声
苏打中文 · 男声
白桦中文 · 男声
Mia英文 · 女声
Chloe英文 · 女声
Milo英文 · 男声
Dean英文 · 男声
也可在 Web 控制台的「模型管理 → 语音合成」下拉框中可视化选择。

风格控制

MiMo TTS 支持在合成文本中嵌入 音频标签 来控制情绪、语调、方言、角色甚至唱歌。标签需出现在 最终被合成为语音的文本(即 Agent 回复内容) 中,整体风格标签写在开头:
(风格)待合成内容
支持半角 ()、全角 ()[] 三种括号。常见风格示例:
类型示例标签
基础情绪开心 悲伤 愤怒 恐惧 惊讶 兴奋 委屈 平静 冷漠
复合情绪怅然 欣慰 无奈 愧疚 释然 忐忑 动情
整体语调温柔 高冷 活泼 严肃 慵懒 俏皮 深沉 干练 凌厉
音色定位磁性 醇厚 清亮 空灵 稚嫩 苍老 甜美 沙哑
人设腔调夹子音 御姐音 正太音 大叔音 台湾腔
方言东北话 四川话 河南话 粤语
角色扮演孙悟空 林黛玉
唱歌唱歌(等价于 sing / singing
示例:
  • (磁性)夜已经深了,城市还在呼吸。
  • (东北话)哎呀妈呀,这天儿也忒冷了吧!
  • (粤语)呢个真係好正啊!
  • (唱歌)原谅我这一生不羁放纵爱自由…
也可以在文本任意位置插入细粒度音频标签来控制呼吸、笑声、停顿等,例如:
(紧张,深呼吸)呼……冷静,冷静。(语速加快)自我介绍我背了五十遍了,应该没问题。
完整标签列表参见 MiMo 语音合成文档
CowAgent 在调用 TTS 时会将 Agent 的回复原文(含 (...) 标签)直接送入 MiMo 合成。你可以在人设 / 系统提示词里要求模型「在回复开头用 (风格) 标签控制语气」,即可让 IM 渠道(微信 / 飞书 / 钉钉 / 企微)的语音回复带上情绪、方言、唱歌等效果。