小米 MiMo - CowAgent

小米 MiMo 是原生全模态大模型，单 mimo_api_key 即可同时启用文本对话、图像理解与语音合成。

通过 Web 控制台的「模型管理」页面可一站式配置以下全部能力，无需手动改配置文件。

文本对话

{
  "model": "mimo-v2.5-pro",
  "mimo_api_key": "YOUR_API_KEY",
  "mimo_api_base": "https://api.xiaomimimo.com/v1"
}

参数	说明
`model`	默认推荐 `mimo-v2.5-pro`，也可使用 `mimo-v2.5`
`mimo_api_key`	在 MiMo 开放平台创建
`mimo_api_base`	可选，默认为 `https://api.xiaomimimo.com/v1`

模型	适用场景
`mimo-v2.5-pro`	旗舰，原生全模态 + Agent 能力，最高 100 万 tokens 上下文
`mimo-v2.5`	综合版，原生全模态（文本 / 图像 / 视频 / 音频）

MiMo V2.5 系列默认开启「思考模式」：模型在输出最终回答前会先输出 reasoning_content（思维链），提升复杂任务表现。通过全局配置 enable_thinking 控制是否展示（也可在 Web 控制台 - 配置页面切换）：

{
  "enable_thinking": true
}

配置 mimo_api_key 后，Agent 的 Vision 工具可以自动使用 MiMo 视觉模型：

如需手动指定 Vision 模型，可在配置文件中显式配置：

{
  "tools": {
    "vision": {
      "provider": "mimo",
      "model": "mimo-v2.5-pro"
    }
  }
}

{
  "text_to_voice": "mimo",
  "text_to_voice_model": "mimo-v2.5-tts",
  "tts_voice_id": "冰糖"
}

参数	说明
`text_to_voice_model`	当前仅支持 `mimo-v2.5-tts`（预置音色 + 唱歌模式）
`tts_voice_id`	预置音色名（中文音色直接使用中文名作为 ID）

也可在 Web 控制台的「模型管理 → 语音合成」下拉框中可视化选择。

MiMo TTS 支持在合成文本中嵌入 音频标签 来控制情绪、语调、方言、角色甚至唱歌。标签需出现在 最终被合成为语音的文本（即 Agent 回复内容） 中，整体风格标签写在开头：

(风格)待合成内容

支持半角 ()、全角 （） 或 [] 三种括号。常见风格示例：

示例：

也可以在文本任意位置插入细粒度音频标签来控制呼吸、笑声、停顿等，例如：

（紧张，深呼吸）呼……冷静，冷静。（语速加快）自我介绍我背了五十遍了，应该没问题。

完整标签列表参见 MiMo 语音合成文档。

CowAgent 在调用 TTS 时会将 Agent 的回复原文（含 (...) 标签）直接送入 MiMo 合成。你可以在人设 / 系统提示词里要求模型「在回复开头用 (风格) 标签控制语气」，即可让 IM 渠道（微信 / 飞书 / 钉钉 / 企微）的语音回复带上情绪、方言、唱歌等效果。