OpenAI 是覆盖最完整的厂商,可同时承担文本对话、视觉理解、图像生成、语音识别(ASR)、语音合成(TTS)和向量(Embedding)能力。一份Documentation Index
Fetch the complete documentation index at: https://docs.cowagent.ai/llms.txt
Use this file to discover all available pages before exploring further.
open_ai_api_key 即可让 Agent 用到全部能力。
文本对话
图像理解
gpt-5.5、gpt-5.4、gpt-4o、gpt-4.1 等 OpenAI 模型均原生支持视觉,配置 open_ai_api_key 后 Agent 的 Vision 工具会自动使用主模型识别图像。若主模型不支持视觉或希望显式指定,可在配置文件中配置:
gpt-5.5、gpt-5.4、gpt-5.4-mini、gpt-5.4-nano、gpt-5、gpt-4.1、gpt-4.1-mini、gpt-4o。
图像生成
在配置文件中指定图像生成模型,Agent 调用图像生成技能时会自动路由到 OpenAI:gpt-image-2、gpt-image-1。
语音识别
| 参数 | 说明 |
|---|---|
voice_to_text | 设为 openai 启用 OpenAI 语音识别 |
voice_to_text_model | 可选,默认 gpt-4o-mini-transcribe;也可填 gpt-4o-transcribe、whisper-1 |
open_ai_api_key。
语音合成
| 参数 | 说明 |
|---|---|
text_to_voice_model | tts-1、tts-1-hd、gpt-4o-mini-tts |
tts_voice_id | 音色:alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage、verse |
向量
text-embedding-3-small、text-embedding-3-large、text-embedding-ada-002。修改 embedding 后需执行 /memory rebuild-index 命令重建索引。