Nvidia Models

Name	Model ID	Description
Kimi K2 0905	kimi-k2-instruct-0905	Provider: Nvidia, Context: 262144, Output Limit: 262144
Kimi K2 Thinking	kimi-k2-thinking	Provider: Nvidia, Context: 262144, Output Limit: 262144
Kimi K2 Instruct	kimi-k2-instruct	Provider: Nvidia, Context: 128000, Output Limit: 8192
nvidia-nemotron-nano-9b-v2	nvidia-nemotron-nano-9b-v2	Provider: Nvidia, Context: 131072, Output Limit: 131072
Cosmos Nemotron 34B	cosmos-nemotron-34b	Provider: Nvidia, Context: 131072, Output Limit: 8192
Llama Embed Nemotron 8B	llama-embed-nemotron-8b	Provider: Nvidia, Context: 32768, Output Limit: 2048
nemotron-3-nano-30b-a3b	nemotron-3-nano-30b-a3b	Provider: Nvidia, Context: 131072, Output Limit: 131072
Parakeet TDT 0.6B v2	parakeet-tdt-0.6b-v2	Provider: Nvidia, Context: N/A, Output Limit: 4096
NeMo Retriever OCR v1	nemoretriever-ocr-v1	Provider: Nvidia, Context: N/A, Output Limit: 4096
Llama 3.3 Nemotron Super 49b V1	llama-3.3-nemotron-super-49b-v1	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.1 Nemotron 51b Instruct	llama-3.1-nemotron-51b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama3 Chatqa 1.5 70b	llama3-chatqa-1.5-70b	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama-3.1-Nemotron-Ultra-253B-v1	llama-3.1-nemotron-ultra-253b-v1	Provider: Nvidia, Context: 131072, Output Limit: 8192
Llama 3.1 Nemotron 70b Instruct	llama-3.1-nemotron-70b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Nemotron 4 340b Instruct	nemotron-4-340b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.3 Nemotron Super 49b V1.5	llama-3.3-nemotron-super-49b-v1.5	Provider: Nvidia, Context: 128000, Output Limit: 4096
MiniMax-M2	minimax-m2	Provider: Nvidia, Context: 128000, Output Limit: 16384
Gemma 3n E2b It	gemma-3n-e2b-it	Provider: Nvidia, Context: 128000, Output Limit: 4096
Codegemma 1.1 7b	codegemma-1.1-7b	Provider: Nvidia, Context: 128000, Output Limit: 4096
Gemma 3n E4b It	gemma-3n-e4b-it	Provider: Nvidia, Context: 128000, Output Limit: 4096
Gemma 2 2b It	gemma-2-2b-it	Provider: Nvidia, Context: 128000, Output Limit: 4096
Gemma 3 12b It	gemma-3-12b-it	Provider: Nvidia, Context: 128000, Output Limit: 4096
Codegemma 7b	codegemma-7b	Provider: Nvidia, Context: 128000, Output Limit: 4096
Gemma 3 1b It	gemma-3-1b-it	Provider: Nvidia, Context: 128000, Output Limit: 4096
Gemma 2 27b It	gemma-2-27b-it	Provider: Nvidia, Context: 128000, Output Limit: 4096
Gemma-3-27B-IT	gemma-3-27b-it	Provider: Nvidia, Context: 131072, Output Limit: 8192
Phi 3 Medium 128k Instruct	phi-3-medium-128k-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Phi 3 Small 128k Instruct	phi-3-small-128k-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Phi 3.5 Vision Instruct	phi-3.5-vision-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Phi 3 Small 8k Instruct	phi-3-small-8k-instruct	Provider: Nvidia, Context: 8000, Output Limit: 4096
Phi 3.5 Moe Instruct	phi-3.5-moe-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Phi-4-Mini	phi-4-mini-instruct	Provider: Nvidia, Context: 131072, Output Limit: 8192
Phi 3 Medium 4k Instruct	phi-3-medium-4k-instruct	Provider: Nvidia, Context: 4000, Output Limit: 4096
Phi 3 Vision 128k Instruct	phi-3-vision-128k-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Whisper Large v3	whisper-large-v3	Provider: Nvidia, Context: N/A, Output Limit: 4096
GPT-OSS-120B	gpt-oss-120b	Provider: Nvidia, Context: 128000, Output Limit: 8192
Qwen3-Next-80B-A3B-Instruct	qwen3-next-80b-a3b-instruct	Provider: Nvidia, Context: 262144, Output Limit: 16384
Qwen2.5 Coder 32b Instruct	qwen2.5-coder-32b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Qwen2.5 Coder 7b Instruct	qwen2.5-coder-7b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Qwen3-235B-A22B	qwen3-235b-a22b	Provider: Nvidia, Context: 131072, Output Limit: 8192
Qwen3 Coder 480B A35B Instruct	qwen3-coder-480b-a35b-instruct	Provider: Nvidia, Context: 262144, Output Limit: 66536
Qwq 32b	qwq-32b	Provider: Nvidia, Context: 128000, Output Limit: 4096
Qwen3-Next-80B-A3B-Thinking	qwen3-next-80b-a3b-thinking	Provider: Nvidia, Context: 262144, Output Limit: 16384
Devstral-2-123B-Instruct-2512	devstral-2-123b-instruct-2512	Provider: Nvidia, Context: 262144, Output Limit: 262144
Mistral Large 3 675B Instruct 2512	mistral-large-3-675b-instruct-2512	Provider: Nvidia, Context: 262144, Output Limit: 262144
Ministral 3 14B Instruct 2512	ministral-14b-instruct-2512	Provider: Nvidia, Context: 262144, Output Limit: 262144
Mamba Codestral 7b V0.1	mamba-codestral-7b-v0.1	Provider: Nvidia, Context: 128000, Output Limit: 4096
Mistral Large 2 Instruct	mistral-large-2-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Codestral 22b Instruct V0.1	codestral-22b-instruct-v0.1	Provider: Nvidia, Context: 128000, Output Limit: 4096
Mistral Small 3.1 24b Instruct 2503	mistral-small-3.1-24b-instruct-2503	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.2 11b Vision Instruct	llama-3.2-11b-vision-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama3 70b Instruct	llama3-70b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.3 70b Instruct	llama-3.3-70b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.2 1b Instruct	llama-3.2-1b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 4 Scout 17b 16e Instruct	llama-4-scout-17b-16e-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 4 Maverick 17b 128e Instruct	llama-4-maverick-17b-128e-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Codellama 70b	codellama-70b	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.1 405b Instruct	llama-3.1-405b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama3 8b Instruct	llama3-8b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Llama 3.1 70b Instruct	llama-3.1-70b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
Deepseek R1 0528	deepseek-r1-0528	Provider: Nvidia, Context: 128000, Output Limit: 4096
Deepseek R1	deepseek-r1	Provider: Nvidia, Context: 128000, Output Limit: 4096
DeepSeek V3.1 Terminus	deepseek-v3.1-terminus	Provider: Nvidia, Context: 128000, Output Limit: 8192
DeepSeek V3.1	deepseek-v3.1	Provider: Nvidia, Context: 128000, Output Limit: 8192
Deepseek Coder 6.7b Instruct	deepseek-coder-6.7b-instruct	Provider: Nvidia, Context: 128000, Output Limit: 4096
FLUX.1-dev	flux.1-dev	Provider: Nvidia, Context: 4096, Output Limit: N/A