Voxtral Mini 3b 2507 (Oregon)

OpenAI-compatible Bedrock Mantle model available in Oregon. Direct inference without cross-region routing.

Provider: All Mistral AI models | AWS Bedrock

Inference regions: us-west-2

API Endpoint

https://bedrock-mantle.us-west-2.api.aws/v1/responses

Quick Start (Python)

Install: pip install boto3

import boto3

client = boto3.client("bedrock-runtime", region_name="us-west-2")

response = client.converse(
    modelId="mistral.voxtral-mini-3b-2507",
    messages=[
        {
            "role": "user",
            "content": [{"text": "Hello, how are you?"}],
        }
    ],
    inferenceConfig={
        "maxTokens": 1024,
        "temperature": 0.7,
    },
)

print(response["output"]["message"]["content"][0]["text"])

Additional examples: Basic invoke, Streaming

Supported Parameters

Parameter	Type	Description
max_output_tokens	integer	Maximum number of visible output tokens to generate. (≥1)
stream	boolean	Stream response events as they are generated. Default: false.
store	boolean	Store response state for follow-up turns. Set false for zero-retention request handling. Default: false.

Feature Guides

OpenAI-compatible Responses API

Use the OpenAI SDK with a Bedrock API key and the regional bedrock-mantle endpoint.

Documentation

Developer Notes

The OpenAI SDK requires an Amazon Bedrock API key, not an OpenAI API key.
The Responses API stores state by default; set store=false when request-level retention is not acceptable.