Cloud IA en 2026 : Azure OpenAI vs AWS Bedrock vs Google Vertex AI
Comparez les 3 grandes plateformes cloud IA : modèles disponibles, conformité RGPD, prix, TCO et comment garder votre code portable avec Agno.
Pourquoi passer par le cloud pour l'IA
Appeler directement l'API d'OpenAI ou d'Anthropic est parfait pour débuter. Mais en entreprise, les équipes IT et conformité posent rapidement des questions plus complexes : où sont stockées les données ? Quel SLA est garanti ? Comment intégrer l'authentification SSO ? Qui est responsable en cas de fuite ?
Les plateformes cloud managées répondent à ces besoins :
| Besoin | Réponse cloud |
|---|---|
| Scalabilité | Auto-scaling selon la charge, pas de gestion de quotas manuels |
| Conformité RGPD | Région EU disponible, DPA (Data Processing Agreement) signable |
| SLA | 99.9%+ de disponibilité contractuelle |
| Sécurité | IAM, VPC, chiffrement at-rest et in-transit intégrés |
| Facturation unifiée | Une seule facture pour toute l'infrastructure |
| Accès aux modèles | Claude, GPT-4, Gemini, Llama : tous accessibles sur une plateforme |
Vue d'ensemble des 3 plateformes en 2026
Azure AI (Microsoft)
Microsoft a fait le pari d'OpenAI dès 2019 et cela se voit dans l'offre. Azure OpenAI Service donne accès à GPT-4o, GPT-4 Turbo et o3 avec les garanties enterprise de Microsoft.
Composants clés :
- Azure OpenAI Service : accès à tous les modèles OpenAI avec données hébergées en EU
- Azure AI Foundry : plateforme unifiée pour déployer, évaluer et monitorer des modèles (dont Llama, Mistral, Phi)
- Phi-4 : le modèle maison de Microsoft, petit et très efficace, déployable en edge
- Copilot Studio : pour créer des agents sans code, intégré à M365
AWS Bedrock
Amazon a choisi l'approche marketplace : Bedrock agrège des modèles de multiples fournisseurs sur une seule API unifiée.
Modèles disponibles sur Bedrock :
- Anthropic : Claude 3.5 Haiku, Sonnet, Opus : et Claude 4 (Sonnet, Opus)
- Amazon : Titan Text/Embedding/Image, Nova (Micro, Lite, Pro)
- Meta : Llama 3.3 70B, Llama 3.2 Vision
- Mistral AI : Mistral Large 2, Mistral Small
- Cohere : Command R+, Embed
Atout clé : InvokeModel avec une API boto3 unifiée : un seul SDK pour tous les modèles.
Google Vertex AI
La plateforme ML de Google, historiquement orientée MLOps, s'est transformée en hub de modèles génératifs.
Modèles disponibles :
- Gemini 2.0 Flash : très rapide, fenêtre de 1M tokens, multimodal
- Gemini 2.0 Pro : le plus puissant de Google, raisonnement avancé
- Imagen 3 : génération d'images de haute qualité
- PaLM 2 : legacy, toujours disponible pour les projets existants
- Modèles tiers : Llama, Mistral via Model Garden
Tableau comparatif des 3 plateformes
| Critère | Azure AI | AWS Bedrock | Google Vertex AI |
|---|---|---|---|
| Modèles phares | GPT-4o, Phi-4, Llama 3 | Claude 4, Nova, Llama 3 | Gemini 2.0, Imagen 3 |
| API OpenAI-compatible | Oui (drop-in replacement) | Non (boto3) | Non (google-genai) |
| Régions EU (RGPD) | West Europe, France Central | eu-west-1, eu-central-1 | europe-west1 à 9 |
| Fine-tuning managé | Oui (Azure AI Foundry) | Oui (Bedrock Fine-Tuning) | Oui (Vertex Training) |
| RAG managé | Azure AI Search + embeddings | Knowledge Bases for Bedrock | Vertex AI Search |
| Monitoring/Eval | Azure AI Studio | Bedrock Model Evaluation | Vertex Eval Service |
| Support enterprise | Premier Microsoft | AWS Enterprise | Google Cloud Premier |
Critères de choix par profil
Startup
Priorité : time-to-market, coût initial minimal, flexibilité.
Recommandation : AWS Bedrock ou Azure AI. Bedrock pour l'accès direct à Claude (Anthropic), Azure si l'équipe utilise déjà Microsoft 365 / Azure Active Directory.
Enterprise
Priorité : gouvernance, intégrations SSO, audit, support contractuel.
Recommandation : Azure AI pour les entreprises déjà dans l'écosystème Microsoft. Google Vertex AI pour celles déjà sur GCP (BigQuery, GKE). AWS Bedrock pour celles avec un footprint AWS important.
Secteur réglementé (santé, finance)
Priorité : souveraineté des données, conformité (HDS pour la santé, DSP2 pour la finance), hébergement EU.
Recommandation : Vérifiez la certification HDS pour la santé (Azure a la certification HDS en France). Pour la finance, les trois plateformes ont des programmes de conformité financière : mais Azure et AWS ont les historiques les plus longs.
Micro-exercice : même requête via AWS Bedrock et Azure AI
import anthropic
import boto3
import json
PROMPT = "Explique la différence entre RAG et fine-tuning en 3 points."
# --- Option 1 : Anthropic direct ---
client_direct = anthropic.Anthropic()
response_direct = client_direct.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=500,
messages=[{"role": "user", "content": PROMPT}]
)
print("=== Anthropic Direct ===")
print(response_direct.content[0].text)
# --- Option 2 : Claude via AWS Bedrock ---
bedrock = boto3.client("bedrock-runtime", region_name="eu-west-1")
body = json.dumps({
"anthropic_version": "bedrock-2023-05-31",
"max_tokens": 500,
"messages": [{"role": "user", "content": PROMPT}]
})
response_bedrock = bedrock.invoke_model(
modelId="eu.anthropic.claude-sonnet-4-20250514-v1:0",
body=body
)
result_bedrock = json.loads(response_bedrock["body"].read())
print("\n=== AWS Bedrock ===")
print(result_bedrock["content"][0]["text"])
# --- Option 3 : GPT-4o via Azure OpenAI ---
from openai import AzureOpenAI
client_azure = AzureOpenAI(
api_key="VOTRE_AZURE_API_KEY",
api_version="2024-02-01",
azure_endpoint="https://VOTRE_RESSOURCE.openai.azure.com/"
)
response_azure = client_azure.chat.completions.create(
model="gpt-4o", # Nom du déploiement Azure
messages=[{"role": "user", "content": PROMPT}],
max_tokens=500
)
print("\n=== Azure OpenAI ===")
print(response_azure.choices[0].message.content)
Observation clé : Azure OpenAI utilise exactement la même syntaxe que le SDK OpenAI officiel (openai.AzureOpenAI). AWS Bedrock utilise boto3 avec un format JSON spécifique à Anthropic. Google Vertex AI a son propre SDK google-generativeai.
Calcul de TCO : 1 million de tokens par jour
Prenons un cas concret : une application qui envoie 1M tokens d'input et génère 200K tokens d'output chaque jour.
| Plateforme | Modèle | Input (1M tok) | Output (200K tok) | Coût/jour | Coût/mois |
|---|---|---|---|---|---|
| Anthropic direct | Claude Sonnet 4 | $3.00 | $3.00 | $6.00 | ~$180 |
| AWS Bedrock | Claude Sonnet 4 EU | $3.45 | $3.45 | $6.90 | ~$207 |
| Azure OpenAI | GPT-4o | $5.00 | $3.00 | $8.00 | ~$240 |
| Google Vertex | Gemini 2.0 Flash | $0.075 | $0.060 | $0.135 | ~$4 |
Ces chiffres ne comprennent pas les coûts réseau, le stockage des embeddings (si RAG), ni la maintenance opérationnelle. Ajoutez 20-30% pour une estimation réaliste du TCO.
À 10M tokens/jour, héberger Llama 3 70B sur 2x A100 (AWS p4d) coûte ~$35/jour fixe : soit $1050/mois quelle que soit la charge. Le break-even avec Claude Sonnet sur Bedrock est à environ 5M tokens d'input/jour.
Éviter le lock-in avec Agno
La multiplication des SDKs (openai, boto3, google-genai, anthropic...) crée un lock-in involontaire : votre code est intimement lié à un fournisseur. Migrer vers une autre plateforme demande de réécrire toute la couche d'appel.
Agno résout ce problème avec une abstraction multi-provider :
from agno.agent import Agent
from agno.models.anthropic import Claude
from agno.models.openai import OpenAIChat
from agno.models.aws import BedrockClaude
from agno.models.google import Gemini
# Changez UNE ligne pour changer de provider
# model = Claude(id="claude-sonnet-4-20250514") # Anthropic direct
# model = BedrockClaude(id="claude-sonnet-4-20250514") # AWS Bedrock
# model = OpenAIChat(id="gpt-4o") # OpenAI direct
model = Gemini(id="gemini-2.0-flash-exp") # Google Vertex
agent = Agent(
model=model,
tools=[...], # Les mêmes outils fonctionnent avec tous les providers
knowledge=..., # La même base de connaissance RAG
markdown=True,
)
agent.print_response("Quel provider utilises-tu ?")
Bonne pratique : définissez le modèle dans une variable d'environnement (MODEL_PROVIDER=bedrock). Votre code de production ne change pas : seule la configuration change. C'est le principe de l'architecture hexagonale appliquée à l'IA.
Specialiste IA — Master Intelligence Artificielle
Diplome d'un Master en Intelligence Artificielle, je travaille au quotidien sur des projets IA en entreprise. J'ai cree IwanttolearnAI pour rendre l'apprentissage de l'IA accessible a tous, gratuitement.
Continuer a apprendre
Open Source vs Propriétaire : Quel Modèle d'IA Choisir en 2026 ?
GPT-4o, Claude 4, Gemini 2.0 face à Llama 3, Mistral, Qwen 2.5 et DeepSeek. Tableau comparatif, critères de choix, licences et arbre de décision pour votre projet.
Comparatif des Modèles d'Embedding en 2026 : Choisir pour son RAG
Tableau comparatif des 7 principaux modèles d'embedding (OpenAI, Cohere, BGE-M3, E5, Nomic, MiniLM), benchmarks MTEB, spécificités du français et intégration dans Agno.
GPT-4 vs Claude vs Gemini vs Llama : le Match des LLMs
Comparaison détaillée des 4 familles de LLMs dominantes : performances, coûts, cas d'usage, forces et faiblesses de chaque modèle.