LLM API
Acceso LLM vía API instantáneo
Tu propia API de IA generativa (LLM API) alojada en España
Te damos una API y una clave (API key) para que la integres en tu software y puedas usar nuestra IA desde cualquier sitio.
Contratar Servicio rocket_launch
Ventajas Clave
Sin gestionar GPUs
Nosotros operamos la capacidad y priorizamos rendimiento y costes.
Sin administrar servidores
Cero mantenimiento de sistema operativo, drivers o parches.
Sin Docker ni orquestación
Evita imágenes, contenedores y despliegues complejos.
Sin preocuparte del consumo
Métricas y límites ya integrados por plan.
Integración con tu stack
LangChain, LlamaIndex, etc.
Soporte y seguridad
IP allowlist, claves rotatorias e inferencia en nuestro CPD 100% solar.
Planes LLM API
Las diferencias están en ancho de banda, usuarios concurrentes y memoria.
Flow One
- check API key y baseURL privada
- check System Prompts personalizables
- check Modelo estándar cuantizado
- check Uso de Tools agéntico
- check Sin límite de tokens
Flow Pro
- check Prioridad GPU
- check Mayor caudal
- check Uso de Tools agéntico
- check System Prompts personalizables
- check Sin límite de tokens
Flow Premium
- check Capacidad dedicada
- check Peering/VLAN y latencia ultra-baja
- check Modelos FP16 y FP32
- check Ajustes personalizables
- check Sin límite de tokens
Developer's Playbook
Arquitectura técnica y endpoints para integración de alta disponibilidad.
Function Calling & Tool Use
Nuestra API implementa una capa de razonamiento nativa para invocar funciones externas. Define tu esquema JSON y el modelo devolverá los argumentos precisos para ejecutar acciones en tu backend.
- Baja latencia en parsing JSON nativo.
- Soporte para múltiples llamadas paralelas.
curl https://api.inferencia.ai/v1/chat/completions \
-H "Authorization: Bearer $API_KEY" \
-d '{
"model": "flow-pro-v1",
"messages": [{"role": "user", "content": "Fetch latest docs"}],
"tools": [{
"type": "function",
"function": {
"name": "get_database_records",
"parameters": { "type": "object", "properties": { ... } }
}
}]
}'
{
"response_format": {
"type": "json_schema",
"json_schema": {
"name": "extraction",
"schema": {
"type": "object",
"properties": {
"entities": { "type": "array", "items": { "type": "string" } },
"sentiment": { "type": "string" }
}
}
}
}
}
Structured Data Extraction
Garantiza que la respuesta del modelo siga estrictamente tu esquema de datos. Ideal para flujos ETL, análisis de sentimientos masivo y clasificación de tickets.
- 100% de cumplimiento con JSON Schema.
- Optimizado para pipelines de automatización.
Large Context RAG Ingestion
Ventanas de contexto extendidas y caching dinámico. Integra tus bases de datos vectoriales con una arquitectura de baja latencia.
- Soporte nativo para embeddings de alta densidad.
- Alojamiento soberano en España (GDPR).
const response = await fetch('https://api.inferencia.ai/v1/embeddings', {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
input: "Documentación técnica de arquitectura...",
model: "inferencia-embed-001"
})
});