Neural Core
Inferencia Integral • Service

LLM API

Acceso LLM vía API instantáneo

GPU Cluster
| Infraestructura propia

Tu propia API de IA generativa (LLM API) alojada en España

Te damos una API y una clave (API key) para que la integres en tu software y puedas usar nuestra IA desde cualquier sitio.

Contratar Servicio rocket_launch
Network graphic

Ventajas Clave

check_circle

Sin gestionar GPUs

Nosotros operamos la capacidad y priorizamos rendimiento y costes.

check_circle

Sin administrar servidores

Cero mantenimiento de sistema operativo, drivers o parches.

check_circle

Sin Docker ni orquestación

Evita imágenes, contenedores y despliegues complejos.

check_circle

Sin preocuparte del consumo

Métricas y límites ya integrados por plan.

check_circle

Integración con tu stack

LangChain, LlamaIndex, etc.

check_circle

Soporte y seguridad

IP allowlist, claves rotatorias e inferencia en nuestro CPD 100% solar.

Planes LLM API

Las diferencias están en ancho de banda, usuarios concurrentes y memoria.

Flow One

250€/mes
  • check API key y baseURL privada
  • check System Prompts personalizables
  • check Modelo estándar cuantizado
  • check Uso de Tools agéntico
  • check Sin límite de tokens
Contratar

Flow Pro

350€/mes
  • check Prioridad GPU
  • check Mayor caudal
  • check Uso de Tools agéntico
  • check System Prompts personalizables
  • check Sin límite de tokens
Contratar

Flow Premium

500€/mes
  • check Capacidad dedicada
  • check Peering/VLAN y latencia ultra-baja
  • check Modelos FP16 y FP32
  • check Ajustes personalizables
  • check Sin límite de tokens
Contratar
| Documentation

Developer's Playbook

Arquitectura técnica y endpoints para integración de alta disponibilidad.

Technical Use Case 01

Function Calling & Tool Use

Nuestra API implementa una capa de razonamiento nativa para invocar funciones externas. Define tu esquema JSON y el modelo devolverá los argumentos precisos para ejecutar acciones en tu backend.

  • Baja latencia en parsing JSON nativo.
  • Soporte para múltiples llamadas paralelas.
POST /v1/chat/completions
curl https://api.inferencia.ai/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "flow-pro-v1",
    "messages": [{"role": "user", "content": "Fetch latest docs"}],
    "tools": [{
      "type": "function",
      "function": {
        "name": "get_database_records",
        "parameters": { "type": "object", "properties": { ... } }
      }
    }]
  }'
Response Schema
{
  "response_format": {
    "type": "json_schema",
    "json_schema": {
      "name": "extraction",
      "schema": {
        "type": "object",
        "properties": {
          "entities": { "type": "array", "items": { "type": "string" } },
          "sentiment": { "type": "string" }
        }
      }
    }
  }
}
Technical Use Case 02

Structured Data Extraction

Garantiza que la respuesta del modelo siga estrictamente tu esquema de datos. Ideal para flujos ETL, análisis de sentimientos masivo y clasificación de tickets.

  • 100% de cumplimiento con JSON Schema.
  • Optimizado para pipelines de automatización.
Technical Use Case 03

Large Context RAG Ingestion

Ventanas de contexto extendidas y caching dinámico. Integra tus bases de datos vectoriales con una arquitectura de baja latencia.

  • Soporte nativo para embeddings de alta densidad.
  • Alojamiento soberano en España (GDPR).
Contextual Embedding
const response = await fetch('https://api.inferencia.ai/v1/embeddings', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json' },
  body: JSON.stringify({
    input: "Documentación técnica de arquitectura...",
    model: "inferencia-embed-001"
  })
});

Preguntas frecuentes

¿Qué es una LLM API? expand_more
Una interfaz para conectar tu software con modelos de lenguaje (IA generativa). Envías texto y recibes una respuesta inteligente.
¿Dónde se aloja? expand_more
En nuestro CPD de El Puerto de Santa María (Cádiz, España), con energía 100% solar y baja latencia.
¿Qué modelos usa? expand_more
Modelos LLM como Llama 3, Mixtral o Qwen, accesibles por API estándar compatible con OpenAI SDKs.