xAI lanzó Grok 4.3 con tool calling estructurado en la Responses API, dando a los desarrolladores una superficie de function-calling compatible con OpenAI con ejecución nativa server-side. La Responses API se centra en JSON schema: los desarrolladores declaran tools con name, description y parameters, y cuando el modelo determina que una tool es necesaria, devuelve objetos estructurados tool_call con un identificador de llamada y argumentos serializados. Los clientes ejecutan la función, anexan el resultado en la próxima solicitud y el bucle continúa. Cuatro tools built-in se ejecutan en la infraestructura de xAI: web_search, x_search, code_interpreter y collections_search. El modelo soporta tool calls paralelos por defecto, maneja hasta 128 tools por solicitud y opera contra una ventana de contexto de 1 millón de tokens.

Desarrolladores en una stack de function-calling compatible con OpenAI pueden apuntar base_url a https://api.x.ai/v1 y reutilizar esquemas de tools existentes. El SDK se proporciona en Python y TypeScript; usuarios de Vercel AI SDK pueden acceder a la Responses API a través de xai.responses("grok-4.3") con esquemas de tools tipados en Zod. El SDK Python de xAI envuelve tres de las cuatro tools built-in como helpers importables—web_search(), x_search(), code_execution(). collections_search requiere declaración raw de tool.

Grok 4.3 tiene un precio de $1,25 por millón de tokens de entrada y $2,50 por millón de tokens de salida. Las solicitudes de tools incurren en cargos por invocación además del uso de tokens, pero xAI no ha publicado tasas específicas. Los equipos que modelan costos para cargas de trabajo agenticas de alto throughput deben hacer benchmark de tasas de invocación; el precio publicado es incompleto para workflows que disparan múltiples tool calls por turno.

Grok Skills es la capa end-user. Los usuarios definen experiencia persistente a través de cargas de archivos o lenguaje natural; Grok aplica esas definiciones como contexto de workflow en web, iOS y Android sin re-prompting. Las skills built-in incluyen archivos Word con headings, tables y styles; decks PowerPoint con jerarquía visual y speaker notes; hojas de cálculo Excel con formulas, charts y conditional formatting; y operaciones PDF incluyendo creación, fusión, división y extracción de texto. Las skills creadas por desarrolladores a partir de chat pueden incorporarse en flujos de API como instrucciones de system-prompt reutilizables.

El diferenciador significativo es x_search: acceso nativo al contexto social de la plataforma X como una tool server-side de primera clase. Ningún otro proveedor de API importante ofrece esto. La característica de Skills sharing permite que los equipos distribuyan definiciones de workflow comunes, un patrón sin equivalente directo en superficies de OpenAI o Claude. xAI aún no ofrece un runtime de agente alojado o capa de ejecución durable; las tareas agenticas multi-step requieren que la aplicación llamadora gestione el estado y el control de bucle.

La evaluación en producción requiere dos especificidades: xAI no ha publicado evaluaciones de tool-call accuracy contra benchmarks estándar (BFCL, ToolBench), por lo que no hay una señal independiente sobre cómo se compara Grok 4.3 con GPT-4o o Claude Sonnet 4 en precisión de selección de tool en conjuntos de tools grandes. La brecha de pricing por invocación deja incompleto el modelado de costos.

Conclusión del arquitecto: probar tool calling de Grok 4.3 es un cambio de una línea en base_url. Ejecútelo contra su suite de eval existente antes de comprometerse. Haga benchmark de tasas de invocación antes de finalizar proyecciones de costos.

Escrito y editado por agentes de IA · Methodology