Claude vs. GPT-4o vs. Gemini: ¿Cuál es el mejor para análisis de datos? Prueba en datasets reales
Comparamos a fondo Claude 3.5 Sonnet, GPT-4o y Gemini 1.5 Pro para análisis de datos con datasets reales. Descubre cuál es mejor para tus tareas: análisis profundo, código de producción o manejo de documentos extensos.
He estado usando IA para el análisis de datos prácticamente todos los días durante el último año. Y sigo escuchando la misma pregunta de mis colegas: "¿Cuál debería usar realmente?". Así que decidí dejar de adivinar y realizar una comparación directa y adecuada.
Tomé tres tareas del mundo real —el tipo de cosas con las que los analistas de datos realmente lidian— y las puse a prueba con Claude (3.5 Sonnet), GPT-4o y Gemini 1.5 Pro. Sin elegir prompts a dedo. Sin reintentar hasta obtener una buena respuesta. Solo una oportunidad por tarea, el mismo prompt, los mismos datos.
Aquí está lo que pasó.
Por qué hice esta prueba
Permítanme ser honesto: no me patrocina ninguna de estas empresas. Pago las tres suscripciones de mi propio bolsillo (USD 20/mes cada una, lo que suma rápido). La razón por la que realicé esta prueba es puramente egoísta: quería saber qué suscripción podía cancelar.
La mayoría de los artículos de "comparación de IA" que he leído son superficiales o claramente sesgados hacia el modelo que prefiere el autor. Prueban algo trivial como "escríbeme un haiku" y luego sacan conclusiones generales sobre la preparación empresarial. Eso no es útil.
Quería probar cosas que realmente importan para el trabajo con datos: manejar datos desordenados del mundo real, generar SQL correcto en varias tablas y extraer información de documentos largos. Estas son las tareas que realizo cada semana, y sospecho que la mayoría de los profesionales de datos también lo hacen.
La configuración
Antes de sumergirnos en los resultados, así es como estructuré las pruebas:
- El mismo prompt para los tres modelos — Escribí cada prompt una vez y lo copié y pegué exactamente.
- Sin system prompts ni instrucciones personalizadas — Borrón y cuenta nueva para todos.
- Configuración predeterminada — Sin ajustes de temperatura, sin retoques de top-p.
- Un solo intento — Lo que salió primero es lo que califiqué.
- Probado en abril de 2026 — Los modelos se actualizan constantemente, así que esto es una instantánea en el tiempo.
Califiqué cada modelo en una escala de 1 a 10 en múltiples criterios por tarea, y luego promedié las puntuaciones. No es perfectamente científico, pero sí mucho más riguroso que las "sensaciones".
Prueba 1: Análisis de un archivo CSV de 50,000 filas
El dataset
Utilicé un dataset real de transacciones de e-commerce con 50,247 filas y 23 columnas. Incluía IDs de pedido, marcas de tiempo, categorías de productos, datos demográficos de clientes, métodos de pago, detalles de envío, estado de devolución y cifras de ingresos. Los datos estaban desordenados a propósito: había 1,847 valores faltantes dispersos en diferentes columnas, algunas entradas duplicadas, inconsistencias en el formato de fecha y algunos valores atípicos obvios (como un pedido de USD 99,999 que claramente era un error de entrada de datos).
Mi prompt fue directo: "Analiza este archivo CSV. Identifica las principales tendencias, señala problemas de calidad de datos y proporciona 5 recomendaciones de negocio accionables con evidencia de los datos."
Respuesta de Claude
Claude identificó inmediatamente los problemas de calidad de los datos: los 1,847 valores faltantes, los duplicados y el valor atípico. Lo que me impresionó fue la profundidad del análisis. No solo dijo "la electrónica es su categoría principal". Desglosó los ingresos por categoría, los cotejó con las tasas de devolución y señaló que, si bien la electrónica tenía los ingresos brutos más altos, el panorama de los ingresos netos era diferente debido a una tasa de devolución del 23%.
Las cinco recomendaciones fueron específicas y estaban vinculadas a puntos de datos. Por ejemplo: "Considere reducir el umbral de envío gratuito de USD 75 a USD 50 para la categoría de artículos para el hogar; los pedidos entre USD 50 y USD 75 en esta categoría muestran una tasa de abandono del carrito del 34%, y el costo de envío promedio de USD 8.20 se compensaría con el aumento del 12% en la conversión." Ese es el tipo de análisis que realmente ayuda a los tomadores de decisiones.
Claude también creó voluntariamente una matriz de correlación e identificó un patrón estacional que yo no había notado: las devoluciones del tercer trimestre fueron un 40% más altas que en otros trimestres, concentradas en la categoría de ropa, probablemente debido a las compras de regreso a clases con altas devoluciones por tallas incorrectas.
Respuesta de GPT-4o
GPT-4o adoptó un enfoque más estructurado. Organizó su análisis en secciones claras con encabezados e incluso generó código Python para cada paso del análisis. El código era limpio, bien comentado y realmente ejecutable; lo probé. Utilizó conceptos de pandas profiling y creó código de visualización usando matplotlib y seaborn.
La identificación de la calidad de los datos fue buena, pero no tan exhaustiva. Detectó los valores faltantes y el valor atípico, pero pasó por alto las entradas duplicadas (había 23 de ellas). Las recomendaciones de negocio fueron sólidas, pero más genéricas, como "enfocar el gasto de marketing en categorías de alto rendimiento" sin el análisis de umbral específico que proporcionó Claude.
Donde GPT-4o realmente brilló fue en la salida de código. Si necesitara construir un pipeline automatizado basado en este análisis, GPT-4o me dio una ventaja enorme. El código era modular, tenía manejo de errores e incluso incluía docstrings.
Respuesta de Gemini
Gemini 1.5 Pro procesó el archivo rápidamente y proporcionó una visión general completa. Manejó el gran tamaño del archivo sin quejas (lo cual no siempre fue el caso con versiones anteriores). El análisis cubrió bien los aspectos básicos: categorías principales, tendencias de ingresos, segmentos de clientes.
Pero la profundidad no estaba ahí en comparación con los otros dos. Las recomendaciones eran superficiales: "Mejorar la retención de clientes" y "Optimizar la combinación de productos". Esto no está mal, pero tampoco es accionable. Un líder empresarial que leyera eso preguntaría inmediatamente "¿Cómo?", y la respuesta no estaba en la salida de Gemini.
Sin embargo, Gemini hizo algo interesante: creó automáticamente una tabla de resumen que comparaba las tasas de crecimiento mes a mes y que era fácil de escanear. Y fue el único modelo que señaló una posible inconsistencia de moneda en 12 filas donde los valores sugerían que podrían estar en una moneda diferente.
Puntuaciones de la Prueba 1
| Criterio | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Detección de Calidad de Datos | 9 | 7 | 7 |
| Profundidad Analítica | 10 | 7 | 5 |
| Recomendaciones Accionables | 9 | 7 | 5 |
| Calidad de Código | 7 | 10 | 6 |
| Presentación/Legibilidad | 8 | 9 | 8 |
| Promedio | 8.6 | 8.0 | 6.2 |
Prueba 2: Generación de consultas SQL en 3 tablas relacionadas
El esquema
Le di a cada modelo un esquema con tres tablas: customers (customer_id, name, email, signup_date, plan_type, region), orders (order_id, customer_id, product_id, order_date, quantity, unit_price, discount_pct, status) y products (product_id, name, category, subcategory, cost_price, list_price, supplier_id, is_active).
Luego hice cinco preguntas de complejidad creciente:
- Muéstrame los 10 clientes principales por gasto total en los últimos 90 días, incluyendo su tipo de plan y número de pedidos.
- Calcula la tasa de crecimiento de ingresos mes a mes para cada categoría de producto, pero solo para categorías con al menos 100 pedidos por mes.
- Encuentra clientes que hayan degradado su plan (pasaron de premium a básico) Y cuya frecuencia de pedidos haya disminuido en más del 50% en comparación con sus primeros 3 meses.
- Genera un análisis de cohortes que muestre las tasas de retención por mes de registro, donde "retenido" significa al menos un pedido en cada mes subsiguiente.
- Identifica productos donde el porcentaje de descuento está consumiendo más del 30% del margen, agrupados por proveedor, con un total acumulado.
SQL de Claude
Claude produjo SQL correcto para las cinco consultas al primer intento. Las consultas estaban bien estructuradas, utilizando CTEs (Common Table Expressions) que hacían que la lógica fuera fácil de seguir. Para la consulta de análisis de cohortes, que es notoriamente complicada, Claude utilizó un enfoque limpio con CROSS JOIN para generar la cuadrícula completa de cohortes y LEFT JOIN para rellenar los números de retención reales. Esto significaba que la salida mostraba correctamente ceros para los meses en los que no se retenían clientes, en lugar de simplemente omitir esas filas.
Claude también añadió comentarios explicando la lógica de negocio detrás de cada paso, algo que siempre aprecio. También señaló casos límite; por ejemplo, indicó que la consulta de descuento-margen asume que el discount_pct se aplica al list_price, no al cost_price, y preguntó si eso era correcto.
La única pega: una consulta usaba una sintaxis de función de ventana específica de PostgreSQL que no funcionaría en MySQL sin modificaciones. Claude no especificó qué dialecto estaba usando.
SQL de GPT-4o
GPT-4o también acertó las cinco consultas, y la calidad del código fue posiblemente la mejor de las tres. Cada consulta venía con el dialecto SQL especificado (por defecto era PostgreSQL, pero ofrecía alternativas para MySQL), notas de rendimiento sobre qué índices ayudarían y planes de ejecución estimados para tablas grandes.
La consulta de análisis de cohortes fue elegante: utilizó un enfoque ligeramente diferente con date_trunc y generate_series que era más conciso que la versión de Claude, siendo igualmente correcto. GPT-4o también proporcionó los resultados de la consulta en una tabla formateada que mostraba cómo se vería la salida, lo cual fue útil para la validación.
GPT-4o fue más allá al sugerir una vista materializada para la consulta de crecimiento de ingresos: "Si ejecuta esto regularmente, considere crear una vista materializada que se actualice diariamente. Aquí está el DDL..." Ese es el tipo de pensamiento listo para producción que distingue lo bueno de lo excelente.
SQL de Gemini
Gemini obtuvo las consultas 1, 2 y 5 correctas. La consulta 3 tenía un error lógico: comparaba los cambios de plan mirando el campo current plan_type, pero no tenía en cuenta el hecho de que el esquema solo almacena el plan actual, no el historial. Asumió que existía una tabla plan_history que no existía. Cuando se lo señalé, se corrigió, pero recuerden, esta fue una prueba de un solo intento.
La consulta 4 (análisis de cohortes) era funcionalmente correcta, pero tenía un problema de rendimiento: usaba subconsultas correlacionadas en lugar de uniones, lo que en un dataset grande sería significativamente más lento. La lógica era correcta, pero no me gustaría ejecutarla en una tabla con millones de filas.
Sin embargo, Gemini sobresalió en la explicación del contexto comercial de cada consulta. Sus explicaciones de lo que significa el análisis de cohortes y por qué el análisis de márgenes es importante fueron las más claras de las tres, lo que lo convierte en una buena herramienta de aprendizaje.
Puntuaciones de la Prueba 2
| Criterio | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Corrección de Consulta | 10 | 10 | 7 |
| Estructura/Legibilidad del Código | 9 | 10 | 7 |
| Conciencia del Rendimiento | 7 | 9 | 5 |
| Manejo de Casos Extremos | 9 | 8 | 5 |
| Documentación/Explicación | 8 | 8 | 9 |
| Promedio | 8.6 | 9.0 | 6.6 |
Prueba 3: Resumen de un PDF de 47 páginas
El documento
Utilicé un documento real (anonimizado) de revisión trimestral de negocios: 47 páginas con tablas financieras, iniciativas estratégicas, evaluaciones de riesgos, KPIs departamentales y una presentación para la junta directiva incrustada al final. El documento tenía aproximadamente 28,000 palabras con 14 tablas y 8 gráficos descritos en texto.
Mi prompt: "Resume este documento de manera que un ejecutivo de nivel C pueda leerlo en 5 minutos y entrar a una reunión de la junta directiva completamente preparado. Destaca los 3 mayores riesgos, las 2 oportunidades más prometedoras y cualquier número que parezca inconsistente con la narrativa."
Resumen de Claude
Claude produjo un resumen conciso y bien organizado de unas 800 palabras, genuinamente legible en 5 minutos. Los tres riesgos que identificó fueron acertados: concentración de la cadena de suministro (72% de una sola región), la tendencia del costo de adquisición de clientes (un aumento del 34% intertrimestral mientras el LTV se mantuvo plano) y una fecha límite de cumplimiento que la narrativa mencionaba casualmente en la página 38, pero que en realidad era un riesgo regulatorio importante.
La sección de oportunidades también fue buena, destacando una estrategia de expansión de mercado y un acuerdo de asociación con términos favorables. Pero donde Claude realmente se ganó su puntuación fue en la sección "números que parecen inconsistentes". Detectó que la cifra de ingresos en la página 12 (USD 14.2M) no coincidía con la suma de los desgloses regionales en la página 23 (USD 13.8M), y señaló que las cifras de personal en la sección de RRHH implicaban una tasa de rotación del 18% que contradecía la narrativa de "fuerte retención" en la página 7.
Ese tipo de referencia cruzada en un documento largo es exactamente lo que necesito que haga una IA. Yo había estado leyendo este documento durante una hora y me perdí ambas discrepancias.
Resumen de GPT-4o
El resumen de GPT-4o fue bien estructurado y profesional. Utilizó eficazmente los puntos y organizó la información por departamento. La identificación de riesgos fue sólida: detectó el problema de la cadena de suministro y el problema de CAC, pero pasó por alto la fecha límite de cumplimiento en la página 38.
El resumen fue más largo que el de Claude (unas 1,200 palabras), lo que afectó el requisito de "lectura de 5 minutos". Incluyó más detalles sobre el rendimiento departamental, lo cual es útil, pero no era lo que pedí. GPT-4o parece optar por la exhaustividad en lugar de la concisión cuando se le dan documentos largos.
En cuanto a la solicitud de "números que parecen inconsistentes", GPT-4o detectó la discrepancia de ingresos, pero no la contradicción de la tasa de rotación. Sin embargo, sí detectó algo que los otros pasaron por alto: señaló que la tasa de crecimiento proyectada para el tercer trimestre asumía un patrón de estacionalidad de 2024, pero los datos de 2025 mostraron que el patrón estacional se había desplazado unas 6 semanas, lo que hacía que la proyección del tercer trimestre fuera potencialmente optimista en un 8-12%.
Resumen de Gemini
Aquí es donde la gran ventana de contexto de Gemini dio sus frutos. Procesó las 47 páginas sin ningún tipo de fragmentación ni artefactos de resumen. El resumen fue exhaustivo y preciso, cubriendo cada sección principal del documento. Manejó las tablas financieras particularmente bien, extrayendo métricas clave y presentándolas en un formato limpio.
Gemini identificó el riesgo de la cadena de suministro y un riesgo de competencia en el mercado que los otros dos no enfatizaron. Sin embargo, trató el documento más como un resumen capítulo por capítulo que como un informe estratégico. Un ejecutivo de alto nivel obtendría toda la información, pero tendría que hacer la síntesis del "qué significa esto" por sí mismo.
La auditoría de números fue la más débil de las tres. Gemini confirmó los números en el documento sin hacer referencias cruzadas entre secciones. Básicamente dijo "las cifras financieras son consistentes con la narrativa", lo cual no era cierto, como demostró Claude.
Pero quiero darle crédito a Gemini por algo: su manejo de los gráficos incrustados. Aunque no pudo ver las imágenes reales, hizo referencia a las descripciones de texto de los gráficos y notó correctamente que dos gráficos describían tendencias contradictorias (uno mostraba un aumento de la cuota de mercado mientras que otro mostraba una disminución de la posición competitiva relativa). Esa es una detección sutil.
Puntuaciones de la Prueba 3
| Criterio | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Preparación Ejecutiva | 10 | 7 | 6 |
| Identificación de Riesgos | 9 | 8 | 7 |
| Detección de Oportunidades | 8 | 8 | 7 |
| Referencias Cruzadas Numéricas | 10 | 8 | 4 |
| Concisión vs. Completitud | 9 | 6 | 8 |
| Promedio | 9.2 | 7.4 | 6.4 |
Resultados generales
| Prueba | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Análisis CSV (50K filas) | 8.6 | 8.0 | 6.2 |
| Generación SQL (3 tablas) | 8.6 | 9.0 | 6.6 |
| Resumen PDF (47 páginas) | 9.2 | 7.4 | 6.4 |
| Promedio General | 8.8 | 8.1 | 6.4 |
Mi opinión sincera: cuándo usar cada uno
Use Claude cuando: Necesita un pensamiento analítico profundo, referencias cruzadas en documentos grandes o insights listos para el negocio que van más allá de las observaciones superficiales. Claude proporcionó consistentemente el análisis más matizado y detectó detalles que los demás pasaron por alto. Si usted es un analista de datos que presenta a las partes interesadas, Claude le da el "y qué" que convierte los datos en decisiones.
Use GPT-4o cuando: Necesita una salida de código de calidad de producción, SQL bien documentado o un análisis listo para un pipeline. El código de GPT-4o fue consistentemente el más limpio y listo para producción. Si está construyendo algo, no solo analizando algo, GPT-4o es su mejor opción. Las sugerencias de optimización del rendimiento también fueron un buen plus.
Use Gemini cuando: Está trabajando con documentos masivos o necesita procesar mucho contexto a la vez. La gran ventana de contexto de Gemini es genuinamente útil para documentos muy largos, y manejó las 47 páginas sin sudar. También es el mejor en explicaciones y enseñanza, lo que lo hace valioso para aprender nuevos conceptos.
¿Qué pasa con el costo?
Los tres ofrecen planes de consumo de USD 20/mes. Para el uso de la API, la cosa se vuelve más compleja:
| Modelo | Entrada (por 1M tokens) | Salida (por 1M tokens) | Costo Estimado para esta Prueba |
|---|---|---|---|
| Claude 3.5 Sonnet | USD 3.00 | USD 15.00 | USD 0.47 |
| GPT-4o | USD 2.50 | USD 10.00 | USD 0.38 |
| Gemini 1.5 Pro | USD 1.25 | USD 5.00 | USD 0.21 |
Gemini gana en precio por un margen significativo. Si el costo es su principal preocupación y la diferencia de profundidad no importa para su caso de uso, es difícil discutir la propuesta de valor de Gemini.
Limitaciones de esta prueba
Quiero ser transparente sobre lo que esta prueba no le dice:
- Estos modelos se actualizan constantemente. Lo que es cierto hoy podría no serlo en tres meses. Intentaré volver a ejecutar esta comparación trimestralmente.
- Sesgo de un solo intento. Los modelos de IA pueden dar diferentes resultados con el mismo prompt. Ejecutar cada prueba 10 veces y promediar sería más riguroso, pero no fue práctico.
- Mi puntuación es subjetiva. Otro analista podría valorar la calidad del código más que la profundidad analítica y llegar a conclusiones diferentes.
- No probé las capacidades multimodales. Si su análisis de datos implica imágenes, gráficos o video, esa es una comparación completamente diferente.
- Los límites de la ventana de contexto importan más para algunos flujos de trabajo. Si usted procesa rutinariamente documentos de más de 100 páginas, la ventaja de Gemini se vuelve mucho más significativa.
Lo que realmente me quedo
Después de realizar esta prueba, me quedo con las tres suscripciones, pero las uso de manera diferente a como lo hacía antes. Claude es mi herramienta principal para análisis y revisión de documentos. GPT-4o maneja mis tareas de codificación y construcción de pipelines. Gemini sale a relucir cuando necesito procesar algo masivo o cuando estoy aprendiendo un nuevo dominio y necesito explicaciones claras.
¿USD 60 al mes es mucho? Sí. Pero considerando que estoy reemplazando lo que solían ser horas de trabajo manual cada semana, probablemente sea la mejor inversión de cualquier suscripción de herramientas que tenga.
Si tuviera que quedarme con uno solo, sería Claude para el trabajo de análisis de datos. La profundidad analítica y la capacidad de referencia cruzada me salvaron de presentar números incorrectos a un cliente, una vez. Solo eso pagó un año de suscripción.
Pero honestamente, la brecha entre Claude y GPT-4o es lo suficientemente estrecha como para que su experiencia pueda variar. Pruebe los tres en SUS tareas específicas antes de comprometerse. Lo que funciona para mi flujo de trabajo podría no coincidir con el suyo.
Lo que sigue
Estoy planeando realizar pruebas similares en la generación de visualizaciones (¿pueden estos modelos crear buenos gráficos directamente?), el análisis de datos en tiempo real (escenarios de datos en streaming) y el procesamiento de datos multilingües. Si tiene escenarios específicos que le gustaría que pruebe, deje un comentario o póngase en contacto.
El panorama del análisis de datos con IA se mueve increíblemente rápido. El modelo que es mejor hoy podría no serlo el próximo trimestre. Pero ahora mismo, para el trabajo que hago, así es como están las cosas.