Claude vs GPT-4o vs Gemini para Análisis de Datos: Probé los 3 con Datos Reales

Claude vs GPT-4o vs Gemini para Análisis de Datos: Probé los 3 con Datos Reales

Llevo prácticamente un año usando IA para el análisis de datos casi a diario. Y sigo escuchando la misma pregunta de mis compañeros: "¿Cuál debería usar realmente?" Así que decidí dejar de adivinar y hacer una comparativa en condiciones.

Tomé tres tareas del mundo real —el tipo de cosas con las que los analistas de datos trabajan de verdad— y las lancé contra Claude (3.5 Sonnet), GPT-4o y Gemini 1.5 Pro. Sin cherry-picking de prompts. Sin reintentos hasta dar con una buena respuesta. Un único intento por tarea, mismo prompt, mismos datos.

Esto es lo que pasó.

Por qué hice esta prueba

Seré honesto: ninguna de estas empresas me patrocina. Pago las tres suscripciones de mi propio bolsillo (20 $/mes cada una, que se acumula rápido). El motivo de esta prueba es puramente egoísta: quería saber qué suscripción podía cancelar.

La mayoría de artículos de "comparativa de IAs" que he leído son o muy superficiales o claramente sesgados hacia el modelo que prefiere el autor. Prueban algo trivial como "escríbeme un haiku" y luego sacan conclusiones grandiosas sobre su idoneidad para el entorno empresarial. Eso no sirve de nada.

Quería probar cosas que realmente importan para el trabajo con datos: manejar datos reales y desordenados, generar SQL correcto sobre varias tablas y extraer insights de documentos extensos. Estas son las tareas que hago cada semana, y sospecho que la mayoría de los profesionales de datos también.

La configuración

Antes de entrar en los resultados, así es como estructuré las pruebas:

  • Mismo prompt para los tres modelos — escribí cada prompt una sola vez y lo copié exactamente
  • Sin system prompts ni instrucciones personalizadas — punto de partida limpio para todos
  • Configuración por defecto — sin ajustes de temperatura ni de top-p
  • Intento único — lo que salió a la primera es lo que puntué
  • Probado en abril de 2026 — los modelos se actualizan constantemente, así que esto es una instantánea en el tiempo

Puntué cada modelo del 1 al 10 en varios criterios por tarea y luego los promedié. No es perfecto desde el punto de vista científico, pero es mucho más riguroso que ir a ojo.

Prueba 1: Análisis de CSV con 50.000 filas

El conjunto de datos

Usé un dataset real de transacciones de e-commerce con 50.247 filas y 23 columnas. Incluía IDs de pedidos, marcas de tiempo, categorías de productos, datos demográficos de clientes, métodos de pago, detalles de envío, estado de devoluciones e importes de ingresos. Los datos estaban desordenados a propósito: había 1.847 valores faltantes distribuidos por distintas columnas, algunas entradas duplicadas, inconsistencias en los formatos de fecha y unos cuantos outliers evidentes (como un pedido de 99.999 $ que era claramente un error de introducción de datos).

Mi prompt era directo: "Analiza este archivo CSV. Identifica las principales tendencias, señala los problemas de calidad de los datos y proporciona 5 recomendaciones de negocio accionables con evidencia de apoyo extraída de los datos."

La respuesta de Claude

Claude identificó de inmediato los problemas de calidad de los datos: los 1.847 valores faltantes, los duplicados y el outlier. Lo que me impresionó fue la profundidad del análisis. No se limitó a decir "la electrónica es tu categoría principal". Desglosó los ingresos por categoría, los cruzó con las tasas de devolución y señaló que, aunque la electrónica tenía los mayores ingresos brutos, el panorama de los ingresos netos era diferente debido a una tasa de devolución del 23%.

Las cinco recomendaciones eran específicas y estaban ligadas a datos concretos. Por ejemplo: "Considera reducir el umbral de envío gratuito de 75 $ a 50 $ para la categoría de artículos del hogar: los pedidos entre 50 $ y 75 $ en esta categoría muestran una tasa de abandono del carrito del 34%, y el coste medio de envío de 8,20 $ quedaría compensado por el aumento del 12% en la conversión." Ese es el tipo de análisis que realmente ayuda a quienes toman decisiones.

Claude también creó de forma espontánea una matriz de correlación e identificó un patrón estacional que yo no había notado: las devoluciones del tercer trimestre eran un 40% más altas que en otros trimestres, concentradas en la categoría de ropa, probablemente por las compras de vuelta al cole con una alta tasa de errores de talla.

La respuesta de GPT-4o

GPT-4o adoptó un enfoque más estructurado. Organizó el análisis en secciones claras con encabezados e incluso generó código Python para cada paso del análisis. El código era limpio, bien comentado y funcionaba de verdad —lo comprobé—. Usaba conceptos de pandas profiling y creó código de visualización con matplotlib y seaborn.

La identificación de problemas de calidad de los datos fue buena, aunque no tan exhaustiva. Detectó los valores faltantes y el outlier, pero se le escaparon las entradas duplicadas (había 23). Las recomendaciones de negocio eran sólidas pero más genéricas: cosas como "centra el gasto en marketing en las categorías de mayor rendimiento", sin el análisis de umbrales específicos que proporcionó Claude.

Donde GPT-4o realmente destacó fue en el código generado. Si hubiera necesitado construir un pipeline automatizado a partir de ese análisis, GPT-4o me habría dado una enorme ventaja de salida. El código era modular, incluía manejo de errores e incluso docstrings.

La respuesta de Gemini

Gemini 1.5 Pro procesó el archivo rápidamente y ofreció una visión general completa. Manejó el gran tamaño del archivo sin problemas (algo que no siempre era el caso con versiones anteriores). El análisis cubrió los aspectos básicos correctamente: categorías principales, tendencias de ingresos, segmentos de clientes.

Pero la profundidad no estaba al nivel de los otros dos. Las recomendaciones eran superficiales: "Mejorar la retención de clientes" y "Optimizar el mix de producto". No son incorrectas, pero tampoco son accionables. Un responsable de negocio que las leyera preguntaría de inmediato "¿Cómo?", y la respuesta no estaba en el output de Gemini.

Gemini sí hizo algo interesante: creó automáticamente una tabla resumen comparando las tasas de crecimiento mes a mes que era fácil de escanear. Y fue el único modelo que señaló una posible inconsistencia de divisa en 12 filas donde los valores sugerían que podían estar en una moneda diferente.

Puntuaciones de la prueba 1

CriterioClaudeGPT-4oGemini
Detección de calidad de datos977
Profundidad analítica1075
Recomendaciones accionables975
Calidad del código7106
Presentación/Legibilidad898
Media8,68,06,2

Prueba 2: Generación de SQL sobre 3 tablas relacionadas

El esquema

Le di a cada modelo un esquema con tres tablas: customers (customer_id, name, email, signup_date, plan_type, region), orders (order_id, customer_id, product_id, order_date, quantity, unit_price, discount_pct, status) y products (product_id, name, category, subcategory, cost_price, list_price, supplier_id, is_active).

Luego hice cinco preguntas de complejidad creciente:

  1. Muéstrame los 10 mejores clientes por gasto total en los últimos 90 días, incluyendo su tipo de plan y número de pedidos
  2. Calcula la tasa de crecimiento de ingresos mes a mes para cada categoría de producto, pero solo para categorías con al menos 100 pedidos al mes
  3. Encuentra clientes que han hecho un downgrade de su plan (de premium a básico) Y cuya frecuencia de pedidos ha caído más de un 50% en comparación con sus primeros 3 meses
  4. Genera un análisis de cohortes que muestre las tasas de retención por mes de alta, donde "retenido" significa al menos un pedido en cada mes posterior
  5. Identifica productos donde el porcentaje de descuento se lleva más del 30% del margen, agrupado por proveedor, con un total acumulado

El SQL de Claude

Claude produjo SQL correcto para las cinco consultas a la primera. Las queries estaban bien estructuradas, usando CTEs (Common Table Expressions) que hacían la lógica fácil de seguir. Para la query de análisis de cohortes, que es notoriamente complicada, Claude usó un enfoque limpio con CROSS JOIN para generar la cuadrícula completa de cohortes y LEFT JOIN para rellenar los números reales de retención. Esto hizo que el output mostrase correctamente ceros para los meses en los que no se retuvo ningún cliente, en lugar de simplemente omitir esas filas.

Claude también añadió comentarios explicando la lógica de negocio detrás de cada paso, algo que siempre agradezco. También señaló casos límite: por ejemplo, indicó que la query de descuento-margen asume que discount_pct se aplica a list_price y no a cost_price, y preguntó si eso era correcto.

El único pero: una query usaba una sintaxis de función de ventana específica de PostgreSQL que no funcionaría en MySQL sin modificación. Claude no especificó qué dialecto estaba usando.

El SQL de GPT-4o

GPT-4o también acertó en las cinco queries, y la calidad del código fue posiblemente la mejor de los tres. Cada query venía con el dialecto SQL especificado (usó PostgreSQL por defecto pero ofreció alternativas para MySQL), notas de rendimiento sobre qué índices ayudarían y planes de ejecución estimados para tablas grandes.

La query de análisis de cohortes era elegante: usó un enfoque ligeramente diferente con date_trunc y generate_series que era más conciso que el de Claude siendo igualmente correcto. GPT-4o también presentó los resultados de la query en una tabla formateada mostrando el aspecto que tendría el output, lo cual fue útil para la validación.

GPT-4o fue más allá al sugerir una vista materializada para la query de crecimiento de ingresos: "Si vas a ejecutar esto con frecuencia, considera crear una vista materializada que se refresque diariamente. Aquí está el DDL..." Ese es el tipo de pensamiento orientado a producción que distingue lo bueno de lo excelente.

El SQL de Gemini

Gemini acertó en las queries 1, 2 y 5. La query 3 tenía un error lógico: comparaba los cambios de plan mirando el campo plan_type actual, pero no tenía en cuenta que el esquema solo guarda el plan actual, no el historial. Asumió que existía una tabla plan_history que no existía. Cuando se lo señalé, se corrigió, pero recuerda: esta era una prueba de intento único.

La query 4 (análisis de cohortes) era funcionalmente correcta pero tenía un problema de rendimiento: usaba subconsultas correlacionadas en lugar de joins, lo que en un dataset grande sería significativamente más lento. La lógica era correcta, pero no querría ejecutarla sobre una tabla con millones de filas.

Gemini sí destacó al explicar el contexto de negocio de cada query. Sus explicaciones de qué es el análisis de cohortes y por qué importa el análisis de márgenes fueron las más claras de los tres, lo que lo convierte en una buena herramienta para aprender.

Puntuaciones de la prueba 2

CriterioClaudeGPT-4oGemini
Corrección de las queries10107
Estructura/Legibilidad del código9107
Conciencia del rendimiento795
Manejo de casos límite985
Documentación/Explicación889
Media8,69,06,6

Prueba 3: Resumen de PDF de 47 páginas

El documento

Usé un documento real (anonimizado) de revisión trimestral de negocio: 47 páginas con tablas financieras, iniciativas estratégicas, evaluaciones de riesgos, KPIs departamentales y una presentación para el consejo de administración embebida al final. El documento tenía aproximadamente 28.000 palabras, 14 tablas y 8 gráficos descritos en texto.

Mi prompt: "Resume este documento de forma que un directivo de nivel C pueda leerlo en 5 minutos y entrar a una reunión del consejo completamente preparado. Destaca los 3 mayores riesgos, las 2 oportunidades más prometedoras y cualquier número que no cuadre con el relato."

El resumen de Claude

Claude produjo un resumen conciso y bien organizado de unas 800 palabras, genuinamente legible en 5 minutos. Los tres riesgos que identificó eran exactamente los correctos: concentración de la cadena de suministro (72% de una sola región), la tendencia del coste de adquisición de clientes (un 34% más alto trimestre a trimestre mientras el LTV se mantenía plano) y un plazo de cumplimiento normativo que el texto mencionaba de pasada en la página 38 pero que era en realidad un riesgo regulatorio importante.

La sección de oportunidades también fue buena, destacando una jugada de expansión de mercado y un acuerdo de partnership con condiciones favorables. Pero donde Claude realmente se ganó su puntuación fue en la sección de "números que no cuadran". Detectó que la cifra de ingresos de la página 12 (14,2 M$) no coincidía con la suma de los desgloces regionales de la página 23 (13,8 M$), y señaló que los datos de plantilla de la sección de RRHH implicaban una tasa de rotación del 18% que contradecía el relato de "fuerte retención" de la página 7.

Ese tipo de cruce de referencias a lo largo de un documento extenso es exactamente lo que necesito que haga una IA. Llevaba una hora leyendo ese documento y se me habían pasado las dos discrepancias.

El resumen de GPT-4o

El resumen de GPT-4o era bien estructurado y profesional. Usó los bullet points con eficacia y organizó la información por departamento. La identificación de riesgos fue sólida: detectó el problema de la cadena de suministro y el problema del CAC, pero se le escapó el plazo de cumplimiento de la página 38.

El resumen era más largo que el de Claude (unas 1.200 palabras), lo que comprometía el requisito de "lectura en 5 minutos". Incluía más detalle sobre el rendimiento departamental, que es útil pero no era lo que pedí. GPT-4o parece inclinarse por la exhaustividad antes que por la concisión cuando trabaja con documentos largos.

En la solicitud de "números que no cuadran", GPT-4o detectó la discrepancia de ingresos pero no la contradicción en la tasa de rotación. Sí detectó algo que los demás no vieron: señaló que la tasa de crecimiento proyectada para el tercer trimestre asumía un patrón de estacionalidad de 2024, pero los datos de 2025 mostraban que el patrón estacional había desplazado unas 6 semanas, lo que hacía que la proyección del tercer trimestre fuera potencialmente demasiado optimista en un 8-12%.

El resumen de Gemini

Aquí es donde la gran ventana de contexto de Gemini pagó dividendos. Procesó las 47 páginas sin ningún truncamiento ni artefactos de resumen. El resumen era completo y preciso, cubriendo todas las secciones principales del documento. Manejó las tablas financieras especialmente bien, extrayendo métricas clave y presentándolas en un formato limpio.

Gemini identificó el riesgo de la cadena de suministro y un riesgo de competencia de mercado que los otros dos no enfatizaron. Sin embargo, trató el documento más como un resumen capítulo por capítulo que como un briefing estratégico. Un directivo de alto nivel obtendría toda la información, pero tendría que hacer por su cuenta la síntesis del "¿y qué?".

La auditoría de números fue la más floja de los tres. Gemini confirmó los números del documento sin cruzarlos entre secciones. Básicamente dijo "las cifras financieras son consistentes con el relato", cuando no lo eran, como demostró Claude.

Pero quiero reconocerle algo a Gemini: su manejo de los gráficos embebidos. Aunque no podía ver las imágenes reales, se remitió a las descripciones de texto de los gráficos y señaló correctamente que dos gráficos describían tendencias contradictorias (uno mostraba un aumento de cuota de mercado mientras otro mostraba una posición competitiva relativa en declive). Es una observación sutil.

Puntuaciones de la prueba 3

CriterioClaudeGPT-4oGemini
Idoneidad para directivos1076
Identificación de riesgos987
Detección de oportunidades887
Cruce de referencias numéricas1084
Concisión vs. exhaustividad968
Media9,27,46,4

Resultados globales

PruebaClaudeGPT-4oGemini
Análisis CSV (50K filas)8,68,06,2
Generación SQL (3 tablas)8,69,06,6
Resumen PDF (47 páginas)9,27,46,4
Media global8,88,16,4

Mi opinión honesta: cuándo usar cada uno

Usa Claude cuando: necesites un pensamiento analítico profundo, cruce de referencias en documentos extensos o insights listos para el negocio que vayan más allá de las observaciones superficiales. Claude ofreció sistemáticamente el análisis más matizado y detectó detalles que los demás pasaron por alto. Si eres un analista de datos que presenta a stakeholders, Claude te da el "¿y qué?" que convierte los datos en decisiones.

Usa GPT-4o cuando: necesites código de calidad para producción, SQL bien documentado o un análisis listo para pipelines. El código de GPT-4o fue consistentemente el más limpio y el más preparado para producción. Si estás construyendo algo, no solo analizando algo, GPT-4o es tu mejor apuesta. Las sugerencias de optimización de rendimiento también fueron un extra muy bienvenido.

Usa Gemini cuando: trabajes con documentos masivos o necesites procesar mucho contexto de una vez. La gran ventana de contexto de Gemini es genuinamente útil para documentos muy largos, y manejó las 47 páginas completas sin inmutarse. También es el mejor en explicaciones y enseñanza, lo que lo hace valioso para aprender conceptos nuevos.

¿Y el coste?

Los tres ofrecen planes de consumo a 20 $/mes. Para uso de API, la cosa se complica un poco:

ModeloEntrada (por 1M tokens)Salida (por 1M tokens)Coste est. para esta prueba
Claude 3.5 Sonnet3,00 $15,00 $0,47 $
GPT-4o2,50 $10,00 $0,38 $
Gemini 1.5 Pro1,25 $5,00 $0,21 $

Gemini gana en precio con un margen significativo. Si el coste es tu principal preocupación y la diferencia de profundidad no importa para tu caso de uso, es difícil argumentar en contra de la propuesta de valor de Gemini.

Limitaciones de esta prueba

Quiero ser transparente sobre lo que esta prueba no te dice:

  • Estos modelos se actualizan constantemente. Lo que es cierto hoy puede no serlo en tres meses. Intentaré repetir esta comparativa trimestralmente.
  • Sesgo del intento único. Los modelos de IA pueden dar outputs diferentes con el mismo prompt. Ejecutar cada prueba 10 veces y promediar sería más riguroso, pero no era práctico.
  • Mis puntuaciones son subjetivas. Otro analista podría valorar más la calidad del código que la profundidad analítica y llegar a conclusiones diferentes.
  • No probé las capacidades multimodales. Si tu análisis de datos involucra imágenes, gráficos o vídeo, esa es una comparativa completamente diferente.
  • Los límites de la ventana de contexto importan más en algunos flujos de trabajo. Si procesas documentos de más de 100 páginas habitualmente, la ventaja de Gemini se vuelve mucho más significativa.

Con qué me quedo

Después de hacer esta prueba, me quedo con las tres suscripciones, pero las uso de forma diferente a antes. Claude es mi herramienta principal para análisis y revisión de documentos. GPT-4o se encarga de mis tareas de programación y construcción de pipelines. Gemini aparece cuando necesito procesar algo masivo o cuando estoy aprendiendo un dominio nuevo y necesito explicaciones claras.

¿Son 60 $/mes mucho dinero? Sí. Pero teniendo en cuenta que sustituyen lo que antes eran horas de trabajo manual cada semana, probablemente sea el mejor ROI de cualquier suscripción a herramientas que tengo.

Si tuviese que quedarme con solo una, sería Claude para el trabajo de análisis de datos. La profundidad analítica y la capacidad de cruce de referencias me salvó de presentar cifras incorrectas a un cliente en una ocasión. Con eso solo ya se pagó un año de suscripción.

Pero, siendo honesto, la diferencia entre Claude y GPT-4o es lo suficientemente pequeña como para que tu experiencia pueda variar. Prueba los tres con TUS tareas específicas antes de comprometerte. Lo que funciona para mi flujo de trabajo puede no encajar con el tuyo.

Lo que viene

Tengo previsto hacer pruebas similares sobre generación de visualizaciones (¿pueden estos modelos crear buenos gráficos directamente?), análisis de datos en tiempo real (escenarios de streaming) y procesamiento de datos en múltiples idiomas. Si hay escenarios específicos que te gustaría que probara, deja un comentario o contáctame.

El panorama del análisis de datos con IA avanza a una velocidad increíble. El modelo que hoy es el mejor puede no serlo el próximo trimestre. Pero ahora mismo, para el trabajo que hago, esto es lo que hay.