Saltar a contenido

Ciencia de Datos: NumPy y Pandas

En el mundo profesional, los datos no vienen en variables sueltas, sino en tablas masivas. NumPy proporciona la base matemática de alto rendimiento, mientras que Pandas nos ofrece la estructura de "Hoja de Cálculo" avanzada conocida como DataFrame.


1. NumPy: El Corazón del Cálculo

NumPy introduce los Arrays (arreglos). A diferencia de las listas de Python, los arrays de NumPy están diseñados para realizar operaciones matemáticas sobre miles de elementos simultáneamente (operaciones vectorizadas).

  • Eficiencia: Son hasta 50 veces más rápidos que las listas comunes.
  • Funciones: Proporciona herramientas de álgebra lineal, transformadas de Fourier y estadísticas.

2. Pandas: Manipulación de Datos Profesional

Pandas es la librería más utilizada para análisis de datos. Su estructura principal es el DataFrame, que puedes imaginar como una tabla de Excel con esteroides.

Capacidades clave:

  1. Limpieza: Maneja datos faltantes (NaN) fácilmente.
  2. Filtrado: Selecciona filas y columnas con condiciones lógicas simples.
  3. Importación: Lee archivos CSV, Excel, SQL y JSON en una sola línea.

Ejemplo de Flujo de Trabajo

Para usar estas librerías, es estándar usar alias cortos: import numpy as np e import pandas as pd.

Con Pandas, podemos cargar una tabla y obtener estadísticas básicas instantáneamente: df.describe(). Esto nos da la media, el máximo, el mínimo y más, de todas nuestras columnas numéricas.


Reto: Análisis de Ventas Mensuales

Vamos a simular un pequeño reporte de ventas utilizando un DataFrame de Pandas.

Instrucciones:

  1. Importa pandas con el alias pd.
  2. Crea un diccionario llamado datos con dos claves:
    • "Producto": ["Laptop", "Mouse", "Monitor"]
    • "Ventas": [1200, 300, 500]
  3. Convierte ese diccionario en un DataFrame llamado df.
  4. Calcula la suma total de las ventas usando df["Ventas"].sum() y guárdala en la variable total.

# Tu primer análisis de datos: