Ciencia de Datos: NumPy y Pandas
En el mundo profesional, los datos no vienen en variables sueltas, sino en tablas masivas. NumPy proporciona la base matemática de alto rendimiento, mientras que Pandas nos ofrece la estructura de "Hoja de Cálculo" avanzada conocida como DataFrame.
1. NumPy: El Corazón del Cálculo
NumPy introduce los Arrays (arreglos). A diferencia de las listas de Python, los arrays de NumPy están diseñados para realizar operaciones matemáticas sobre miles de elementos simultáneamente (operaciones vectorizadas).
- Eficiencia: Son hasta 50 veces más rápidos que las listas comunes.
- Funciones: Proporciona herramientas de álgebra lineal, transformadas de Fourier y estadísticas.
2. Pandas: Manipulación de Datos Profesional
Pandas es la librería más utilizada para análisis de datos. Su estructura principal es el DataFrame, que puedes imaginar como una tabla de Excel con esteroides.
Capacidades clave:
- Limpieza: Maneja datos faltantes (NaN) fácilmente.
- Filtrado: Selecciona filas y columnas con condiciones lógicas simples.
- Importación: Lee archivos CSV, Excel, SQL y JSON en una sola línea.
Ejemplo de Flujo de Trabajo
Para usar estas librerías, es estándar usar alias cortos: import numpy as np e import pandas as pd.
Con Pandas, podemos cargar una tabla y obtener estadísticas básicas instantáneamente: df.describe(). Esto nos da la media, el máximo, el mínimo y más, de todas nuestras columnas numéricas.
Reto: Análisis de Ventas Mensuales
Vamos a simular un pequeño reporte de ventas utilizando un DataFrame de Pandas.
Instrucciones:
- Importa pandas con el alias
pd. - Crea un diccionario llamado
datoscon dos claves:"Producto":["Laptop", "Mouse", "Monitor"]"Ventas":[1200, 300, 500]
- Convierte ese diccionario en un DataFrame llamado
df. - Calcula la suma total de las ventas usando
df["Ventas"].sum()y guárdala en la variabletotal.
# Tu primer análisis de datos: