CADI: Minería de Datos

Análisis de la
Deforestación
en Colombia

Un sistema de minería de datos orientado a visibilizar, entender y modelar la pérdida de cobertura forestal en Colombia a través de cuatro niveles de conocimiento.

113.608
hectáreas perdidas
Colombia · Año 2024

Fuente oficial: IDEAM / SMByC
Informe julio 2025
3.000.000+
ha perdidas 2001–2024
32
departamentos monitoreados
5
regiones naturales
59 M ha
bosque natural restante
01 · Contexto

Planteamiento de la Problemática

¿Por qué estudiar la deforestación en Colombia con herramientas de minería de datos?

Colombia es el segundo país más biodiverso del mundo y alberga aproximadamente el 40 % de la biodiversidad del planeta en su territorio amazónico. Esta riqueza ecológica única, acumulada durante millones de años, se encuentra amenazada por uno de los fenómenos ambientales más graves de la actualidad: la deforestación.

De acuerdo con el Instituto de Hidrología, Meteorología y Estudios Ambientales (IDEAM), a través de su Sistema de Monitoreo de Bosques y Carbono (SMByC), Colombia registró una pérdida de 113.608 hectáreas de bosque natural durante el año 2024, cifra que representa un incremento del 43 % respecto al año anterior y que ubica a la región Amazónica como el área con mayor afectación, con 77.124 hectáreas perdidas.

La pérdida de bosques tiene consecuencias directas e irreversibles sobre el ciclo hídrico, la seguridad alimentaria, la regulación climática y la supervivencia de comunidades indígenas que dependen del bosque para su subsistencia. Cada hectárea deforestada en la Amazonía puede liberar hasta 200 toneladas de CO₂ a la atmósfera.

A pesar de la disponibilidad de datos oficiales del IDEAM, existe una brecha entre la generación de información y su aprovechamiento analítico. La dispersión de los datos, la ausencia de herramientas interactivas accesibles y la falta de modelos predictivos dificultan la comprensión integral del fenómeno por parte de tomadores de decisiones, investigadores y ciudadanos.

Pregunta de investigación

¿Cómo puede la minería de datos —aplicando la metodología SEMMA— contribuir al análisis, visualización, agrupamiento y modelado predictivo de la deforestación en Colombia a partir de los datos oficiales del IDEAM?

🔎 Causas directas identificadas por el IDEAM
  • 01 Praderización para acaparamiento de tierras
  • 02 Cultivos de uso ilícito
  • 03 Ganadería extensiva no sostenible
  • 04 Infraestructura vial no planificada
  • 05 Extracción ilícita de minerales

Fuente: IDEAM · SMByC · Informe anual 2024

📍 Departamentos más afectados (2024)
Meta 27.107 ha
Caquetá 25.263 ha
Guaviare 16.908 ha
Antioquia 7.197 ha
Chocó 6.338 ha

Fuente: IDEAM · Julio 2025

02 · Justificación

¿Por qué aplicar Minería de Datos?

Volumen y complejidad de datos

Los datos del IDEAM cubren 32 departamentos, 5 regiones, 24 años y múltiples causas. La minería de datos permite procesar este volumen y extraer patrones que serían imposibles de detectar manualmente.

Conocimiento oculto en los datos

Detrás de los números hay relaciones complejas: ¿qué combinación de factores predice el riesgo futuro de deforestación? Las técnicas de clustering y machine learning revelan estos patrones no evidentes.

Toma de decisiones informada

El dashboard y los modelos predictivos generan información accionable para autoridades ambientales, investigadores y ciudadanos, facilitando intervenciones focalizadas y oportunas.

03 · Objetivos

Objetivos del Proyecto

Objetivo General

Desarrollar una aplicación web integral de análisis de datos de deforestación en Colombia, aplicando la metodología SEMMA e integrando las herramientas Flask, Plotly Dash, SQL Server, Orange Data Mining y Apache Spark ML, con el fin de generar conocimiento en cuatro niveles: evidente, multidimensional, oculto y profundo.

OE1
Módulo 1 — Conocimiento Evidente

Construir un dashboard interactivo con KPIs, filtros dinámicos y visualizaciones geoespaciales que permita explorar los datos de deforestación del IDEAM de forma intuitiva.

OE2
Módulo 2 — Conocimiento Multidimensional

Diseñar e implementar un modelo multidimensional en esquema estrella en SQL Server, con proceso ETL mediante SSIS, para el análisis OLAP de la deforestación desde múltiples dimensiones.

OE3
Módulo 3 — Conocimiento Oculto

Aplicar técnicas de clustering no supervisado con Orange Data Mining para identificar grupos de departamentos con patrones similares de deforestación y detectar casos atípicos.

OE4
Módulo 4 — Conocimiento Profundo

Desarrollar modelos predictivos de machine learning con Apache Spark ML para estimar la superficie deforestada futura y clasificar departamentos según su nivel de riesgo de deforestación.

04 · Marco Teórico

Fundamentos Conceptuales

Minería de Datos

La minería de datos es el proceso de descubrimiento de patrones, correlaciones y anomalías en grandes conjuntos de datos mediante el uso de técnicas estadísticas, de aprendizaje automático e inteligencia artificial. Va más allá de la simple consulta o estadística descriptiva: busca generar conocimiento nuevo y accionable que no era evidente antes del análisis.

En el contexto ambiental, la minería de datos permite relacionar variables como la presencia de cultivos ilícitos, la cercanía a vías, la ausencia del Estado y la presión ganadera para construir modelos que expliquen y predigan la dinámica de la deforestación.

Metodología SEMMA

SEMMA es una metodología de cinco fases desarrollada por el SAS Institute para estructurar proyectos de minería de datos de forma iterativa y reproducible. Sus siglas corresponden a:

  • S — Sample: Selección y muestreo del dataset.
  • E — Explore: Exploración estadística y visual de los datos.
  • M — Modify: Transformación, limpieza y enriquecimiento.
  • M — Model: Aplicación de modelos estadísticos y de ML.
  • A — Assess: Evaluación y validación de los modelos.

Stack Tecnológico del Proyecto

Python 3.11
Lenguaje principal
Flask 3.x
Servidor web
Plotly Dash
Dashboard
SQL Server
Modelo estrella
Orange DM
Clustering
Spark ML
Machine Learning
05 · Módulos

Los 4 Niveles de Conocimiento

Cada módulo corresponde a una fase de profundidad analítica creciente.

M1
Conocimiento Evidente

Dashboard interactivo con KPIs, mapa coroplético, tendencias históricas y filtros dinámicos. Responde a preguntas como: ¿dónde? ¿cuánto? ¿cuándo?

Flask + Plotly Dash
Ir al módulo →
M2
Conocimiento Multidimensional

Modelo estrella en SQL Server con proceso ETL (SSIS). Análisis OLAP desde múltiples dimensiones: tiempo, departamento, causa y región.

SQL Server + SSIS
M3
Conocimiento Oculto

Clustering no supervisado con Orange Data Mining. K-Means, DBSCAN y agrupamiento jerárquico para descubrir patrones latentes.

Orange Data Mining
M4
Conocimiento Profundo

Machine learning con Apache Spark ML. Regresión, Random Forest y clasificación de riesgo de deforestación por departamento.

PySpark + MLlib