Deforestación en Colombia · Minería de Datos

01 · Contexto

Planteamiento de la Problemática

¿Por qué estudiar la deforestación en Colombia con herramientas de minería de datos?

Colombia es el segundo país más biodiverso del mundo y alberga aproximadamente el 40 % de la biodiversidad del planeta en su territorio amazónico. Esta riqueza ecológica única, acumulada durante millones de años, se encuentra amenazada por uno de los fenómenos ambientales más graves de la actualidad: la deforestación.

De acuerdo con el Instituto de Hidrología, Meteorología y Estudios Ambientales (IDEAM), a través de su Sistema de Monitoreo de Bosques y Carbono (SMByC), Colombia registró una pérdida de 113.608 hectáreas de bosque natural durante el año 2024, cifra que representa un incremento del 43 % respecto al año anterior y que ubica a la región Amazónica como el área con mayor afectación, con 77.124 hectáreas perdidas.

La pérdida de bosques tiene consecuencias directas e irreversibles sobre el ciclo hídrico, la seguridad alimentaria, la regulación climática y la supervivencia de comunidades indígenas que dependen del bosque para su subsistencia. Cada hectárea deforestada en la Amazonía puede liberar hasta 200 toneladas de CO₂ a la atmósfera.

A pesar de la disponibilidad de datos oficiales del IDEAM, existe una brecha entre la generación de información y su aprovechamiento analítico. La dispersión de los datos, la ausencia de herramientas interactivas accesibles y la falta de modelos predictivos dificultan la comprensión integral del fenómeno por parte de tomadores de decisiones, investigadores y ciudadanos.

Pregunta de investigación

¿Cómo puede la minería de datos —aplicando la metodología SEMMA— contribuir al análisis, visualización, agrupamiento y modelado predictivo de la deforestación en Colombia a partir de los datos oficiales del IDEAM?

🔎 Causas directas identificadas por el IDEAM

01 Praderización para acaparamiento de tierras
02 Cultivos de uso ilícito
03 Ganadería extensiva no sostenible
04 Infraestructura vial no planificada
05 Extracción ilícita de minerales

Fuente: IDEAM · SMByC · Informe anual 2024

📍 Departamentos más afectados (2024)

1° Meta 27.107 ha

2° Caquetá 25.263 ha

3° Guaviare 16.908 ha

4° Antioquia 7.197 ha

5° Chocó 6.338 ha

Fuente: IDEAM · Julio 2025

02 · Justificación

¿Por qué aplicar Minería de Datos?

Volumen y complejidad de datos

Los datos del IDEAM cubren 32 departamentos, 5 regiones, 24 años y múltiples causas. La minería de datos permite procesar este volumen y extraer patrones que serían imposibles de detectar manualmente.

Conocimiento oculto en los datos

Detrás de los números hay relaciones complejas: ¿qué combinación de factores predice el riesgo futuro de deforestación? Las técnicas de clustering y machine learning revelan estos patrones no evidentes.

Toma de decisiones informada

El dashboard y los modelos predictivos generan información accionable para autoridades ambientales, investigadores y ciudadanos, facilitando intervenciones focalizadas y oportunas.

03 · Objetivos

Objetivos del Proyecto

Objetivo General

Desarrollar una aplicación web integral de análisis de datos de deforestación en Colombia, aplicando la metodología SEMMA e integrando las herramientas Flask, Plotly Dash, SQL Server, Orange Data Mining y Apache Spark ML, con el fin de generar conocimiento en cuatro niveles: evidente, multidimensional, oculto y profundo.

OE1

Módulo 1 — Conocimiento Evidente

Construir un dashboard interactivo con KPIs, filtros dinámicos y visualizaciones geoespaciales que permita explorar los datos de deforestación del IDEAM de forma intuitiva.

OE2

Módulo 2 — Conocimiento Multidimensional

Diseñar e implementar un modelo multidimensional en esquema estrella en SQL Server, con proceso ETL mediante SSIS, para el análisis OLAP de la deforestación desde múltiples dimensiones.

OE3

Módulo 3 — Conocimiento Oculto

Aplicar técnicas de clustering no supervisado con Orange Data Mining para identificar grupos de departamentos con patrones similares de deforestación y detectar casos atípicos.

OE4

Módulo 4 — Conocimiento Profundo

Desarrollar modelos predictivos de machine learning con Apache Spark ML para estimar la superficie deforestada futura y clasificar departamentos según su nivel de riesgo de deforestación.

04 · Marco Teórico

Fundamentos Conceptuales

Minería de Datos

La minería de datos es el proceso de descubrimiento de patrones, correlaciones y anomalías en grandes conjuntos de datos mediante el uso de técnicas estadísticas, de aprendizaje automático e inteligencia artificial. Va más allá de la simple consulta o estadística descriptiva: busca generar conocimiento nuevo y accionable que no era evidente antes del análisis.

En el contexto ambiental, la minería de datos permite relacionar variables como la presencia de cultivos ilícitos, la cercanía a vías, la ausencia del Estado y la presión ganadera para construir modelos que expliquen y predigan la dinámica de la deforestación.

Metodología SEMMA

SEMMA es una metodología de cinco fases desarrollada por el SAS Institute para estructurar proyectos de minería de datos de forma iterativa y reproducible. Sus siglas corresponden a:

S — Sample: Selección y muestreo del dataset.
E — Explore: Exploración estadística y visual de los datos.
M — Modify: Transformación, limpieza y enriquecimiento.
M — Model: Aplicación de modelos estadísticos y de ML.
A — Assess: Evaluación y validación de los modelos.

Stack Tecnológico del Proyecto

Python 3.11

Lenguaje principal

Flask 3.x

Servidor web

Plotly Dash

Dashboard

SQL Server

Modelo estrella

Orange DM

Clustering

Spark ML

Machine Learning

05 · Módulos

Los 4 Niveles de Conocimiento

Cada módulo corresponde a una fase de profundidad analítica creciente.

M1

Conocimiento Evidente

Dashboard interactivo con KPIs, mapa coroplético, tendencias históricas y filtros dinámicos. Responde a preguntas como: ¿dónde? ¿cuánto? ¿cuándo?

Flask + Plotly Dash

Ir al módulo →

M2

Conocimiento Multidimensional

Modelo estrella en SQL Server con proceso ETL (SSIS). Análisis OLAP desde múltiples dimensiones: tiempo, departamento, causa y región.

SQL Server + SSIS

M3

Conocimiento Oculto

Clustering no supervisado con Orange Data Mining. K-Means, DBSCAN y agrupamiento jerárquico para descubrir patrones latentes.

Orange Data Mining

M4

Conocimiento Profundo

Machine learning con Apache Spark ML. Regresión, Random Forest y clasificación de riesgo de deforestación por departamento.

PySpark + MLlib

Análisis de la Deforestación en Colombia