Proyectos

Me gusta trabajar con datos abiertos y crear aplicaciones o visualizaciones que ayudan a difundir esta información. Estas son algunas de las cosas que he hecho:

Participación en Hackaton Danone 2023, Data Science Challenge

Este año participé en el datatón organizado por Danone. El objetivo del reto era predecir el grado de impacto ambiental de nuevos productos usando modelos de Machine Learning. En mi solución usé un modelo CatBoost y obtuve una puntuación de 936/1200 y la posición 8/23. Pueden consultar el código en el repositorio del proyecto.

Participación en Reto DataMéxico  de inclusión financiera  2022

Este año participé en el datatón organizado por la Secretaría de Economía, enfocado en inclusión financiera de las MiPymes en México.  En mi trabajo, analicé la aceptación de medios de pago alternativos al efectivo en los micronegocios familiares en México, usando los microdatos de la ENIGH. Mi trabajo estuvo entre los 5 finalistas. La presentación y el código lo pueden consultar en el repositorio del proyecto.

Participación en Datatón Anticorrupción 2021

Junto con Daniela Jiménez y Juvenal Campos participé en el Datatón Anticorrupción 2021 y obtuvimos el segundo lugar 🎉🥳. El datatón fue organizado por la Secretaría Ejecutiva del Sistema Nacional Anticorrupción de México y el reto propuesto consistía en identificar anomalías en declaraciones de funcionarios públicos.  Nuestra propuesta consistió en detectar anomalías usando técnicas de aprendizaje supervisado y no supervisado. Los resultados los presentamos en un dashboard en el que se pueden consultar la información por individuo y por institución de gobierno.  Aquí pueden consultar el tablero y aquí el repositorio de GitHub con el análisis.


Elecciones en la Ciudad de México

Ha habido mucho revuelo porque en las elecciones a las alcaldías de la Ciudad de México la ciudad quedó dividida en poniente/oriente por las dos principales fuerzas políticas. El poniente "de derecha" versus el oriente de "izquierda". La división se ve clarísima en varios mapas (Primera imagen). Sin embargo, la realidad es mucho más compleja que eso. Además, la forma de representar la información influye mucho. Recordemos  que los mapas generan distorsiones en la información mostrada porque el área no representa ninguna cantidad, solo el color. O dicho de otra forma: la tierra no vota, la gente sí (y muchas veces la gente tampoco vota).

Hice este mapa (segunda imagen) para reducir el ruido que introduce el área, cada punto son 5000 votos. Esto nos muestra que en ambos lados hay partidarios de las dos fuerzas políticas. Evidentemente hay una tendencia, pero es bueno mostrar también los matices. 

Escribí una entrada en mi blog sobre esto:http://blog.jjsantoso.com/mapas-distribucion-puntos/ 

Comparativo cambio de rutas de vuelo en la CDMX

Rutas de vuelos sobre la CDMX, comparando el 11 de febrero de 2020 con el 5 de abril de 2021, después del rediseño del espacio aéreo de la Ciudad de México. Hecho con el lenguaje de programación #python 

Tiempos de desplazamiento en la red urbana de la ZMVM

Hice este mapa con los tiempos de desplazamiento desde mi casa a todos los nodos de la red urbana de calles de la Zona Metropolitana del Valle de México, considerando una velocidad promedio de 14 km/h. Esto gracias a los datos generados por Geoff Boeing.

Esta gráfica se puede replicar fácilmente a cualquier ciudad de México (o el mundo) simplemente descargando los datos desde: https://dataverse.harvard.edu/dataverse/global-urban-street-networks .


Acá el código en python:  https://gist.github.com/jjsantos01/70e43c485bdaae3c8b6f0a108c70cdea

Reto Data México 2020

Junto con  Yunoen Badillo y Daniela Jiménez participamos en el Reto Data México, un concurso organizado por la Secretaría de Economía de México para encontrar opciones para la reactivación económica del país tras la pandemia de Covid-19. Nuestra propuesta consistió en un análisis de la recuperación del empleo formal, enfocándonos principalmente en los grupos que tradicionalmente son los más afectados por las crisis económicas. Hicimos un pequeño documento con nuestros hallazgos y construimos un tablero para medir a nivel municipal un semáforo de la recuperación del empleo. Con esta contribución ganamos el primer lugar 🎊🎉. 

El tablero que construimos se puede consultar en: https://rybs.shinyapps.io/SemaforoEmpleo/ y el repositorio con los detalles del de nuestra solución puede ser consultados en el repositorio: https://github.com/jjsantos01/datatonse2020. La presentación se puede ver en: https://www.youtube.com/watch?v=8TfLm1m9s0Y a partir del minuto 43.


Brewing Data Cup 2020

Junto con Juvenal Campos participamos en el Brewing Data Cup, un concurso de análisis de datos, organizado por Ab Inbev, y ganamos el primer lugar en México 🎊🎉.  El reto consistía en encontrar la mejor forma de clusterizar los puntos de venta para minimizar la distancia de reparto cada día.  El repositorio con los detalles del reto y nuestra solución pueden ser consultados en el repositorio: https://github.com/Databuesos-Team/brewdatacup2020

Contratos públicos y Covid-19 en Colombia

La Fundación Alzak me invitó a escribir una entrada en su blog . Yo escogí hablar sobre el gasto en contrataciones públicas, especialmente en la Región Caribe Colombiana (donde nací 💛💙💖 ).  

Aquí se puede leer lo que escribí https://alzakfoundation.org/es/emergencia-y-compras-publicas-en-la-costa-caribe/ 

Acá el código del análisis que hice: https://gist.github.com/jjsantos01/02427d5225340259548ed54535783380

Mis viajes en Ecobici

Desde el inicio de la pandemia de Covid-19 mi principal medio de transporte ha sido Ecobici 🚲❤. Por eso, hice una animación mostrando todos los viajes que hice durante el año.

El código se puede consultar en: https://gist.github.com/jjsantos01/c119eb434e8094583700b850f52ffb6e

Valor catastral en 3D

Aprovechando los datos de valor catastral para cada predio de la Ciudad de México, quise probar la herramienta kepler.gl para mostrar la información a nivel manzana en 3D, para la Alcaldía Benito Juárez. En este caso, la altura de cada polígono estaba determinada por el valor promedio de los predios de la manzana. La visualización 3D tiene la ventaja de que nos permite explorar con detalle las manzanas, aprovechando mejor el carácter espacial de los datos.

El código se puede consultar en: https://gist.github.com/jjsantos01/efceb7ca9511ef091234e7e7dff7c9b0

Desarrollo urbano de la Ciudad de México

Así ha sido el desarrollo urbano de la #cdmx en los últimos 70 años. A partir de los datos del catastro liberados por la @LaAgenciaCDMX tenemos el año de construcción o remodelación de los predios

En verde los predios que se añaden cada año, en blanco los de años anteriores.

El código está publicado acá: https://gist.github.com/jjsantos01/af25c02ffa30acde8473385f08baf76f 

Vuelos sobre la Ciudad de México


Siguiendo con el tema de visualizar la movilidad en la Ciudad de México, ahora hice esta animación con los vuelos que pasan sobre la ciudad en un día promedio (5 de noviembre de 2019). No están todos los vuelos por limitaciones de los datos, pero al menos nos da una idea de la cantidad de operaciones que debe soportar el Aeropuerto Internacional de la Ciudad de México. Aquí se muestran solo 340 vuelos, pero en un día normal el AICM debe atender unas 1100 operaciones (llegadas y despegues), en el límite de su capacidad máxima. 


Datatón anticorrupción 2019: compras Públicas en Compranet 

El 7 de diciembre se llevó a cabo el Datatón anticorrupción 2019, organizado por la Secretaría Ejecutiva del Sistema Nacional Anticorrupción y nuestro equipo se llevó el primer lugar 🏆🎉🎁. 

El objetivo era usar datos de contrataciones públicas para encontrar posibles redes de corrupción. Nuestro equipo propuso varias metodologías para detectar irregularidades basadas en la información compartida y la interacción repetida entre contratistas del estado. Pueden consultar nuestro respositorio en la siguiente dirección: 

https://github.com/JuveCampos/DatatonAnticorrupcion2019 

Fue un gran trabajo en equipo con Jorge Juvenal Campos Ferreira, Daniela Jiménez Lara, Mitchell Valdes, Alejandro Blasco y Georgina Trujillo .

Acá una nota sobre el datatón:  https://www.plataformadigitalnacional.org/blog/dataton-anticorrupcion-2019/ 

Tiempos de traslado en UBER en la CDMX 

Analizo los tiempos de traslado en UBER entre distintos puntos de la Ciudad de México. También calculo medidas de tráfico para ver cuánto más demora un viaje debido a la congestión. Aquí un hilo en Twitter, acá el código del primer y segundo  trimestre  de 2019. 


Viajes del sistema Ecobici

Juvenal Campos y yo participamos en el concurso de visualización de datos organizado por el CIMAT  y obtuvimos medalla de oro 🎊🎉🥇. Hicimos un análisis detallado de los viajes del sistema público de bicicletas de la Ciudad de México (ECOBICI).

Pueden consultar el micrositio que construimos.


Datatón Carcelario

En febrero de 2019 participamos en el datatón carcelario organizado por Documenta AC, una asociación civil que promueve los derechos humanos de las personas recluidas en las cárceles del país. En esta ocasión obtuvimos el primer lugar con un proyecto que consistió en crear un índice de condiciones de vida en las cárceles al que denominamos INDHPOL. El INDHPOL es un índice compuesto por varias dimensiones que pudimos medir gracias a encuestas como la ENPOL de INEGI y otros datos que recopila la CNDH y Documenta. Como resultado, se creó una pequeña aplicación web en el sitio de Documenta para consultar más detalles del índice.

El equipo estuvo conformado por Jorge Juvenal Campos Ferreira, Patricia Carmona, Crisna Cuchcatla Méndez, Daniel Choperena, Sonja Gerth, Nora Robledo Frías y yo.



Análisis de las altas y bajas del DENUE 2019 vs 2015

En el Laboratorio Nacional de Políticas Públicas analizamos el DENUE 2019 recientemente publicado por el INEGI. 

Elaboramos gráficas y mapas se muestran las altas y bajas de Unidades Económicas en todo el país. 

También construimos una aplicación para consultar más detalles a nivel estado y municipio, o por sector económico:

http://denue19.us-east-2.elasticbeanstalk.com/ 

Pobreza en las principales Zonas Metropolitanas de México por AGEB

En los siguientes mapas trato de visualizar cuántas personas son. Usé los datos de Coneval por AGEB y las estimaciones de población de Facebook. Para calcular el número de personas en pobreza asumí el valor medio del rango en el que Coneval clasificó el AGEB. Por ejemplo, si un AGEB está en el rango (70, 100] entonces asigné que el 85% de la población de ese AGEB es pobre. La escala de colores está truncada a un máximo de 100 personas para poder hacer comparables las áreas metropolitanas grandes y chicas.

Tweet


Población en las principales Zonas Metropolitanas de México, georreferenciado en cuadrículas de 30m x 30m

Hace poco Facebook (@facebookai) estimó la población de México de 2015 en cuadrículas georreferenciadas de 30x30 metros. Es un nivel de detalle impresionante. Los datos se pueden consultar en https://data.humdata.org/dataset/mexico-high-resolution-population-density-maps-demographic-estimates

Aquí van mapas de cómo se ven las principales zonas metropolitanas.

Tweet

Declaratorias de emergencia por desastres ambientales en México

Con la nueva base de datos de las notas del DOF del @LNPP_MX buscamos información sobre las declaratorias de emergencia en el país. 

Entre 2000 y 2018 se emitieron 1102 declaratorias de emergencias por desastres naturales.

La tendencia es creciente.

Código: https://github.com/jjsantos01/declaratoriasEmergencia/blob/master/emergencias.ipynb

Tweet

Datatón Anticorrupción


En diciembre de 2018 participamos en el Datatón Anticorrupción, convocado por la Plataforma Digital Nacional y la Secretaría Ejecuta del Sistema Nacional Anticorrupción y obtuvimos el primer lugar 🎉. El equipo estuvo conformado por Daniela Jiménez, Crisna Cushcatla, Alejandro Sánchez, Juvenal campos y yo.  Nuestro proyecto consistió en crear un indicador que sintetiza el riesgo de que una oferta pública de contratación vigente pueda contener irregularidades y termine como un caso de corrupción. Pueden consultar este blog para detalles adicionales.

Parte del código que utilizamos para hacer el procesamiento de datos y calcular el índice se puede ver aquí.

Descarga de las notas del Diario Oficial de la Federación

En el banco de datos del @LNPP_MX subimos varias bases de datos que contienen las notas del Diario Oficial de la Federación en un formato amigable para quienes hacen investigación.  De 2013 a abril de 2019 las bases de datos incluyen el título y el texto de la nota. De 1917 a 2012 solo está disponible el título de la nota. Todas tienen fecha, edición, sección, rama e institución.

Datos: http://datos.cide.edu/handle/10089/17462

Tweet

Presupuesto federal en programas de Derechos Humanos

Twittercódigo y gráficas


Tiempos de traslado en Metrobús

Junto con Yunoen participamos en el Hack CDMX y ganamos el primer lugar 🎉✨🏆 del reto 4 que consistía en usar datos para mejorar la movilidad. Nuestra propuesta consistió en crear un modelo de machine learning que fuera capaz de estimar el tiempo de traslado entre estaciones del sistema. 

https://labcd.mx/experimentos/hackcdmx-festival-de-datos-de-la-cdmx/


Calidad del aire en la CDMX 

Tweet

Contador de vehículos sobre carretera y Detección de carriles y dirección de desplazamiento

Tweet 1 y tweet 2