Investigadores de la UCLA desarrollan ClimateLearn, una biblioteca de Python para acceder a datos climáticos y modelos de aprendizaje automático de última generación de una manera estandarizada y sencilla.

Las condiciones climáticas extremas se han convertido en un fenómeno típico, especialmente en los últimos años. El cambio climático es uno de los principales culpables de los fenómenos meteorológicos extremos, desde lluvias torrenciales en Pakistán que inundaron gran parte del país hasta olas de calor excepcionales que provocaron incendios forestales en Portugal y España. Si no se toman medidas pronto, se prevé que la temperatura superficial promedio de la Tierra aumente casi cuatro grados durante la próxima década. Según los científicos, este aumento de la temperatura contribuirá a que los fenómenos meteorológicos extremos sean más frecuentes.

Los modelos de circulación general (GCM, por sus siglas en inglés) son herramientas que los científicos utilizan para predecir el tiempo y el clima futuros. Los GCM miden la temperatura, la velocidad del viento, la precipitación, etc. es un sistema de ecuaciones diferenciales que se puede integrar a lo largo del tiempo para producir predicciones para varias variables, incluidas Estos modelos son muy simples de entender y producen resultados notablemente precisos. Sin embargo, el principal problema con estos modelos es que ejecutar las simulaciones requiere una potencia informática significativa. Además, se vuelve difícil ajustar los modelos cuando hay muchos datos de entrenamiento.

Aquí es donde las técnicas de aprendizaje automático han demostrado ser útiles. Especialmente en “predicción del tiempo” y “reducción de escala espacial”, estos algoritmos han demostrado ser competitivos con modelos climáticos más establecidos. El pronóstico del tiempo se refiere a la predicción de las variables climáticas futuras. Por ejemplo, necesitamos predecir la cantidad de lluvia en Megalaya para la próxima semana usando la precipitación diaria (cm) de la semana anterior. Por ejemplo, la cuestión de reducir las proyecciones del modelo climático espacialmente gruesas de una cuadrícula de 100 km x 100 km a 1 km x 1 km se conoce como reducción de escala espacial.

La predicción y la reducción de escala pueden ser análogas a varias tareas de visión por computadora. Sin embargo, la principal diferencia en el pronóstico del tiempo, la reducción de escala espacial y otras tareas de CV es que el modelo de aprendizaje automático utiliza entradas exógenas de diferentes maneras. Por ejemplo, varios elementos, como la humedad y la velocidad del viento, influirán en las temperaturas superficiales futuras junto con las temperaturas superficiales históricas. Estas variables deben proporcionarse como entrada al modelo junto con las temperaturas de la superficie.

La investigación del aprendizaje profundo se ha expandido en los últimos años, y los científicos del aprendizaje automático y el cambio climático ahora están explorando cómo las técnicas de aprendizaje profundo pueden resolver los problemas de pronóstico del tiempo y reducción de escala espacial. Cuando se trata de aplicar el aprendizaje automático, los dos adoptan enfoques contrastantes. Los científicos de aprendizaje automático se centran más en qué arquitecturas son las más adecuadas para qué problemas y cómo procesar los datos de una manera que se ajuste a los métodos modernos de aprendizaje automático, mientras que los científicos del clima usan más ecuaciones físicas y recuerdan la diligencia debida. dimensiones.

Sin embargo, el lenguaje vago (“sesgo en el modelado climático” y “sesgo” en el aprendizaje automático), la falta de estandarización en la aplicación del aprendizaje automático a los problemas de la ciencia climática y la falta de experiencia en el análisis de datos climáticos dificultan sus habilidades. para desbloquear todo su potencial. Para hacer frente a estos desafíos, los investigadores de la Universidad de California, Los Ángeles (UCLA) desarrollaron ClimateLearn, un paquete de Python que brinda acceso fácil y estandarizado a datos climáticos masivos y modelos avanzados de aprendizaje automático. Diversos conjuntos de datos, modelos base de última generación y una variedad de métricas y visualizaciones están disponibles a través del paquete, lo que permite comparaciones a gran escala de pronósticos meteorológicos y técnicas de reducción de escala espacial.

ClimateLearn proporciona datos en un formato que las arquitecturas actuales de aprendizaje profundo pueden usar fácilmente. El paquete incluye datos de ERA5, el reanálisis de quinta generación del clima global histórico, y datos meteorológicos del Centro Europeo de Pronósticos Meteorológicos a Medio Plazo (ECMWF). La base de datos de reanálisis utiliza técnicas de modelado y asimilación de datos para combinar datos históricos en evaluaciones globales. Gracias a esta combinación de datos reales y modelado, las soluciones de reanálisis pueden tener toda la información global con una precisión razonable. Además de los datos ERA5 sin procesar, ClimateLearn también admite datos ERA5 preprocesados ​​de WeatherBench, la base de datos de referencia para el pronóstico del tiempo basado en datos.

Los modelos centrales implementados en ClimateLearn se adaptan bien a las tareas climáticas e incluso se pueden extender fácilmente a otros procesos posteriores en la ciencia del clima. Los métodos estadísticos simples, como la regresión lineal, la persistencia y la climatología, son algunos ejemplos de algoritmos de aprendizaje automático estándar compatibles con ClimateLearn. También hay algoritmos de aprendizaje profundo más sofisticados, como redes neuronales convolucionales residuales, redes U y transformadores de visión. El paquete también admite la visualización rápida de las predicciones del modelo utilizando métricas como el error cuadrático medio (ponderado latitudinalmente), el coeficiente de correlación de anomalías y el coeficiente de correlación de Pearson. Además, ClimateLearn proporciona una visualización de las predicciones del modelo, la realidad del terreno y la discrepancia entre los dos.

El objetivo principal de los investigadores en el desarrollo de ClimateLearn fue cerrar la brecha entre la ciencia del clima y las comunidades de aprendizaje automático haciendo que los conjuntos de datos climáticos sean fácilmente accesibles, proporcionando modelos de referencia para una fácil comparación y métricas de visualización para comprender los resultados del modelo. En un futuro cercano, los investigadores tienen la intención de agregar soporte para nuevas bases de datos como CMIP6 (Proyecto de Intercomparación de Modelado Climático de sexta generación). El equipo también apoyará la predicción probabilística con nuevas medidas cuantitativas de incertidumbre y varios métodos de aprendizaje automático, como las redes neuronales bayesianas y los modelos de difusión. Las posibilidades adicionales que los investigadores de aprendizaje automático pueden desbloquear al aprender más sobre el rendimiento, la expresividad y la robustez del modelo son increíblemente emocionantes para los investigadores. Además, los científicos del clima podrán comprender cómo cambiar los valores de las variables de entrada cambiará las distribuciones de las salidas. El equipo también planea abrir el código fuente del paquete y espera todas las contribuciones de la comunidad.


Echale un vistazo Herramienta, colaboración, y Blog. Todo el crédito de este estudio es para los investigadores de este proyecto. Tampoco olvides unirte Nuestra página de Reddit, Canal de discordia, y Boletín electrónicoaquí compartimos las últimas noticias de investigación de IA, proyectos geniales de IA y más.


Khushboo Gupta es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Goa. Le apasiona el aprendizaje automático, el procesamiento del lenguaje natural y el desarrollo web. Le gusta aprender más sobre el campo técnico al participar en varios desafíos.


Leave a Reply

Your email address will not be published. Required fields are marked *