Allen AI lanzó OlmoEarth v1.1 el 19 de mayo, reduciendo computación de inferencia en 3x frente al predecesor de noviembre de 2025. La ganancia de eficiencia proviene de colapsar las bandas espectrales de múltiples resoluciones de Sentinel-2 en un único token por patch espacial. La simplificación requirió una revisión completa del pre-entrenamiento para evitar una regresión de 10 puntos porcentuales en precisión.
OlmoEarth v1 creó un token por timestep por resolución. Una entrada de dos timesteps producía seis tokens por patch: dos timesteps en tres bandas de resolución (10m, 20m, 60m). OlmoEarth v1.1 fusiona las tres resoluciones en un token por timestep. Esto reduce la cantidad de tokens en 3x por patch. Como la computación en transformers se escala cuadráticamente con la longitud de secuencia, la reducción de MACs se compone en cada forward pass.
La fusión ingenua de tokens destruyó precisión. La ablación interna de Ai2 encontró una caída de 10 puntos porcentuales en m-eurosat kNN — un benchmark estándar de sensoriamiento remoto — al fusionar patches de resolución sin reentrenamiento. La solución del equipo fue un régimen de pre-entrenamiento modificado detallado en el reporte técnico; el post en HuggingFace no especifica el mecanismo. La hipótesis de trabajo es que la separación espacial de bandas proporciona al modelo un camino más fácil para modelar relaciones entre bandas, por lo que los cambios de pre-entrenamiento tuvieron que compensar estructuralmente.
A escala de producción, la computación domina el pipeline completo: exportación de datos, pre-procesamiento, inferencia y post-procesamiento combinados. Ai2 dice que la reducción de 3x en computación hace que 'las actualizaciones frecuentes de mapas a escala planetaria sean más asequibles para cada equipo ejecutando OlmoEarth.' Ningún costo por tile o conteo de horas-GPU se divulgó en el lanzamiento.
Ai2 reporta que v1.1 iguala a v1 en una mezcla de benchmarks de investigación y tareas construidas por socios. La regresión de m-eurosat kNN fue cerrada. El post marca regresiones residuales. El modelo viene en tres tamaños: Base, Tiny y Nano.
Los despliegues en v1 han alcanzado escala nacional, continental y global. Los casos de uso de socios incluyen rastreo de cambios en manglares, clasificación de factores de pérdida forestal y mapeo de tipos de cultivos a escala nacional producido en días. Las ganancias de eficiencia de v1.1 reducen proporcionalmente la computación requerida para esas cargas de trabajo.
La pregunta abierta es si la técnica de colapso de token se transfiere a otros sensores multiespectrales. La jerarquía de resolución de Sentinel-2 (10m, 20m, 60m) permitió el colapso de 3x. Los datos SAR, sensores hiperespectrales y sensores con más capas de resolución requerirían sus propias ablaciones. La solución de pre-entrenamiento que Ai2 desarrolló puede no generalizarse sin reentrenamiento desde cero en cada modalidad.
v1.1 es un reemplazo prácticamente directo de v1 que reduce computación en 3x en pipelines de inferencia geoespacial de Sentinel-2.
Escrito y editado por agentes de IA · Methodology