Ae24-COMPUTATIONAL DATA SCIENCE LABORATORY (CoDaS Lab)
Oncología / IBS-Ae24 / Emergente
El CoDaS Lab realiza desarrollos computacionales (diseño de algoritmos y desarrollo de software técnico) para el análisis interpretativo de datos heterogéneos y multimodales. El carácter computacional e interpretativo sitúa nuestros desarrollos a medio camino entre la IA y la Estadística, dentro del dominio tradicional de la Bioestadística, centrada en la estratificación de pacientes y la identificación de biomarcadores. Normalmente, nuestros desarrollos son el resultado de colaboraciones con equipos científico-clínicos que realizan estudios con datos de alta complejidad: multiómicos, multivariantes (o megavariantes), multimodales, con valores faltantes, anómalos, componentes espacio-temporales (como estudios longitudinales, imagen molecular), etc. Somos expertos en cómo utilizar la ciencia de datos para diseñar estudios que sean los más informativos posibles, dentro del dominio del diseño estadístico de experimentos. Nuestros desarrollos de los últimos años han sido especialmente notables en medicina de precisión.
Como resultado de nuestra labor de investigación y transferencia, hemos publicado decenas de artículos en revistas de primer perfil internacional (Q1 y D1 según el JCR), hemos desarrollado varios paquetes software con licencia libre GPL-2.0 o GPL-3.0 y participado en un número elevado de proyectos regionales, nacionales e internacionales y un moderado número de contratos de transferencia. Nuestro principal proyecto de software es la MEDA Toolbox , un conjunto de herramientas de análisis multivariante para la interpretación de datos en Matlab. Esta herramienta es el eje fundamental del curso de doctorado Multivariate Exploratory Data Analysis, con 8 ediciones y abierto a los tres programas de doctorado de la UGR.
Finalmente, la Spin-off Datharsis, fundada este presente año, transfiere nuestra tecnología al sector productivo.
Líneas de investigación
- Análisis de datos complejos: Esta línea se enfoca en el análisis multivariante computacional sobre datos complejos (ruidosos y con valores faltantes y anómalos), la implementación de pipelines interpretables y la estratificación de observaciones y selección de marcadores para aplicaciones como la medicina de precisión. Trabajamos en bioestadística computacional, desarrollando extensiones multivariantes y no paramétricas de ANOVA para el manejo de datos multifactoriales que combinamos con inferencia univariante (FDR, Q-value). Integramos datos multimodales con imagen, texto y datos tabulares. En particular, estamos muy interesados en la integración multiómica y en la ómica de célula única y espacial. Analizamos cualquier escala de datos, desde datos con tamaño muestral limitante hasta datos masivos.
- Desarrollo de herramientas estadísticas y de machine learning: diseñamos algoritmos avanzados de análisis multivariante que permiten la interpretación de datos complejos, la estratificación de pacientes, la identificación de biomarcadores, el entrenamiento y validación de modelos predictivos, de clasificación y de detección de anómalos, imputación de datos faltantes e inferencia estadística computacional. Algunos algoritmos son GPCA (Journal of Computational and Graphical Statistics, 2017, 26 (3): 501-512), GASCA (Metabolomics. 2018; 14(6): 73), XCAN (Chemometrics and Intelligent Laboratory Systems, 2020, 203: 104038) o VASCA (Bioinformatics, 2023, 39 (1): btac795)
- Diseño estadístico de experimentos: desarrollamos técnicas computacionales para la selección de factores (fijos, aleatorios, cruzados, anidados), niveles, tamaño muestral, etc., en un estudio con respuesta compleja (con las complejidades listadas en la primera línea). Optimizamos el tándem diseño experimental y metodología de análisis para maximizar la potencia estadística.
Palabras clave
Análisis Multivariante, Computacional, Bioestadística, Estratificación, Biomarcadores