Introducción
La Plataforma de Ciencia de Datos es una plataforma transversal orientada a apoyar la investigación, la gestión sanitaria y la toma de decisiones clínicas mediante el uso de Big Data e Inteligencia Artificial (IA). La Plataforma integra la información procedente de la atención ambulatoria y hospitalaria de la población del Departamento de Salud Valencia Clínico-Malvarrosa que contiene unos 350.000 habitantes. A través de técnicas de analítica predictiva, modelos de IA y el desarrollo de interfases para telemedicina, la plataforma permite identificar ineficiencias en los flujos de trabajo operativos y clínicos, optimizar procesos asistenciales, e impulsar la implementación de la Medicina 5P (predictiva, preventiva, personalizada, poblacional y participativa).
La Plataforma de Ciencia de Datos nace en base a la Plataforma INTEGRA-CLOUD, desarrollada en INCLIVA mediante la aportación económica adjudicada ad personam desde el Ministerio de Asuntos Económicos y Transformación Digital a través del Programa UNICO I+D Cloud, en el marco del Plan Europeo de Recuperación, Transformación y Resiliencia en 2023.
Servicios
- Consultoría científico-técnica:
- Consultoría sobre iniciación de protocolo de estudio, trámites administrativos, CEIm.
- Consultoría en protección de datos.
- Se ofrece orientación en la selección de herramientas de análisis y algoritmos de inteligencia artificial adecuados para el procesamiento de datos en salud.
- Trámites con Administraciones Sanitarias: gestión operativa y tramitación de permisos, licencias y acuerdos con organismos públicos y administraciones sanitarias para la utilización de datos clínicos en proyectos de investigación.
- Análisis y procesamiento de datos
- Procesamiento de datos clínicos desde su recogida en la plataforma hasta su conversión en estructuras homogéneas, organizadas y aptas para el análisis. Se incluyen técnicas de limpieza de datos, eliminación de valores atípicos, imputación de datos faltantes y estandarización de formatos para facilitar su interoperabilidad con otras bases de datos y herramientas analíticas.
- Acceso a conjuntos de datos estructurados y validados con estándares de interoperabilidad como HL7 FHIR u OMOP para facilitar la integración con otros sistemas y bases de datos.
- Análisis de datos de la Plataforma con la creación y seguimiento de cohortes de pacientes: definición, estructuración y mantenimiento de cohortes de pacientes para estudios epidemiológicos y clínicos. Se garantiza la trazabilidad de los datos, el seguimiento longitudinal de los pacientes y la aplicación de criterios homogéneos de inclusión y exclusión. Se ofrece la posibilidad de vincular datos clínicos con información de otros registros sanitarios para ampliar el análisis.
- Desarrollo de modelos de inteligencia artificial para usos secundarios.
- Colaboración y/o desarrollo de ensayos clínicos.
- Participación en proyectos nacionales y europeos en los que se precise la utilización de la BBDD.
- Capacitación y formación
Equipamiento
Clúster on premise destinado a la creación de un datalake capaz de almacenar y procesar datos procedentes de aplicaciones corporativas de Conselleria de Sanidad. Esta infraestructura está conectada a la red Arterias (red corporativa de Consellería de Sanidad):
Dos servidores de alto rendimiento y cada uno equipado con:
- Procesadores: 48 núcleos / 96 hilos de procesamiento.
- Memoria: 2 TB de RAM.
- Almacenamiento SSD en configuración RAID1 para hypervisor y sofware base.
Cada servidor incorpora una GPU NVIDIA. Arquitectura Ampere A30 con soporte para CUDA y GPU.
Este clúster está conectado a tres cabinas de almacenamiento, cada una orientada a cubrir distintos requerimientos específicos:
- Almacenamiento SAN: 18 TB en discos NVMe, configurados en volúmenes iSCSI. Diseñado para garantizar alta disponibilidad y máximo rendimiento.
- Almacenamiento NAS:
- Cabina scale-out de alto rendimiento: 216 TB combinando discos SSD y HDD. Ofrece soporte para discos secundarios, NFS, S3 y funcionalidades de Data Lake.
- Cabina convencional: 95 TB destinados principalmente a copias de seguridad, proporcionando almacenamiento confiable y optimizado para tareas de respaldo y recuperación.
Adicionalmente, conectadas a rediris (red académica y de investigación española), se dispone de dos máquinas con capacidad de almacenar aplicativos y entornos de análisis externos a la red arterias.
Las máquinas tienen cada una: 24cores/48 hilos, 1,5TB de RAM, 24 TB HDD (en RAID6) para almacenamiento en volumen con velocidad moderada y 5TB de SSD (en RAID5) para discos de sistema y acceso rápido
Toda esta infraestructura está dotada de las máximas medidas de seguridad, es altamente escalable y robusta gracias a la elevada redundancia de sus componentes más críticos.
Estos medios se complementan y pueden ser reforzados con la posibilidad de utilizar los recursos de computación HPC comunes a plataformas y grupos de investigación de la fundación que son administrados por la Unidad de Informática de INCLIVA.
Responsable
Dra. Inmaculada Saurí Ferrer

Contacto
e-mail: cienciadedatos@incliva.es
Teléfono: 962 542 390
Ubicación
INCLIVA. Avenida Menéndez y Pelayo 3, 46010, Valencia