Introducción

La Plataforma de Ciencia de Datos es una plataforma transversal orientada a apoyar la investigación, la gestión sanitaria y la toma de decisiones clínicas mediante el uso de Big Data e Inteligencia Artificial (IA). La Plataforma integra la información procedente de la atención ambulatoria y hospitalaria de la población del Departamento de Salud Valencia Clínico-Malvarrosa que contiene unos 350.000 habitantes. A través de técnicas de analítica predictiva, modelos de IA y el desarrollo de interfases para telemedicina, la plataforma permite identificar ineficiencias en los flujos de trabajo operativos y clínicos, optimizar procesos asistenciales, e impulsar la implementación de la Medicina 5P (predictiva, preventiva, personalizada, poblacional y participativa).

La Plataforma de Ciencia de Datos nace en base a la Plataforma INTEGRA-CLOUD, desarrollada en INCLIVA mediante la aportación económica adjudicada ad personam desde el Ministerio de Asuntos Económicos y Transformación Digital a través del Programa UNICO I+D Cloud, en el marco del Plan Europeo de Recuperación, Transformación y Resiliencia en 2023.

Servicios
  • Consultoría científico-técnica:
    • Consultoría sobre iniciación de protocolo de estudio, trámites administrativos, CEIm.
    • Consultoría en protección de datos.
    • Se ofrece orientación en la selección de herramientas de análisis y algoritmos de inteligencia artificial adecuados para el procesamiento de datos en salud.
  • Trámites con Administraciones Sanitarias: gestión operativa y tramitación de permisos, licencias y acuerdos con organismos públicos y administraciones sanitarias para la utilización de datos clínicos en proyectos de investigación.
  • Análisis y procesamiento de datos
    • Procesamiento de datos clínicos desde su recogida en la plataforma hasta su conversión en estructuras homogéneas, organizadas y aptas para el análisis. Se incluyen técnicas de limpieza de datos, eliminación de valores atípicos, imputación de datos faltantes y estandarización de formatos para facilitar su interoperabilidad con otras bases de datos y herramientas analíticas.
    • Acceso a conjuntos de datos estructurados y validados con estándares de interoperabilidad como HL7 FHIR u OMOP para facilitar la integración con otros sistemas y bases de datos.
    • Análisis de datos de la Plataforma con la creación y seguimiento de cohortes de pacientes: definición, estructuración y mantenimiento de cohortes de pacientes para estudios epidemiológicos y clínicos. Se garantiza la trazabilidad de los datos, el seguimiento longitudinal de los pacientes y la aplicación de criterios homogéneos de inclusión y exclusión. Se ofrece la posibilidad de vincular datos clínicos con información de otros registros sanitarios para ampliar el análisis.
    • Desarrollo de modelos de inteligencia artificial para usos secundarios.
    • Colaboración y/o desarrollo de ensayos clínicos.
    • Participación en proyectos nacionales y europeos en los que se precise la utilización de la BBDD.
  • Capacitación y formación
Equipamiento

Clúster on premise destinado a la creación de un datalake capaz de almacenar y procesar datos procedentes de aplicaciones corporativas de Conselleria de Sanidad. Esta infraestructura está conectada a la red Arterias (red corporativa de Consellería de Sanidad):

Dos servidores de alto rendimiento y cada uno equipado con:

  • Procesadores: 48 núcleos / 96 hilos de procesamiento.
  • Memoria: 2 TB de RAM.
  • Almacenamiento SSD en configuración RAID1 para hypervisor y sofware base.

Cada servidor incorpora una GPU NVIDIA. Arquitectura Ampere A30 con soporte para CUDA y GPU.

Este clúster está conectado a tres cabinas de almacenamiento, cada una orientada a cubrir distintos requerimientos específicos:

  • Almacenamiento SAN: 18 TB en discos NVMe, configurados en volúmenes iSCSI. Diseñado para garantizar alta disponibilidad y máximo rendimiento.
  • Almacenamiento NAS:
    • Cabina scale-out de alto rendimiento: 216 TB combinando discos SSD y HDD. Ofrece soporte para discos secundarios, NFS, S3 y funcionalidades de Data Lake.
    • Cabina convencional: 95 TB destinados principalmente a copias de seguridad, proporcionando almacenamiento confiable y optimizado para tareas de respaldo y recuperación.

Adicionalmente, conectadas a rediris (red académica y de investigación española), se dispone de dos máquinas con capacidad de almacenar aplicativos y entornos de análisis externos a la red arterias.

Las máquinas tienen cada una: 24cores/48 hilos, 1,5TB de RAM, 24 TB HDD (en RAID6) para almacenamiento en volumen con velocidad moderada y 5TB de SSD (en RAID5) para discos de sistema y acceso rápido

Toda esta infraestructura está dotada de las máximas medidas de seguridad, es altamente escalable y robusta gracias a la elevada redundancia de sus componentes más críticos.

Estos medios se complementan y pueden ser reforzados con la posibilidad de utilizar los recursos de computación HPC comunes a plataformas y grupos de investigación de la fundación que son administrados por la Unidad de Informática de INCLIVA.

Responsable

Dra. Inmaculada Saurí Ferrer

Contacto

e-mail: cienciadedatos@incliva.es
Teléfono: 962 542 390

Ubicación

INCLIVA. Avenida Menéndez y Pelayo 3, 46010, Valencia

Documentos
Tarifas
Catálogo de datos
Espacio de datos