10 puntos a tener en cuenta en la gestión de datos

La logística de las empresas industriales se ha optimizado durante décadas. El éxito en este proceso puede determinar el futuro de toda la empresa. La gestión de datos no es nada diferente, salvo que se trata de gestionar la información corporativa.

Casi todas las empresas (98,5 %) están en proceso de digitalización, según el estudio de IDG "Enterprise Storage 2021". La infraestructura/arquitectura/colocación de TI (46 %) y la nube (42 %) fueron nombrados como los temas más importantes por los participantes, seguidos de cerca por la ciberseguridad (36 %) y la analítica de datos/Big Data (34 %). Le siguen la Inteligencia Artificial/Aprendizaje Automático, el Internet de las Cosas y las Estrategias y Soluciones de Almacenamiento, cada uno de ellos con más del 20 %.

En base a esta priorización, se pueden derivar los futuros requisitos de los datos y, por tanto, de la gestión de los mismos.

1. Movilidad de los datos

Los dos primeros temas, Infraestructura y Nube, afirman que en el futuro se operará tanto con infraestructuras híbridas en la nube como con pilas de TI tradicionales dentro de la industria. Debido a diversos requisitos, esta forma híbrida estará con nosotros durante algún tiempo. La consecuencia de esto es que los datos deben seguir los procesos que los procesan. Una aplicación que hoy funciona en el centro de datos local puede estar mañana en la nube o viceversa. Por tanto, la gestión de datos debe ofrecer funciones que permitan trasladar, replicar o sincronizar los datos en función de las necesidades.

La necesidad de movilidad de los datos también se deriva de la tendencia a la computación de borde. La información está distribuida en muchas ubicaciones y debe gestionarse de la misma manera que en el resto de plataformas de almacenamiento. Incluso hay posibilidades de ejecutar cargas de trabajo de uso intensivo de datos directamente en los sistemas de almacenamiento, por ejemplo como contenedores, lo que representa una oportunidad completamente nueva para las clases de almacenamiento.

Un efecto secundario de la movilidad de los datos es la prevención de los proyectos de migración que son comunes hoy en día. En el mejor de los casos, los datos pueden moverse a través de las fronteras de los proveedores sin interrupción.

2. Automatización/Autonomía

El modelo operativo de la nube implica esencialmente la automatización de los procesos de TI. Aquí es donde la gestión de datos debe integrarse perfectamente. Basado en información descriptiva (etiquetas de datos), el aprovisionamiento tiene que ser automático. Funciones adicionales como la elaboración de informes y previsiones de capacidad, el mantenimiento predictivo y la optimización del sistema son el camino hacia la gestión autónoma de los datos.

3. Etiquetado de datos

Como requisito previo a la automatización, se necesita información descriptiva de los datos y de los grupos de datos. Lo ideal sería hacerlo mediante un sistema de toma de decisiones (basado en IA y/o en reglas). Mientras no sea así, esto se hace a través de la aplicación respectiva (por ejemplo, archivos de manifiesto en el caso de los contenedores) o a través del gestor de aplicaciones.

4. Alta disponibilidad

Del estudio mencionado se desprende que la disponibilidad del cien por cien del almacenamiento es el requisito número uno. Esto no sólo requiere una alta disponibilidad en una ubicación, sino también mecanismos de replicación a otras ubicaciones. Las distancias de metro de entre 10 y 30 kilómetros, habituales hoy en día en Alemania, deberían reconsiderarse en vista del mayor riesgo de catástrofe. Aquí, al menos una tercera ubicación, mayores distancias o el mirroring a la nube deben ser considerados.

5. Seguridad y protección de datos

En tercer lugar, directamente detrás de la infraestructura y la nube, está el tema de la seguridad de los datos. A pesar de todas las medidas de protección en el centro de datos y en la nube, hay que asumir que las rutinas maliciosas penetrarán en el almacenamiento. Aquí deben integrarse mecanismos que restrinjan el acceso a los datos y que reaccionen cuando este último bastión haya sido superado. La protección continua de los datos en el nivel de almacenamiento puede ser la solución en este caso. El requisito previo, por supuesto, es que esto no perjudique el rendimiento y garantice un RPO y RTO lo más corto posible.

Las empresas de hoy en día están pasando a no borrar los datos generados. El valor de esta información no puede determinarse en el momento de la creación. Una información que hoy es inútil puede ser la base de una ventaja en el mercado mañana. Las condiciones operativas y el marco legal pueden exigir lo contrario y establecer períodos de conservación y supresión. Se registran exactamente igual que las clases de seguridad durante el etiquetado de los datos. Las clases de almacenamiento correspondientes garantizan el almacenamiento y el archivado o la destrucción conforme a la ley.

6. Multiprotocolo

Los Big Data, así como la IA y el IoT, requieren diferentes mecanismos de acceso. Un sistema de gestión de datos ideal debería almacenar datos para estos casos de uso, independientemente del protocolo de acceso. Así se evitan las réplicas innecesarias, se conserva el ancho de banda y se evitan los errores causados por los registros de datos obsoletos. Además de los protocolos habituales como NFS y SMB, aquí también se requieren HDFS y S3. Un cliente para la computación de alto rendimiento permite el acceso en tiempo crítico también para este caso de uso.

7. Datos masivos

Los futuros volúmenes de datos en una empresa son difícilmente previsibles en la actualidad. Con el enfoque de la digitalización en las empresas, surgen constantemente nuevos requisitos que requieren opciones de escalado a corto plazo en el rango de los petabytes. Las soluciones especiales de IoT que también requieren grabaciones de vídeo y sonido sólo deben nombrarse aquí como ejemplos.

Otro requisito es que se mantengan accesibles grandes cantidades de datos para la IA y el Big Data. Los soportes offline encierran el peligro de que la información almacenada en ellos no pueda ser monetizada en tiempo y forma.

8. Rendimiento

Se habla siempre de rendimiento del almacenamiento en las empresas sólo cuando es insoportable para los usuarios, en función de su capacidad de sufrimiento. Son precisamente las aplicaciones empresariales de respuesta rápida las que pueden influir positivamente en la aceptación de los clientes y aumentar significativamente la eficiencia de la empresa. Asimismo, los procesos por lotes pueden acelerarse o incluso transferirse a sistemas en tiempo real. Por lo tanto, la calidad del servicio debe ser soportada en la gestión de datos.

9. Acceso al almacenamiento

Los mayores volúmenes de datos requieren mayores anchos de banda. Además, se espera una menor latencia desde el punto de vista del rendimiento. Hoy en día, esto se realiza a través de diferentes redes de almacenamiento. Esto aumenta la complejidad del aprovisionamiento y requiere copias de datos adicionales. No en vano, las soluciones totalmente IP son una tendencia actual en el entorno de almacenamiento. Con el acceso remoto directo a la memoria (RDMA), las latencias se reducen al rango de los microsegundos, y los anchos de banda correspondientes están disponibles según las necesidades a través de Ethernet de 25/100/400 Gb.

10. Protección del medio ambiente

Cada vez son más las empresas que anclan en su estrategia ambiciosos objetivos de CO2. Los centros de datos y, por tanto, también la gestión de los mismos, tienen que aportar su contribución. Esto se tiene en cuenta en cada vez más proyectos. En el caso de la gestión de datos, esto significa que, además de los costes, hay que mostrar la huella de CO2. Especialmente la transición de los discos duros mecánicos a las memorias flash electrónicas ofrece un alto potencial de ahorro.

Los requisitos para una gestión de datos orientada al futuro son muy diversos y están orientados a la estrategia corporativa y de TI. Quizás el activo más importante de una empresa hoy en día no goza de toda nuestra atención por nada.

Huawei ofrece aquí una solución integral. Los sistemas OceanStor Dorado, OceanStor Pacific y OceanProtect constituyen la base física. El motor de gestión de datos (DME) es el cerebro que orquesta los flujos de datos. Gracias a los procesos integrales apoyados por la IA, se cumplen todos los requisitos mencionados anteriormente.

¡Se abre así el camino hacia la gestión autónoma de datos!

Peter Kruth, Huawei

Peter Kruth, Huawei

*El autor: Sobre la base de un amplio conocimiento de las infraestructuras de TI, las soluciones en la nube hasta los sistemas de aplicaciones y una amplia experiencia con clientes empresariales de diversos sectores, Peter Kruth es responsable del diseño y la arquitectura de soluciones eficientes de centros de datos específicos para clientes. La atención se centra en la nube flexible y en las tecnologías basadas en la IA. En su tiempo libre, está involucrado en el desarrollo de Progressive Web Apps (PWA) en el entorno IoT, entre otras cosas.

Deja un comentario