¿Qué es la deduplicación?

La deduplicación es un método de compresión de datos en el que la eliminación de los datos redundantes no se realiza a nivel de archivo sino a nivel de bloque. Se utiliza para optimizar el espacio de almacenamiento en las bases de datos. La deduplicación se utiliza a veces en paralelo con otros métodos de compresión.

La deduplicación se utiliza como método de compresión para los datos potencialmente redundantes, especialmente para las copias de seguridad, es decir, la protección de datos. Otros ámbitos de aplicación son el almacenamiento, el archivo y la transferencia de datos. Básicamente, el procedimiento es adecuado para todas las áreas de aplicación de TI en las que se copian datos repetidamente y las copias también se almacenan.

Potencialmente alta compresión de datos

La deduplicación puede alcanzar tasas de compresión muy altas en casos individuales. La compresión de datos se realiza mediante aplicaciones informáticas basadas en algoritmos matemáticos. Algunos proveedores de software de deduplicación declaran tasas de compresión de 1:500 para sus productos. En la práctica, sin embargo, lo normal es que los índices de compresión sean de 1:7 a 1:12. El método puede aplicarse a la mayoría de los tipos de datos. Las excepciones son, por ejemplo, los vídeos, que no pueden ser deduplicados pero sí comprimidos mediante otros algoritmos.

Cómo funciona la deduplicación

En principio, existen dos procedimientos diferentes para comprimir los datos. El llamado almacenamiento de instancia única (SIS) tiene como objetivo encontrar y eliminar datos idénticos. Un campo de aplicación clásico del SIS es, por ejemplo, el archivo de correo electrónico. Los archivos adjuntos de los correos electrónicos suelen enviarse a varios destinatarios. Sin la compresión, estos archivos se almacenarían varias veces durante el archivado. El SIS permite archivar sólo una copia del archivo adjunto.

La deduplicación, en cambio, comienza a nivel de bloques de datos. El procedimiento correspondiente se denomina fingerprinting o hashing. Los datos se dividen en segmentos individuales (chunks), que pueden ser de diferentes tamaños. Los trozos se analizan a nivel de bytes. Se buscan los segmentos con mayor índice de repetición. La deduplicación permite así reconocer datos idénticos. Para eliminar las redundancias en la medida de lo posible, se lleva a cabo una referenciación (señalización) al elemento original. El procedimiento pretende encontrar los datos originales dentro de los bloques de datos. Un "puntero" de este tipo requiere mucho menos espacio de almacenamiento que los datos referenciados. La recuperación de un archivo apuntado sólo se produce cuando se accede realmente a él. El algoritmo del software de deduplicación establece las reglas para fusionar sus datos individuales. En él confluyen tanto los componentes únicos del archivo respectivo como los componentes de datos que comparte con otros archivos.

Deduplicación - Métodos

Hay dos métodos diferentes para deduplicar datos:

  • Cuando se utiliza la referenciación inversa, todos los datos idénticos se refieren al primer elemento de datos común. Sólo se archiva este conjunto de datos.

Los archivos de referencia hacia adelante archivan el último bloque de datos común. Forma la referencia para todos los bloques de datos comunes que se han producido anteriormente.

A nivel de aplicación, también se distingue entre deduplicación inband y outband. En el primer caso, el análisis del flujo de datos tiene lugar durante el funcionamiento. En cambio, la compresión en banda externa sólo se realiza una vez almacenados los datos. Permite el análisis paralelo de varios flujos de datos.


Deja un comentario