Deduplica: compressione dei dati e rimozione delle informazioni ridondanti

10.05.2016

Cos’è la deduplica dei dati

Quando parliamo di deduplica dei dati intendiamo una tipologia di compressione che elimina i dati doppi o ridondanti.

Ipotizziamo, per semplificare, che tre operatori della stessa azienda ricevano da più fonti la stessa anagrafica clienti e che debbano salvarla sul database aziendale. Questo comporterà la memorizzazione della stessa anagrafica sul database ripetuta tre volte, in modo ridondante. Deduplicare i dati in questo caso consentirebbe di ottenere un’anagrafica unica.

 

I vantaggi della deduplica:

 

Meno errori

Bisogna considerare che la ripetizione dei dati, magari riguardanti informazioni elaborate manualmente, espone continuamente le organizzazioni ad alti rischi d’errore. Procedure di normalizzazione dei dati (orientate all'eliminazione delle ridondanze informative e dell’incoerenza dal database) e deduplica consentono di gestire questa “variabile umana” fino a ridurne completamente l’impatto sulla correttezza e sulla univocità delle informazioni trattate.

 

Più spazio, rapidità e meno costi

Sono innumerevoli i vantaggi offerti dalla deduplica, innanzitutto la possibilità di operare un backup e ripristino dei dati più veloce e frequente. Questo processo inoltre applica periodicamente operazioni di “garbage collection” (letteralmente “raccolta dei rifiuti”) volte a recuperare porzioni di storage non più utilizzate. 

Tutto ciò ovviamente consente di ridurre i costi dello storage, ottimizzando in media fino a 30 volte lo spazio di archiviazione su disco, e conseguentemente di velocizzarne le procedure ed i meccanismi di protezione. Basti pensare che per loro stessa natura i dati di backup e di archiviazione generano un’elevata quantità di dati duplicati. Le stesse informazioni vengono memorizzate in diverse copie, sprecando spazio di storage, energia elettrica per l'alimentazione ed il raffreddamento delle unità di memoria e larghezza di banda per le repliche. Questo genera una serie di inefficienze che possono essere corrette dalle aziende grazie a strumenti di deduplica ed a precise politiche di backup incrementale o differenziale, dove la prima tipologia risulta comunque essere più veloce e meno ingombrante. 

 

Deduplica dei dati, virtualizzazione e all-flash storage

Anche se le performance garantite dalla deduplicazione possono variare a seconda dei carichi di lavoro e delle impostazioni prescelte, i vantaggi rimangono indiscutibili. A maggior ragione in considerazione delle opportunità offerte dalla virtualizzazione e dalla tecnologia all-flash storage. Yari Franzini, Storage Country Manager Hewlett Packard Enterprise, ha recentemente dichiarato: 

"In ambito storage, l’accento sulla tecnologia flash è sicuramente predominante, perché con essa si porta a casa dei clienti un sistema di archiviazione che rende più efficiente il data center, andando a consolidare i sistemi legacy attraverso infrastrutture che, essendo appunto basate su tecnologia flash, risultano molto più snelle, modulari, ad alte performance, ma anche ad elevata efficienza".

Efficienze che, tra le altre, includono la deduplica con accelerazione hardware. In questo modo, anche ambienti distribuiti possono eseguire deduplicazioni virtualizzate per ogni ufficio remoto. Nondimeno le organizzazioni piccole e medie possono finalmente beneficiare delle economie ottenibili tramite la deduplicazione e dei vantaggi in termini di disaster recovery, senza dover sostituire i propri sistemi legacy.