Storio - backup online, archiwizacja, storage, pamięci masowe

Deduplikacja danych

Deduplikacja to proces, który prowadzi do "generalnej kompresji" danych. Eliminowane są powtarzające się dane przez zastępowanie duplikatów odnośnikami do jednej, oryginalnej porcji danych. Proces deduplikacji polega na inteligentnym i systematycznym wyszukiwaniu bloków danych, które wielokrotnie się powtarzają, eliminacji ich i zastępowaniu odnośnikami do jednej, pozostawionej kopii danych w systemie. Są dwa rodzaje deduplikacji:

na poziomie systemu plików;
na poziomie bloków dyskowych.

Druga opcja pozwala na uzyskanie lepszych efektów, gdyż jest niezależna od rodzaju systemu operacyjnego, na którym pracuje dany system informatyczny, a także od rodzaju oraz ilości plików znajdujących się w systemie plików.

Jak działa deduplikacja?

Deduplikacja może być wykonywana na wiele sposób, jednak jej zasada działania pozostaje taka sama. Tworzone są dwa wzorce - pierwszy z nich to zdeduplikowane dane, drugi to tabela odnośników. Z każdej parti danych wprowadzonych do deduplikatora, generowany jest tzw. odnośnik (tworzony jest przez funkcje hashujące).

Odnośnik można porównać do "odcisku palca" - jeżeli jest identyczny dla dwóch porcji danych, oznacza to, że te dane są identyczne. Jeśli wkaźnik do danych, który przybył do systemu deduplikującego nie został znaleziony w tablicy odnośników, to jest on tam dodawany, a dane zostają dopisane. Jeżeli odnosnik był obecny w systemie, to dane nie są zapisywane a jedynie zastępowane wskaźnikiem do już istniejącej pozycji w deduplikatorze.

Typy deduplikacji

Deduplikacja In-Line - w tej metodzie deduplikacja następuję w pamięci, gdzie usuwane są powtarzające się bloki danych. Unikalne bloki i odpowiednie odnośniki do danych, zapisywane są na dysku twardym. Zaletą takiego podejścia jest niższy koszt związany z mniejszą ilością potrzebnych dysków. Macierze firmy EMC z serii VNX, deduplikatory DataDomain mają w sobie zaimplementowany mechanizm deduplikacji In-Line.

Deduplikcja Post-Process - w tym wariancie dane są najpierw zapisywane na dysk, a dopiero potem rozpoczyna się proces deduplikacji na macierzy. Zaletą jest wydajność, którą ogranicza tylko wydajność dysków - nie ma potrzeby przeprowadzania dodatkowych czynności przed zapisaniem danych.

Poziomy działania deduplikacji

Deduplikacja na poziomie pliku (single-instance storage) - technologia polegająca na eliminacji plików będących identycznymi kopiami pliku uprzednio zapisanego. Była to pierwsza metoda globalnej kompresji oparta na algorytmie hashowym – jeśli hashe dwóch plików są takie same, pliki są traktowane jako identyczne, nawet jeśli mają inne nazwy, czy daty modyfikacji. Metoda ta była szczególnie przydatna w przypadku eliminacji duplikatów w postaci załączników rozsyłanych pocztą elektroniczną lub plików systemowych rezydujących na komputerach spiętych w sieć.

Deduplikacja na poziomie bloku stałej wielkości (fixed block level) - dzieli pliki na bloki, czyli sekwencje bajtów o stałej wielkości (typowo między 4 kB a 64 kB). Nie porównuje ona hashów całych plików, jak w przypadku eliminacji identycznych duplikatów, lecz tworzy hash dla każdego bloku z osobna. Daje to wymierne korzyści, gdy duże pliki rosną przez dodawanie do nich nowych danych, lub kiedy długie sekwencje bajtów są modyfikowane między zadaniami backupowymi.

Deduplikacja na poziomie bloku o zmiennej wielkości (variable block level) - deduplikacja, która ustala „w locie” wielkość bloku porównującego, na którego podstawie analizowane jest podobieństwo plików. Dzięki temu ten rodzaj deduplikacji jest w stanie rozpoznać zmiany nie tylko dodane na końcu pliku (jak to ma miejsce w deduplikacji blokiem o stałej wielkości), ale też te dokonane na jego początku, bądź w środku. Przykładowo, jeśli dane są modyfikowane wewnątrz pliku (pomiędzy poszczególnymi blokami), wielkość bloku zmienia się wraz ze zmianą zawartości, co umożliwia zapis jedynie nowo dodanych danych i referencję do następujących po nich danych uprzednio zapisanych.

O współczynniku deduplikacji

Efektywność samego procesu deduplikacji jest opisywana terminem "współczynnika deduplikacji". Jest to stosunek pojemności danych niezdeduplikowanych, do pojemności danych po deduplikacji. Na przykład, jeżeli 200GB danych po zdeduplikowaniu zajmuje 20GB, to współczynnik deduplikacji wynosi 10:1. Wartość tego parametru uzależniona jest od algorytmu i poziomu deduplikacji, a także od typu danych.

Podsumowując, deduplikacja danych zmniejszając koszty składowania staje się niezwykle istotna dla centrów danych oraz środowisk wirtualnych z powodu rosnących kosztów energii, roboczogodzin, przestrzeni fizycznej oraz zarządzania ciągłym niedostatkiem przestrzeni, zasilania i chłodzenia. Firma Storio posiada w swojej ofercie rozwiązania, które pozwolą rozwiązać problem z duplikacją danych.

Nasza propozycja składa się z następujących rozwiązań:

EMC Data Domain – Enterpise w ochronie danych

Proces deduplikacji w systemach EMC DataDomain redukuje ilość miejsca na dysku niezbędnego do przechowywania i zabezpieczenia danych nawet od 10 do 30 razy, a czasem współczynnik ten jest nawet większy. Dzięki temu pamięci dyskowe stanowią ekonomiczną alternatywę dla systemów pamięci taśmowej. Dane przechowywane na dyskach są dostępne online i umożliwiają retencję danych przez dłuższy okres, a proces odtwarzania danych jest szybki i niezawodny. Przechowywanie na dyskach jedynie unikalnych bloków danych oznacza także, że można je niedrogo replikować w istniejących sieciach do zdalnych lokalizacji w ramach realizacji zadań disaster recovery oraz centralizacji składowania kopii bezpieczeństwa.

Systemy Data Domain mogą współpracować z czołowymi rozwiązaniami backupowymi i archiwizacyjnymi oraz mogą łatwo integrować się z istniejącą infrastrukturą pamięci masowej, bez konieczności wprowadzania drastycznych zmian infrastruktury w centrach danych lub zdalnych oddziałach.

Kluczowe korzyści:

Łatwa integracja z istniejącymi środowiskami;
Deduplikacja "w locie";
Zintegrowany storage / archwizacja/de-duplikacja;
Distater Recovery;
Energooszczędność;
Możliwość rozbudowy o dodatkowe dyski.

Więcej informacji kliknij TUTAJ

EMC AVAMAR

Oprogramowanie bazujące na dyskach z globalną i źródłową deduplikacją kopii zapasowych. Idealnie dostosowane do ciągłych zmian środowisk IT, z integracją dedykowanego oprogramowania ochrony danych.

EMC® Avamar® oferuje unikalne rozwiązanie, przyspieszające tworzenie kopii zapasowych, odzyskiwanie danych oraz poprawiające wydajność. Dzięki filtrowaniu nadmiarowych segmentów danych i całościowej de-duplikacji źródłowej, Avamar zapewnia do 200% redukcji objętości wielkości danych, które są cotygodniowo transferowane, dzięki czemu, znacząco zmniejsza obciążenie wirtualnej i fizycznej infrastruktury, minimalizuje ryzyko oraz obniża potrzebny kapitał i koszty operacyjne.
Posiada możliwość wdrożenia w elastycznej fizycznej lub wirtualnej formie. EMC Avamar dostępny jest w dwóch wariantach: Avamar DataStore, kompletne rozwiązanie do tworzenia kopii zapasowych i odzyskiwania danych oraz Avamar Virtual Edition – wirtualna wersja oprogramowania dla środowiska VMware.

Pojedynczy DataStore można nabyć w konfiguracji o pojemności od 1 do 7 TB. DataStore łączy się w architekturze RAIN dla uzyskania większej pojemności i wydajności. Zastosowanie takiej technologii umożliwia uzyskanie kilkudziesięciu TB pojemności użytkowej, co po deduplikacji daje ekwiwalent nawet kilku PB tradycyjnej przestrzeni dyskowej. Dzięki ochronie pamięci masowej przy pomocy RAID, redystrybucji nadmiarowej mocy oraz technologii RAIN, wielowęzłowy Avamar Data Store zapewnia ochronę idącą w parze z wysoką dostępnością (High Avability).
Avamar Virtual Edition dla środowiska VMware to w pełni wirtualne rozwiązanie łączące w sobie zalety deduplikacji danych z wydajności wirtualnego środowiska VMware, które może wyeliminować potrzebę dedykowanych kopii zapasowych i infrastruktury serwerowej.

EMC NETWORKER

Rozwiązanie do tworzenia kopii zapasowych i odzyskiwania danych.

Opracowane przez lidera w zakresie systemów ochrony informacji oprogramowanie EMC® NetWorker® umożliwia centralizację, automatyzację i przyspieszenie procesów tworzenia kopii zapasowych i odtwarzania danych w całym środowisku informatycznym. Ponadto, dzięki rekordowej wydajności i elastyczności umożliwia wykonywanie kopii najważniejszych danych biznesowych w szybki, bezpieczny i łatwy w zarządzaniu sposób.

EMC dysponuje największą na świecie wiedzą w zakresie ochrony danych, a oprogramowanie NetWorker to sprawdzone rozwiązanie do ochrony danych zarówno w małych firmach, jak i dużych centrach przetwarzania danych. Jego użytkownicy mogą być pewni, że w przypadku błędów, utraty danych, przestojów systemu lub katastrofy dane firmowe zostały odpowiednio zabezpieczone. Jednocześnie podczas tworzenia kopii zapasowych wszystkie aplikacje biznesowe działają, co całkowicie eliminuje przestoje.

EMC® NetWorker® umożliwia:

Scentralizowane tworzenie kopii zapasowych i odtwarzanie danych w celu zapewnienia pełnej kontroli nad sieciami pamięci masowej (SAN), pamięcią masową dołączaną przez sieć (NAS) i pamięcią masową podłączaną bezpośrednio (DAS);
Wykorzystanie technologii tworzenia kopii zapasowych i replikacji w celu zapewnienia wyższego poziomu ochrony i odtwarzania danych;
Obsługę platform heterogenicznych, w tym systemów UNIX, Windows, Linux, Netware, OpenVMS, Macintosh i VMware®;
Bieżące tworzenie kopii zapasowych systemów plików i aplikacji w trybie online, w trakcie ich używania;
Obsługę rozwiązań EMC Documentum®, Oracle, Microsoft SQL Server i Exchange, IBM DB2 UDB, Informix, Lotus Notes/Domino, SAP® R/3®, Sybase i MEDITECH.

Więcej informacji: Link

Veeam Backup & Replication

Rozwiązanie Veeam® Backup & Replication™ umożliwia wydajne, łatwe w obsłudze i przystępne cenowo odzyskiwanie zwirtualizowanych aplikacji i danych. To kompleksowe rozwiązanie łączy w sobie funkcje tworzenia kopii zapasowych i replikacji danych, zwiększa przydatność kopii zapasowych oraz oferuje innowacyjną metodę ochrony danych w środowiskach VMware vSphere i Microsoft Hyper-V. W ramach pojedynczej licencji można przy użyciu zintegrowanej konsoli obsługiwać całą infrastrukturę wirtualną, korzystając w tym celu z najnowocześniejszych w branży funkcji, takich jak natychmiastowe odzyskiwanie plików i sprawniejsze odzyskiwanie maszyn wirtualnych, skalowalność, połączone („2 w 1”) mechanizmy kopii zapasowych i replikacji, wbudowana duplikacja oraz scentralizowane zarządzanie.

Więcej informacji: Link

Twoja firma pod

Deduplikacja danych