ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 148
Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 10
Abonament PDF

Big Data: Radiografie HBase

Cătălin Roman
Lead Software Architect @Frequentis



PROGRAMARE

În numărul 3 al revistei, articolul despre Big Data menționează un tip aparte de sisteme NoSQL: sisteme orientate pe coloană (column-oriented database). Un concept cel puțin curios, ce merită studiat. Acest articol radiografiază unul dintre sistemele ce funcționează pe acest concept: Apache Hbase (http://hbase.apache.org/).

Să spunem că avem un serviciu public de hărți online, gen Nokia Maps sau Google Maps. Pentru a avea success, pe lângă hărți detaliate, avem nevoie și de informații, și de conținut, care să fie disponibil pe hartă. Un prim astfel de conținut sunt punctele de interes, pe scurt POI (point of interest).

Este estimat că în lume sunt două miliarde de POI-uri. Pentru a publica aceste POI-uri trebuie mai întâi culese sau achiziționate din diverse surse. Foarte des se întâmplă ca același POI să provină din mai multe surse, fiind necesară deduplicarea POI-urilor. Mai mult, anumite atribute sunt specifice doar unora dintre POI-uri. De exemplu, restaurantele se caracterizează prin tipul de bucătărie, număr de mese, etc, iar parcările prin, prețul pe oră, număr de locuri, parcare subterană sau pe mai multe nivele.

HBase este o bază de date de tip "column-oriented", ale cărei principale atuuri sunt consistența și posibilitatea de scalare a sistemului. A fost proiectată bazându-se pe BigTable, o bază de date proprietară dezvoltată de Google ale cărei principii au fost publicate într-o lucurare din 2006 numită, "Bigtable: A Distributed Storage System for Structured Data".

Este folosit activ în companii bine cunoscute, precum Facebook, Nokia, eBay, Yahoo și in diverse aplicații ce necesită stocarea și analiza unor cantități mari de date.

La prima vedere, HBase pare să fie o bază de date relaționară. HBase stochează datele în tabele, care conțin celule ce apar la intersecția dintre rânduri și coloane. Dar nu e chiar așa. Tabelele nu au relații între ele, rândurile nu servesc ca înregistrări, iar coloanele sunt complet variabile. Putem vorbi despre existența unei scheme, dar rolul ei e doar să ghideze și nu să forțeze.

HBase deține funcționalități care lipsesc celorlalte baze de date, precum versionarea, compresia și colectarea datelor expirate (garbage collection). Când o valoare nouă e scrisă într-o celulă existentă, vechea valoare rămâne indexată după timestamp. Dacă valorile stocate sunt foarte mari, se poate recurge la compresia lor, folosind algoritmii Gzip sau LZO.

Din punct de vedere al teoremei CAP, HBase este un sistem CP (vezi articolul despre Big Data din numărul 3 al revistei). Oferă garanții puternice pentru consistența datelor. Daca un client execută o scriere cu succes a unei anumite valori, acea valoare va fi citită de toți ceilalți clienți. Fiind un sistem distribuit, în cazul în care un nod din cluster se defectează, HBase rămâne funcțional. Dacă un singur nod din cluster rămâne funcțional, atunci toate scrierile vor fi refuzate.

În scop didactic HBase poate să funcționeze și în mod stand-alone, adică folosind un singur nod. Este recomandat ca pentru un cluster de producție să se folosească minim 5 noduri. Daca o mapă este o pereche de chei și valori, ca un Hashmap din Java. Un tabel in HBase e o mapă mai mare sau mai concret este o mapă de mape.

Cheile sunt string-uri arbitrare ce mapează un rând (row) de date. Un rând este și el o mapă, în care cheile sunt numite coloane, iar valorile sunt șiruri de biti neinterpretați. Coloanele sunt grupate în familii de coloane. Făcând ca numele întreg al unei coloane să fie format din numele grupului și numele coloanei (family:qualifier). În exemplul de mai jos: Identity:id, Identity:provider, etc..

Tabelul oferă un exemplu despre cum datele sunt modelate flexibil. În coloana Identity, se observă că pentru parcare, lipsește name, iar în Amenities, atributele salvate sunt complet diferite. HBase ofera un shell, bazat pe JRuby, ce permite interacțiunea cu tabele, modificarea schemei sau acțiuni mai complicate ce pot fi automatizate datorita limbajului JRuby.

Pentru a crea un tabel din linia de comandă vom proceda în felul următor:

hbase> create "place­', "identity", "address", ""amenities"

Acesta va crea tabelul cu numele "place" și având două familii de coloane "identity" , "address" și amenities. Pentru a scrie o valoare se specifică tabela, rândul, coloana și valoarea

hbase> put "place", "1234", "identity:cuisine", "french"

Similar se efectuează o citire:

hbase> get "place", "1234"

sau

hbase> get "place", "1234", "identity"

O lista completă de comenzi pentru Shell este disponibilă aici: http://wiki.apache.org/hadoop/Hbase/Shell. Deoarece HBase a fost dezvoltat în limbajul Java, e normal ca API-ul principal să fie Java.

Mai întâi e nevoie de un obiect de configurare care e folosit de client pentru a se putea conecta la server. Când se creează instanța, își caută proprietățile de inițializare în hbase-site.xml sau în hbase-default.xml care trebuie sa fie in CLASSPATH.

private static Configuration conf = HBaseConfiguration.create();

HbaseAdmin este interfața de access la metadata tabelelor și oferă funcționalități administrative.

public void creatTable(String tableName, String[] familys) throws Exception{
  HBaseAdmin admin = new HBaseAdmin(conf);
  if (admin.tableExists(tableName)) {
        System.out.println("table already exists!");
  } else {
  HTableDescriptor tableDesc = new HTableDescriptor(tableName);
  for (int i = 0; i < familys.length; i++) {
      tableDesc.addFamily(new HColumnDescriptor(familys[i]));
  }
  admin.createTable(tableDesc);
  System.out.println("create table " + tableName + " ok.");
   }
 }

Folosind HTable se face conexiunea cu tabela dorită. Pentru a adăuga un rând nou se folosește Put. În HBase totul se stochează ca șiruri de bytes. Clasa Bytes convertește orice tip Java în șiruri de biți.

public void addRecord(String tableName, String rowKey,
            String family, String qualifier, String value) 
	                             throws Exception {
    try {
       HTable table = new HTable(conf, tableName);
       Put put = new Put(Bytes.toBytes(rowKey));
       put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier), 
           Bytes.toBytes(value));
          
       table.put(put);
       System.out.println("insert recored " + rowKey + " to table "
                    + tableName + " ok.");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

Pentru a citi un record, se folosește Get, iar răspunsul e încapsulat într-un obiect de tip Result

public void getOneRecord (String tableName, String rowKey)
  throws IOException {
	HTable table = new HTable(conf, tableName);
	Get get = new Get(rowKey.getBytes());
	Result rs = table.get(get);
	for(KeyValue kv : rs.raw()){
	System.out.print(new String(kv.getRow()) + " " );
	System.out.print(new String(kv.getFamily()) + ":" );
	System.out.print(new String(kv.getQualifier()) + " " );
	System.out.print(kv.getTimestamp() + " " );
	System.out.println(new String(kv.getValue()));
     }
}

Când nu sunt cunoscute cheile de căutare, se folosește Scanner ce oferă o interfața de tip cursor asupra conținutului din tabel.

public void getAllRecord (String tableName) {
 try {
	HTable table = new HTable(conf, tableName);
	Scan s = new Scan();
	ResultScanner ss = table.getScanner(s);
	for (Result r : ss) {
	 for (KeyValue kv : r.raw()) {
           System.out.print(new String(kv.getRow()) + " ");
	   System.out.print(new String(kv.getFamily()) + ":");
	   System.out.print(new String(kv.getQualifier()) + " ");
	   System.out.print(kv.getTimestamp() + " ");
	   System.out.println(new String(kv.getValue()));
	}
     }
  } catch (IOException e){
	e.printStackTrace();
 }
}

Rândurile din tabele sunt păstrate sortat după chei, dar nu există nici o altă modalitate de sortare sau indexare după alte coloane. Dacă se dorește căutarea după altceva în afară de chei, atunci trebuie să recurgem la scanare sau să ne creeam un index propriu.

Un alt minus ar fi lipsa conceptului de tip de date. Tot ce se stocheaza în HBase este interpretat ca șir de biți. Nu există vreo deosebire între Date și String.

HBase nu se instalează niciodată singur. Pentru a funcționa are nevoie de Hadoop (o platformă MapReduce), HDFS (un sistem distribuit de fișiere) și Zookeper (un sistem ce coordonează nodurile din cluster). Mai multe despre aceste tehnologii într-un număr viitor.

Este important de reținut că HBase este soluția pentru probleme de stocare complexe din punct de vedere al dimensiunii largi și a structurii dinamice a datelor. HBase nu e o soluție pentru probleme "mărunte".

Am putea încheia aici radiografia HBase, dar merită menționat cum Facebook a găsit o funcționalitate ingenioasă pentru HBase. Facebook folosește HBase ca o componenta centrală a sistemului său de messaging, atât pentru stocarea mesajelor utilizatorilor, cât și pentru a păstra un index inversat pentru căutarea mesajelor.

În tabelul de indecsi, cheile sunt ID-urile userilor, coloanele sunt cuvinte ce apar în mesajele utilizatorilor, iar timestamp-urile sunt ID-urile mesajelor care conțin cuvântul.

Cum mesajele utilizatorilor sunt imutabile, intrările în index sunt statice și ele. Conceptul de versionare nu are sens aici, dar Facebook îl folosește pentru a stoca ID-urile mesajelor. Practic, au câștigat o altă dimensiune pentru date.

Bibliografie:

1. http://hbase.apache.org/book/quickstart.html

2. Seven Databases in Seven Weeks, Eric Redmond

LANSAREA NUMĂRULUI 148

Agile Craftsmanship

joi, 24 Octombrie, ora 18:30

Colors in Projects (București)

Facebook Meetup StreamEvent YouTube

Agile Leadership &
Ways of Working

miercuri, 30 Octombrie, ora 18:00

ING Hubs Romania (Cluj)

Facebook Meetup StreamEvent YouTube

Conferință TSM

NUMĂRUL 147 - Automotive

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects