ABONAMENTE VIDEO REDACȚIA
RO
EN
×
▼ LISTĂ EDIȚII ▼
Numărul 16
Abonament PDF

Analitica Big Data în aplicațiile moderne

Andras Gyalai
Software architect
@ISDC
MANAGEMENT


Privind înapoi la ultimii douăzeci de ani, ne confruntăm cu ceea ce oamenii de știință numesc Legea întoarcerilor accelerate. Pe scurt, transformarea și inovația tehnologică a acestor ultimi douăzeci de ani reprezintă rezultatul ultimilor două mii de ani laolaltă. Mai precis, industria tech a suferit schimbări fundamentale în felul în care software-ul este construit, livrat și în final experimentat de către omul de rând - consumatorul. De la batch jobs (programe cu comenzi multiple, executate fără intervenția utilizatorului) la aplicații care rulează pe computerele personale și apoi aplicații web-based și mobile, asemenea dislocări implică modificări semnificative în hardware, asociate cu noi tipuri de aplicații.

În plus, aplicațiile moderne pun accent pe un nou vârf al transformării turbulente și accelerate: utilizarea Big Data. Cererea crescândă pentru platforme analitice de generație următoare care oferă clienților răspunsuri aproape în timp real, declanșate de date în timp real cum ar fi clickstreams (istoria accesărilor sau parcursul vizitatorilor), social media, sensori, combinate cu puterea de executare distribuită a seriilor de comenzi, demonstrează încă o dată faptul că inteligența ar trebui să se afle, implicit, în centrul oricărei aplicații software.

DEOARECE DATELE CONDUC LA COMPORTAMENT INTELIGENT CARE DUCE LA PROFIT.

Acționând potrivit provocărilor din afaceri și ambițiilor clienților săi, ISDC a creat PLATFORMA ANALITICĂ BIG DATA care se adresează nevoilor mai sus menționate și facilitează o rată crescută a productivității și o rentabilitate mai mare. Soluția noastră ajută afacerile să își administreze mai bine fluxurile de date cu volum mare, varietate mare și viteză mare și să transforme aceste date în informații care să genereze profit. Această lucrare explică arhitectura din spatele soluției noastre și oferă pași practici pentru implementarea eficientă a proiectelor analitice Big Data.

Aplicațiile moderne

În anii trecuți a avut loc o schimbare treptată a ceea ce constituie elementul pe care o aplicație software pune accentul. Din anii 90 și până recent, o aplicație software punea accentul în primul rând pe funcționalitate. Mai nou - în principal datorită consumatorismului - funcționalitatea este considerată ceva absolut obligatoriu, iar accentul principal s-a mutat pe design.

În ultimii ani, există o tendință evidentă de a integra din ce în ce mai mult comportament inteligent în aplicații, în timp ce funcționalitatea și designul au devenit noul "must have".

Nevoia de comportament inteligent nu este nouă, dar la tehnologiile din trecut, acesta era un țel greu de atins. În ciuda dificultății în utilizare, metodele statistice clasice erau folosite pentru a genera modele predictive, ceea ce primea multe critici din partea industriei. Au apărut noi modele predictive, dar și acestea au dat naștere unor noi probleme.

Unul dintre motoarele principale care angrenează schimbarea este nevoia de a analiza cantități de date din ce în ce mai mari, împreună cu creșterea acurateței modelelor. Dar această cerință atrage o nouă problemă: capacitatea de calcul crește exponențial, atunci când acuratețea este mărită.

"Noile tehnologii Big Data și Analitice oferă o putere de calcul mare pe un hardware disponibil și accesibil, de calcul în paralel."

Răspunsul la această provocare este apariția unui nou set de tehnologii centrate pe Big Data și analiza datelor. Ele oferă o capacitate mare de calcul pe un hardware disponibil și accesibil, de calcul în paralel. Aceste două tehnologii fac opțiunea de a include inteligență în fiecare aplicație software mult mai atrăgătoare deoarece acum ele sunt mai rentabile și au capacitatea - mai mult ca înainte - de a transforma datele în profit prin intermediul comportamentului inteligent.

Big Data

Organizația dumneavoastră, ca orice altă companie de succes, adună și distribuie mai multe date, din mai multe surse, în mai multe forme decât înainte. Din acest motiv, vă confruntați cu provocarea de a gestiona fluxuri de date de volum mare, varietate mare și viteză mare.

Aproape orice companie descoperă că trebuie nu doar să gestioneze volume de date din ce în ce mai mari în sistemele lor în timp real, dar și să analizeze aceste informații astfel încât să poată lua rapid deciziile potrivite pentru a concura eficient pe piață. Potrivit studiului făcut de Andrew McAfee și Erik Brynjolfsson (MIT), companiile care introduc Big Data și analitică în operațiunile lor indică procente de productivitate și profitabilitate cu 5% - 6% mai mari decât cele ale colegilor lor.

"Companiile care introduc Big Data și analitică în operațiunile lor indică procente de productivitate și profitabilitate cu 5% - 6% mai mari decât cele ale colegilor lor".

În Big Data există multe întrebări valoroase, fără răspuns. Provocarea este aceea de a găsi modalitatea de a separa semnalul de zgomot din date, determinând indicatori predictivi concreți, capabili să transforme datele în informații care, la rândul lor, să genereze profit. Acesta este momentul în care aveți nevoie de analitică.

Pași în construirea unui proiect Big Data

După definirea scopului afacerii, sunt necesari următorii pași:

  • Obținerea datelor neprelucrate din surse de date multiple, cu volume diferite și viteză diferită.
  • Rafinarea datelor neprelucrate obținute.
  • Depozitarea datelor neprelucrate.
  • Integrarea datelor (structurate, nestructurate, în timp real, etc.)
  • Transformarea, gruparea datelor și stocarea rezultatelor.

Analitica Big Data

"Cunoașterea este profit" pentru acele firme care utilizează soluțiile analiticii predictive Big Data pentru a reduce riscurile, a lua decizii înțelepte, a crea experiențe diferențiate și mai personale pentru clienți. Răspunsurile se află în date - dar numai dacă companiile le caută.

Analitica predictivă utilizează algoritmi pentru a găsi tipare în date, prin analizarea surselor Big Data. Tiparele sunt materializate în modele predictive. Tiparele pot prezice rezultate similare, de aceea, utilizarea lor poate îmbunătăți performanța afacerii sau poate diminua riscurile.

De ce aveți nevoie pentru a beneficia de observațiile ascunse în date?

Pentru a-și îmbunătăți performanța cu analitica avansată Big Data, companiile trebuie să își dezvolte abilitățile în trei domenii:

  • SURSE DE DATE MULTIPLE: Îmbunătățiți arhitectura și infrastructura IT pentru o îmbinare ușoară a surselor multiple de date, interne și externe. De asemenea, alegeți datele potrivite.
  • MODELE DE PREDICȚIE ȘI OPTIMIZARE: Construiți modele analitice care compensează complexitatea cu ușurința utilizării, concentrându-se asupra celor mai mari motoare de performanță.
  • TRANSFORMARE ORGANIZAȚIONALĂ: Creați instrumente simple, ușor de înțeles pentru oamenii din linia întâi și actualizați procesele și dezvoltați capacitățile pentru a facilita utilizarea instrumentelor.

"Cunoașterea este profit."

Atunci când plănuiți să utilizați analitica, aveți două opțiuni: fie utilizați pachetele de analitică universale, fie construiți aplicații de analitică la comandă. După cum afirmă raportul McKinsey, pachetele de analitică universale pot fi rentabile și mai rapid de instalat decât modelele la comandă, ajustate. Dar acestora le lipsesc calitățile unei aplicații killer, care este construită pe cazuri de business reale și care poate motiva managerii.

Pe baza nevoilor identificate la clienții săi, ISDC a conceput Arhitectura Analiticii Big Data care reflectă viziunea noastră cu privire la modalitatea în care trebuie aplicată analitica în zilele noastre pentru a genera profit.

Pași în construirea unui proiect de analitică Big Data

După definirea scopului afacerii, sunt necesari următorii pași principali:

  • Înțelegerea datelor provenite dintr-o varietate de surse (interne și externe).
  • Pregătirea datelor (integrare, curățare, transformare).
  • Crearea unui model predictiv (găsirea tiparelor).
  • Evaluarea modelului predictiv (sunt reale tiparele?).
  • Utilizarea modelului (folosirea predicției).
  • Monitorizarea eficienței modelului (evaluarea acurateței predicțiilor).

Referințe

Prezicerea codurilor de procedură medicală

În spitale, fiecare procedură medicală efectuată pe pacienți este numită și descrisă textual de către personalul medical, în fișa medicală a pacientului. De asemenea, fiecare procedură medicală are un cod unic, iar acel cod trebuie indicat în fișa medicală. Fiecărui cod care indică o procedură medicală îi corespunde o sumă de bani care va fi plătită de companiile de asigurări. Spitalele trimit lista de coduri companiilor de asigurări (cu documentația atașată) cerând compensarea corespunzătoare.

Există cazuri în care personalul medical omite să indice acele coduri sau codurile sunt incorect specificate. În aceste cazuri, spitalele pot pierde bani.

ISDC ajută spitalele prin elaborarea unui software de analitică la comandă, bazat pe un algoritm de exploatare a textului care este capabil să detecteze, cu mare acuratețe, atunci când un cod este indicat în mod greșit și să prezică codul corect pe baza descrierii textuale a procedurii medicale. Modelul predictiv constă într-un clasificator probabilistic capabil să învețe singur relațiile dintre cuvintele/ expresiile din fișele medicale existente și codurile corespunzătoare.

În algoritm sunt incluși următorii pași: procesarea textului; amestecarea textelor și formarea a două grupe: antrenare (3/4), test (1/4); convertirea cuvintelor în atomi lexicali; eliminarea cuvintelor stop; generarea n-gram; extragerea caracteristicilor semnificative; executarea algoritmului de învățare folosing grupul de antrenare; prezicerea codului pe texte din grupul de test; calcularea acurateții predicției.

Rezumarea textului

În instituțiile de psihiatrie, fiecare pacient are un registru medical în care personalul instituției descrie zilnic starea medicală curentă a pacientului și toate faptele semnificative din acea zi. Datorită caracteristicilor acestui tip de boală - adesea incurabilă și manifestată pe o perioadă lungă de timp - dimensiunile fișelor pacienților cresc considerabil de-a lungul anilor.

Atunci când se schimbă personalul medical al unui anumit pacient, acesta trebuie să cunoască condiția curentă a pacientului, care poate fi ușor accesată. În plus, ar fi un mare ajutor pentru ei să aibă un rezumat rapid al dosarului pacientului (care are o reprezentare textuală).

ISDC ajută asemenea instituții psihiatrice prin elaborarea unui software de analitică special conceput, care implementează o rezumare inovativă a textului și un algoritm de extragere a cuvintelor cheie.

În acest algoritm sunt incluse următoarele etape: procesarea textului, convertirea în atomi lexicali, marcarea părților de vorbire, selectarea numai a cuvintelor lexicale relevante, aplicarea algoritmului de ierarhizare, obținerea celor mai relevante cuvinte cheie și propoziții.

Personalizarea conținutului

Companiile mari care sunt extinse din punct de vedere geografic se confruntă cu provocări în ceea ce privește asigurarea conținutului web global și local, reticular și clasificat, care este optimizat pentru motoarele de căutare și relevant pentru mii de locații de pretutindeni din lume.

Există multe surse potențiale de date care pot fi combinate laolaltă, care generează site-uri complete și structuri de site-uri, cum ar fi: datele geo-politice ale lumii, regiunile comerciale, puncte de interes, produse ale companiei marcate geografic, media identificată geografic, conținut textual descriptiv, cuvinte cheie relevante și combinații de cuvinte cheie, interconexiuni bazate pe volumul de căutare și valoarea afacerii, servicii locale și multe altele.

ISDC a dezvoltat o soluție care constă într-un set de activități de procesare complexe, utilizate pentru a genera website-uri mari, cu zeci de categorii și zeci de mii de pagini cu conținut relevant din punct de vedere geografic, presă bogată, texte descriptive, interconexiuni algoritmice, navigare încrucișată și informații despre produs cu fațete multiple.

Paginile sunt construite utilizând algoritmi de calcul geo, succesiuni de operațiuni de producere a conținutului cu distribuire, authoring, verificări multiple, verificare a calității și publicare automată, algoritmi de conectare bazați pe volum de căutare și valoare, algoritmi de sincronizare media și selecție, categorii care pot fi modificate la comandă, cu cuvinte cheie și modele de pagină, pentru a obține o fracțiune din costul tehnicilor comune, iterarea fiind redusă și având loc la intervale mai mari.

Analiza sentimentelor

Din dorința de a fi mai aproape de nevoile clienților, o companie importantă din lumea financiară trebuia să obțină pulsul pieței prin aplicațiile de pe mobilele personale ale acestora. Pentru a atinge acest scop, aveau nevoie să afle atât gradul de satisfacție cât și zonele cheie unde se impunea mai multă atenție.

În zilele noastre, feedbackul se află acolo pe internet. Trebuie doar să fie centralizat și analizat. Primele locuri de unde se poate aduna feedback sunt App stores, Social Media, Bloguri, etc. Datele rezultate sunt obținute prin analizarea și "extragerea", din texte, a sentimentelor (gradelor de satisfacție) și zonele cheie de interes. Rezultatele obținute trebuie să fie afișate într-o manieră inteligentă și flexibilă.

Pentru a strânge datele, au fost utilizate numeroase accesorii ale aplicațiilor și conectori pentru a realiza conectarea la diferite suporturi de informații de pe internet. Analiza a fost efectuată prin utilizarea unor algoritmi foarte performanți de analizare a sentimentelor și extragere a cuvintelor cheie. Utilizând Inteligența Business, ISDC a reușit să ofere tablouri de bord flexibile și inteligente care afișează informația pentru analiști. Cu ajutorul acestor tablouri de bord, clientul poate observa atât gradul de satisfacție, cât și zonele cheie sensibile, dintr-o singură privire.

Cercetare unificatoare

În lumea cercetării academice, găsirea articolelor relevante cu informații de ultimă oră a fost întotdeauna o sarcină dificilă; unul dintre liderii de pe piața mondială în serviciile de management al conținutului a venit cu o soluție pentru a facilita procesul de descoperire și acces la conținutul electronic. Soluția este de fapt o platformă cu totul nouă peste care vor concepe alte soluții inovatoare pentru toți utilizatorii lor finali, nu doar pentru cercetători.

Puterea platformei este dată de faptul că ea oferă acces direct, unitar, către toate resursele electronice ale bibliotecii cercetătorului; și nu doar atât, ci de asemenea și către acelea la care nu are acces, dar le va putea comanda/ cumpăra. Toate informațiile erau deja disponibile în sistemele existente, ca și entități separate; provocarea a fost aceea de a le curăța, configura, aduna și în final de a le încărca în baza de date de documente NoSQL. În viitor, vor putea dezvolta, pornind de aici, alte servicii de cercetare și descoperire.

Platforma este concepută drept o combinație între soluții universale și proprii, balansând ce e mai bun din ambele; dezvoltare rapidă și livrare rapidă pe piață printr-o căutare rapidă, flexibilă și scalabilă în baza de documente Big Data. Și, nu în ultimul rând, dezvoltare internă pentru aplicația personalizată prin furnizarea unei interfețe ce oferă o experiență bogată utilizatorilor finali, cercetători sau bibliotecari.

Arhitectura de referință a analiticii Big Data ISDC

Sistemele de analiză anterioare erau în esență descriptive, bazându-se pe date tranzacționale, vechi de săptămâni sau luni și implicând cantități relativ mici de volum.

Sistemele generației următoare asigură capacitatea de a captura noi informații de pe web (clickstreams, etc.), locații geografice, comunități sociale, dispozitive inteligente, senzori și multe altele. Deoarece abundența datelor include din ce în ce mai multe intrări în timp real, analiza predictivă are o tendință pronunțată de a fi în timp real. Arhitectura de referință propusă de ISDC include analitica în timp real pe același nivel de importanță ca și prelucrarea pe loturi, punând accent pe rolul analiticii în două zone: raportare (aceasta este abordarea clasică) și software operațional (web sites, ERP, etc.).

Diagrama de mai jos ilustrează - considerând web site-ul companiei drept software operațional - cum analitica poate influența conținutul web site-ului văzut de fiecare utilizator, combinând observații din:

  • tipare găsite în datele istorice prin intermediul analiticii de lot;
  • tipare găsite analizând, în timp real, fluxul de date provenit de la furnizorii de date în timp real (clickstreams, rata burselor de valori, diverse, etc.).

Conferință

Sponsori

  • ntt data
  • 3PillarGlobal
  • Betfair
  • Telenav
  • Accenture
  • Siemens
  • Bosch
  • FlowTraders
  • MHP
  • Connatix
  • UIPatj
  • MetroSystems
  • Globant
  • MicroFocus
  • Colors in projects