ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 150
Numărul 149 Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 58
Abonament PDF

TrustServista – un produs ce promite stoparea fenomenului fake news, dezvoltat la Cluj și finanțat de Google

George Bara
Co-fondator
@ZA Cloud



DIVERSE

Fake News" este un termen care a intrat în vocabularul comun destul de recent, o dată cu alegerile prezidențiale din SUA. Un fenomen care era cunoscut mai mult din prisma articolelor de tip click bait devenite virale rapid pe rețelele sociale, știrile false au cunoscut notorietate doar când impactul lor global a fost recunoscut public de șefii giganților IT Google sau Facebook care au subliniat în premieră că acest gen de știri are puterea de a influența alegerile democratice.

Fake News, o problemă globală

"Desigur". Acesta a fost răspunsul CEO-ului Google, Sundar Pinchai, în noiembrie 2017 în cadrul unui interviu BBC, întrebat dacă știrile false au înclinat balanța în favoarea lui Donald Trump la alegerile prezidențiale din Statele Unite. Declarația venea la câteva zile după ce Adam Mosseri, VP of Product Management în cadrul Facebook, afirma că această companie trebuie să facă mai multe pentru a stopa acest fenomen, în contextul în care Facebook a devenit în 2016 cel mai important canal social media de distribuție al știrilor online.

Soluțiile nu s-au lăsat așteptate. De la liste negre cu site-uri care produc știri false, la exerciții de crowdsourcing și chiar servicii oferite organizații specializate în fact-checking, fenomenul fake news a devenit subiectul numărul 1 al întregii industrii media, un motiv de îngrijorare serios pentru distribuitorii de conținut și o dilemă pentru cercetătorii în domeniu. În tot acest timp, un startup din Cluj-Napoca fondat în 2013, Zetta Cloud, se pregătea să lanseze prima versiune a unui produs care promitea să ajute organizațiile media pentru detectarea automată a știrilor cu conținut redus de încredere, totul într-o manieră 100% automată: TrustServista.

TrustServista - Partea ascunsă a icebergului informațional

Gândit cu aproape 1 an înainte ca fenomenul fake news să cuprindă întreaga planetă și finanțat printr-un grant al Google (Digital News Initiative) la jumătatea anului 2016, produsul TrustServista a fost lansat în versiune alfa la începutul lunii februarie 2017. Compania Zetta Cloud, specializată în analize de date și inteligență artificială, se află la al doilea produs destinat sectorului "digital news", după ce în 2013 a lansat aplicația Știrili, prima și încă singura aplicație de acest gen din România.

Platforma TrustServista se adresează în primul rând jurnaliștilor care lucrează pentru agențiile de știri, dar are ca țintă orice profesionist media care activează într-un newsroom și are nevoie de o unealtă care să automatizeze procesul de filtrare și verificare a informației. TrustServista are ca principal scop reducerea semnificativă a timpului de colectare și analiză a informației, prin automatizarea completă a unor activități umane: de la căutarea, colectarea și filtrarea de articole, găsirea de conținut similar despre un anumit subiect și legăturile dintre articolele procesate, până la clasificarea automată a informației pe baza gradului de încredere a acesteia.

Cum funcționează?

Preluând concepte din jurnalismul de investigație și din Open Source Intelligence (OSINT), TrustServista folosește algoritmi de inteligență artificială, mai precis procesare naturală de limbaj (NLP), pentru a extrage automat cât de multă informație din articolele online. Astfel, fiecare articol colectat este vectorizat sub forma unor entități extrase din text și frecvența acestora. Entitățile, adică cuvinte cheie care sunt categorizate în nume de persoane, unități geografice, organizații sau unități de măsură, reprezintă contextul fiecărui articol. Importanța acestui procedeu de extragere automată de entități, specific procesării naturale de limbaj, este abstractizarea fiecărui articol pentru a facilita căutarea după anumite subiecte și detectarea de similarități între articole.

Și fiindcă orice subiect de presă are și o sursă a informației, care poate fi un alt articol citat (sau necitat!), o postare de pe rețelele sociale sau declarații sau evenimente publice, gradul de încredere a unui articol este determinat în principal de sursa informației folosite, numită în TrustServista "pacientul zero", nume inspirat (deloc întâmplător) din domeniul epidemiologic. Pentru că propagarea știrilor false se aseamănă cu răspândirea unui virus, este crucială determinarea sursei epidemiei, adică a "pacientul zero", lucru pe care TrustServista îl realizează prin extragerea de URL-uri din articole dar și prin găsirea și urmărirea referințelor implicite, unde sursele sunt doar menționate ("potrivit The Guardian") însă fără a fi referite cu URL. Sarcina algoritmilor este de a găsi cu o mare acuratețe articolul la care se face referire chiar dacă nu cunoaște în prealabil numele sau locația URL a acestuia.

Rezultatul acestei analize a legăturilor ("link analysis") rezultă într-un graf de articole care poate fi parcurs pentru a găsi atât Pacientul Zero, cât și alte legături care pot da naștere unor noi ipoteze. Pentru fiecare articol se calculează tot în mod automat, obiectivitatea sau subiectivitatea, folosindu-se un algoritm bazat pe analiza de sentiment. Contextul, o altă metrică importantă pentru gradul de încredere și care de obicei lipsește în cazul articolelor de tip click-bait, este determinat prin analizarea entităților de tip nume de persoane, locații și unități temporale, verificându-se inclusiv dacă s-a găsit un autor al articolului. Toate aceste elemente sunt folosite pentru a clasifica automat articolele în funcție de gradul lor de încredere, rezultatul putând fi apoi folosit de utilizatori pentru a determina sursele care produc, dar și care preiau fake news.

De exemplu, un articol care nu are autor, nu are contextul setat suficient și are un grad ridicat de subiectivitate cu un ton al conținutului fie prea negativ, fie prea pozitiv, va primi un scor sub 25%. Dar scorul de încredere nu se traduce prin fals sau adevărat, analiză care trebuie făcută de evaluatorul uman. Există însă și cazuri în care nivelul de subiectivitate indică faptul că articolul respectiv este un material de opinie, ceea ce scade totuși gradul de încredere nealterând semnificativ informațiile din articol. Scorul generat automat pentru câteva zeci de mii de articole procesate de la lansarea aplicației și până în prezent, arată că un scor peste 60% arată conținut cu un grad ridicat de încredere, ceea ce înseamnă că algoritmul necesită rafinare și calibrare în timp, pentru a cuprinde și alte elemente.

Nivel scăzut de încredere nu înseamnă automat fals și viceversa

Sursele citate sunt de asemenea importante. De exemplu, un articol din The Independent analizat de TrustServista în urmă cu două luni (Donald Trump's team 'having meetings in the dark as they can't find right light switch in White House') a arătat faptul că informația principală din articol provenea de pe contul de Twitter a unui fost membru a cabinetului Obama, Ronald Klein, a fotografului oficial al Casei Albe din timpul fostei administrații, Pete Souza, dar și a unui articol publicat de New York Times care făcea referire la oficiali guvernamentali care au dorit să rămână anonimi. Acest articol sursă, cu un grad scăzut de încredere din cauza referințelor anonime, a influențat și scorul de încredere acordat articolului din The Independent care îl cita direct. Cu toate acestea, informația ar putea să fie adevărată, însă nu poate fi verificată, deci primește un nivel al încrederii scăzut.

Abordarea complet automată a TrustServista nu exclude însă intervenția umană. Scorul automat de încredere necesită validarea și calibrarea umană. De aceea, în versiunile următoare va fi îmbunătățit semnificativ prin utilizarea machine learning pentru diferite rețete de fake news (click-bait, propagandă, etc.) și adăugarea a mai multor elemente care vor fi verificate, atât pentru surse, cât și pentru articole. Dar cel mai important, TrustServista va permite procesarea de informații și în alte limbi decât engleza, pentru că informația circulă dincolo de granițele și limba țării de unde provine.

Tehnologii

Tehnologia TrustServista este specifică platformelor Big Data cu o arhitectură de microservicii bazată pe Kafka. Se folosește în principal componente ale Hadoop, cum ar fi Hbase, HbaseGraph și zookeper. O mare parte din algoritmii TrustServista, inclusiv de procesare naturală de limbaj, sunt creați de către Zetta Cloud, însă pentru anumite operațiuni (cum ar fi analiza de sentiment) se folosește platforma Rosette de la Basis Technology.

TrustServista oferă, pe lângă interfața grafică web, și un API care permite integrarea în tehnologii complementare gen newsroom dashboards, platforme OSINT sau chiar cu platforme de rețele sociale care ar folosi mecanismul automat al TrustServista în determinarea a gradului de încredere a informației pentru a preveni propagarea de conținut tip fake news.

Din luna iunie 2017, TrustServista va fi disponibilă în versiunea de producție 1.0 și va putea fi achiziționată sub forma unor subscripții.

NUMĂRUL 149 - Development with AI

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects