TrustServista – un produs ce promite stoparea fenomenului fake news, dezvoltat la Cluj și finanțat de Google

George Bara
Co-fondator
@ZA Cloud

DIVERSE

Fake News" este un termen care a intrat în vocabularul comun destul de recent, o dată cu alegerile prezidențiale din SUA. Un fenomen care era cunoscut mai mult din prisma articolelor de tip click bait devenite virale rapid pe rețelele sociale, știrile false au cunoscut notorietate doar când impactul lor global a fost recunoscut public de șefii giganților IT Google sau Facebook care au subliniat în premieră că acest gen de știri are puterea de a influența alegerile democratice.

Fake News, o problemă globală

"Desigur". Acesta a fost răspunsul CEO-ului Google, Sundar Pinchai, în noiembrie 2017 în cadrul unui interviu BBC, întrebat dacă știrile false au înclinat balanța în favoarea lui Donald Trump la alegerile prezidențiale din Statele Unite. Declarația venea la câteva zile după ce Adam Mosseri, VP of Product Management în cadrul Facebook, afirma că această companie trebuie să facă mai multe pentru a stopa acest fenomen, în contextul în care Facebook a devenit în 2016 cel mai important canal social media de distribuție al știrilor online.

Soluțiile nu s-au lăsat așteptate. De la liste negre cu site-uri care produc știri false, la exerciții de crowdsourcing și chiar servicii oferite organizații specializate în fact-checking, fenomenul fake news a devenit subiectul numărul 1 al întregii industrii media, un motiv de îngrijorare serios pentru distribuitorii de conținut și o dilemă pentru cercetătorii în domeniu. În tot acest timp, un startup din Cluj-Napoca fondat în 2013, Zetta Cloud, se pregătea să lanseze prima versiune a unui produs care promitea să ajute organizațiile media pentru detectarea automată a știrilor cu conținut redus de încredere, totul într-o manieră 100% automată: TrustServista.

TrustServista - Partea ascunsă a icebergului informațional

Gândit cu aproape 1 an înainte ca fenomenul fake news să cuprindă întreaga planetă și finanțat printr-un grant al Google (Digital News Initiative) la jumătatea anului 2016, produsul TrustServista a fost lansat în versiune alfa la începutul lunii februarie 2017. Compania Zetta Cloud, specializată în analize de date și inteligență artificială, se află la al doilea produs destinat sectorului "digital news", după ce în 2013 a lansat aplicația Știrili, prima și încă singura aplicație de acest gen din România.

Platforma TrustServista se adresează în primul rând jurnaliștilor care lucrează pentru agențiile de știri, dar are ca țintă orice profesionist media care activează într-un newsroom și are nevoie de o unealtă care să automatizeze procesul de filtrare și verificare a informației. TrustServista are ca principal scop reducerea semnificativă a timpului de colectare și analiză a informației, prin automatizarea completă a unor activități umane: de la căutarea, colectarea și filtrarea de articole, găsirea de conținut similar despre un anumit subiect și legăturile dintre articolele procesate, până la clasificarea automată a informației pe baza gradului de încredere a acesteia.

Cum funcționează?

Preluând concepte din jurnalismul de investigație și din Open Source Intelligence (OSINT), TrustServista folosește algoritmi de inteligență artificială, mai precis procesare naturală de limbaj (NLP), pentru a extrage automat cât de multă informație din articolele online. Astfel, fiecare articol colectat este vectorizat sub forma unor entități extrase din text și frecvența acestora. Entitățile, adică cuvinte cheie care sunt categorizate în nume de persoane, unități geografice, organizații sau unități de măsură, reprezintă contextul fiecărui articol. Importanța acestui procedeu de extragere automată de entități, specific procesării naturale de limbaj, este abstractizarea fiecărui articol pentru a facilita căutarea după anumite subiecte și detectarea de similarități între articole.

Și fiindcă orice subiect de presă are și o sursă a informației, care poate fi un alt articol citat (sau necitat!), o postare de pe rețelele sociale sau declarații sau evenimente publice, gradul de încredere a unui articol este determinat în principal de sursa informației folosite, numită în TrustServista "pacientul zero", nume inspirat (deloc întâmplător) din domeniul epidemiologic. Pentru că propagarea știrilor false se aseamănă cu răspândirea unui virus, este crucială determinarea sursei epidemiei, adică a "pacientul zero", lucru pe care TrustServista îl realizează prin extragerea de URL-uri din articole dar și prin găsirea și urmărirea referințelor implicite, unde sursele sunt doar menționate ("potrivit The Guardian") însă fără a fi referite cu URL. Sarcina algoritmilor este de a găsi cu o mare acuratețe articolul la care se face referire chiar dacă nu cunoaște în prealabil numele sau locația URL a acestuia.

Rezultatul acestei analize a legăturilor ("link analysis") rezultă într-un graf de articole care poate fi parcurs pentru a găsi atât Pacientul Zero, cât și alte legături care pot da naștere unor noi ipoteze. Pentru fiecare articol se calculează tot în mod automat, obiectivitatea sau subiectivitatea, folosindu-se un algoritm bazat pe analiza de sentiment. Contextul, o altă metrică importantă pentru gradul de încredere și care de obicei lipsește în cazul articolelor de tip click-bait, este determinat prin analizarea entităților de tip nume de persoane, locații și unități temporale, verificându-se inclusiv dacă s-a găsit un autor al articolului. Toate aceste elemente sunt folosite pentru a clasifica automat articolele în funcție de gradul lor de încredere, rezultatul putând fi apoi folosit de utilizatori pentru a determina sursele care produc, dar și care preiau fake news.

De exemplu, un articol care nu are autor, nu are contextul setat suficient și are un grad ridicat de subiectivitate cu un ton al conținutului fie prea negativ, fie prea pozitiv, va primi un scor sub 25%. Dar scorul de încredere nu se traduce prin fals sau adevărat, analiză care trebuie făcută de evaluatorul uman. Există însă și cazuri în care nivelul de subiectivitate indică faptul că articolul respectiv este un material de opinie, ceea ce scade totuși gradul de încredere nealterând semnificativ informațiile din articol. Scorul generat automat pentru câteva zeci de mii de articole procesate de la lansarea aplicației și până în prezent, arată că un scor peste 60% arată conținut cu un grad ridicat de încredere, ceea ce înseamnă că algoritmul necesită rafinare și calibrare în timp, pentru a cuprinde și alte elemente.

Nivel scăzut de încredere nu înseamnă automat fals și viceversa

Sursele citate sunt de asemenea importante. De exemplu, un articol din The Independent analizat de TrustServista în urmă cu două luni (Donald Trump's team 'having meetings in the dark as they can't find right light switch in White House') a arătat faptul că informația principală din articol provenea de pe contul de Twitter a unui fost membru a cabinetului Obama, Ronald Klein, a fotografului oficial al Casei Albe din timpul fostei administrații, Pete Souza, dar și a unui articol publicat de New York Times care făcea referire la oficiali guvernamentali care au dorit să rămână anonimi. Acest articol sursă, cu un grad scăzut de încredere din cauza referințelor anonime, a influențat și scorul de încredere acordat articolului din The Independent care îl cita direct. Cu toate acestea, informația ar putea să fie adevărată, însă nu poate fi verificată, deci primește un nivel al încrederii scăzut.

Abordarea complet automată a TrustServista nu exclude însă intervenția umană. Scorul automat de încredere necesită validarea și calibrarea umană. De aceea, în versiunile următoare va fi îmbunătățit semnificativ prin utilizarea machine learning pentru diferite rețete de fake news (click-bait, propagandă, etc.) și adăugarea a mai multor elemente care vor fi verificate, atât pentru surse, cât și pentru articole. Dar cel mai important, TrustServista va permite procesarea de informații și în alte limbi decât engleza, pentru că informația circulă dincolo de granițele și limba țării de unde provine.

Tehnologii

Tehnologia TrustServista este specifică platformelor Big Data cu o arhitectură de microservicii bazată pe Kafka. Se folosește în principal componente ale Hadoop, cum ar fi Hbase, HbaseGraph și zookeper. O mare parte din algoritmii TrustServista, inclusiv de procesare naturală de limbaj, sunt creați de către Zetta Cloud, însă pentru anumite operațiuni (cum ar fi analiza de sentiment) se folosește platforma Rosette de la Basis Technology.

TrustServista oferă, pe lângă interfața grafică web, și un API care permite integrarea în tehnologii complementare gen newsroom dashboards, platforme OSINT sau chiar cu platforme de rețele sociale care ar folosi mecanismul automat al TrustServista în determinarea a gradului de încredere a informației pentru a preveni propagarea de conținut tip fake news.

Din luna iunie 2017, TrustServista va fi disponibilă în versiunea de producție 1.0 și va putea fi achiziționată sub forma unor subscripții.