Algoritmul de învățare profundă MIT găsește semnale de avertizare ascunse în măsurătorile colectate în timp

Cercetătorii MIT au dezvoltat un algoritm aprofundat bazat pe învățare pentru a detecta anomalii în datele seriilor de timp. Credit: Știri MIT

Un nou algoritm de învățare aprofundat poate oferi notificări avansate atunci când sistemele – de la sateliți la centre de date – se prăbușesc.

Când sunteți responsabil de un satelit multimilionar care atinge spațiul de mii de mile pe oră, doriți să fiți sigur că funcționează bine. Și seriile cronologice vă pot ajuta.

O serie temporală este pur și simplu un registru al unei măsurători efectuate în mod repetat în timp. Poate urmări tendințele sistemului pe termen lung și blocajele pe termen scurt. Exemple includ infama curbă Covid-19 a noilor cazuri zilnice și curba Keeling care a urmat concentrațiile atmosferice de dioxid de carbon din 1958. În epoca datelor mari, „seriile de timp sunt colectate la nivel național, de la sateliți la turbină ”, spune Kalyan Veeramachaneni. “Toate acele mașini au senzori care colectează aceste serii temporale despre modul în care funcționează.”

Dar analizarea acestor serii cronologice și evidențierea punctelor de date anormale din ele poate fi dificilă. Datele pot fi zgomotoase. Dacă un operator de satelit vede o serie de citiri la temperaturi ridicate, de unde știu dacă este o fluctuație inofensivă sau un semn că satelitul se va supraîncălzi?

Aceasta este o problemă Veeramachaneni, care conduce grupul Data-to-AI la cuLaboratorul de sisteme de informare și decizie speră să fie selectat. Grupul a dezvoltat o nouă metodă, bazată pe învățarea profundă, pentru evidențierea anomaliilor din datele seriilor temporale. Abordarea lor, numită TadGAN, a depășit metodele concurente și ar putea ajuta operatorii să detecteze și să răspundă la schimbările majore dintr-o gamă de sisteme de mare valoare, de la un satelit care zboară prin spațiu la o fermă la un server. computer care bâzâie într-un subsol.

Cercetarea va fi prezentată la conferința IEEE BigData din această lună. Autorii lucrării includ membri ai grupului Data-to-AI Veeramachaneni, postdoc Dongyu Liu, student la cercetare Alexander Geiger și masterand Sarah Alnegheimish, precum și Alfredo Cuesta-Infante de la Universitatea Rey Juan Carlos din Spania.

Puncte culminante

Pentru un sistem la fel de complex ca un satelit, analiza seriilor temporale trebuie automatizată. Compania de satelit SES, care colaborează cu Veeramachaneni, primește o serie de timp de la sateliții săi de comunicații – aproximativ 30.000 de parametri unici pentru nava spațială. Operatorii umani din camera de control SES pot ține evidența unei porțiuni din acele serii cronologice atunci când călcă pe ecran. În rest, se bazează pe un sistem de alarmă pentru a marca valorile în afara intervalului. „Așa că au spus:„ Poți să faci mai bine? ””, Spune Veeramachanen. Compania a dorit ca echipa sa să folosească o învățare aprofundată pentru a analiza toate acele serii cronologice și pentru a evidenția orice comportament neobișnuit.

Punctele acestei cerințe sunt mari: dacă algoritmul de învățare profundă nu reușește să detecteze o anomalie, echipa poate pierde ocazia de a remedia lucrurile. Dar dacă alarma se declanșează ori de câte ori există un punct de date zgomotos, recenzorii umani își vor pierde timpul verificând în mod constant algoritmul pe care l-a strigat lupul. „Deci avem aceste două provocări”, spune Liu. „Și trebuie să le echilibrăm”.

În loc să stabilească acel echilibru numai pentru sistemele de satelit, echipa a căutat să creeze un cadru mai general pentru detectarea anomaliilor – unul care ar putea fi aplicat tuturor industriilor. Au apelat la sisteme de învățare profundă numite rețele de generare a contrastului (GAN), utilizate adesea pentru analiza imaginii.

Un GAN constă dintr-o pereche de rețele neuronale. O rețea, „generatorul”, creează imagini false, în timp ce a doua rețea, „discriminatorul”, procesează imaginile și încearcă să stabilească dacă acestea sunt imagini reale sau false produse de generator. Prin multe runde ale acestui proces, generatorul învață din reacțiile discriminatorii și devine capabil să creeze falsificări hiper-realiste. Tehnica este considerată o lecție „supravegheată”, deoarece nu necesită un set de date preetichetate în care imaginile vin etichetate cu teme proprii. (Seturile de date cu etichete mari pot fi dificil de accesat.)

Echipa a adaptat această abordare GAN la datele seriilor cronologice. „Din această strategie de formare, modelul nostru poate arăta ce puncte de date sunt normale și care sunt anormale”, spune Liu. Face acest lucru verificând discrepanțe – posibile anomalii – între seria în timp real și seria falsă generată de GAN. Însă echipa a descoperit că GAN-urile singure nu erau suficiente pentru a detecta anomalii în seriile temporale, deoarece nu reușeau să definească segmentul seriilor în timp real cu care ar trebui comparate cele false. Ca urmare, „dacă utilizați GAN singur, acesta va crea o mulțime de falsuri pozitive”, spune Veeramachaneni.

Pentru a se proteja de falsurile pozitive, echipa și-a completat GAN-ul cu un algoritm numit autocoder – o altă tehnică pentru învățarea profundă, nesupravegheată. Spre deosebire de tendința GAN de a plânge lupul, auto-codificatorii sunt mai predispuși să piardă adevărate anomalii. Acest lucru se datorează faptului că codificatoarele automate tind să capteze multe tipare în serii de timp, uneori interpretând o anomalie reală ca o fluctuație inofensivă – o problemă numită „supraîncărcare”. Combinând un GAN cu un codificator automat, cercetătorii au creat un sistem de detectare a anomaliilor care a atins un echilibru perfect: TadGAN este alert, dar nu declanșează multe alarme false.

Cronometru permanent al seriilor cronologice

În plus, TadGAN a învins competiția. Abordarea tradițională a prognozei seriilor temporale, numită ARIMA, a fost dezvoltată în anii 1970. „Am vrut să vedem cât de departe am ajuns și dacă tiparele de învățare profundă pot fi de fapt îmbunătățite în această metodă clasică”, spune el. Alnegheimish.

Echipa a efectuat teste de detectare a anomaliilor pe 11 seturi de date, stabilind ARIMA împotriva TadGAN și alte șapte metode, inclusiv unele dezvoltate de companii precum Amazon și Microsoft. TadGAN a depășit ARIMA în detectarea anomaliei pentru opt din cele 11 seturi de date. Al doilea cel mai bun algoritm, dezvoltat de Amazon, a depășit doar ARIMA pentru șase seturi de date.

Alnegheimish a subliniat că obiectivul lor nu era doar să dezvolte un algoritm de detectare a anomaliilor la nivel înalt, ci și să îl facă utilizabil pe scară largă. „Știm cu toții că AI suferă de probleme de reproducere”, spune ea. Echipa a pus codul TadGAN în mod gratuit și lansează actualizări periodice. În plus, au dezvoltat un sistem de comparație pentru ca utilizatorii să compare performanțele diferitelor modele de detectare a anomaliilor.

„Acest standard este open source, deci se poate încerca. “Pot să-și adauge propriul model dacă doresc”, spune Alnegheimish. “Vrem să ameliorăm stigmatul conform căruia AI nu poate fi reprodus. Vrem să ne asigurăm că totul este sănătos”.

Veeramachaneni speră că TadGAN va deservi într-o bună zi o mare varietate de industrii, nu doar companii de satelit. De exemplu, poate fi utilizat pentru a monitoriza performanța aplicațiilor informatice care au devenit esențiale în economia modernă. „Pentru a conduce un laborator, am 30 de aplicații. Zoom, Slack, Github – îl numești, îl am “, spune el.” Și mă bazez pe toți pentru a funcționa perfect și pentru totdeauna. “Același lucru este valabil și pentru milioane de utilizatori din întreaga lume.

TadGAN poate ajuta companiile precum Zoom să monitorizeze semnalele de serii temporale din centrul lor de date – cum ar fi utilizarea procesorului sau temperatura – pentru a preveni întreruperile serviciilor care ar putea amenința cota de piață a unui companie. În lucrările viitoare, echipa intenționează să împacheteze TadGAN într-o interfață cu utilizatorul, pentru a ajuta la livrarea celui mai recent nivel de analiză a seriilor temporale oricui are nevoie.

Referință: „TadGAN: Detectarea seriei de anomalii timp folosind rețele de generare a contorului” de Alexander Geiger, Dongyu Liu, Sarah Alnegheimish, Alfredo Cuesta-Infante și Kalyan Veeramachaneni, 14 noiembrie 2020, Informatică> Aflați mașini.
arXiv: 2009.07769

Această cercetare a fost finanțată și finalizată în colaborare cu SES.

Related articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share article

Latest articles

„Tirani” adolescenți – Descendenții dinozaurului sălbatic – Explicați diversitatea dinozaurilor?

Noi cercetări sugerează că generații de dinozauri carnivori gigantici, cum ar fi Tyrannosaurus rex, și-ar fi remodelat radical comunitățile cu specii mai mici concurente....

Limitele de date pot fi șterse cu antene optice noi și „inele luminoase”

Cercetătorii de la Universitatea din California, Berkeley, au găsit o nouă modalitate de a valorifica proprietățile undelor de lumină care pot crește cantitatea de...

Primul studiu științific al eficacității vaccinului COVID-19 din lumea reală – rezultatele aici

Primul studiu pe scară largă, evaluat de colegi, cu privire la eficacitatea sa din lumea reală COVID-19 Vaccinul a fost publicat de Institutul de...

„Cel mai dur grup de găuri negre” detectat de undele gravitaționale ar putea fi de fapt fuziunea stelelor din Boson

Reprezentare artistică a coliziunii a două stele de boson cu unde gravitaționale emise. Credite: Nicolás Sanchis-Gual și Rocío García-Souto O echipă internațională condusă de...

Procesul de tratament în rara morgă „carapace noroioase” a mumiei egiptene a fost expus – acesta este un caz de eroare

O figură mumificată și un sicriu în colecția Nicholson a Muzeului Aripii Chau Chuck de la Universitatea din Sydney. O persoană mumificată înfășurată...

Newsletter

Subscribe to stay updated.