COVID-19 e Cambiamento climatico, la Social Data Intelligence realizzata da Alkemy Lab13/03/2020

L’attuale emergenza legata alla diffusione del COVID-19 (acronimo di COronaVIrus Disease 19) a livello mondiale costringe l'opinione pubblica a confrontarsi con gli effetti trasversali di una crisi sanitaria e di un cambiamento inevitabile nell’economia e nella società. Il fenomeno è al centro della comunicazione globale anche sui social network. L’analisi realizzata dal Lab R&D di Alkemy, grazie ai software di Data e Geo intelligence basati su algoritmi avanzati di Machine Learning, si è focalizzata sul flusso informativo che sta attraversando Twitter, Reddit e Telegram. Anche i temi ambientali connessi al Cambiamento Climatico sono stati presi in considerazione, per comprendere se vi fossero relazioni comunicative tra i due trending topic. La ricerca si è inoltre focalizzata su CoronaCoin, una criptovaluta nata con lo scopo di tenere traccia delle infezioni e delle morti per COVID-19 in tutto il mondo.
Sono state analizzate le discussioni in lingua italiana e inglese, per Twitter, con due focus temporali definiti: il primo dal 18 febbraio al 5 marzo, il secondo dal 6 marzo all’11 marzo.
La raccolta dei flussi informativi è stata svolta tramite le API delle piattaforme collezionando milioni di dati: oltre 3 milioni di tweet (risultato aggregato) tramite Twitter API.

Risultati

I risultati della ricerca hanno evidenziato una forte polarizzazione dei temi legati al Coronavirus (numerosi hashtag con variazioni semantiche per riferirsi al virus), l’intersezione dei temi inerenti il Cambiamento Climatico e Coronavirus, l’emersione di cluster di conversazioni con connessioni ravvicinate e, infine, rapidi fenomeni “virali” di condivisione di notizie e reactions. Inoltre si evidenzia una correlazione del prezzo del Corona Token e il sentiment su Reddit e Telegram. Da un punto di vista di visualizzazione grafica si può notare come il numero di guariti aumenti più velocemente rispetto ai decessi, mentre la diffusione della malattia è rapidissima.

Geo Intelligence: Geographical Distribution

Con la pubblicazione e diffusione di un sempre maggior numero di dataset Open Data si moltiplicano gli interventi atti a rielaborare e utilizzare i dati incrociati. Le mappe realizzate si basano su dati open che raccolgono, a livello internazionale, i numeri di decessi, guarigioni e casi confermati di Coronavirus.
I dati si riferiscono all’evoluzione dei casi a partire dal 22 gennaio 2020 al 12 marzo 2020. Si nota l’aumento esponenziale da oriente a occidente dei casi della malattia, mentre le guarigioni risultano essere più rapide rispetto ai decessi.

COVID-19 Casi confermati (in giallo) - Guariti (in verde) - Decessi (in rosso)

Le mappe rappresentano il numero di casi censiti dal 22 gennaio fino al 12 marzo 2020

(fonte https://github.com/)

Data Intelligence: Semantic and Community Analysis

Di seguito un estratto delle analisi di social data intelligence (periodo 18 febbraio - 5 marzo 2020, fonte Twitter API, elaborazioni algoritmiche Alkemy Lab)

L’analisi degli hashtag più utilizzati evidenzia come al vertice della top ten vi sia #Coronavirus, seguito dagli hashtag associati a Italia. Emergono inoltre riferimenti a esponenti politici come #Conte e #Salvini.

#Codogno, epicentro dei primi contagi nel nord Italia, precede #amuchina tra i più utilizzati gel disinfettanti per le mani. Subito dopo il diffondersi dei primi casi della malattia hanno fatto scalpore notizie di esaurimento del prodotto da numerosi punti vendita. L’utilizzo di questo hashtag evidenzia una forte attenzione da parte degli utenti di Twitter: risulta infatti essere l’hashtag più coinvolgente. Anche #supermercato evidenzia un’attenzione generale per l’acquisto di beni di prima necessità.

L’analisi della rete, focalizzata sugli hashtag, risulta essere molto più clusterizzata rispetto all’analisi per parole chiave. La rete è orientata verso i punti stella. Viene generato un link tra due hashtag se gli stessi sono presenti all’interno dello stesso post/commento/tweet/reply/retweet.

I punti stella sono #Coronavirus, #Veneto, #Codogno, #Covid19. Gli hashtag, in generale, risultano essere declinazioni diverse dell’acronimo del virus. Rispetto a quanto evidenziato in precedenza l’hashtag Conte non è un punto stella, nonostante sia connesso a tre hub del network (#Covid19, #Coronavirus, #Codogno).

Coronavirus: gli effetti delle misure di contenimento sull’andamento dei valori di PM10

La chiusura delle attività produttive in Cina, nell’area coinvolta dall’epidemia, ha avuto come conseguenza diretta la riduzione di circa il 25% delle emissioni di biossido di carbonio rispetto al 2019, secondo i calcoli del Center for Research on Energy and Clean Air. Nel territorio della Lombardia si assiste ad una diminuzione delle emissioni di PM10 (fonte Arpa Lombardia). Dovranno essere analizzati ulteriori dati per avere la certezza di una correlazione ma, nel frattempo, si registrano decise diminuzioni (nel dettaglio le misurazioni del 24 febbraio, 4 marzo e 10 marzo).

.

Social Data Intelligence: discussioni a livello internazionale

L’analisi di Complex Network evidenza le discussioni Twitter con linguaggio inglese sul tema Coronavirus. Gli hashtag sono molto polarizzati rispetto agli hub centrali, come si osserva dalla predisposizione a forma concentrica e le connessioni centrali. Si notano numerosi versioni dell’hashtag #coronavirus associato a diversi paesi (es #coronavirusireland, #coronavirusindia ecc). Anche in questo caso emerge un cluster #Italy connesso ad alcuni paesi africani (nigeria senegal, algeria). Vi sono inoltre riferimenti ad altre malattie come #sars e #aids. L’analisi si riferisce al 6 marzo 2020 Fonte: Twitter API - Tweet raccolti 190.090

Focus CoronaToken: la criptovaluta legata al diffondersi dell’epidemia

L’account CoronaToken fa riferimento ad una criptovaluta (il CoronaCoin), sviluppata da un gruppo di programmatori che tiene traccia delle infezioni e delle morti per COVID-19 in tutto il mondo. Si tratta di una nuova moneta digitale che permette agli speculatori di scommettere sulla diffusione dell’epidemia. Infatti, il valore della criptovaluta è legato al numero di token immessi in circolazione. Il 7 febbraio 2020 il numero di token iniziale era di 7,604,953,650 unità, pari alla popolazione mondiale. Con il passare del tempo, il numero di token viene aggiornato ogni 48, bruciando un numero di token corrispondenti al numero di contagi o morti. A mano a mano che il virus si espande, e il numero di token diminuisce, i singoli token acquisiscono valore, aumentandone il prezzo. Questo particolare meccanismo di generazione di valore ha attratto l’interesse da parte di un cospicuo numero di speculatori. A questo proposito, sono state analizzate le discussioni degli utenti-investitori, con l’obiettivo di verificare se e in quale misura il mood e il sentiment incidono sul prezzo della criptovaluta. Sono stati estratti i commenti ai post del subreddit “r/CoronaToken” grazie all’API Pushshift e i messaggi alla chat Telegram “/CoronaCoin/” grazie all’utilizzo dell’API ufficiale Telethon. Il periodo di tempo considerato per l’intera analisi va dal 7 Febbraio al 4 Marzo 2020. Dopo una preliminare fase di pulizia del testo (eliminazione delle stopwords, POS tagging, stemming e lemmatizatione), sono state implementate due tecniche per calcolare delle nuove metriche:

  • Sentiment Analysis, grazie all’utilizzo di VADER (Valence Aware Dictionary e sEntiment Reasoner)

  • Valence, Arousal e Dominance (VAD);

Come si evince dal grafico a torta in figura, il Sentiment nel gruppo Telegram è per lo più neutrale (63,5%). Soltanto il 10.1% è negativo.

Nella figura in basso è mostrato l’andamento del Sentiment sui commenti estratti dal subreddit ufficiale. In questo social il volume delle discussioni è inferiore rispetto a Telegram, e la maggior parte dei commenti sono distribuiti nella seconda metà di Febbraio, periodo in cui il Coronavirus è arrivato stabilmente in europa, e in particolare in Italia.

E’ interessante notare come in questa community i primi commenti sono tendenzialmente negativi. C’è la possibilità che il funzionamento della criptovaluta non sia stata appresa appieno dagli Early Adopters della tecnologia, e per questo abbiano espresso dei pareri a sfavore. Infatti, soltanto in un secondo momento, e con l’aumentare delle discussioni e dei post, la positività del tema aumenta, registrando valori costantemente al di sopra dello +0.2. Una volta estratte le metriche relative al Sentiment e le VAD per i commenti su Reddit, è stato possibile processare le variabili in modo da creare dei processi di punti i cui valori (accorpati giornalmente) sono espressi come singoli eventi del processo, nonché il numero di messaggi o commenti relativi alla natura stessa del processo.

La lettura del grafico avviene dall’alto verso il basso, e un colore blu indica una relazione di causalità positiva, al contrario, un colore rosso indica una relazione inversa e negativa tra i processi. Interessante notare come variazioni dei prezzi in aumento provocano aumenti di sentiment negativo legato ai commenti sul subreddit r/CoronaToken. Al contrario, le variazioni dei prezzi provocano una riduzione degli eventi positivi.

Focus Cambiamento climatico

L’analisi si riferisce per il periodo 18 febbraio al 5 marzo 2020 Fonte: Twitter API - Tweet raccolti 49.891. Noaa è una agenzia federale statunitense che si occupa di oceanografia, meteorologia e climatologia. Recentemente l’agenzia ha pubblicato un report dove si afferma che il mese di gennaio (2020) è stato il più caldo di sempre a livello mondiale. #Coronavirus è il terzo hashtag più utilizzato. Tra gli hashtag più coinvolgenti al primo posto #gretathunberg, la giovane attivista svedese, seguita da #incendi. Per entrambe le classifiche vi sono dei riferimenti a #coronavirus. Dalla diffusione della malattia, in Cina, si sono registrati abbassamenti dei livelli di CO2.

Il grafico rappresenta il dettaglio dell’hashtag #coronavirus nel corpus di tweet inerenti il cambiamento climatico. Risultano essere molto significativi i collegamenti e i riferimenti da parte di numerosi account.