Sosiale nettverk, i en eller annen form, har eksistert siden folk først begynte å samhandle. Faktisk, sett to eller flere mennesker sammen, og du har grunnlaget for et sosialt nettverk. Det er derfor ingen overraskelse at online sosiale nettverk i dagens internett overalt har blitt allestedsnærværende.
Innen denne verdenen av sosiale nettverk har et spesielt fascinerende fenomen det siste tiåret vært den eksplosive veksten av Twitter , ofte beskrevet som “the tekstmelding av Internett ”. Lansert i 2006, fikk Twitter raskt global popularitet og har blitt et av de ti mest besøkte nettstedene i verden. Fra mai 2015 skryter Twitter 302 millioner aktive brukere som samlet produserer 500 millioner tweets per dag. Og disse tallene vokser kontinuerlig.
Gitt dette enorme volumet av sosiale mediedata, har analytikere kommet til å gjenkjenne Twitter som en virtuell skattekiste av informasjon for datautvinning, sosiale nettverksanalyser og informasjon for å oppdage trender i opinionen og grunnlag for støtte til (eller motstand mot) ulike politiske sosiale tiltak. Datavitenskapsselskaper finner Twitter-trendemner stadig mer nyttige som en verdifull fullmakt for å måle opinionen.
Denne artikkelen beskriver teknikkene jeg benyttet for et proof-of-concept som effektivt analyserte Twitter Trend Topics for å forutsi, som et eksempler på en prøvesak, regionale stemmemønstre i det brasilianske presidentvalget 2014.
Presidentvalget ble holdt i Brasil 5. oktober 2014. Ingen kandidater fikk mer enn 50% av stemmene, så det ble avholdt et andre avrenningsvalg 26. oktober.
I første runde, Dilma Rousseff ( Arbeiderpartiet ) vant 41,6% av stemmene, foran Aécio Neves ( Brasiliansk sosialdemokratiparti ) med 33,6%, og Marina Silva ( Det brasilianske sosialistpartiet ) med 21,3%. Rousseff og Neves bestred avrenningen 26. oktober med Rousseff som ble gjenvalgt med liten margin, 51,6% til Neves '48,4%. Analysen i denne artikkelen relaterer seg spesielt til avrenningsvalget 26. oktober.
Partido dos Trabalhadores (PT) er et av de største politiske partiene i Brasil. Det er det politiske partiet for nåværende og tidligere presidenter, Dilma Roussef og Luis Inacio Lula da Silva . Brazilian Social Democracy Party (PSDB) er det politiske partiet til den tidligere presidenten Fernando Henrique Cardoso plassholderbilde .
Jeg begynte datautvinning med sosiale medier ved å trekke ut data fra Twitter Trend Topic for de 14 brasilianske byene som data leveres for via Twitter API , nemlig: Brasília, Belém, Belo Horizonte, Curitiba, Porto Alegre, Recife, Rio de Janeiro, Salvador, São Paulo, Campinas, Fortaleza, Goiânia, Manaus og São Luis.
Jeg spurte om Twitter REST API for å få de 10 beste Twitter-trendemnene for disse 14 byene i et 20-minutters intervall (begrenset av noen begrensninger som Twitter har på API-en). Å begrense spørringen til disse 14 byene gjøres ved å spesifisere deres Yahoo! GeoPlanet WOEID-er (hvor på jorden ID-er) .
For dette proof-of-concept brukte jeg Python og et Twitter-bibliotek (kalt 'twitter') for å få alle sosiale nettverksdata for dagen for avrenningsvalget (26. oktober), samt de to dagene før (24. og 25. oktober). For hver dag utførte jeg rundt 70 forskjellige spørsmål for å identifisere øyeblikkelige trendemner.
Nedenfor er et eksempel på JSON-objektet som returneres som svar på hvert spørsmål (dette eksemplet var basert på et spørsmål om data 26. oktober kl. 00:40:00, og viser bare dataene for Belo Horizonte).
[{'created_at': '2014-10-26T02:32:59Z', 'trends': [{'url': 'http://twitter.com/search?q=%23GolpeNoJN', 'name': '#GolpeNoJN', 'query': '%23GolpeNoJN', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23SomosTodosDilma', 'name': '#SomosTodosDilma', 'query': '%23SomosTodosDilma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23EAecio45Confirma', 'name': '#EAecio45Confirma', 'query': '%23EAecio45Confirma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Uilson', 'name': 'Uilson', 'query': 'Uilson', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Lucas+Silva%22', 'name': 'Lucas Silva', 'query': '%22Lucas+Silva%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Marcelo+Oliveira%22', 'name': 'Marcelo Oliveira', 'query': '%22Marcelo+Oliveira%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Cruzeiro', 'name': 'Cruzeiro', 'query': 'Cruzeiro', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Tupi', 'name': 'Tupi', 'query': 'Tupi', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22', 'name': 'Real x Baru00e7a', 'query': '%22Real+x+Bar%C3%A7a%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Wanessa', 'name': 'Wanessa', 'query': 'Wanessa', 'promoted_content': null} ], 'as_of': '2014-10-26T02:40:03Z', 'locations': [{'name': 'Belo Horizonte', 'woeid': 455821}] }]
Social Network Theory er studiet av hvordan mennesker, organisasjoner eller grupper kommuniserer med andre i nettverket deres. Det er tre hovedtyper av sosiale nettverk:
Sosiale nettverk vurderes komplekse nettverk , siden de viser ikke-trivielle topologiske trekk, med mønstre av sammenheng mellom elementene som verken er rent regelmessige eller rent tilfeldige.
Sosiale nettverksanalyser undersøker strukturen i forholdet mellom sosiale enheter. Disse enhetene er ofte mennesker, men kan også være sosiale grupper, politiske organisasjoner, økonomiske nettverk, innbyggere i et samfunn, borgere i et land og så videre. Den empiriske studien av nettverk har spilt en sentral rolle i samfunnsvitenskap, og mange av de matematiske og statistiske verktøyene som ble brukt for å studere nettverk ble først utviklet i sosiologi.
For å opprette et nettverk ved hjelp av Twitter Trend Topics, definerte jeg følgende regler:
For eksempel hadde byene Fortaleza og Campinas den 26. oktober 11 trendemner til felles, så nettverket for den dagen inkluderer en kant mellom Fortaleza og Campinas med en vekt på 11:
I tillegg, for å hjelpe prosessen med vekting av forholdet mellom byene, vurderte jeg også temaer som ikke var relatert til selve valget (forutsetningen var at byer som deler andre felles prioriteringer og interesser kan være mer tilbøyelige til å dele de samme politiske tilbøyelighetene. ).
Selv om rekkefølgen på trendemnene potensielt kunne ha en viss betydning for analysen, valgte jeg for å forenkle beviset på konseptet å ignorere rekkefølgen av emnene i trendemnelisten.
Nettverkstopologi er egentlig ordningen av de forskjellige elementene (lenker, noder, etc.) i et nettverk. For det sosiale nettverket vi analyserer, endres ikke nettverkstopologien dramatisk i løpet av de tre dagene, siden nodene i nettverket (dvs. de 14 byene) forblir faste. Imidlertid kan det oppdages forskjeller i vekten av koblingene mellom nodene, siden antall vanlige trendemner mellom byer varierer over de tre dagene, som vist i sammenligningen nedenfor av nettverkstopologien på dag 24 vs. dag 25.
For å hjelpe oss med å forutsi valgresultater, vurderer vi ikke bare trendemnene som er felles mellom byene, men også hvordan innholdet i disse emnene er knyttet til sannsynlig støtte for hvert av de to viktigste politiske partiene; dvs. Partido dos Trabalhadores (PT) og Partido da Social Democracia Brasileira (PSDB).
Først opprettet jeg en liste over ord og uttrykk som oppfattes som en indikasjon på en positiv tilbøyelighet til eller støtte for en av partene. (Å fylle ut denne listen er riktignok en svært kompleks oppgave. I sammenheng med dette beviset på konseptet tok jeg bevisst en forenklet tilnærming. Hvis det er noe, gjør dette resultatets kaliber desto mer spennende, siden en mer innstilt liste over begreper og setninger vil antagelig forbedre nøyaktigheten av resultatene ytterligere.)
Så, for hver node, teller jeg:
Ved å bruke byen Fortazela igjen som et eksempel, endte jeg med tellinger av:
Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37
Vi trekker derved konklusjonen at innbyggerne i Fortaleza har en generell preferanse for Partido dos Trabalhadores (PT).
Basert på denne algoritmen gir analysen resultater som er overraskende lik de faktiske valgresultatene, spesielt når man vurderer den generelle enkelheten i vår tilnærming. Her er en sammenligning av prediktive resultater basert på data om Twitter Trend Topic sammenlignet med de reelle valgresultatene (rødt brukes til å representere Partido dos Trabalhadores og blått brukes til å representere Partido da Social Democracia Brasileira):
Forbedret vitenskapelig strenghet, samt mer sofistikerte algoritmer og beregninger, vil utvilsomt forbedre resultatene ytterligere.
Her er noen få beregninger, for eksempel, som kan brukes til å utlede en nodes betydning eller innflytelse, som igjen kan informere den typen prediktiv analyse som er beskrevet i denne artikkelen:
Nodesentralitet. En rekke nodesentralitet det finnes tiltak som kan brukes til å identifisere de viktigste eller innflytelsesrike nodene i et nettverk. Betweenness sentralitet, for eksempel, anser en node som svært viktig hvis den danner broer mellom mange andre noder. Egenverdisentralen, derimot, baserte en nodes betydning på antall andre svært viktige noder som knytter seg til den.
Klyngingskoeffisient. De klyngekoeffisient av en node måler i hvilken grad en nodes “naboer” er koblet til hverandre. Dette er et annet tiltak som kan være relevant for å evaluere en nodes antatte grad av innflytelse på naboene.
Grads sentralitet. Gradsentralitet er basert på antall lenker (dvs. forbindelser) til en node. Dette er et av de enkleste målene for en nodes 'betydning' i et nettverk.
Men selv uten dette raffinementnivået ga resultatene som ble oppnådd med dette enkle proof-of-concept-konseptet, en overbevisende demonstrasjon av effektiv prediktiv analyse ved hjelp av Twitter Trend Topic-data. Det er helt klart potensial for å ta dataanalyser på sosiale medier enda lenger i fremtiden.