socialgekon.com
  • Hoved
  • Redigering
  • Datavitenskap Og Databaser
  • Baksiden
  • Distribuerte Lag
Datavitenskap Og Databaser

Data Mining for Predictive Social Network Analysis

Sosiale nettverk, i en eller annen form, har eksistert siden folk først begynte å samhandle. Faktisk, sett to eller flere mennesker sammen, og du har grunnlaget for et sosialt nettverk. Det er derfor ingen overraskelse at online sosiale nettverk i dagens internett overalt har blitt allestedsnærværende.

Innen denne verdenen av sosiale nettverk har et spesielt fascinerende fenomen det siste tiåret vært den eksplosive veksten av Twitter , ofte beskrevet som “the tekstmelding av Internett ”. Lansert i 2006, fikk Twitter raskt global popularitet og har blitt et av de ti mest besøkte nettstedene i verden. Fra mai 2015 skryter Twitter 302 millioner aktive brukere som samlet produserer 500 millioner tweets per dag. Og disse tallene vokser kontinuerlig.

Gitt dette enorme volumet av sosiale mediedata, har analytikere kommet til å gjenkjenne Twitter som en virtuell skattekiste av informasjon for datautvinning, sosiale nettverksanalyser og informasjon for å oppdage trender i opinionen og grunnlag for støtte til (eller motstand mot) ulike politiske sosiale tiltak. Datavitenskapsselskaper finner Twitter-trendemner stadig mer nyttige som en verdifull fullmakt for å måle opinionen.



sosiale nettverksanalyser og datautvinning

Denne artikkelen beskriver teknikkene jeg benyttet for et proof-of-concept som effektivt analyserte Twitter Trend Topics for å forutsi, som et eksempler på en prøvesak, regionale stemmemønstre i det brasilianske presidentvalget 2014.

Valget

Presidentvalget ble holdt i Brasil 5. oktober 2014. Ingen kandidater fikk mer enn 50% av stemmene, så det ble avholdt et andre avrenningsvalg 26. oktober.

I første runde, Dilma Rousseff ( Arbeiderpartiet ) vant 41,6% av stemmene, foran Aécio Neves ( Brasiliansk sosialdemokratiparti ) med 33,6%, og Marina Silva ( Det brasilianske sosialistpartiet ) med 21,3%. Rousseff og Neves bestred avrenningen 26. oktober med Rousseff som ble gjenvalgt med liten margin, 51,6% til Neves '48,4%. Analysen i denne artikkelen relaterer seg spesielt til avrenningsvalget 26. oktober.

Partido dos Trabalhadores (PT) er et av de største politiske partiene i Brasil. Det er det politiske partiet for nåværende og tidligere presidenter, Dilma Roussef og Luis Inacio Lula da Silva . Brazilian Social Democracy Party (PSDB) er det politiske partiet til den tidligere presidenten Fernando Henrique Cardoso plassholderbilde .

Data Mining og utvinning av Twitter Trend Emnedata

Jeg begynte datautvinning med sosiale medier ved å trekke ut data fra Twitter Trend Topic for de 14 brasilianske byene som data leveres for via Twitter API , nemlig: Brasília, Belém, Belo Horizonte, Curitiba, Porto Alegre, Recife, Rio de Janeiro, Salvador, São Paulo, Campinas, Fortaleza, Goiânia, Manaus og São Luis.

Jeg spurte om Twitter REST API for å få de 10 beste Twitter-trendemnene for disse 14 byene i et 20-minutters intervall (begrenset av noen begrensninger som Twitter har på API-en). Å begrense spørringen til disse 14 byene gjøres ved å spesifisere deres Yahoo! GeoPlanet WOEID-er (hvor på jorden ID-er) .

For dette proof-of-concept brukte jeg Python og et Twitter-bibliotek (kalt 'twitter') for å få alle sosiale nettverksdata for dagen for avrenningsvalget (26. oktober), samt de to dagene før (24. og 25. oktober). For hver dag utførte jeg rundt 70 forskjellige spørsmål for å identifisere øyeblikkelige trendemner.

Nedenfor er et eksempel på JSON-objektet som returneres som svar på hvert spørsmål (dette eksemplet var basert på et spørsmål om data 26. oktober kl. 00:40:00, og viser bare dataene for Belo Horizonte).

[{'created_at': '2014-10-26T02:32:59Z', 'trends': [{'url': 'http://twitter.com/search?q=%23GolpeNoJN', 'name': '#GolpeNoJN', 'query': '%23GolpeNoJN', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23SomosTodosDilma', 'name': '#SomosTodosDilma', 'query': '%23SomosTodosDilma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23EAecio45Confirma', 'name': '#EAecio45Confirma', 'query': '%23EAecio45Confirma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Uilson', 'name': 'Uilson', 'query': 'Uilson', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Lucas+Silva%22', 'name': 'Lucas Silva', 'query': '%22Lucas+Silva%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Marcelo+Oliveira%22', 'name': 'Marcelo Oliveira', 'query': '%22Marcelo+Oliveira%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Cruzeiro', 'name': 'Cruzeiro', 'query': 'Cruzeiro', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Tupi', 'name': 'Tupi', 'query': 'Tupi', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22', 'name': 'Real x Baru00e7a', 'query': '%22Real+x+Bar%C3%A7a%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Wanessa', 'name': 'Wanessa', 'query': 'Wanessa', 'promoted_content': null} ], 'as_of': '2014-10-26T02:40:03Z', 'locations': [{'name': 'Belo Horizonte', 'woeid': 455821}] }]

Kort introduksjon til sosial nettverksanalyse

Social Network Theory er studiet av hvordan mennesker, organisasjoner eller grupper kommuniserer med andre i nettverket deres. Det er tre hovedtyper av sosiale nettverk:

  • Egosentriske nettverk er koblet til en enkelt node eller enkeltperson (f.eks. deg og alle dine venner og slektninger).
  • Sosio-sentriske nettverk er lukkede nettverk som standard. To ofte brukte eksempler på denne typen nettverk er barn i et klasserom eller arbeidere i en organisasjon.
  • Åpne systemnettverk er nettverk der grenselinjene ikke er tydelig definert, noe som gjør denne typen nettverk vanligvis det vanskeligste å studere. Den typen samfunnspolitiske nettverk vi analyserer i denne artikkelen er et eksempel på et åpent systemnettverk.

Sosiale nettverk vurderes komplekse nettverk , siden de viser ikke-trivielle topologiske trekk, med mønstre av sammenheng mellom elementene som verken er rent regelmessige eller rent tilfeldige.

Sosiale nettverksanalyser undersøker strukturen i forholdet mellom sosiale enheter. Disse enhetene er ofte mennesker, men kan også være sosiale grupper, politiske organisasjoner, økonomiske nettverk, innbyggere i et samfunn, borgere i et land og så videre. Den empiriske studien av nettverk har spilt en sentral rolle i samfunnsvitenskap, og mange av de matematiske og statistiske verktøyene som ble brukt for å studere nettverk ble først utviklet i sosiologi.

Etablering av nettverket

For å opprette et nettverk ved hjelp av Twitter Trend Topics, definerte jeg følgende regler:

  • Hver by er et toppunkt (dvs. node) i nettverket.
  • Hvis det er minst ett vanlig trendemne mellom to byer, er det en kant (dvs. kobling) mellom disse byene.
  • Hver kant vektes i henhold til antall trendemner som er felles mellom de to byene (dvs. jo flere trendemner to byer har til felles, jo tyngre vekt som tilskrives koblingen mellom dem).

For eksempel hadde byene Fortaleza og Campinas den 26. oktober 11 trendemner til felles, så nettverket for den dagen inkluderer en kant mellom Fortaleza og Campinas med en vekt på 11:

Illustrasjon av prosessen med å skape sosiale nettverk

I tillegg, for å hjelpe prosessen med vekting av forholdet mellom byene, vurderte jeg også temaer som ikke var relatert til selve valget (forutsetningen var at byer som deler andre felles prioriteringer og interesser kan være mer tilbøyelige til å dele de samme politiske tilbøyelighetene. ).

Selv om rekkefølgen på trendemnene potensielt kunne ha en viss betydning for analysen, valgte jeg for å forenkle beviset på konseptet å ignorere rekkefølgen av emnene i trendemnelisten.

Nettverkstopologi

Nettverkstopologi er egentlig ordningen av de forskjellige elementene (lenker, noder, etc.) i et nettverk. For det sosiale nettverket vi analyserer, endres ikke nettverkstopologien dramatisk i løpet av de tre dagene, siden nodene i nettverket (dvs. de 14 byene) forblir faste. Imidlertid kan det oppdages forskjeller i vekten av koblingene mellom nodene, siden antall vanlige trendemner mellom byer varierer over de tre dagene, som vist i sammenligningen nedenfor av nettverkstopologien på dag 24 vs. dag 25.

Sosial nettverkstopologi illustrert

Forutsi valgresultater ved hjelp av data om Twitter-tema

For å hjelpe oss med å forutsi valgresultater, vurderer vi ikke bare trendemnene som er felles mellom byene, men også hvordan innholdet i disse emnene er knyttet til sannsynlig støtte for hvert av de to viktigste politiske partiene; dvs. Partido dos Trabalhadores (PT) og Partido da Social Democracia Brasileira (PSDB).

Først opprettet jeg en liste over ord og uttrykk som oppfattes som en indikasjon på en positiv tilbøyelighet til eller støtte for en av partene. (Å fylle ut denne listen er riktignok en svært kompleks oppgave. I sammenheng med dette beviset på konseptet tok jeg bevisst en forenklet tilnærming. Hvis det er noe, gjør dette resultatets kaliber desto mer spennende, siden en mer innstilt liste over begreper og setninger vil antagelig forbedre nøyaktigheten av resultatene ytterligere.)

Så, for hver node, teller jeg:

  • antall lenker som inkluderer vilkår som indikerte støtte for PT
  • antall lenker som inkluderer vilkår som indikerte støtte for PSDB

Ved å bruke byen Fortazela igjen som et eksempel, endte jeg med tellinger av:

Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37

Vi trekker derved konklusjonen at innbyggerne i Fortaleza har en generell preferanse for Partido dos Trabalhadores (PT).

Resultater og konklusjoner

Basert på denne algoritmen gir analysen resultater som er overraskende lik de faktiske valgresultatene, spesielt når man vurderer den generelle enkelheten i vår tilnærming. Her er en sammenligning av prediktive resultater basert på data om Twitter Trend Topic sammenlignet med de reelle valgresultatene (rødt brukes til å representere Partido dos Trabalhadores og blått brukes til å representere Partido da Social Democracia Brasileira):

sosiale nettverksanalyser og datautvinning

Forbedret vitenskapelig strenghet, samt mer sofistikerte algoritmer og beregninger, vil utvilsomt forbedre resultatene ytterligere.

Her er noen få beregninger, for eksempel, som kan brukes til å utlede en nodes betydning eller innflytelse, som igjen kan informere den typen prediktiv analyse som er beskrevet i denne artikkelen:

  • Nodesentralitet. En rekke nodesentralitet det finnes tiltak som kan brukes til å identifisere de viktigste eller innflytelsesrike nodene i et nettverk. Betweenness sentralitet, for eksempel, anser en node som svært viktig hvis den danner broer mellom mange andre noder. Egenverdisentralen, derimot, baserte en nodes betydning på antall andre svært viktige noder som knytter seg til den.

  • Klyngingskoeffisient. De klyngekoeffisient av en node måler i hvilken grad en nodes “naboer” er koblet til hverandre. Dette er et annet tiltak som kan være relevant for å evaluere en nodes antatte grad av innflytelse på naboene.

  • Grads sentralitet. Gradsentralitet er basert på antall lenker (dvs. forbindelser) til en node. Dette er et av de enkleste målene for en nodes 'betydning' i et nettverk.

Men selv uten dette raffinementnivået ga resultatene som ble oppnådd med dette enkle proof-of-concept-konseptet, en overbevisende demonstrasjon av effektiv prediktiv analyse ved hjelp av Twitter Trend Topic-data. Det er helt klart potensial for å ta dataanalyser på sosiale medier enda lenger i fremtiden.

Mini Tutorial - Utnytte Figmas funksjoner for hele designprosessen

Ui Design

Mini Tutorial - Utnytte Figmas funksjoner for hele designprosessen
Hvordan lage spektakulære saktefilmer på iPhone

Hvordan lage spektakulære saktefilmer på iPhone

Skyting

Populære Innlegg
Slik får du tilgang til iCloud-bildene dine på en iPhone, PC eller Mac
Slik får du tilgang til iCloud-bildene dine på en iPhone, PC eller Mac
En introduksjon til protokollorientert programmering i Swift
En introduksjon til protokollorientert programmering i Swift
Prinsipp om enkeltansvar: En oppskrift på den store koden
Prinsipp om enkeltansvar: En oppskrift på den store koden
Opportunity Loop: En innvendig titt på hvordan man kan tiltrekke seg og beholde topptalent
Opportunity Loop: En innvendig titt på hvordan man kan tiltrekke seg og beholde topptalent
Problemfri AI for din søknad: Møt Salesforce Einstein
Problemfri AI for din søknad: Møt Salesforce Einstein
 
Slik integrerer du rekvisitter i iPhone-fotografering: Ideer og tips
Slik integrerer du rekvisitter i iPhone-fotografering: Ideer og tips
Nybegynnerguide til svart-hvitt-fotografering på iPhone
Nybegynnerguide til svart-hvitt-fotografering på iPhone
Hvordan redigere videoer på iPhone med bilder og iMovie
Hvordan redigere videoer på iPhone med bilder og iMovie
De 11 beste bilderedigeringsappene for perfekte iPhone-bilder
De 11 beste bilderedigeringsappene for perfekte iPhone-bilder
Direktør for talent suksess
Direktør for talent suksess
Kategorier
TeknologiInnovasjonIngeniørledelseKpi Og AnalyticsUi DesignFremtidens ArbeidTips Og VerktøyAnnenInnleggBrand Design

© 2023 | Alle Rettigheter Reservert

socialgekon.com