Hoofd Anders K-Means-clusteranalyse

K-Means-clusteranalyse

Overzicht

Software

Omschrijving

Websites

Lezingen

Cursussen

Overzicht

Clusteranalyse is een set datareductietechnieken die zijn ontworpen om vergelijkbare observaties in een dataset te groeperen, zodat observaties in dezelfde groep zoveel mogelijk op elkaar lijken, en op dezelfde manier zijn observaties in verschillende groepen zo verschillend van elkaar als mogelijk. Vergeleken met andere datareductietechnieken zoals factoranalyse (FA) en principale componentenanalyse (PCA), die gericht zijn op het groeperen op overeenkomsten tussen variabelen (kolommen) van een dataset, is clusteranalyse gericht op het groeperen van waarnemingen op overeenkomsten tussen rijen.

Omschrijving

K-means is een methode voor clusteranalyse die waarnemingen groepeert door de Euclidische afstanden ertussen te minimaliseren. Euclidische afstanden zijn analoog aan het meten van de hypotenusa van een driehoek, waarbij de verschillen tussen twee waarnemingen van twee variabelen (x en y) worden ingeplugd in de vergelijking van Pythagoras om de kortste afstand tussen de twee punten (lengte van de hypotenusa) op te lossen. Euclidische afstanden kunnen worden uitgebreid tot n-dimensies met elk getal n, en de afstanden verwijzen naar numerieke verschillen op elke gemeten continue variabele, niet alleen ruimtelijke of geometrische afstanden. Deze definitie van Euclidische afstand vereist daarom dat alle variabelen die worden gebruikt om clustering te bepalen met behulp van k-means continu moeten zijn.

citroen v Kurtzman 1971

Procedure

Om k-means clustering uit te voeren, wijst het algoritme willekeurig k initiële centra toe (k gespecificeerd door de gebruiker), hetzij door willekeurig punten te kiezen in de Euclidische ruimte gedefinieerd door alle n variabelen, of door k punten te nemen van alle beschikbare waarnemingen om te dienen als initiële centra. Vervolgens wijst het elke waarneming iteratief toe aan het dichtstbijzijnde centrum. Vervolgens berekent het het nieuwe centrum voor elk cluster als het zwaartepunt van de clustervariabelen voor de nieuwe reeks waarnemingen van elk cluster. K-means herhaalt dit proces en wijst waarnemingen toe aan het dichtstbijzijnde centrum (sommige waarnemingen zullen van cluster veranderen). Dit proces herhaalt zich totdat een nieuwe iteratie geen waarnemingen meer opnieuw toewijst aan een nieuw cluster. Op dit punt wordt het algoritme geacht te zijn geconvergeerd en vormen de uiteindelijke clustertoewijzingen de clusteroplossing.

Er zijn verschillende k-means-algoritmen beschikbaar. Het standaardalgoritme is het Hartigan-Wong-algoritme, dat tot doel heeft de Euclidische afstanden van alle punten met hun dichtstbijzijnde clustercentra te minimaliseren door de som van kwadratische fouten binnen de clusters (SSE) te minimaliseren.

Software

K-means is geïmplementeerd in veel statistische softwareprogramma's:

Gebruik in R, in het clusterpakket, de functie: k-means(x, centers, iter.max=10, nstart=1). Het gegevensobject waarop clustering moet worden uitgevoerd, wordt gedeclareerd in x. Het aantal clusters k wordt door de gebruiker opgegeven in centers=#. k-means() herhaalt zich met verschillende initiële zwaartepunten (willekeurig bemonsterd uit de gehele dataset) nstart=# keer en kiest de beste run (kleinste SSE). iter.max=# stelt een maximum aantal toegestane iteraties in (standaard is 10) per run.

Gebruik in STATA het commando: cluster kmeans [varlist], k(#) [options]. Gebruik [varlist] om de clustervariabelen te declareren, k(#) om k te declareren. Er zijn andere opties om overeenkomstmaten te specificeren in plaats van Euclidische afstanden.

Gebruik in SAS de opdracht: PROC FASTCLUS maxclusters=k; var [varlijst]. Dit vereist het specificeren van k en de clustervariabelen in [varlist].

Gebruik in SPSS de functie: Analyseren -> Classificeren -> K-Means Cluster. Extra helpbestanden zijn online beschikbaar.

Overwegingen

K-means clustering vereist dat alle variabelen continu zijn. Andere methoden waarvoor niet alle variabelen continu hoeven te zijn, waaronder enkele hiërarchische clusteringmethoden, hebben andere veronderstellingen en worden besproken in de onderstaande bronnenlijst. K-means clustering vereist ook a priori specificatie van het aantal clusters, k. Hoewel dit empirisch kan worden gedaan met de gegevens (met behulp van een screeplot om SSE binnen de groep tegen elke clusteroplossing in kaart te brengen), moet de beslissing worden bepaald door theorie en kunnen onjuiste keuzes leiden tot verkeerde clusters. Zie Peeples 'online R walkthrough R-script voor K-means clusteranalyse hieronder voor voorbeelden van het kiezen van clusteroplossingen.

Ook de keuze van clustervariabelen is van bijzonder belang. Over het algemeen vereisen clusteranalysemethoden de veronderstelling dat de variabelen die zijn gekozen om clusters te bepalen een uitgebreide weergave zijn van het onderliggende construct van belang dat vergelijkbare waarnemingen groepeert. Hoewel de keuze van variabelen een onderwerp van discussie blijft, beveelt de consensus in het veld aan om op zoveel mogelijk variabelen te clusteren, zolang de set aan deze beschrijving voldoet, en de variabelen die niet veel van de variantie in Euclidische afstanden tussen waarnemingen beschrijven, zullen minder bijdragen aan clusteropdracht. Gevoeligheidsanalyses worden aanbevolen met behulp van verschillende clusteroplossingen en sets van clustervariabelen om de robuustheid van het clusteringalgoritme te bepalen.

K-means is standaard bedoeld om de som van de gekwadrateerde fouten binnen de groep te minimaliseren, zoals gemeten door Euclidische afstanden, maar dit is niet altijd gerechtvaardigd wanneer niet aan de gegevensaannames wordt voldaan. Raadpleeg de leerboeken en online handleidingen in de bronnen hieronder, met name Robinson's R-blog: K-means clustering is geen gratis lunch voor voorbeelden van de problemen die zich voordoen met k-means clustering wanneer aannames worden geschonden.

Ten slotte zijn clusteranalysemethoden vergelijkbaar met andere technieken voor gegevensreductie in die zin dat het grotendeels verkennende hulpmiddelen zijn, dus de resultaten moeten met de nodige voorzichtigheid worden geïnterpreteerd. Er bestaan ​​veel technieken voor het valideren van resultaten van clusteranalyse, waaronder intern met kruisvalidatie of bootstrapping, validering op conceptuele groepen die a priori getheoretiseerd zijn of met deskundig advies, of externe validatie met afzonderlijke datasets. Een veel voorkomende toepassing van clusteranalyse is als een hulpmiddel voor het voorspellen van clusterlidmaatschap op toekomstige waarnemingen met behulp van bestaande gegevens, maar het beschrijft niet waarom de waarnemingen op die manier zijn gegroepeerd. Als zodanig wordt clusteranalyse vaak gebruikt in combinatie met factoranalyse, waarbij clusteranalyse wordt gebruikt om te beschrijven hoe waarnemingen vergelijkbaar zijn, en factoranalyse wordt gebruikt om te beschrijven waarom waarnemingen vergelijkbaar zijn. Uiteindelijk moet de validiteit van clusteranalyseresultaten worden bepaald door theorie en door het nut van clusterbeschrijvingen.

Lezingen

Studieboeken en hoofdstukken

  1. Aldenderfer MS en Blashfield RK (1984). Clusteranalyse. Sage University Paper-serie over kwantitatieve toepassingen in de sociale wetenschappen, serienr. 07-044. Newbury Park, Californië: Sage Publicaties. Het groene boek clusteranalyse is een klassieke referentietekst over theorie en methoden van clusteranalyse, evenals richtlijnen voor het rapporteren van resultaten.

    post bacc pre med
  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Clusteranalyse, 5e druk. Wiley-serie. Diepgaande en eigentijdse beschrijvingen van de verschillende soorten clusteranalysemethoden naarmate het vakgebied zich heeft ontwikkeld.

  3. Lorr M (1983). Clusteranalyse voor sociale wetenschappers. Jossey-Bass Sociale en gedragswetenschappelijke serie. Lorr's klassieke tekst geeft details over methoden die verband houden met gegevens die doorgaans worden aangetroffen in de sociale wetenschappen - K-betekent gegevensaannames zijn vaak moeilijk te beantwoorden aan gegevens in de sociale wetenschappen, en alternatieven worden besproken.

Methodologische artikelen

  1. Hauser J en Rybakowski J (1997). Drie clusters van mannelijke alcoholisten. Drug Alcohol Afhankelijk; 48(3):243-50. Een voorbeeld van clustering van gedragstypen in verslavingsonderzoek.

  2. Breuhl S, et al. (1999). Gebruik van clusteranalyse om IHS-diagnostische criteria voor migraine en spanningshoofdpijn te valideren. Hoofdpijn; 39(3):181-9. Een onderzoek naar het valideren van diagnostische criteria met behulp van k-means op symptoompatronen.

  3. Guthrie E, et al. (2003). Clusteranalyse van symptomen en gezondheidszoekend gedrag onderscheidt subgroepen van patiënten met ernstig prikkelbare darm syndroom. Darm; 52(11):1616-22. Gedragspatronen van zorgzoekende worden gedifferentieerd door clusteranalyse.

Toepassingsartikelen

  1. MacQueen J (1967). Enkele methoden voor classificatie en analyse van multivariate waarnemingen. Proceedings of the 5th Berkeley Symposium on Math. Statist. en Prob., Vol. 1. Document over vroege statistische methoden over k-betekent het clusteringalgoritme van een van de vroege ontwikkelaars.

  2. Salim SZ en Ismail MA. (1984). K-means-type algoritmen: een gegeneraliseerde convergentiestelling en karakterisering van lokale optimaliteit. IEEE Trans Pattern Anal Mach Intell; 6(1):81-7. Methodologische overwegingen en aanbevelingen voor het gebruik van k-means clustering.

  3. Saeed F, et al. (2012). Het combineren van K-betekent clusteringen van chemische structuren met behulp van een op clusters gebaseerd algoritme voor het verdelen van overeenkomsten. Communicatie in computer- en informatiewetenschappen; 322:304-312. Een recent artikel over het verbeteren van de prestaties van k-means clusteroplossingen door middel van meervoudige iteratie en combinatiebenaderingen.

Websites

Verschillende walkthroughs voor het gebruik van R-software om k-means clusteranalyse uit te voeren, met toegepaste voorbeelden en voorbeeldcode.

  1. statmethods.net: Quick-R: Clusteranalyse http://www.statmethods.net/advstats/cluster.html

  2. 2. R-statistiekenblog: K-betekent clustering http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). R-script voor K-betekent clusteranalyse http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). R bloggers: K-betekent clustering is geen gratis lunch http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Technische R-bronnen

  1. York University - Clusteranalyse R-opdrachten http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis

  2. R kmeans() helpbestand https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Gerelateerde technieken voor gegevensreductie

door welke van de volgende beschrijvingen kan een tijdstudieanalyse het best worden samengevat?
  1. Verkennende factoranalyse (EFA) op geavanceerde epidemiologie

  2. Principale componentenanalyse (PCA) op geavanceerde epidemiologie

Interessante Artikelen

Editor'S Choice

Bobby Art International v. Hoon
Bobby Art International v. Hoon
Columbia Global Freedom of Expression streeft naar een beter begrip van de internationale en nationale normen en instellingen die de vrije stroom van informatie en meningsuiting het beste beschermen in een onderling verbonden wereldwijde gemeenschap met grote gemeenschappelijke uitdagingen die moeten worden aangepakt. Om haar missie te bereiken, onderneemt en geeft Global Freedom of Expression onderzoeks- en beleidsprojecten, organiseert het evenementen en conferenties en neemt het deel aan en draagt ​​het bij aan wereldwijde debatten over de bescherming van de vrijheid van meningsuiting en informatie in de 21e eeuw.
Alexis Clark
Alexis Clark
Alexis Clark is auteur en freelance journalist. Ze schrijft over geschiedenis met een focus op ras, cultuur en politiek tijdens de Tweede Wereldoorlog en het tijdperk van de burgerrechten. Ze is een bijdragende schrijver voor The History Channel met verhalen over de Afro-Amerikaanse cultuur, het leger en mijlpalen in sociale en raciale rechtvaardigheid.
Lohé Issa Konaté v. De Republiek Burkina Faso
Lohé Issa Konaté v. De Republiek Burkina Faso
Columbia Global Freedom of Expression streeft naar een beter begrip van de internationale en nationale normen en instellingen die de vrije stroom van informatie en meningsuiting het beste beschermen in een onderling verbonden wereldwijde gemeenschap met grote gemeenschappelijke uitdagingen die moeten worden aangepakt. Om haar missie te bereiken, onderneemt en geeft Global Freedom of Expression onderzoeks- en beleidsprojecten, organiseert evenementen en conferenties, en neemt deel aan en draagt ​​bij aan wereldwijde debatten over de bescherming van vrijheid van meningsuiting en informatie in de 21e eeuw.
Afdeling Revalidatie en Regeneratieve Geneeskunde
Afdeling Revalidatie en Regeneratieve Geneeskunde
Wat zijn brandwonden? Brandwonden zijn een soort pijnlijke wond veroorzaakt door thermische, elektrische, chemische of elektromagnetische energie. Roken en open vuur zijn de belangrijkste oorzaken van brandwonden bij oudere volwassenen. Brandwonden zijn de belangrijkste oorzaak van brandwonden bij kinderen. Zowel zuigelingen als oudere volwassenen lopen het grootste risico op brandwonden. Wat zijn de verschillende soorten brandwonden? Er zijn veel soorten brandwonden die worden veroorzaakt door thermisch, stralings-, chemisch of elektrisch contact.
Zohar Gosen
Zohar Gosen
Zohar Goshen doceert en schrijft over ondernemingsrecht en bestuur, effectenregulering en bedrijfsfinanciering. Zijn artikelen over ondernemingsrecht en effectenregelgeving worden vaak genoemd in de top tien van beste artikelen van het jaar door Corporate Practice Commentator, meest recentelijk in 2019 voor The Death of Corporate Law (NYU Law review), co-auteur met Sharon Hannes; in 2017 voor Principal Costs: A New Theory for Corporate Law and Governance (Columbia Law Review), co-auteur met Richard Squire; en in 2016 voor Corporate Control en Idiosyncratic Vision (Yale Law Journal), co-auteur met Assaf Hamdani. Goshen ontving in 2019 en 2006 de Willis L.M. Reese Onderwijsprijs. Hij is pas de derde herhaalde winnaar van de prijs, die jaarlijks wordt uitgereikt door de eindexamenklas. Goshen brengt zijn praktische ervaring op het gebied van effectenregulering naar zijn studiebeurs en onderwijs. Van 2008 tot 2011 was hij voorzitter van de Israel Securities Authority (Israël's Security and Exchange Commission). In deze functie en naast het managen van de respons op de wereldwijde financiële crisis van 2008 voerde hij belangrijke hervormingen van het ondernemingsbestuur door in de Israëlische ondernemingswet, richtte hij een gespecialiseerde rechtbank op voor ondernemingsrecht en effectenregelgeving, en voegde hij administratieve bevoegdheden toe aan het agentschap. Goshen is lid van de stuurgroep voor de New Special Study of the Securities Markets, en hij is een onderzoekslid van het European Corporate Governance Institute. Hij diende als griffier voor opperrechter Meir Shamgar van het Hooggerechtshof van Israël. Goshen is de directeur van het Centrum voor Israëlische Juridische Studies, dat het hele jaar door bezoekende Israëlische faculteiten en wetenschappers organiseert, en heeft uitgebreide connecties in de Israëlische juridische academie, het bedrijfsleven en de bar. Het centrum sponsort lezingen, seminars en conferenties.
De moesson over de Himalaya
De moesson over de Himalaya
Neerslag over de vlakte van Hindustan en langs de zuidelijke flank van de Himalaya wordt sterk beïnvloed door de moessontrog, waar de moesson-laagtes en depressies westwaarts over de Himalaya trekken. De neerslag die boven Nepal wordt waargenomen, wordt vanwege deze verstoringen als een feest beschouwd (Kraus, 1966; Nakajima et al., 1974). Het is echter gebleken dat de circulatie van de zuidwestelijke moesson over India, tot aan het Tibetaanse plateau, nauw verwant is aan de quasi-stabiele thermische anticycloon boven Tibet, de Tibetaanse Hoge (Hasten).
Nieuwe studie suggereert dat er tienduizenden zwarte gaten bestaan ​​in het centrum van de Melkweg
Nieuwe studie suggereert dat er tienduizenden zwarte gaten bestaan ​​in het centrum van de Melkweg