If you're seeing this message, it means we're having trouble loading external resources on our website.

Hvis du sidder bag et internet-filter, skal du sikre, at domænerne *. kastatic.org og *.kasandbox.org ikke er blokeret.

Hovedindhold

Data og statistik

Her gennemgås ofte stillede spørgsmål, når du begynder at lære om data og statistik.

Hvad er et statistisk spørgsmål?

Et statistisk spørgsmål er et spørgsmål, som vi kan besvare ved at indsamle og analysere data fra mange forskellige steder eller personer. For eksempel, "Hvor høje er eleverne i vores klasse? er et statistisk spørgsmål, fordi vi kan måle højden af alle eleverne og se, hvordan højden varierer. "Hvor høj er læreren? er ikke et statistisk spørgsmål, fordi det kun involverer én ting eller person, og vi behøver ikke data til at besvare det.

Hvad er deskriptorer for "midten" og hvad skal vi bruge dem til?

Ofte skal vi analysere store mængder af observationer, for eksempel testscore, højde, vægt eller temperaturer og vil gerne beskrive observationssættet i hovedtræk. En typisk beskrivelse vil være "midten". Midten kan betyde flere ting alt efter, hvad vi præcis vil beskrive.
De mest almindelige måder at beskrive "midten" på er ved at bruge gennemsnit, median og typetal. Gennemsnittet af et observationssæt bestemmes ved at udregne summen af alle værdierne og dividere med antallet af værdier. Medianen er den midterste værdi, når observationssættet er sorteret fra mindste til største værdi. (Man bruger genemsnittet at de to midterste værdier, hvis observationssættet har et lige antal værdier). Typetallet er den værdi der forekommer hyppigst.
Vi kan bruge disse beskrivelser af observationssættets "midte" til at sammenligne forskellige observationssæt eller se, hvordan observationerne er placeret i forhold til "midten". Vi kan sammenligne den gennemsnitlige testscore i forskellige klasser, medianen af højden af spillerne på forskellige sportshold eller typetallet for den bedste issmag i grupper af venner.

Hvad er deskriptorer for variation og hvad skal vi bruge dem til?

Deskriptorer for "midten" er meget nyttige, men de fortæller os ikke alt om et observationssæt. Ofte vil vi gerne vide noget om, hvordan observationerne varierer eller hvor stor forskel der er i mellem observationerne. Dette kaldes variation og kan ligeledes beskrives med forskellige deskriptorer.
De mest almindelige deskriptorer for variation er spredning, interkvartile variationsbredde og gennemsnitlig numerisk afvigelse. Spredningen svarer til forskellen på den højeste og den laveste værdi i observationssættet, så den udregnes ved at trække mindsteværdien fra størsteværdien. Den interkvartile variationsbredde (middelspredningen) er spredningen af de midterste 50% af observationerne. Den udregnes ved at opdele observationssættet i fire lige store dele (kaldet kvartiler) og trække den første (nedre) kvartil fra den tredje (øvre) kvartil. Gennemsnitlig numerisk afvigelse er gennemsnittet af, hvor langt hver observation ligger fra gennemsnittet. Den udregnes ved at trække gennemsnitsværdien fra hver værdi, tage den numeriske værdi af forskellen (altså ignorere et eventuelt minustegn), finde summen af dem alle og dividere med det samlede antal observationer.
Vi kan bruge de forskellige deskriptorer for variation til at sammenligne forskellige observationssæt, finde ud af hvilket der har mest eller mindst variation, eller finde ud af hvordan observationerne er placeret i forhold til midten. For eksempel, vi kan sammenligne variationen i temperaturen i forskellige sæsoner, eller den interkvartile variationsbredde af indkomst i forskellige byer eller den gennemsnitlige numeriske afvigelse for alderen i forskellige familier.

Hvordan vælger vi de bedste deskriptorer for "midten" og variation?

Der er ikke nogen deskriptorer, der er bedre end andre, de har alle deres fordele og ulemper alt efter situationen. Det er derfor altid vigtigt at overveje, hvilken type observationer der er i observationssættet og hvilke informationer vi vil kommunikere til andre.
Nogle ting at overvejer er:
  • Er observationerne numeriske eller kategoriske? Numeriske observationer kan måles, som højde, vægt eller score. Kategoriske observationer bliver grupperet i kategorier, som farve, dyreart eller genre. Vi kan bruge gennemsnit, median og typetal for numeriske observationer, men kun typetal for kategoriske observationer. Vi kan bruge spredning, interkvartil variationsbredde og gennemsnitlig numerisk afvigelse for numeriske observationer, men ikke for kategoriske observationer.
  • Er observationssættet symmetrisk eller skævt? Et symmetrisk observatiossæt har værdierne jævnt fordelt omkring midten, og danner typisk en klokkeformet kurve. Et skævt observationssæt har værdier, der klumper sig sammen eller er mere spredt ud på den ene side af midten. Vi kan bruge gennemsnit, median og typetal for symmetriske observationssæt, hvorimod median og typetal er mere troværdigt, når observationssættet er skævt. Den interkvartile variationsbredde er mindre påvirket af ekstreme værdier i modsætning til spredning.

Hvordan vælger vi en passende fremstillingsmetode?

Der er ikke nogen regel for, hvilken fremstillingsmetode du vælger. Men der er nogle ting du kan overveje, der vil hjælpe dig med at vælge:
  • Typen af observationssættet og dets størrelse. Hvis observationssættet består af kategoriske observationer, som yndlingsfarve eller hunderace, så er en hyppighedstabel eller et søjlediagram en god måde at vise observationerne. Hvis det er numeriske observationer, som højde eller vægt, så vil man typisk bruge et histogram, et boksplot eller et punktplot. Hvis observationssættet er stort afbildes observationerne ofte grafisk, som gør det nemmere at se mønstre og trends. Hvis observationssættet er mindre, så bruger man ofte en tabel til at vise de enkelte værdier og deres hyppighed.
  • Formålet med og modtageren af fremstillingen spiller også ind. Hvis vi vil sammemligne observationer blandt forskellige grupper eller kategorier så vil et prikdiagram, histogram eller boksplot vise ligheder og forskellige. Hvis vi vil vise sammenhængen mellem to variable bruges et punktplot, der både vil vise sammenhæng og trends. Hvis vi vil vise fordelingen eller faconen på observationsværdierne, så vil et histogram eller boksplot, der viser median, spredning og outliers være at foretrække.
Uanset hvilken metode du vælger, når du skal fremvise et observationssæt, så er det vigtigt, at det er nemt at forstå og aflæse. Husk derfor altid at inkludere titel samt at mærke akser med beskrivelser og skala.

Vil du deltage i samtalen?

Ingen opslag endnu.
Forstår du engelsk? Klik her for at se flere diskussioner på Khan Academys engelske side.