If you're seeing this message, it means we're having trouble loading external resources on our website.

Hvis du sidder bag et internet-filter, skal du sikre, at domænerne *. kastatic.org og *.kasandbox.org ikke er blokeret.

Hovedindhold

Beregning af R-kvadreret

Beregning af R-Squared for at se, hvor godt en regressionslinje passer på ens data. Lavet af Sal Khan.

Vil du deltage i samtalen?

Ingen opslag endnu.
Forstår du engelsk? Klik her for at se flere diskussioner på Khan Academys engelske side.

Video udskrift

. I den forrige video, fandt vi formlen for regressions-linjen for disse fire data-sæt Det vi skal i denne video, er at finde determinationskoefficienten (R^2) for disse data-sæt. Finde ud af hvor godt denne linje passer til disse data. eller, finde ud af hvor stor en procentdel - og det er virkeligt det samme som - variationen i disse data-sæt, specielt variationen i y, som skyldes, eller kan forklares af variationen i x. For at gøre det, skal vi trække dette regneark ud. Vi har forsøgt at gøre dette med en lommeregner og det var langt sværrere. Så forhåbentligt vil dette ikke forvirre os alt for meget, når vi benytter et regneark. Vi laver et par kolonner her. Regneark har rent faktisk funktioner som kan klare alt dette helt automatisk, men vi vil gøre det, så at vi kan efterligne det i hånden, hvis vi skulle. Så vi laver et par kolonner her. Dette bliver min x kolonne. Dette bliver min y kolonne. Denne kolonne kalder vi for y* (y stjerne). Det bliver den værdi som vores linje vil forudsige baseret på vores x-værdi. Denne bliver "fejl med linien". Lad os egentligt kalde den for fejl^2 for linien. . Vi vil ikke lade det fylde for meget. . Og den næste, vil vi have variationen^2 for den y værdi fra gennemsnittet af y. Vi regner med, at disse kolonner vil være nok til at vi kan klare det hele. Lad os først indsætte alt vores data. Vi har -2, -3. Det var et sæt data. -1, -1. 1, 2 så har vi 4, 3 Hvad vil vores linie forudsige? Linien fortæller os, at hvis vi giver den en x værdi, så vil den forudsige en y værdi til os. Nå x er -2, vil y værdien for linien udgøre hældningen af linien. Så dette bliver 41 divideret med 42, gange vores x værdi. og der vælger vi bare den celle. Vi tager lige en lille introduktion til regneark, vi vælger celle D2. Vi flytter blot markøren hen over og vælger den og det fortæller os x værdien. minus 5 divideret med 21 minus (5 divideret med 21) Sådan. For lige at gøre det klart hvad vi gør. Dette y* her, fik vi -2,19. det fortæller os, at det punkt her ovre, lige her, er -2,19. Så når vi regner fejlen ud, regner vi afstanden mellem -3, det er vores y værdi, og -2,19. Lad os gøre det. Fejlen vil være lig med vores y værdi det er celle E2 . minus værdien som vores linje forudsagde. Den værdi alene, er altså vores fejl. Men vi vil se den i anden (^2). . Og det næste vi vil gøre er afstanden i anden (^2). det bliver afstanden i anden for vores y værdi fra y gennemsnittene. Hvad er gennemsnittene af y'erne så? Y'ernes gennemsnit er 1/4. minus 0,25 - det er det samme som 1/4 Og det vil vi også sætte i anden. og det er her det bliver sjovt med regneark. Vi kan nu kopiere disse formler til hver række. og bemærk nu hvad der skete, da vi gjorde det. Pludseligt er dette den y værdi som min linie vil forudsige, den bruger nu denne x værdi og sætter den her over. Den beregner nu kvadrat-afstanden fra linien ved at bruge liniens forudsigelse og bruger y-værdien - denne. og så gør den det samme her ovre den beregner kvadrat-afstanden for denne y værdi fra gennemsnittet. Hvad er så den totale kvadrat-fejl for linien? Lad os summere det. Den samlede kvadrat-fejl for linien er 2,73. Og den samlede variation af gennemsnittet, afstande i anden fra gennemsnittet af y, er 22,75 Lad os præcisere hvad dette er. Lad os skrive disse tal ned. Vi skriver det her oppe, så vi hele tiden kan se denne graf. Vores fejl i anden over for vores linie, vores samlede fejl i anden, beregnede vi lige til 2,74. Vi har rundet lidt af. og det er at man tager hvert af disse punkters vertikale afstand til linien. denne afstanden i anden, plus denne afstand i anden, plus denne afstand i anden, plus denne afstand i anden. Det var alt det vi lige beregnede i regnearket. og den samlede variation i anden for linien er 2,74. eller den samlede fejl i anden for linien. Og det andet tal vi regnede ud var den samlede afstand fra gennemsnittet. Gennemsnittet her er y =1/4 så det vil være lige her. . Dette er en 1/2, så lige her. . Dette er vores gennemsnitlige y værdi. . eller tendensen for vores y værdier. og det vi så beregnede var den samlede fejl i anden, fra gennemsnittene af vores y værdier. Det var det vi beregnede her ovre i regnearket. Vi ser det i formlerne. Det er dette tal, E2, minus 0,25, som er gennemsnittet af vores y'er i anden. Det er præcis det vi beregnede. Vi beregnede det for hver y værdi. Og så lagde vi dem alle sammen og fik 22,75 så det er = 22,75. Så dette bliver egentligt den fejl som linien ikke forklarer. Dette er den samlede fejl, den samlede variation i tallene. Hvis vi ville vide hvor stor en procentdel af den samlede variation, som ikke er forklaret af linien kunne vi tage dette tal, divideret med dette tal. Altså 2,74 over 22,75. Dette fortæller os procentdelen af den samlede variation som ikke er forklaret af linien eller af variationen i x. . Men hvad bliver dette tal så? det kan vi bruge regnearket til. Vi divideret dette tal med dette tal her ovre. Vi får 0,12. Så dette bliver 0.12 Eller sagt på en anden måde, 12% af den samlede variation er ikke forklaret af variationen i x. Den samlede afstanden ianden mellem hvert af punkterne eller deres spredning, deres variation, er ikke forklaret af variationen i x. Hvis vi vil have den mængde der er forklaret af variansen i x, kan vi blot trække det fra 1. Lad os skrive det her. Vi har vores r^2, som er hvor stor en procentdel af den samlede variation som er forklaret af x, det bliver 1 minus 0,12 - som vi lige beregnede . Som bliver 0,88. Så vores r^2 er her 0,88. Det er meget meget tæt på 1. Det kan højest være 1. Det som det fortæller os, eller en måde at tolke det på, er at 88% af den samlede variation af disse y værdier kan forklares af linien, eller af variationen i x. . Og vi kan se, at det ser ud til at være et ret godt match. Hvert af disse punkter ligger ikke for langt væk. . Hver af disse punkter er i den grad meget tættere på linien end de er på den gennemsnitlige linie. . faktisk, er alle punkterne tættere på den faktiske linie end de er på gennemsnittet. .