2.1: Observational units
Observational unit = Iets wat je onderzoekt. Variabele = Het deel van de Observational unit dat je observeert, er zijn twee soorten variabelen:
- Categorisch: Je kan er geen cijfer aan hangen, en dus ook niet mee rekenen.
- Numeriek:
Hier kan je wel een cijfer aan hangen en is degene waar we het meest mee doen.
- Continu: A continuous scale measures data that can take on any value within a given range, meaning it can include fractions and decimals, unlike a discrete scale which only allows for whole numbers.
- Discreet: A discrete scale uses data that can only take on a specific, finite number of values, which are usually whole numbers that are counted, not measured.
2.2: frequentieverdeling
Staafdiagram: We gebruiken een staafdiagram als op de horizontale as discrete of categorische waarden staan.
Dotplot: Elke meting staat voor een bolletje
Frequentie/relatieve frequentie: The frequency scale is often replaced by a relative frequency scale:
Klasseverdeling: For many data sets, it is necessary to group the data in order to condense the information adequately. (This is usually the case with continuous variables.)
- Bij klassen spreken we van een histogram (en niet staafdiagram). Zie fig. 2.2.7, 9, 10, 11 en 12
- Bij continue waarden, maar ook als je heel veel discrete waarden bij elkaar veegt (tabel 2.2.6 en 2.2.7
- Grootte klassen: niet te groot, niet te klein (figuur 2.2.9, 10, 11)
Modus: de meting die het meest voorkomt
- Unimodaal: Dat is een verdeling met één piek, wat betekent dat er één modus (de meest voorkomende waarde) is.
- Bimodaal: Bimodaal is een verdeling met twee modi, ofwel twee waarden die het vaakst voorkomen in een dataset.
Staart:
- Scheve verdeling: Het ene uiteinde kan meer uitgerekt zijn dan de andere.
Mediaan:
- Zet metingen op volgorde
- Pak middelste meting (bij oneven aantal metingen) of het gemiddelde van de middelste twee metingen (bij even aantal metingen)
Gemiddelde(mean): Tel alle metingen bij elkaar op, en deel die uitkomst door het aantal metingen
2.4 Boxplots
Het Mediaan is de modus (zie 2.2 frequentieverdeling)
Een uitbijter of uitschieter(outlier)is een waarneming die niet bij de rest lijkt te passen.
Om een uitbijter te berekenen moet je:
- Links: Q1 - 1,5 interkwartielafstand = Q1 – 1,5 (Q∙ 3 – Q1) Lagere waardes zijn uitbijters
- Rechts: Q3 + 1,5 interkwartielafstand = Q3 + 1,5 (Q∙ 3 – Q1) Hogere waardes zijn uitbijters
Hoe teken je boxplot met uitbijters
- pak meetwaardes.
- bereken uitbijters.
- teken het boxplot maar laat de uitbijters weg dus neem ze niet mee in de boxplot.
- teken de uitbijters als sterretjes bij
2.6 Spreidingsmaten
- Interkwartielafstand
- Variatiebreedte: De hoogste meetwaarde - de laagste meetwaarde
- Standaarddeviatie(SD): Zie Powerpoint en tabel
Stappen plan Standaard Deviatie
- bereken het gemiddeld
- bereken de afwijking
- de afwijking is de afstand van het data punt tot het gemiddelde
- `data - gemiddelde
- **afwijkingen^2
- Dit moet individueel, NIET samen
- elke afwijking
- **Som alle afwijking
- Deel door n-1
- n is de hoeveelheid datapunten
- bereken de wortel
- Variantie: Je gebruikt de standaarddeviatie zonder worteltrekken
2.7 t/m 2.9 Maten in populatie vs steekproef
De waarde die uit een steekproef komt is slechts een schatting van de waarde in populatie
Waarde kan zijn:
- gemiddelde
- modus
- mediaan
- standaarddeviatie
- enz.
Waardes uit een steekproef heten statistische uitkomsten.
Waardes uit de populatie heten parameters.
Waardes uit de steekproef kunnen dus behoorlijk fout zijn.
- Hoe goed de schatting is staat of valt met hoe goed je steekproef is.
- Zorg dus o.a. voor een aselecte steekproef die redelijk groot is.
Opgave
2.1
2.1.1:
A
I. the width (in mm) of the last upper molar in 36 specimens of the extinct mammal Acropithecus rigidus
II. numeriek discreet
III. molars
IV. 36x2
B
I. The birthweight, date of birth, and the mother’s race
II. numeriek continu, categorisch,categorisch
III. babies
IV. 65
2.1.2:
A
I. heigth and weight
II. numeriek discreet, continu
III. children
IV. 37
B
I. bloodtype and cholesterol
II. numeriek continu
III. blood
IV. 129
2.1.3:
A
I. amount of leaves on a plant
II. numeriek discreet
III. plants
IV. 25
B
I. number of seizures per patient
II. numeriek discreet
III. patienten met epilepsy
IV. 20
2.4: Boxplots
2.4.2 2.2.3
2.6 Measures of Dispersion
2.6.1 I. II. III. IV.
2.6.5 I. II. III. IV. 2.6.11 I. II. III. IV. 2.6.12 I. II. III. IV.