Kategorisk variabel

FONT SIZE:
fontsize_dec
fontsize_inc
December 22, 2015 Vagn Wilke K 0 3409

I statistikken, en kategorisk variabel er en variabel, der kan antage en af ​​en begrænset og som regel fast, antal mulige værdier, og dermed tildele den enkelte til en bestemt gruppe eller "kategori". I datalogi og nogle grene af matematik, er kategoriske variabler benævnes tællinger eller opregnet typer. Almindeligvis er hver af de mulige værdier af en kategorisk variabel betegnes som en plan. Sandsynlighedsfordelingen forbundet med en tilfældig kategorisk variabel kaldes en kategorisk distribution.

Kategoriske data er den statistiske typen af ​​data, der består af kategoriske variable eller data, der er blevet omdannet til denne form, fx som grupperede data. Mere specifikt kan kategoriske data stammer fra den ene eller begge af observationer af kvalitative data, hvor observationerne er opsummeret som tællinger eller krydstabuleringer, eller kvantitative data, hvor observationer kan være observeres direkte tællinger af begivenheder sker eller kan være tællinger af værdier der forekommer inden givne intervaller. Ofte er rent kategoriske data opsummeret i form af en beredskabsplan bord. Men især når man tager dataanalyse, er det almindeligt at anvende udtrykket "kategoriske data" skal gælde for datasættene, at selv indeholder nogle kategoriske variable, kan også indeholde ikke-kategoriske variable.

En kategorisk variabel, der kan antage nøjagtigt to værdier betegnes en binær variabel eller dikotomisk variabel; en vigtig særligt tilfælde er Bernoulli variabel. Kategoriske variable med mere end to mulige værdier kaldes polytomous variabler; variable antages ofte, at polytomous medmindre andet er angivet. Diskretisering behandler løbende data, som var det kategoriske. Dichotomization behandler kontinuerte data eller polytomous variabler som om de var binære variable. Regressionsanalyse ofte behandler kategori medlemskab som en kvantitativ dummy variabel.

Eksempler på kategoriske variable

Eksempler på værdier, der kan være repræsenteret i en kategorisk variabel:

  • Blodtype en person: A, B, AB eller O.
  • Den stat, der er hjemmehørende i USA bor i.
  • Det politiske parti, en vælger i et europæisk land kunne stemme for: kristendemokrat, socialdemokrat Grønne osv
  • Typen af ​​en sten: magmatiske, sedimentære eller metamorfe.
  • Identiteten af ​​et bestemt ord: En af V mulige valg, for et ordforråd på størrelse V.

Notation

For at lette på statistisk bearbejdning kan kategoriske variabler tildeles numeriske indeks, f.eks 1 til K for en K-vejs kategorisk variabel. I almindelighed er tallene er vilkårlige, og har ingen betydning end blot giver en bekvem etiket til en bestemt værdi. Med andre ord findes værdierne i en kategorisk variabel på en nominel skala: de hver repræsenterer en logisk separat koncept, ikke nødvendigvis kan meningsfuldt bestilt, og kan ikke på anden måde manipuleres som tal kunne være. I stedet gyldige operationer er ækvivalens, sæt medlemskab, samt andre sæt-relaterede aktiviteter.

Som følge heraf er den centrale tendens af et sæt kategoriske variable afgivet sin tilstand; hverken middelværdien eller medianen kan defineres. Som et eksempel givet et sæt af mennesker, kan vi overveje sæt af kategoriske variable svarende til deres efternavn. Vi kan overveje operationer såsom ækvivalens, sæt medlemskab, optælling, eller finde tilstanden. Men vi kan ikke meningsfuldt beregne "sum" af Smith + Johnson, eller spørge, om Smith er "mindre end" eller "større end" Johnson. Som et resultat, kan vi ikke meningsfuldt spørge, hvad den "gennemsnitlige navn" eller "midt-mest navn" er i et sæt af navne.

Bemærk, at dette ignorerer begrebet alfabetisk orden, hvilket er en egenskab, der ikke er iboende i navnene selv, men i den måde, vi konstruerer etiketterne. For eksempel, hvis vi skriver navnene i kyrillisk og overveje det kyrilliske bestilling af breve, kan vi få et andet resultat af at evaluere "Smith & lt; Johnson", end hvis vi skriver navnene i standard latinske alfabet; og hvis vi skriver navnene i kinesiske tegn, kan vi ikke meningsfuldt at vurdere "Smith & lt; Johnson" på alle, fordi ingen konsistent bestilling er defineret for sådanne tegn. Men hvis vi gør betragter navnene som skrevet, fx i det latinske alfabet, og definere en bestilling, der svarer til standard alfabetisk rækkefølge, så vi har faktisk konverteret dem til ordenstal variabler defineret på en ordinal skala.

Antallet af mulige værdier

Kategoriske stokastiske variable beskrives normalt statistisk ved en kategorisk distribution, som tillader en vilkårlig K-vejs kategorisk variabel, der skal udtrykkes med separat sandsynligheder er specificeret for hver af de K mulige udfald. Sådanne multiple-kategori kategoriske variable er ofte analyseres ved hjælp af en multinomial distribution, som tæller hyppigheden af ​​hver mulig kombination af antallet af forekomster af de forskellige kategorier. Regressionsanalyse på kategoriske resultater opnås gennem multinomial logistisk regression, multinomial probit eller et beslægtet type diskret valg model.

Kategoriske variabler, der kun har to mulige udfald er kendt som binære variable. På grund af deres betydning, er disse variabler ofte betragtes som en særskilt kategori, med en separat fordeling og separate regressionsmodeller. Som et resultat, er udtrykket "kategorisk variabel" ofte forbeholdt tilfælde med 3 eller flere konsekvenser, sommetider betegnet en flervejs variabel i opposition til en binær variabel.

Det er også muligt at overveje kategoriske variable, hvor antallet af kategorier ikke er fastsat på forhånd. Som et eksempel, for en kategorisk variabel beskriver et bestemt ord, vi måske ikke på forhånd vide størrelsen af ​​ordforrådet, og vi ønsker at give mulighed for at støde på ord, vi ikke allerede har set. Standard statistiske modeller, såsom dem, der involverer den kategoriske distribution og multinomial logistisk regression, antager, at antallet af kategorier er kendt på forhånd, og at ændre antallet af kategorier på flue er tricky. I sådanne tilfælde skal flere avancerede teknikker anvendes. Et eksempel er den Dirichlet proces, som falder i realm af nonparametriske statistik. I et sådant tilfælde er det logisk antages, at et uendeligt antal kategorier eksisterer, men på et givet tidspunkt de fleste af dem har aldrig været set. Alle formler er formuleret i form af antallet af kategorier faktisk set hidtil i stedet det samlede antal potentielle kategorier i eksistens, og er skabt metoder til trinvis opdatering af statistiske fordelinger, herunder tilføje "nye" kategorier.

Kategoriske variable og regression

Kategoriske variable repræsenterer en kvalitativ metode til scoring data. Disse kan indgå som uafhængige variable i en regressionsanalyse eller som afhængige variabler i logistisk regression eller probit regression, men skal konverteres til kvantitative data for at være i stand til at analysere dataene. Man gør det ved hjælp af kodesystemer. Analyser udføres således, at kun g -1 er kodet. Dette minimerer redundans, mens du stadig repræsenterer de fuldstændige datasæt som ikke yderligere oplysninger ville blive erfaringer fra kodning af de samlede g grupper: for eksempel, når kodning køn, hvis vi kun kode hunner alle tilovers nødvendigvis ville være mænd. Generelt gruppen, at man ikke kode for er den gruppe af mindst interesse.

Der er tre kodesystemer typisk anvendes i analysen af ​​kategoriske variabler i regression: dummy kodning, effekter kodning og kontrast kodning. Regressionsligningen tager form af Y = bx + a, hvor b er hældningen og giver vægten empirisk tildelt en explanator, X er den forklarende variabel, og a er Y-skæringspunkt, og disse værdier tager på forskellige betydninger baserede på koderne. Valget af kodesystem ikke påvirker F eller R statistik. Men man vælger et kodesystem baseret på en sammenligning af interesse, da fortolkningen af ​​b-værdier vil variere.

Dummy kodning

Dummy kodning bruges, når der er en kontrol eller sammenligningsgruppe i tankerne. Den ene er derfor at analysere dataene i en gruppe i forhold til sammenligningsgruppen: a repræsenterer middelværdien for kontrolgruppen og b er forskellen mellem middelværdien af ​​forsøgsgruppen og middelværdien for kontrolgruppen. Det foreslås, at tre kriterier være opfyldt, for at angive en egnet kontrolgruppe: gruppen skal være en veletableret gruppe, bør der være en logisk grund til at vælge denne gruppe som en sammenligning, og endelig bør gruppens stikprøvestørrelsen være materielle og ikke små sammenlignet med de andre grupper.

I dummy kodning, er referencegruppen tildelt en værdi på 0 for hver kode variabel, er den gruppe af interesse til sammenligning med referencegruppen tildelt en værdi på 1 for den angivne kode variable, mens alle andre bliver tildelt 0 for den pågældende kode variabel.

B værdier bør fortolkes således, at forsøgsgruppen sammenlignes mod kontrolgruppen. Derfor giver en negativ b-værdi vil medføre forsøgsgruppen har scoret mindre end kontrolgruppen på den afhængige variabel. For at illustrere dette, formoder, at vi måler optimismen blandt flere nationaliteter, og vi har besluttet, at franskmænd ville tjene som en nyttig kontrol. Hvis vi sammenligner dem mod italienerne, og vi observerer en negativ b-værdi, ville dette tyder italienerne opnå lavere optimisme scoringer i gennemsnit.

Nedenstående tabel er et eksempel på dummy kodning med fransk som kontrolgruppen og C1, C2 og C3, henholdsvis bliver koderne for italiensk, tysk, og andre:

Effekter kodning

I effekterne varenomenklatursystem, er data analyseres ved at sammenligne en gruppe for alle andre grupper. I modsætning dummy kodning, er der ingen kontrolgruppe. Snarere er den sammenligning, der foretages ved middelværdien af ​​alle grupper tilsammen. Derfor er man ikke på udkig efter data i forhold til en anden gruppe, men snarere er en søger data i forhold til den store middelværdi.

Effekter kodning kan enten vægtes eller uvægtet. Vægtede effekter kodning er simpelthen at beregne et vægtet grand middelværdi, hvilket under hensyn til stikprøvestørrelsen i hver variabel. Dette er mest hensigtsmæssigt i situationer, hvor prøven er repræsentativ for befolkningen pågældende. Uvægtede effekter kodning er mest hensigtsmæssigt i situationer, hvor forskelle i stikprøvestørrelsen er resultatet af tilfældige faktorer. Fortolkningen af ​​b er forskellig for hver: i uvægtede effekter kodning b er forskellen mellem middelværdien af ​​forsøgsgruppen og den store middelværdi, mens der i den vægtede situation er det gennemsnittet af forsøgsgruppen minus den vægtede grand middelværdi.

I effekter kodning, vi kode gruppen af ​​interesse med en 1, ligesom vi ville for dummy kodning. Den væsentligste forskel er, at vi kode -1 for gruppen er vi mindst interesseret i Da vi fortsætter med at bruge ag -. 1 kodning ordning, er det i virkeligheden den -1 kodet gruppe, der vil ikke producere data, dermed det faktum, at vi er mindst interesseret i denne gruppe. En kode 0 er tildelt til alle andre grupper.

B værdier bør fortolkes således, at forsøgsgruppen sammenlignes mod middelværdien af ​​alle grupper tilsammen. Derfor giver en negativ b-værdi vil medføre den kodede gruppe som har scoret mindre end gennemsnittet af alle grupper på den afhængige variabel. Ved hjælp af vores tidligere eksempel af optimisme scoringer blandt nationaliteter, hvis gruppen af ​​interesse er italienere, observere en negativ b-værdi tyder de scorer opnå en lavere optimisme score.

Nedenstående tabel er et eksempel på effekter kodning med andre som gruppen af ​​mindst interesse.

Kontrast kodning

Kontrasten kodesystem tillader en forsker til direkte stille specifikke spørgsmål. Snarere end at have kodningssystemet diktere sammenligning gøres kan man designe en unik sammenligning catering til ens konkrete forskningsspørgsmål. Dette skræddersyede hypotese er generelt baseret på tidligere teori og / eller forskning. De foreslåede hypoteser er generelt som følger: for det første er den centrale hypotese, postulerer en stor forskel mellem to sæt af grupper; den anden hypotese tyder på, at inden for hvert sæt, forskellene mellem grupperne er små. Gennem sine a priori fokuserede hypoteser, kontrast kodning kan give en stigning i magt statistisk test sammenlignet med de mindre rettet tidligere kodesystemer.

Visse forskelle opstår, når vi sammenligner vores a priori koefficienter mellem ANOVA og regression. I modsætning til, når de anvendes i ANOVA, hvor det er forskerens skøn om de vælger koefficientværdier, der enten er ortogonale eller ikke-ortogonale, regression, er det vigtigt, at koefficientværdier tildelt i modsætning kodning ortogonale. Endvidere regression, skal koefficientværdier enten være i fraktionerede eller decimal form. De kan ikke tage på interval værdier.

Konstruktionen af ​​kontrast koder er begrænset af tre regler:

  • Summen af ​​kontrast koefficienter pr hver kode variabel skal være lig nul.
  • Forskellen mellem summen af ​​de positive koefficienter og summen af ​​de negative koefficienter skal være lig 1.
  • Kodede variabler skal være ortogonale.

Overtrædelse regel 2 producerer nøjagtig R og F-værdier, hvilket indikerer, at vi ville nå de samme konklusioner om, hvorvidt der er en væsentlig forskel; Men kan vi ikke længere fortolke b værdier som en gennemsnitlig forskel.

For at illustrere konstruktionen af ​​kontrast koder overveje følgende tabel. Koefficienter blev valgt til at illustrere vores a priori hypoteser: Hypotese 1: franske og italienske personer scorer højere på optimisme end tyskerne. Dette illustreres ved at tildele den samme koefficient til de franske og italienske kategorier, og en anden en til tyskerne. Tegnene er tildelt angiver retningen af ​​forholdet. Hypotese 2: fransk og italienere forventes at afvige på deres optimisme scoringer. Her, at tildele en nulværdi til tyskere demonstrerer deres manglende inddragelse i analysen af ​​denne hypotese. Igen tegn tildelte er vejledende for den foreslåede forhold.

Nonsense kodning

Nonsens kodning, når en bruger vilkårlige værdier i stedet for betegnet "0" s "1" 'ere og "-1" S set i de tidligere kodesystemer. Selvom det producerer korrekte middelværdier for variabler, er brugen af ​​nonsens kodning ikke anbefales, da det vil føre til ufortolkelige statistiske resultater.

Interaktioner

En interaktion kan opstå, når man overvejer forholdet mellem tre eller flere variable, og beskriver en situation, hvor den samtidige påvirkning af to variabler på en tredje ikke additive. Interaktioner kan opstå med kategoriske variable på to måder: enten ved kategoriske kategorisk variabel interaktioner eller kategoriske ved kontinuerlige variable interaktioner.

Kategorisk af kategoriske variable interaktioner

Denne type interaktion opstår, når vi har to kategoriske variable. For at undersøge denne form for interaktion, ville man kode bruge systemet, der behandler forskerens hypotese mest hensigtsmæssigt. Produktet af koderne giver interaktionen. Man kan derefter beregne b-værdi og afgøre, om vekselvirkningen er betydelig.

Kategorisk ved kontinuerte variable interaktioner

Simple skråninger analyse er en fælles post hoc test, der anvendes i regression, der ligner den enkle virkemidler analyse ANOVA, anvendes til at analysere interaktioner. I denne test undersøger vi de enkle skråninger af en uafhængig variabel på bestemte værdier af den anden uafhængige variabel. En sådan test er ikke begrænset til brug med kontinuerte variable, men kan også anvendes, når den uafhængige variabel er kategorisk. Vi kan ikke bare vælge værdier for at undersøge interaktionen, som vi ville i den kontinuerlige variable tilfælde på grund af den nominelle karakter af dataene. I vores kategoriske tilfælde ville vi bruge en simpel regressionsligning for hver gruppe til at undersøge de simple skråninger. Det er almindelig praksis at standardisere eller center variabler til at gøre data mere tolkes i simpel skråninger analyse; dog bør kontinuerlige variabler aldrig standardiseres eller centreret. Denne test kan bruges med alle kodning systemer.

  0   0
Forrige artikel Adrian Gunnell
Næste artikel Overhead

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha