Kategorisk fordeling

I sandsynlighedsregning og statistik, en kategorisk fordeling er en sandsynlighedsfordeling, der beskriver resultatet af en tilfældig begivenhed som kan antage en af ​​K mulige udfald, med sandsynligheden for hvert resultat specificeret. Der er ikke nødvendigvis en underliggende bestilling af disse resultater, men numeriske mærker er bundet til bekvemmelighed i beskriver fordelingen, ofte i området 1 til K. Bemærk, at K-dimensional kategoriske fordeling er den mest almindelige fordeling over en K-vejs begivenhed ; enhver anden diskret fordeling over en størrelse-K udfaldsrum er et særligt tilfælde. De parametre, der angiver sandsynlighederne for hvert muligt resultat kun begrænset af det faktum, at hver skal være i området fra 0 til 1, og alle skal opsummere til 1.

Den kategoriske fordeling er generalisering af Bernoulli fordeling for en kategorisk stokastisk variabel, dvs. for en diskret variabel med mere end to mulige udfald.

Terminologi

Indimellem er det kategoriske fordeling kaldes "diskrete distribution". Imidlertid drejer det korrekt ikke til en bestemt familie af fordelinger, men en generel klasse af fordelinger.

Bemærk, at i nogle områder, såsom machine learning og behandling af naturligt sprog, er kategoriske og multinomial distributioner smelter sammen, og det er almindeligt at tale om en "Multinomialfordelingen", når en kategorisk fordeling er faktisk menes. Denne upræcis forbrug stammer fra det faktum, at det undertiden bekvemt at udtrykke resultatet af en kategorisk fordeling som et "1-i-K" vektor snarere end som et helt tal i intervallet 1 til K; i denne form, en kategorisk fordeling svarer til en Multinomialfordelingen for en enkelt observation.

Dog kan conflating de kategoriske og multinomial distributioner føre til problemer. For eksempel i en Dirichlet-multinomial distribution, som opstår almindeligvis i naturlige sprogbehandling modeller som følge af kollapset Gibbs sampling, hvor Dirichlet distributioner er kollapset ud af en hierarkisk Bayesian model, er det meget vigtigt at skelne kategorisk fra multinomial. Den fælles fordeling af de samme variabler med samme Dirichlet-Multinomialfordelingen har to forskellige former afhængig af, om det er karakteriseret som en fordeling, hvis domæne er til individuel kategoriske noder eller over multinomial-stil tællinger af knudepunkter i hvert enkelt kategori. Begge former har meget lignende udseende sandsynlighedsmassen funktioner, som både indeholder henvisning til multinomial stil optællinger af noder i en kategori. Men multinomialfordelingen stil PMF har en ekstra faktor, en multinomial koefficient, der er en konstant lig med 1 i kategoriske stil PMF. Forvirrende de to kan let føre til forkerte resultater i miljøer, hvor denne ekstra faktor ikke er konstant med hensyn til udlodning af interesse. Faktoren er ofte konstant i de komplette betingede anvendes i Gibbs sampling og de optimale fordelinger i variational metoder.

Introduktion

En kategorisk fordeling er en diskret sandsynlighedsfordeling hvis udfaldsrum er det sæt af k individuelt identificerede elementer. Det er den generalisering af Bernoulli fordeling for en kategorisk stokastisk variabel.

I en formulering af fordelingen, er udfaldsrummet for at være en finit sekvens af heltal. De nøjagtige tal anvendes som etiketter er uvæsentligt; de kunne være {0, 1, ..., k-1} eller {1, 2, ..., k} eller andre vilkårlige værdisæt. I de følgende beskrivelser, vi bruger {1, 2, ..., k} for nemheds skyld, selv om dette er uenig i konventionen om Bernoulli distribution, som bruger {0, 1}. I dette tilfælde sandsynlighedsmassen funktionen f er:

hvor repræsenterer sandsynligheden for at se element I og II.

En anden formulering, der synes mere kompliceret, men letter matematiske manipulationer er som følger, ved hjælp af Iverson beslag:

hvor evalueres til 1, hvis, 0 ellers. Der er forskellige fordele ved denne formulering, fx:

  • Det er lettere at skrive sandsynligheden funktion af et sæt af uafhængige identisk fordelte kategoriske variable.
  • Det forbinder det kategoriske fordeling med den relaterede Multinomialfordelingen.
  • Det viser, hvorfor Dirichlet fordeling er konjugatet forud for kategoriske fordeling, og tillader den bageste fordeling af de parametre, der skal beregnes.

Endnu en formulering udtrykkeligt forbindelsen mellem de kategoriske og multinomial distributioner ved at behandle kategoriske fordeling som et specialtilfælde af den Multinomialfordelingen hvor parameteren n af Multinomialfordelingen er fastsat til 1. I denne formulering, kan udfaldsrummet blive betragtet at være sættet af 1-of-K kodede tilfældige vektorer x af dimensionen k har den egenskab, at netop ét element har værdien 1, og de andre har værdien 0. Den særlige element med værdien 1 angiver hvilken kategori der er valgt. Sandsynlighedsmassen funktionen f i denne formulering er:

hvor repræsenterer sandsynligheden for at se element I og II. Det er den formulering vedtaget af biskop.

Egenskaber

  • Fordelingen er helt afgivet sandsynlighederne forbundet med hvert nummer i :, i = 1, ..., k, hvor. De mulige sandsynligheder er præcis standard dimensional simplex; for k = 2 dette reducerer mulige sandsynligheder for Bernoulli fordeling værende 1-simplex,
  • Fordelingen er et specialtilfælde af en "flerdimensional Bernoulli fordeling", hvor netop en af ​​de k 0-1 variabler antager værdien én.
  • Lad være realiseringen af ​​en kategorisk distribution. Definer den tilfældige vektor Y som består af elementerne:
  • Konjugatet forudgående fordeling af en kategorisk fordeling er en Dirichlet distribution. Se afsnittet nedenfor for mere diskussion.
  • Den tilstrækkelig statistik fra n uafhængige observationer er det sæt af tællinger af observationer i hver kategori, hvor det samlede antal forsøg er fast.
  • Indikatoren funktion en observation har en værdi i, svarende til Iverson beslag funktionen eller kroneckers delta-funktionen er Bernoulli fordelt med parameter

Med et konjugat før

I Bayesiansk statistik, Dirichlet fordeling er den konjugerede forudgående fordeling af kategoriske fordeling. Det betyder, at i en model, der består af et datapunkt, der har en kategorisk med ukendt parameter vektor p, og vi vælger at behandle denne parameter som en stokastisk variabel og give det en forudgående fordeling defineret ved hjælp af en Dirichlet fordeling, så den bageste fordeling af parameter, efter at inkorporere viden fra de observerede data, er også en Dirichlet. Intuitivt i et sådant tilfælde, startende fra hvad vi ved om den parameter, før observere datapunkt, vi så kan opdatere vores viden baseret på de data punkt, og ender med en ny fordeling af samme form som den gamle. Dette betyder, at vi successivt kan opdatere vores viden om en parameter ved at inkorporere nye observationer en ad gangen, uden at løbe ind matematiske problemer.

Formelt kan dette udtrykkes som følger. Givet en model

derefter følgende gælder:

Dette forhold anvendes i Bayesian statistikker at estimere den underliggende parameter p af en kategorisk fordelingen angivet en samling på N aftastninger. Intuitivt kan vi se hyperprior vektor α som pseudocounts, dvs. som der repræsenterer antallet af observationer i hver kategori, som vi allerede har set. Så vi blot tilføje i tæller for alle de nye observationer med henblik på at udlede den bageste distribution.

Yderligere intuition kommer fra den forventede værdi af den bageste distribution:

Det siger, at den forventede sandsynlighed for at se en kategori I mellem de forskellige diskrete fordelinger genereret af den bageste fordelingen er simpelthen lig med den andel af forekomster af denne kategori faktisk ses i dataene, herunder pseudocounts i forudgående fordeling. Dette gør en stor intuitiv fornemmelse: Hvis, for eksempel, er der tre mulige kategorier, og vi så i kategori 1 i vores observerede data 40% af tiden, ville vi forvente i gennemsnit at se kategori 1 40% af tiden i den bageste distribution samt.

, Hvilket er faktisk, hvad den bageste fortæller os. Dog kan den sande fordeling faktisk være eller eller diverse andre nærliggende muligheder. Mængden af ​​usikkerhed her er angivet af variansen af ​​den bageste, som er kontrolleret af det samlede antal observationer -. Jo mere data, vi observerer, jo mindre vores usikkerhed om den sande parameter)

MAP Skøn

Den maksimale-a-posteriori estimat af parameteren p i ovenstående model er simpelthen den tilstand af den bageste Dirichlet distribution, dvs.

I mange praktiske anvendelser, er den eneste måde garantere tilstand, som er at sætte for alle i.

Marginal sandsynlighed

I ovenstående model, den marginale sandsynlighed for observationerne er en Dirichlet-Multinomialfordelingen:

Denne fordeling spiller en vigtig rolle i hierarkiske Bayesian modeller, fordi når laver inferens i sådanne modeller ved hjælp af metoder som Gibbs sampling eller variational Bayes er Dirichlet tidligere fordelinger ofte marginaliseret ud. Se artiklen om denne fordeling for flere detaljer.

Posterior prædiktiv fordeling

Den bageste prædiktive fordeling af en ny observation i ovenstående model er fordelingen, at en ny observation ville tage i betragtning sættet af N kategoriske variable. Som vist i Dirichlet-Multinomialfordelingen artiklen, det har en meget simpel form:

Bemærk de forskellige relationer mellem denne formel, og de tidligere:

  • Den bageste prædiktive sandsynlighed for at se en bestemt kategori er den samme som den relative andel af tidligere bemærkninger i denne kategori. Dette gør logisk mening intuitivt, vi ville forvente at se en bestemt kategori i henhold til frekvensen allerede observeret på denne kategori.
  • Den bageste prædiktive sandsynlighed er den samme som den forventede værdi af den bageste distribution. Dette forklares mere nedenfor.
  • Som et resultat heraf kan denne formel udtrykkes som blot "den bageste prædiktiv sandsynlighed for at se en kategori er proportional med den samlede observerede optælling af denne kategori" eller som "den forventede optælling af en kategori er den samme som den samlede observerede optælling af kategorien ", hvor" observerede count "er taget til at omfatte pseudo-observationer af forud.

Årsagen til ækvivalensen mellem bageste prædiktiv sandsynlighed og den forventede værdi af den bageste fordeling af p er tydelig, når vi revurdere ovenstående formel. Som forklaret i den bageste prædiktive fordeling artiklen, formlen for den bageste prædiktive sandsynlighed har form af en forventet værdi, der med hensyn til den bageste distribution:

Det afgørende linie over er den tredje. Den anden følger direkte af definitionen af ​​forventede værdi. Den tredje linje er navnlig den kategoriske fordeling, og følger af, at det i kategoriske fordeling specifikt den forventede værdi af at se en særlig værdi i er direkte angivet af den tilhørende parameter pi. Den fjerde linje er simpelthen en omskrivning af den tredje i en anden notation, med notationen længere op til en forventning taget med hensyn til den bageste fordeling af parametrene.

Bemærk også, hvad der sker i en situation, hvor vi observerer datapunkter én efter én, og hver gang overveje deres prædiktive sandsynlighed før observere datapunkt og opdatere den bageste. For et givet datapunkt, sandsynligheden for dette punkt under forudsætning af en bestemt kategori afhænger af antallet af datapunkter, der allerede i denne kategori. Hvis en kategori har en høj hyppighed, så nye datapunkter er mere tilbøjelige til at slutte, at kategori yderligere berige den samme kategori. Denne type scenarie er ofte kaldes en fortrinsret vedhæftet model. Denne modeller mange virkelige verden processer, og i sådanne tilfælde de valg, som de første par datapunkter har en store størrelser indflydelse på resten af ​​datapunkter.

Posterior betingede fordeling

I Gibbs sampling, vi typisk har brug for at trække betingede fordelinger i flere variable Bayes netværk, hvor hver variabel er betinget af alle de andre. I netværk, der omfatter kategoriske variable med Dirichlet priors, er Dirichlet distributioner ofte "kollapsede" af netværket, som indfører afhængigheder mellem de forskellige kategoriske knudepunkter afhængig af en forudgående. En af grundene til at gøre dette er, at i et sådant tilfælde, fordelingen af ​​en kategorisk knude givet de andre er præcis den bageste prædiktive fordeling af de resterende noder.

Det er, for et sæt af knudepunkter, hvis vi betegne pågældende knude som og resten som derefter

hvor er antallet af knudepunkter med kategori I blandt de andre end node n knuder.

Sampling

Den mest almindelige måde at prøve fra en kategorisk fordeling bruger en type invers transformation prøveudtagning:

Antag at vi får en fordeling udtrykkes som "proportional" nogle udtryk, med ukendt normaliserende konstant. Så før du tager nogen prøver vi forberede nogle værdier som følger:

  • Beregne den unnormalized værdi af fordelingen for hver kategori.
  • Sum dem op og dividere hver værdi af dette beløb, med henblik på at normalisere dem.
  • Pålægge en slags orden på kategorierne.
  • Konvertere værdierne til en kumulativ fordelingsfunktion ved at erstatte hver værdi med summen af ​​alle de tidligere værdier. Dette kan gøres i tide O. Den resulterende værdi for den første kategori vil være 0.

Så, for at hver gang det er nødvendigt prøve en værdi:

  • Pick en ensartet fordelt mellem 0 og 1.
  • Find det største antal i CDF, hvis værdi er mindre end eller lig med antallet netop valgt. Dette kan gøres i tid O (log) ved binær søgning.
  • Retur den kategori, der svarer til denne CDF værdi.

Hvis det er nødvendigt at trække mange værdier fra samme kategoriske distribution, følgende fremgangsmåde er mere effektiv. Det trækker n prøver i O tid tilnærmelse bruges til at tegne værdier fra binomialfordelingen).

  0   0
Forrige artikel De Havilland Moth Minor
Næste artikel Antonio Barragan

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha