Datasæt

Et datasæt er en samling af data.

Mest almindeligt et datasæt svarer til indholdet af en enkelt database bord eller en enkelt statistisk data matrix, hvor hver kolonne i tabellen repræsenterer en bestemt variabel, og hver række svarer til en given medlem af datasættet pågældende. Datasættet lister værdier for hver af de variabler, såsom højde og vægt af et objekt, for hvert medlem af datasættet. Hver værdi er kendt som en nulpunkt. Datasættet kan omfatte data for et eller flere medlemmer, der svarer til antallet af rækker.

Udtrykket datasæt kan også anvendes mere løst, at henvise til dataene i en samling af nært beslægtede tabeller, som svarer til et bestemt forsøg eller begivenhed.

Historie

Historisk udtrykket stammer fra mainframe området, hvor den havde en veldefineret mening, meget tæt på moderne computer-fil.

Egenskaber

Flere egenskaber definerer et datasæt struktur og egenskaber. Disse omfatter antallet og typer af de attributter eller variabler, og forskellige statistiske foranstaltninger, der gælder for dem, såsom standardafvigelse og kurtosis.

Værdierne kan være tal, såsom reelle tal eller heltal, for eksempel repræsenterer en persons højde i centimeter, men kan også være nominelle data, for eksempel repræsenterer en persons etniske oprindelse. Mere generelt kan de værdier, være af enhver af de former, der er beskrevet som et niveau af måling. For hver variabel, værdierne er normalt alle af samme art. Der kan dog også være manglende værdier, der skal angives på en eller anden måde.

I statistikken, datasæt normalt kommer fra de faktiske observationer opnået ved prøveudtagning en statistisk befolkning, og hver række svarer til bemærkninger om et element af denne population. Datasæt kan endvidere genereres ved hjælp af algoritmer med henblik på kontrol af visse former for software. Nogle moderne statistisk analyse software såsom SPSS stadig præsentere deres data i den klassiske datasæt mode

Klassiske datasæt

Flere klassiske datasæt er blevet udbredt i det statistiske litteratur:

  • Iris blomst datasæt - multivariat datasæt indført af Ronald Fisher.
  • Kategoriske data analyse - Datasæt, der anvendes i bogen, er en introduktion til kategoriske data Analysis ved Agresti leveret online fra StatLib.
  • Robuste statistik - datasæt, der anvendes i Robust Regression og Outlier Detection. Forudsat on-line ved universitetet i Köln.
  • Tidsserier - Data anvendt i Chatfield bog, analyse af Time Series, der er leveret online fra StatLib.
  • Ekstreme værdier - Data anvendt i bogen, En introduktion til det statistiske Modellering af ekstreme værdier er et øjebliksbillede af de data, som det blev leveret online af Stuart Coles, bogens forfatter.
  • Bayesian Data Analysis - Data anvendt i bogen leveres online af Andrew Gelman, en af ​​bogens forfattere.
  • Den Bupa lever data, der anvendes i flere papirer i machine learning litteratur.
  • Anscombe kvartet Lille datasæt illustrerer vigtigheden af ​​graftegning af data for at undgå statistiske fejlslutninger
  0   0
Forrige artikel Hertugen af ​​Lafões
Næste artikel Combe v combe

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha