Data gitter

En data grid er en arkitektur eller et sæt af tjenester, der giver enkeltpersoner eller grupper af brugere mulighed for at få adgang, ændre og overføre ekstremt store mængder af geografisk distribuerede data til forskningsformål. Data gitre gøre dette muligt gennem et væld af middleware applikationer og tjenester, der trækker sammen data og ressourcer fra flere administrative domæner og derefter præsentere det til brugerne efter anmodning. Dataene i en data-gitter kan placeres på et enkelt sted eller flere steder, hvor hver lokalitet kan være sin egen administrative domæne styret af et sæt af restriktioner sikkerhedsmæssige hensyn til, hvem kan få adgang til data. Ligeledes kan flere kopier af dataene fordelt over hele nettet uden for deres oprindelige administrative domæne og de sikkerhedsmæssige restriktioner på de oprindelige data for hvem kan få adgang til det skal være lige så anvendes på reproduktioner. Specielt udviklet data grid middleware er det, der håndterer integrationen mellem brugere og de data, de anmoder om ved at kontrollere adgangen, samtidig med at den tilgængelig så effektivt som muligt. Diagrammet til højre viser et højt niveau visning af en data gitter.

Middleware

Middleware indeholder alle de tjenester og applikationer, der er nødvendige for en effektiv styring af datasæt og filer i data grid samtidig give brugere hurtig adgang til datasæt og filer. Der er en række begreber og værktøjer, der skal være til rådighed til at lave en data grid operationelt levedygtige. Men på samme tid ikke alle data gitre kræver de samme evner og tjenester på grund af forskelle i adgangskrav, sikkerhed og placering af ressourcer i forhold til brugerne. Under alle omstændigheder vil de fleste data gitre har lignende middleware tjenester, der giver en universel navn plads, data transport service, dataadgang tjenester, data replikation og ressourcestyring service. Når de tages sammen, de er nøglen til de data, net funktionelle kapaciteter.

Universal navnerum

Da datakilder inden for data gitter vil bestå af oplysninger fra flere separate systemer og netværk ved hjælp af forskellige fil navngivning, vil det være vanskeligt for en bruger at lokalisere data inden for data nettet og ved, at de hentes, hvad de havde brug for udelukkende baseret på eksisterende fysiske filnavne. En universel eller samlet betegnelse rum gør det muligt at skabe logiske filnavne, der kan refereres i data grid, der kort til PFNs. Når en LFN er anmodet om eller forespørges, er alle matchende PFNs returneret til også at omfatte mulige kopier af de ønskede data. Slutbrugeren kan derefter vælge fra de returnerede resultater den mest hensigtsmæssige replika til at bruge. Denne service leveres normalt som en del af et ledelsessystem kendt som en Opbevaring Resource Broker. Oplysninger om placeringen af ​​filer og kortlægninger mellem LFNs og PFNs kan opbevares i et metadata eller replika katalog. Replika katalog ville indeholde oplysninger om LFNs der kort til flere replika PFNs.

Data trafikbetjening

En anden middleware service er, at for at indføre datatransport eller dataoverførsel. Data transport vil omfatte flere funktioner, der ikke kun begrænset til overførsel af bits, til også at omfatte sådanne emner som fejltolerance og dataadgang. Fejl tolerance kan opnås i en data-gitter ved at levere mekanismer, der sikrer dataoverførsel genoptages efter hver afbrydelse, indtil alle ønskede data er modtaget. Der er flere mulige metoder, der kan anvendes til at omfatte starte hele transmission over fra begyndelsen af ​​data til genoptagelse fra hvor overførslen blev afbrudt. Som et eksempel, GridFTP foreskriver fejltolerance ved at sende data fra det sidste anerkendt byte uden at starte hele overførsel fra begyndelsen.

De data trafikbetjening giver også mulighed for adgang på lavt niveau og forbindelser mellem værter til filoverførsel. Dataene transport tjeneste kan bruge et vilkårligt antal modes at gennemføre overførslen til også at omfatte parallelle dataoverførsel hvor data to eller flere strømme anvendes i samme kanal eller stribet dataoverførsel, hvor to eller flere dampe adgang til forskellige blokke af filen til samtidig overførsel til også ved hjælp af de underliggende indbyggede kapaciteter af netværkshardware eller specifikt udviklet protokoller til at understøtte hurtigere overførselshastigheder. De data trafikbetjening kan eventuelt indeholde et netværk overlay funktion at lette routing og overførsel af data samt fil I / O-funktioner, der giver brugerne mulighed for at se fjernfiler som om de var lokale til deres system. De data trafikbetjening skjuler kompleksiteten af ​​adgang og overførsel mellem de forskellige systemer til brugeren, så det fremstår som en samlet datakilde.

Dataadgang tjeneste

Data adgangstjenester arbejde hånd i hånd med den service dataoverførsel at stille sikkerhed, adgangskontrol og forvaltning af eventuelle dataoverførsler inden for data nettet. Sikkerhedstjenester giver mekanismer til autentifikation af brugere til at sikre, at de er korrekt identificeret. Almindelige former for sikkerhed til godkendelse kan omfatte brugen af ​​adgangskoder eller Kerberos. Tilladelse tjenester er de mekanismer, der styrer, hvad brugeren er i stand til at få adgang efter at være blevet identificeret gennem godkendelse. Almindelige former for mekanismer tilladelse kan være så simpelt som filrettigheder. Men behovet for strengere kontrolleret adgang til data sker ved hjælp Access Control Lists, rollebaserede Adgangskontrol og pålagde autorisationscentral Controls. Disse typer af kontroller kan bruges til at give kornet adgang til filer til at omfatte grænser for adgang gange, varigheden af ​​adgangen til granulerede kontroller, der bestemmer hvilke filer kan læses eller skrives til. Den endelige dataadgang service, der kunne være til stede for at beskytte fortroligheden af ​​transporten data kryptering. Den mest almindelige form for kryptering til denne opgave har været anvendelsen af ​​SSL, mens i transport. Mens alle disse adgangstjenester operere inden for data nettet, vil adgang til tjenester inden for de forskellige administrative domæner, vært datasættene stadig forblive på plads til at håndhæve adgangsregler. De data, gitter adgangstjenester skal være i takt med de administrative tjenester domæner adgang for at dette virker.

Data replikering tjeneste

For at imødekomme behovet for skalerbarhed, hurtig adgang og bruger samarbejdet, de fleste data gitre understøtter replikering af datasæt til punkter inden den distribuerede storage arkitektur. Brugen af ​​replikaer tillader flere brugere hurtigere adgang til datasæt og bevarelse af båndbredde, fordi kopier ofte kan placeres strategisk tæt på eller inden for steder, hvor brugerne har behov for dem. Imidlertid er replikation af datasæt og skabelse af replikaer bundet af tilgængeligheden af ​​opbevaring inden websteder og båndbredde mellem websteder. Replikation og etablering af replika datasæt styres af en replika management system. Replika management system bestemmer brugernes behov for replikaer baseret på input anmodninger og skaber dem baseret på tilgængeligheden af ​​lagerplads og båndbredde. Alle replikaer derefter katalogiseret eller tilføjes til en mappe baseret på de data grid om deres placering for forespørgslen af ​​brugerne. For at kunne udføre de opgaver, der gennemføres af replika management system, er det nødvendigt at være i stand til at styre den underliggende storage infrastruktur. De data management system vil også sikre en rettidig opdateringer af ændringer i replikaer opformeres til alle noder.

Replication opdatering strategi

Der er en række måder replikationen management system kan håndtere opdateringer af kopier. Opdateringerne kan designet omkring en centraliseret model, hvor en enkelt mester replika opdaterer alle andre, eller en decentral model, hvor alle peers opdatere hinanden. Topologi node placering kan også påvirke opdateringer af reproduktioner. Hvis et hierarki topologi bruges derefter opdateringer ville flyde i et træ lignende struktur gennem specifikke stier. I en flad topologi er det udelukkende et spørgsmål om peer relationer mellem knudepunkter, hvordan opdateringer finde sted. I en hybrid topologi bestående af både flad og hierarki topologier opdateringer kan ske gennem specifikke stier og mellem ligemænd.

Replication placering strategi

Der er en række måder replikationen management system kan håndtere oprettelse og placering af replikaer for bedst muligt at brugerkredsen. Hvis opbevaring arkitektur understøtter replika placering med tilstrækkelig site opbevaring, så bliver det et spørgsmål om behov de brugere, der har adgang til datasæt og en strategi for placering af reproduktioner. Der har været talrige strategier foreslået og testet på, hvordan man bedst håndtere replika placering af datasæt i data gitter til at opfylde brugernes behov. Der er ikke en universel strategi, der passer alle krav bedst. Det er et spørgsmål om den type data net- og bruger Fællesskabets krav for adgang, der vil bestemme den bedste strategi til at bruge. Replikaer kan endda skabes hvor filerne er krypteret om fortrolighed, der ville være nyttige i et forskningsprojekt beskæftiger sig med medicinske filer. Det følgende afsnit indeholder flere strategier for replika placering.

Dynamisk replikation

Dynamisk replikation er en tilgang til placering af replikaer baseret på populariteten af ​​dataene. Metoden er bygget op omkring en hierarkisk replikation model. Datastyringssystemet holder styr på tilgængelige lagerplads på alle noder. Den holder også styr på anmodninger om hvilke data klienter i et websted anmoder om. Når antallet af hits for en bestemt datasæt overstiger tærsklen replikation udløser oprettelsen af ​​en replika på serveren, der direkte servicerer brugerens klient. Hvis den direkte servicering serveren kendt som en far ikke har tilstrækkelig plads, så faderens far i hierarkiet er da målet at modtage en replika og så videre op i kæden, indtil det er opbrugt. Datastyringssystemet algoritme giver også mulighed for den dynamiske sletning af replikaer, der har en null adgang værdi eller en lavere værdi end hyppigheden af ​​de data, der skal lagres for at frigøre plads. Dette forbedrer systemets ydeevne i form af responstid, antal kopier og hjælper belastning balance på tværs af data nettet. Denne metode kan også bruge dynamiske algoritmer, der bestemmer, om omkostningerne ved at skabe replika er virkelig værd de forventede gevinster givet placeringen.

Adaptive replikation

Denne metode til at replikere som den til dynamisk replikation er bygget op omkring en hierarkisk replikation model findes i de fleste data net. Det virker på en lignende algoritme til dynamisk replikation med fil anmodninger om adgang er en altafgørende faktor i at bestemme, hvilke filer skal kopieres. En afgørende forskel er imidlertid, at antallet og hyppigheden af ​​replika kreationer er indtastet til en dynamisk tærskel, der er beregnet på grundlag af anmodning ankomst satser fra kunder over en periode. Hvis antallet af anmodninger i gennemsnit overstiger den tidligere tærskel og viser en stigende tendens, og opbevaring udnyttelsesgrad tyder evne til at skabe flere replikaer, kan der oprettes flere replikaer. Som med dynamisk replikation, kan fjernelsen af ​​kopier, der har en lavere tærskel, der ikke blev skabt i den aktuelle replikation interval fjernes for at gøre plads til de nye reproduktioner.

Fair-aktie replikering

Ligesom de adaptive og dynamiske replikering metoder før, er fair andel replikering baseret på en hierarkisk replikering model. Også, ligesom de to før, populariteten af ​​filer spiller en central rolle i at bestemme, hvilke filer vil blive gentaget. Forskellen med denne metode er placeringen af ​​replikaer er baseret på adgang belastning og oplagring belastning af kandidat-servere. En kandidat-server kan have tilstrækkelig lagerplads men vær servicere mange kunder for adgang til gemte filer. Placering af en gengivelse på denne kandidat kan forringe ydeevnen for alle klienter adgang denne kandidat server. Derfor, placering af reproduktioner med denne metode gøres ved at vurdere hver kandidatknudepunkt for adgang belastning for at finde et egnet knudepunkt for placering af replika. Hvis alle kandidatknudepunkter er ækvivalent vurderet for adgang belastning, ingen eller mindre af udleverede end den anden, så kandidatknudepunkt med den laveste oplagring belastning vil blive valgt til at være vært for reproduktioner. Lignende metoder til de andre beskrevne replikation metoder anvendes til at fjerne ubrugt eller sænke anmodet replikater hvis det er nødvendigt. Replikaer, der fjernes kan blive flyttet til en forælder node til senere genbrug bør de blevet populært igen.

Andre replikation

De ovennævnte tre replika strategier eller men tre af mange mulige replikation strategier, der kan anvendes til at placere kopier inden for data grid, hvor de vil forbedre ydeevnen og adgang. Nedenfor er nogle andre, der er blevet foreslået og afprøvet sammen med de tidligere beskrevne replikation strategier.

  • Statisk - bruger et fast replika sæt af knuder uden dynamiske ændringer til filerne bliver kopieret.
  • Bedste klient - Hver node optegnelser antal anmodninger pr fil modtaget under et forudindstillet tidsinterval; hvis anmodningen antal overstiger den indstillede tærskel for en fil en replika er skabt på den bedste klient, en, der har anmodet om filen mest; uaktuelle replikaer fjernes baseret på en anden algoritme.
  • Cascading - Anvendes i en hierarkisk node struktur, hvor anmodninger pr fil modtaget under et forudindstillet tidsinterval sammenlignes med en tærskel. Hvis tærsklen er overskredet en replika er skabt ved den første lag ned fra roden, hvis tærsklen overskrides igen en replika føjes til den næste niveau ned og så videre som et vandfald, før en replika er placeret hos kunden selv.
  • Plain Caching - Hvis kunden anmoder om en fil, den er gemt som en kopi på klienten.
  • Caching plus Cascading - Kombinerer to strategier for caching og cascading.
  • Hurtig Spread - Bruges også i en hierarkisk knude struktur udfylder denne strategi automatisk alle noder i vejen for den klient, der anmoder om en fil.

Opgaver planlægning og ressourceallokering

Sådanne karakteristika for de data skinnesystemer som stor skala og heterogenitet kræver specifikke metoder til opgaver planlægning og ressourceallokering. For at løse problemet, størstedelen af ​​systemer bruger udvidede klassiske metoder til planlægning. Andre invitere fundamentalt forskellige metoder baseret på incitamenter til autonome knuder, ligesom virtuelle penge eller omdømme en node. En anden specificitet data gitre, dynamik, består i den løbende proces med at forbinde og frakoble af knudepunkter og lokal ubalance belastning under en henrettelse af opgaver. Der kan gøre forældede eller ikke-optimale resultater for tildeling indledende ressource for en opgave. Som et resultat, mange af de data net udnytter udførelse tid tilpasning teknikker, der tillader de systemer til at afspejle de dynamiske ændringer: afbalancering af lasten, udskift frakobling noder, skal du bruge overskud af nyligt tilsluttede noder, gendanne en opgave henrettelse efter fejl.

Resource management system

Den ressource management-systemet udgør kernen funktionaliteten af ​​de data nettet. Det er hjertet af det system, der styrer alle aktioner vedrørende opbevaring ressourcer. I nogle data gitre kan det være nødvendigt at oprette et fødereret RMS arkitektur på grund af forskellige administrative politikker, og en mangfoldighed af muligheder der findes inden for data nettet i stedet for at bruge en enkelt RMS. I et sådant tilfælde RMSs i forbund vil ansætte en arkitektur, der giver mulighed for interoperabilitet baseret på en aftalt sæt protokoller til aktioner relateret til storage ressourcer.

RMS funktionelle egenskaber

  • Opfyldelse af brugernes og anvendelse anmodninger om data indtægter baseret på typen af ​​anmodning og politikker; RMS vil være i stand til at understøtte flere politikker og flere anmodninger samtidigt
  • Planlægning, timing og skabelse af replikaer
  • Politik og sikkerhed håndhævelse inden for de data gitter ressourcer til at omfatte godkendelse, autorisation og adgang
  • Støttesystemer med forskellige administrative politikker til inter-operere mens stedet autonomi bevare
  • Støtte servicekvalitet når anmodet hvis funktionen tilgængelig
  • Håndhæve systemets fejltolerance og stabilitetskrav
  • Administrer ressourcer, dvs. disk opbevaring, netværksbåndbredde og andre ressourcer, der interagerer direkte eller som en del af de data grid
  • Administrer trusts vedrørende ressourcerne i administrative domæner, kan nogle domæner lægge yderligere begrænsninger på, hvordan de deltager kræver tilpasning af RMS eller føderation.
  • Understøtter tilpasningsevne, udvidelsesmuligheder, og skalerbarhed i forhold til de data nettet.

Topologi

Data net er designet med flere topologier i tankerne at opfylde behovene i det videnskabelige samfund. Til højre ses fire diagrammer af forskellige topologier, som har været anvendt i data net. Hver topologi har et bestemt formål i tankerne til, hvor det vil være bedst udnyttes. Hver af disse topologier er yderligere forklaret nedenfor.

Federation topologi er valget til institutioner, der ønsker at dele data fra allerede eksisterende systemer. Det giver hver institution kontrol over deres data. Når en institution med ordentlig tilladelsen anmoder data fra en anden institution er det op til den institution, der modtager anmodningen om at afgøre, om de data, der vil gå til den anmodende institution. Føderationen kan løst integreret mellem institutioner, tæt integreret eller en kombination af begge dele.

Monadiske topologi har en central database, som alle indsamlede data føres ind. Det centrale register derefter reagerer på alle forespørgsler til data. Der er ingen replikaer i denne topologi i forhold til andre. Data kun adgang fra det centrale register, som kunne være i form af en web-portal. Et projekt, der bruger disse data grid topologi er Netværk for Earthquake Engineering Simulering i USA. Det fungerer godt, når al adgang til data lokalt eller inden for en enkelt region med høj hastighed connectivity.

Hierarkisk topologi egner sig til et samarbejde, hvor der er en enkelt kilde til data, og det skal blive distribueret til flere steder rundt omkring i verden. Et sådant projekt, der vil drage fordel af denne topologi ville blive CERN, der kører Large Hadron Collider, der genererer enorme mængder af data. Disse data er placeret på én kilde og skal distribueres rundt omkring i verden til organisationer, der samarbejder i projektet.

Hybrid Topologi er simpelthen en konfiguration, der indeholder en arkitektur, der består af en kombination af de ovenfornævnte topologier. Det bruges oftest i situationer, hvor research arbejder på projekter ønsker at dele deres resultater til yderligere forskning ved at gøre det let tilgængelige for samarbejde.

Historie

Behovet for data gitre blev først anerkendt af det videnskabelige samfund om klimamodeller, hvor terabyte og petabyte mellemstore datasæt var ved at blive normen for transport mellem websteder. Nyere krav til data net forskning er drevet af Large Hadron Collider på CERN, laserinterferometeret gravitationsbølge Observatory, og Sloan Digital Sky Survey. Disse eksempler på videnskabelige instrumenter producere store mængder af data, der skal være tilgængelige for store grupper af geografisk spredte forskere. Andre anvendelser for data gitre involverer regeringer, hospitaler, skoler og virksomheder, hvor indsatsen finder sted for at forbedre servicen og reducere omkostningerne ved at give adgang til spredte og separate datasystemer gennem brug af data-net.

Fra sin tidligste begyndelse, at begrebet en Data Grid støtte det videnskabelige samfund var tænkt som en specialiseret forlængelse af "grid", som i sig selv først blev planlagt som en måde at forbinde supercomputere i meta-computere. Blev imidlertid kortvarig og gitteret udviklet sig til betyder evnen til at forbinde computere overalt på nettet for at få adgang til alle ønskede filer og ressourcer, der svarer til den måde, elektricitet leveres over et gitter ved blot at tilslutte en enhed. Enheden får elektricitet gennem forbindelsen og forbindelsen er ikke begrænset til en bestemt udgang. Fra denne data tabellen blev foreslået som en integrerende arkitektur, der ville være i stand til at levere ressourcer til distribuerede beregninger. Det ville også være i stand til at servicere mange til tusindvis af forespørgsler på samme tid og samtidig levere gigabyte til terabytes af data for hver forespørgsel. De data grid ville omfatte sin egen forvaltning af infrastrukturen i stand til at forvalte alle aspekter af data gitre ydeevne og drift på tværs af flere wide area networks, mens du arbejder inden for de eksisterende rammer, kendt som internettet.

De data grid har også for nylig blevet defineret i forhold til usability; hvad skal en data-gitter kunne gøre for at det at være nyttigt at det videnskabelige samfund. Fortalere for denne teori ankom til forskellige kriterier. Én, skal brugerne være i stand til at søge og opdage gældende ressourcer i data grid blandt sine mange datasæt. To, bør brugere være i stand til at finde datasæt inden for data grid, der er mest egnet til deres krav blandt mange reproduktioner. Tre, bør brugere være i stand til at overføre og flytte store datasæt mellem punkter i en kort tid. Fire, bør de data grid give et middel til at styre flere kopier af datasæt i data nettet. Og endelig bør de data grid stille sikkerhed med brugeren adgangskontrol i data nettet, dvs. hvilke brugere har tilladelse til adgang, som data.

De data grid er en dynamisk teknologi, der fortsætter med at ændre sig og vokse for at imødekomme behovene i en ekspanderende samfund. En af de tidligste programmer begyndt at gøre data gitre en realitet blev finansieret af Defense Advanced Research Projects Agency i 1997 ved University of Chicago. Denne forskning affødt af DARPA er fortsat ned stien til at skabe open source-værktøjer, der gør data gitre muligt. Som nye krav til data gitre dukke projekter som Globus Toolkit vil dukke eller udvide til at opfylde hullet. Data net sammen med "Grid" vil fortsætte med at udvikle sig.

  0   0
Forrige artikel Slaget ved Ganghwa
Næste artikel Hertug Huai Jin

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha