Dokument klyngedannelse

Dokument klyngedannelse er anvendelsen af ​​klyngeanalyse til tekstdokumenter. Det har anvendelser i automatisk dokumentføder organisation, emne udvinding og hurtig informationssøgning eller filtrering.

Oversigt

Dokument klyngedannelse indebærer anvendelse af deskriptorer og deskriptor udvinding. Deskriptorer er sæt af ord, der beskriver indholdet i klyngen. Dokument clustering anses generelt for at være en central proces. Eksempler på dokumenter klyngedannelse omfatter web dokument clustering til søgning brugere.

Anvendelsen af ​​dokumentet klyngedannelse kan kategoriseres til to typer, online og offline. Online applikationer er normalt begrænset af problemer effektivitet sammenlignet offline applikationer.

Generelt er der to almindelige algoritmer. Den første er den hierarkiske algoritme, som omfatter enkelt link, komplet binding, gruppe gennemsnitlige og Ward metode. Ved sammenlægning eller dividere, kan dokumenter samlet i hierarkisk struktur, som er egnet til gennemsyn. Men en sådan algoritme normalt lider problemer effektivitet. Den anden algoritme er udviklet ved hjælp af K-means algoritme og dens varianter. Disse algoritmer kan yderligere klassificeres som hårde eller bløde klyngedannelse algoritmer. Hård klyngedannelse beregner en hård opgave - hvert dokument er medlem af præcis en klynge. Tildelingen af ​​bløde klyngedannelse algoritmer er blød - et dokuments opgave er en fordeling over alle klynger. I en blød opgave, et dokument har fraktioneret medlemskab i flere klynger. Dimensionalitet reduktionsmetoder kan betragtes som en undertype af blødt clustering; om dokumenter, disse omfatter latent semantisk indeksering og emne-modeller.

Andre algoritmer involverer graf baseret klyngedannelse, ontologi støttet klyngedannelse og orden følsomme klyngedannelse.

Givet en klyngedannelse, kan det være gavnligt at automatisk udlede menneskeligt læsbare etiketter til klyngerne. Der findes forskellige metoder til dette formål.

Klyngedannelse i søgemaskiner

En web-søgemaskine ofte returnerer tusindvis af sider som svar på en bred forespørgsel, hvilket gør det vanskeligt for brugerne at gennemse eller til at identificere relevante oplysninger. Klyngedannelse metoder kan anvendes til automatisk at gruppen de hentede dokumenter til en liste over meningsfulde kategorier, som opnås ved Enterprise Søgemaskiner som Northern Light og Vivisimo, forbruger søgemaskiner såsom PolyMeta og Helioid eller open source software som Carrot2.

Eksempler:

  • Klyngedannelse opdeler resultaterne af en søgning efter "celle" i grupper som "biologi", "batteri" og "fængsel".
  • FirstGov.gov, den officielle web-portal for den amerikanske regering, bruger dokument clustering til automatisk at organisere sine søgeresultater i kategorier. For eksempel, hvis en bruger har gjort gældende, "indvandring", ved siden af ​​deres liste over resultater, de vil se kategorier for "Immigration Reform", "Citizenship and Immigration Services", "beskæftigelse", "Department of Homeland Security", og meget mere.
  0   0
Forrige artikel Case interview
Næste artikel Darkie Hutton

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha