American National Corpus

American National Corpus er et tekstkorpus af amerikansk engelsk indeholdende 22 millioner ord skrevet og talt producerede data siden 1990. ANC kan på et tidspunkt omfatte en vifte af genrer kan sammenlignes med British National Corpus. Den er kommenteret for en del af tale og lemma, overfladisk parse, og navngivne enheder.

ANC i sin nuværende størrelse på 22 millioner ord er tilgængelig fra sproglige data Consortium. En 15 millioner ord delmængde af corpus, kaldet Open American National Corpus, er frit tilgængelig med ingen begrænsninger på brugen fra ANC hjemmesiden.

Corpus og dens anmærkninger leveres i henhold til specifikationerne i ISO / TC 37 SC4 sproglige Annotation Framework. Ved at anvende en frit billede transduktion værktøj, er corpus og brugervenlige valgt anmærkninger billede i flere formater, herunder XML-format konformt til XML Corpus kodningsstandard, en UIMA-kompatibelt format og formater er egnede til input til en bred vifte af konkordans software.

ANC adskiller sig fra andre korpora af engelsk, fordi det rigt er kommenteret, herunder forskellige ordklasse anmærkninger, lavvandede parse anmærkninger, og anmærkninger for flere typer af navngivne enheder. Yderligere kommentarer føjes til hele eller dele af korpus som de bliver tilgængelige, ofte ved bidrag fra andre projekter. I modsætning til on-line søgbar korpora, som på grund af ophavsretten restriktioner tillader kun adgang til de enkelte sætninger, hele ANC er til rådighed til at gøre det muligt for forskning, der involverer for eksempel udvikling af statistiske sprog modeller og fuld-tekst sproglige annotation.

ANC anmærkninger automatisk produceres og Ej samarbejdspartner. Et manuelt kommenteret Sub-Corpus vil blive frigivet i efteråret 2009, som omfatter validerede anmærkninger til de ovennævnte fænomener samt Penn Treebank syntaktisk annotation, WordNet fornuft annotation og FrameNet semantiske ramme anmærkninger.

I efteråret 2009 var den OANC Ngram Søgemaskine bliver tilgængelig på ANC hjemmesiden, hvilket vil give intra- og inter-sentential søgninger mønster-baseret. I begyndelsen af ​​2010, at OANC skulle udvides til at omfatte yderligere 20-30 millioner ord af skrevne og talte data.

  0   0

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha