CiteSeer

CiteSeer var en offentlig søgemaskine og digitale bibliotek for videnskabelige og akademiske afhandlinger, primært inden for områderne computer og informationsvidenskab, der er blevet erstattet af CiteSeer. Mange anser det for at være den første akademiske papir søgemaskine. Det blev offentliggjort i 1998, og havde mange nye funktioner utilgængelige i akademiske søgemaskiner på det tidspunkt. Disse omfattede:

  • Autonome Citation indeksering automatisk oprettet et citat indeks, der kan bruges til litteratursøgning og evaluering.
  • Citation statistik og tilhørende dokumenter blev beregnet for alle artikler citeret i databasen, ikke kun de indekserede artikler.
  • Henvisning sammenkædning tillader browsing af databasen ved hjælp citation links.
  • Citation forbindelse viste sammenhæng med citater til en given papir, tillader en forsker til at hurtigt og nemt at se, hvad andre forskere har at sige om en artikel af interesse.
  • Relaterede dokumenter blev vist ved hjælp af citation og ord baserede foranstaltninger og en aktiv og løbende opdateret bibliografi er vist for hvert dokument.

Det er ofte anset for at være den første automatiske citat indeksering system, og blev betragtet som en forgænger af akademiske søgeværktøjer såsom Google Scholar og Microsoft Academic Search. CiteSeer-lignende motorer og arkiver normalt kun høst dokumenter fra offentligt tilgængelige hjemmesider og ikke kravle udgiver hjemmesider. Som sådan forfattere, hvis dokumenterne er frit tilgængelige, er mere tilbøjelige til at være repræsenteret i indekset.

CiteSeer mål er at forbedre formidlingen og adgang akademiske og videnskabelige litteratur. Som en almennyttig tjeneste, der kan bruges frit af alle, er det blevet betragtet som en del af den åbne adgang bevægelse, der forsøger at ændre akademisk og videnskabelig publicering for at give bedre adgang til videnskabelig litteratur. CiteSeer frit forudsat Open Archives Initiative metadata alle indekserede dokumenter og links indekseret dokumenter når det er muligt for andre kilder til metadata som f.eks DBLP og ACM Portal. For at fremme åbne data, CiteSeer deler sine data med andre forskere under en Creative Commons licens.

Navnet kan fortolkes til at have mindst to forklaringer. Som et ordspil, en 'sightseer' er en turist, der ser på de seværdigheder, så en 'citere seer «ville være en forsker, der ser på citerede papirer. En anden er en "seer" er en profet og en "citere seer 'er en profet citater. CiteSeer skiftede navn til ResearchIndex på et tidspunkt, og derefter ændret det tilbage.

Historie

CiteSeer og CiteSeer.IST

CiteSeer blev skabt af forskere Lee Giles, Kurt Bollacker og Steve Lawrence i 1997, mens de var på NEC Research Institute, Princeton, New Jersey, USA. CiteSeer mål var at aktivt at kravle og høste akademiske og videnskabelige dokumenter på nettet og bruge autonom citation indeksering til at tillade forespørgsler ved citering eller med dokumentet, ranking dem ved citation effekt. På et tidspunkt blev det kaldt ResearchIndex.

Efter NEC, det i 2004 var vært, da CiteSeer.IST på World Wide Web på College of Information Sciences og Teknologi, Pennsylvania State University, og havde over 700.000 dokumenter. For bedre adgang, ydeevne og forskning, blev lignende versioner af CiteSeer understøttet ved universiteter som Massachusetts Institute of Technology, University of Zürich og National University of Singapore. Men disse versioner af CiteSeer vist sig vanskeligt at vedligeholde og er ikke længere tilgængelige. Også, CiteSeer er ikke så præcis i sin søgning på forfattere og deres papirer. Faktisk for den samme forfatter, får man færre citation tæller end andre steder, såsom Google Scholar.

CiteSeer var ikke blevet grundigt opdateret siden 2005 på grund af begrænsninger i sin arkitektur design. Det havde et repræsentativt udsnit af forskning dokumenter i computer og informationsvidenskab, men var begrænset i dækningen, fordi den kun har adgang til papirer, der er offentligt tilgængelige, som regel på en forfatters hjemmeside, eller dem forelagt af en forfatter. For at overvinde nogle af disse begrænsninger, blev et modulært og open source arkitektur for CiteSeer designet - CiteSeerX.

CiteSeer

CiteSeer erstattet CiteSeer og alle forespørgsler til CiteSeer blev omdirigeret. CiteSeer er en offentlig søgemaskine og digitale bibliotek og arkiv til videnskabelige og akademiske afhandlinger primært med fokus på computer og informationsvidenskab. Imidlertid er for nylig CiteSeerX været at udvide til andre videnskabelige områder som økonomi, fysik og andre. Udgivet i 2008, blev det løst baseret på den tidligere CiteSeer søgemaskine og digitale bibliotek og er bygget med et nyt open source-infrastruktur, SeerSuite, og nye algoritmer og deres implementeringer. Den blev udviklet af forskere Dr. Isaac Councill og Dr. C. Lee Giles ved College of Information Sciences og Teknologi, Pennsylvania State University. Den fortsætter med at støtte de mål, der er skitseret af CiteSeer til aktivt at kravle og høste akademiske og videnskabelige dokumenter på offentlige nettet og bruge en citation Forespørgsel fra citationer og rangordning af dokumenter med virkningen af ​​citationer. I øjeblikket Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen, og Shuyi Zheng er eller har været aktivt involveret i dets udvikling. For nylig blev en tabel søgefunktionen indført. Det er blevet finansieret af National Science Foundation, NASA og Microsoft Research.

CiteSeerX fortsætter med at blive bedømt som en af ​​verdens bedste depoter og blev bedømt nummer 1 i juli 2010. Det har i dag over 4 millioner dokumenter med næsten 4 millioner unikke forfattere og 80 millioner citationer.

CiteSeerX deler også dets software, data, databaser og metadata med andre forskere, som i øjeblikket ved Amazon S3 og ved rsync. Dens nye modulære open source-arkitektur og software er bygget på Apache Solr og andre Apache og open source-værktøjer, der gør det muligt at være en prøvesten for nye algoritmer i dokumentet høst, ranking, indeksering og information ekstraktion.

Aktuelle funktioner

Automatiseret Information Extraction

CiteSeerX bruger automatiske oplysninger udvinding værktøjer, som regel bygge på maskine læringsmetoder sådan ParsCit, at udtrække videnskabelig dokumentmetadata såsom titel, forfattere, abstrakt, citater, etc. Som sådan er der engang fejl i forfattere og titler. Andre akademiske søgemaskiner har lignende fejl.

Fokuseret Crawling

CiteSeerX kravler offentligt tilgængelige videnskabelige dokumenter primært fra forfatter websider og andre åbne ressourcer, og ikke har adgang til udgiveren metadata. Som sådan citation tæller i CiteSeerX er normalt mindre end i Google Scholar og Microsoft Academic Search, der har adgang til udgiveren metadata.

Andre SeerSuite-baserede søgemaskiner

Den CiteSeer model var blevet udvidet til at omfatte faglige dokumenter i erhvervslivet med SmealSearch og i e-business med eBizSearch. Imidlertid blev disse ikke vedligeholdes af deres sponsorer. En ældre version af begge disse kunne engang findes på BizSeer.IST men er ikke længere i tjeneste.

Andre Seer-lignende søgning og repository systemer er blevet bygget til kemi, ChemXSeer og arkæologi, ArchSeer. En anden var blevet bygget til robots.txt filsøgning, BotSeer. Alle disse er bygget på open source værktøj SeerSuite, som bruger open source indekseringen Lucene.

  0   0
Forrige artikel Rutenumre-0
Næste artikel Logbog

Kommentarer - 0

Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha