*******Bihotzarekin baino ez da ondo ikusten, Funtsezkoa ikusezina da begientzat*******

Just another WordPress.com weblog

EREDUZKO PROSA GAUR 2 Mayo 13, 2008

Archivado en: Joseba Abaitua, Littera, Material Informatizatuak — maitek @ 9:57 am

Hona hemen bigarren artikulotxoa Ereduzko Prosa Gaur corpusaren gainean. Artikulu honetan bilaketa bat egiteko orduan corpus honek zer esakaintzen digun ikusiko dugu.

Hitz bat bilatzeko orduan, corpus honetan bi aukera ditugu:

  1. Corpus arakatzailea
  2. Maiztasunak

Lehengoa klikatuz gero, bost hitz batera bilatzeko aukera izango dugu. Eta bai liburuetan, bai prentsan, bietan bilatzeko aukera izango dugu. Honekin batera corpusa murrizteko aukera ere badugu. Bigarrena klikatuz gero, hitz bat bilatzeko aukera izango dugu eta honetan ere bai artiuluetan, bai prentsan bilatzeko aukera izango dugu. Honetaz gain, emaitza ordenatua lortu ahal dugu eta horretarako bi aukera ematen ditu: maiztasunagatik ala alfabetikoki.

Hona hemen esandako hobeto ulertzeko adibide adierazgarri bat:

 

EREDUZKO PROSA GAUR Mayo 6, 2008

Archivado en: Joseba Abaitua, Littera, Material Informatizatuak — maitek @ 9:39 am

Proiektuan erabiltzen ari garen beste corpusa, honako hau da: Ereduzko Prosa Gaur. Hau honela izanik, corpus honen gainean artikulotxo bat egitea aproposa dela pentzatu dut.

Sarrera bezala esan daiteke, EHU Euskara zerbitzuak eskeintzen digun corpusa dela hau. Izan ere, artikuluak idazteko orduan asko gara zalantzak ditugunak, hitz egokiena aukeratzeko orduan. Egoera horri aurre egiteko EHUko Euskara Zerbitzuak honako lanabes hau eskaintzen dizu. Bertan, gaur egungo hainbat euskal idazle ereduzkoren azken urteotako testuak bildu ditugu, horiekin corpus aski zabal bat eratuz. Corpus horri etekinik beteena ateratzeko aztergailu ahaltsu eta erabilerraz bat erantsi diogu. Horiek horrela, lanabes aski egokia duzu hau, gaurko euskal autore eredugarriak zure duda-mudei eman dizkien irtenbideak ezagutzeko.

Corpus honen gaineko infomazio zehatza:

- Denera: 25,1 milioi hitz

- Liburuak

   13,1 milioi hitz

    2000-2006 bitarteko 287 libru.

- Prentsa

   12 milioi hitz

    2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

    2001-2005 bitarteko Herria astekaria (2 milioi hitz)

- Azken eguneratzea:
    2007-07-07

 

 

ZIENTZIA ETA TEKNOLOGIAREN CORPUSA 3 Mayo 5, 2008

Archivado en: Joseba Abaitua, Littera, Material Informatizatuak — maitek @ 10:51 am

Zientzia eta Teknologiaren Corpusari eskeiniko diodan hirugarren artikulu honetan, Bilaketa Arrunta eta Bilaketa Aurreratua izeneko atalak aztertuko ditut. Izan ere gure proiektuan atal hauek dira sakonen aztertuko ditugunak. Hau horrela izanik, honen gaineko artikulu bat egitea aproposa edota beharrezkoa iruditu zait.

Hasteko, esan beharra dago, bai Bilaketa Aurreratuak eta bai Bilaketa Arruntak oinarrizko egitura bera dutela. Ondorengo hau da:

  • Bilaketa-atala. Hirutan banatuta dago, eta azpiatal horietako bakoitzak aukera ematen du:
    • bilatu nahi dena (bilagaia) zehazteko: lema, forma (edo testu-hitza) eta kategoria
    • bilaketa non (corpusaren zein atal edo sailetan) egin nahi den mugatzeko: corpus osoan edo eskuz landutako corpus-atalean; halako eremuan edo generoan; lema konplexuen osagaietan (bai/ez)
    • emaitza-mota aukeratzeko (testuinguruak, kopuruak edo biak) eta bilagaiaren agerraldiak ordenatzeko irizpidea hautatzeko (dokumentua, lema, forma, ondoko edo aurreko testuingurua eta abar)
  • Emaitza-atala. Bi emaitza mota daude:
    • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen, formen, lema/kategoria konbinazioen eta abarren zerrenda eta kopuruak (maiztasun-taula eta -grafikoa)
    • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen edo formen agerraldiak, KWIC edo ‘konkordantzia’ eran emanak; horien agerraldietan klik eginez, agerraldiaren erreferentzia (obra, egilea eta abar) eta testuinguru zabalagoa eskaintzen da aparteko leiho batean

Bilaketa Arruntan oraindik ere gehiago sakondu nahi baduzu eda Bilaketa Aurreratuan gehiago sakondu nahi baduzu, badakizu egin klik.

Hona hemen bien adibide bana: