*******Bihotzarekin baino ez da ondo ikusten, Funtsezkoa ikusezina da begientzat*******

Just another WordPress.com weblog

ZIENTZIA ETA TEKNOLOGIAREN CORPUSA 2 Abril 24, 2008

Archivado en: Joseba Abaitua, Littera, Material Informatizatuak — maitek @ 10:20 am

Zientzia eta Teknologiaren Corpusaren azterketarekin jarraituz, aurreko artikuluan aipatu ez ditudan beste lau atal gehiago aipatuko ditut. Honako hauek dira:

  1. Azalpen laburra
  2. Diseinua eta metodologia
  3. Obrak
  4. Hornitzaileak
  5. Lan taldea

Artikulu honeta, beraz, corpus honen sarrera bezala defini dezakegun azalpentxo bat egingo dut eta honekin batera corpus honen diseinua eskeiniko dizuet.

Sarrera bezala esan daiteke, Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpus honen diseinuari dagokionez honako eskema hau jarraitzen da:

  1. 1 Sarrera
  2. 2 Corpus berezia edo espezializatua
    1. 2.1 Zer da corpus berezia?
    2. 2.2 Zergatik behar dugu corpus berezi bat zientzia eta teknologiaren alorrean?
    3. 2.3 Zertarako erabil dezakegu corpus berezia?
  3. 3 Corpusgintza-eredua
  4. 4 Diseinua: ZT corpusaren ezaugarriak
  5. 5 Cospusgintza-lana
    1. 5.1 Corpus gordina
    2. 5.2 Etiketatzea
      1. 5.2.1 Egitura-etiketatzea
        1. 5.2.1.1 Egitura-elementuak
        2. 5.2.1.2 Nabarmentzea eta aipuak
        3. 5.2.1.3 Zuzenketak, aldaketak
      2. 5.2.2 Etiketatze linguistikoa
        1. 5.2.2.1 Urratsak
        2. 5.2.2.2 Baliabide lexikalak eta lematizazio-irizpideak
        3. 5.2.2.3 Informazio linguistikoa
        4. 5.2.2.4 Etiketatze- edo anotazio-eredua
        5. 5.2.2.5 EL modulua
          1. 5.2.2.5.1 Testu-leihoa
          2. 5.2.2.5.2 Analisi-leihoa
  6. 6 Ondorioak
  7. 7 Bibliografia
 

ZIENTZIA ETA TEKNOLOGIAREN KORPUSA Abril 24, 2008

Archivado en: Joseba Abaitua, Littera, Material Informatizatuak — maitek @ 9:49 am

Zientzia eta Teknologiaren Corpusa, corpus zabala, sakona eta ondo antolatua dugu. Web orrialde hau zabaldu bezain laster, honako aukerak esakaintzen dizkigu:

  1. Aurkezpena
  2. Laguntza
  3. Harremanak
  4. Bilaketa arrunta

Lau atal hauetatik, guk gehien landuko duguna Bilaketa arrunta izenekoa da. Honekin batera bileketa bat egiteko orduan badugu beste aukera bat: Bilaketa aurreratua deritzona. Horrela, corpus honek bilaketa bat egiteko orduan, zer erraztasun eta zenbateko informazioa eskaintzen digun ikusi ahalko dugu. Horretarako, taldekide bakoitzak alor jakin batean sakonduko du. Hau da izena, izen eratorri eta elkatuak, adjektiboa, adberbioa eta aditzaren barnean.

Tamainari dgokionez, corpus honen barnean ondoa esan dezakegu:

- Hitzak:

Guztira: 8,5 milioi hitz (8.529.505)
Automatikoki landuak: 6,6 milioi hitz (6.634.573)
Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,9 milioi hitz (1.894.932)

- Lemak:

Guztira: 149.793
Eskuz egiaztatuak: 78.637

Honako hau dugu web orrialdearen formatua: