Teknologia berrietan murgilduz

Just another WordPress.com weblog

EREDUZKO PROSA GAUR 2 mayo 13, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 9:57 am

Hona hemen bigarren artikulotxoa Ereduzko Prosa Gaur corpusaren gainean. Artikulu honetan bilaketa bat egiteko orduan corpus honek zer esakaintzen digun ikusiko dugu.

Hitz bat bilatzeko orduan, corpus honetan bi aukera ditugu:

  1. Corpus arakatzailea
  2. Maiztasunak

Lehengoa klikatuz gero, bost hitz batera bilatzeko aukera izango dugu. Eta bai liburuetan, bai prentsan, bietan bilatzeko aukera izango dugu. Honekin batera corpusa murrizteko aukera ere badugu. Bigarrena klikatuz gero, hitz bat bilatzeko aukera izango dugu eta honetan ere bai artiuluetan, bai prentsan bilatzeko aukera izango dugu. Honetaz gain, emaitza ordenatua lortu ahal dugu eta horretarako bi aukera ematen ditu: maiztasunagatik ala alfabetikoki.

Hona hemen esandako hobeto ulertzeko adibide adierazgarri bat:

 

EREDUZKO PROSA GAUR mayo 6, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 9:39 am

Proiektuan erabiltzen ari garen beste corpusa, honako hau da: Ereduzko Prosa Gaur. Hau honela izanik, corpus honen gainean artikulotxo bat egitea aproposa dela pentzatu dut.

Sarrera bezala esan daiteke, EHU Euskara zerbitzuak eskeintzen digun corpusa dela hau. Izan ere, artikuluak idazteko orduan asko gara zalantzak ditugunak, hitz egokiena aukeratzeko orduan. Egoera horri aurre egiteko EHUko Euskara Zerbitzuak honako lanabes hau eskaintzen dizu. Bertan, gaur egungo hainbat euskal idazle ereduzkoren azken urteotako testuak bildu ditugu, horiekin corpus aski zabal bat eratuz. Corpus horri etekinik beteena ateratzeko aztergailu ahaltsu eta erabilerraz bat erantsi diogu. Horiek horrela, lanabes aski egokia duzu hau, gaurko euskal autore eredugarriak zure duda-mudei eman dizkien irtenbideak ezagutzeko.

Corpus honen gaineko infomazio zehatza:

- Denera: 25,1 milioi hitz

- Liburuak

   13,1 milioi hitz

    2000-2006 bitarteko 287 libru.

- Prentsa

   12 milioi hitz

    2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

    2001-2005 bitarteko Herria astekaria (2 milioi hitz)

- Azken eguneratzea:
    2007-07-07

 

 

ZIENTZIA ETA TEKNOLOGIAREN CORPUSA 3 mayo 5, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 10:51 am

Zientzia eta Teknologiaren Corpusari eskeiniko diodan hirugarren artikulu honetan, Bilaketa Arrunta eta Bilaketa Aurreratua izeneko atalak aztertuko ditut. Izan ere gure proiektuan atal hauek dira sakonen aztertuko ditugunak. Hau horrela izanik, honen gaineko artikulu bat egitea aproposa edota beharrezkoa iruditu zait.

Hasteko, esan beharra dago, bai Bilaketa Aurreratuak eta bai Bilaketa Arruntak oinarrizko egitura bera dutela. Ondorengo hau da:

  • Bilaketa-atala. Hirutan banatuta dago, eta azpiatal horietako bakoitzak aukera ematen du:
    • bilatu nahi dena (bilagaia) zehazteko: lema, forma (edo testu-hitza) eta kategoria
    • bilaketa non (corpusaren zein atal edo sailetan) egin nahi den mugatzeko: corpus osoan edo eskuz landutako corpus-atalean; halako eremuan edo generoan; lema konplexuen osagaietan (bai/ez)
    • emaitza-mota aukeratzeko (testuinguruak, kopuruak edo biak) eta bilagaiaren agerraldiak ordenatzeko irizpidea hautatzeko (dokumentua, lema, forma, ondoko edo aurreko testuingurua eta abar)
  • Emaitza-atala. Bi emaitza mota daude:
    • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen, formen, lema/kategoria konbinazioen eta abarren zerrenda eta kopuruak (maiztasun-taula eta -grafikoa)
    • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen edo formen agerraldiak, KWIC edo ‘konkordantzia’ eran emanak; horien agerraldietan klik eginez, agerraldiaren erreferentzia (obra, egilea eta abar) eta testuinguru zabalagoa eskaintzen da aparteko leiho batean

Bilaketa Arruntan oraindik ere gehiago sakondu nahi baduzu eda Bilaketa Aurreratuan gehiago sakondu nahi baduzu, badakizu egin klik.

Hona hemen bien adibide bana:

 

ZIENTZIA ETA TEKNOLOGIAREN CORPUSA 2 abril 24, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 10:20 am

Zientzia eta Teknologiaren Corpusaren azterketarekin jarraituz, aurreko artikuluan aipatu ez ditudan beste lau atal gehiago aipatuko ditut. Honako hauek dira:

  1. Azalpen laburra
  2. Diseinua eta metodologia
  3. Obrak
  4. Hornitzaileak
  5. Lan taldea

Artikulu honeta, beraz, corpus honen sarrera bezala defini dezakegun azalpentxo bat egingo dut eta honekin batera corpus honen diseinua eskeiniko dizuet.

Sarrera bezala esan daiteke, Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpus honen diseinuari dagokionez honako eskema hau jarraitzen da:

  1. 1 Sarrera
  2. 2 Corpus berezia edo espezializatua
    1. 2.1 Zer da corpus berezia?
    2. 2.2 Zergatik behar dugu corpus berezi bat zientzia eta teknologiaren alorrean?
    3. 2.3 Zertarako erabil dezakegu corpus berezia?
  3. 3 Corpusgintza-eredua
  4. 4 Diseinua: ZT corpusaren ezaugarriak
  5. 5 Cospusgintza-lana
    1. 5.1 Corpus gordina
    2. 5.2 Etiketatzea
      1. 5.2.1 Egitura-etiketatzea
        1. 5.2.1.1 Egitura-elementuak
        2. 5.2.1.2 Nabarmentzea eta aipuak
        3. 5.2.1.3 Zuzenketak, aldaketak
      2. 5.2.2 Etiketatze linguistikoa
        1. 5.2.2.1 Urratsak
        2. 5.2.2.2 Baliabide lexikalak eta lematizazio-irizpideak
        3. 5.2.2.3 Informazio linguistikoa
        4. 5.2.2.4 Etiketatze- edo anotazio-eredua
        5. 5.2.2.5 EL modulua
          1. 5.2.2.5.1 Testu-leihoa
          2. 5.2.2.5.2 Analisi-leihoa
  6. 6 Ondorioak
  7. 7 Bibliografia
 

ZIENTZIA ETA TEKNOLOGIAREN KORPUSA abril 24, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 9:49 am

Zientzia eta Teknologiaren Corpusa, corpus zabala, sakona eta ondo antolatua dugu. Web orrialde hau zabaldu bezain laster, honako aukerak esakaintzen dizkigu:

  1. Aurkezpena
  2. Laguntza
  3. Harremanak
  4. Bilaketa arrunta

Lau atal hauetatik, guk gehien landuko duguna Bilaketa arrunta izenekoa da. Honekin batera bileketa bat egiteko orduan badugu beste aukera bat: Bilaketa aurreratua deritzona. Horrela, corpus honek bilaketa bat egiteko orduan, zer erraztasun eta zenbateko informazioa eskaintzen digun ikusi ahalko dugu. Horretarako, taldekide bakoitzak alor jakin batean sakonduko du. Hau da izena, izen eratorri eta elkatuak, adjektiboa, adberbioa eta aditzaren barnean.

Tamainari dgokionez, corpus honen barnean ondoa esan dezakegu:

- Hitzak:

Guztira: 8,5 milioi hitz (8.529.505)
Automatikoki landuak: 6,6 milioi hitz (6.634.573)
Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,9 milioi hitz (1.894.932)

- Lemak:

Guztira: 149.793
Eskuz egiaztatuak: 78.637

Honako hau dugu web orrialdearen formatua:

 

BIBLIOGRAFIA AIPATZEKO MODUAK marzo 11, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 11:35 am
  • SARRERA:

Modu desberdinak daude bibliografia aipatzeko. Besteak beste, egunakarien artikuluak aipatzeko, aldizkarien artikuluak aipatzeko, liburuak eta internteko orrialdeak. Nik ondorengo hauetan sakonduko dut:

  • Egunkarien artikuluak:

Argitaratutako egunkariena

Online egunkariena

Datu baseetako artikulu luzeena

  • Aldizkarien artikuluak:

Argitaratutako egunkariena

Online egunkariena

Datu baseetako artikulu luzeena

  • Liburuak:

Idazle bakarreko liburuak

Bi idazleen liburuak

Hiru idazle edo gehiagoren liburuak

Liburu elektronikoa

Artikulu bilduma liburuetan

Entziklopediak eta antzekoak

  • Iturri primarioak:

Ezkutitza

Elkarrizketa

Argazkia mugimenduan

Online bilduma

  • ONDORIOA:

Ondorioz esan dezakegu, informazio iturriaren arabera, era desberdinak daudela berau aipatzeko. Beraz, bibliografia aipatzeo orduan arreta handiz jokatu beharko dugu.

  • BIBLIOGRAFIA:
  • http://library.duke.edu/research/citing/workscited/
 

ELRA febrero 20, 2008

Archivado en: Joseba Abaitua,Littera,Material Informatizatuak — maitek @ 10:06 pm
  • DEFINIZIOA:

Europako hizkuntz errekurtsoen elkartea da ELRA. “European Language Resources Association (ELRA) was established as a non-profit organisation in Luxembourg in February, 1995.”

  • HIZKUNTZ ERREKURTSOEN APLIKAZIOA:

elra_supply21.jpg

  • ERREKURTSO LINGUISTIKOEN KATALOGOA:

Lau kategoriatan banatzen da:

  1. Ahozkoa.
  2. Idatzizkoa.
  3. Terminologikoa.
  4. Multimedia
  • ERREKURTSO LINGUISTIKOEN ERABILERA BI

 1. SISTEMEN ELABORAZIOA: Idatzizko edo ahozko hizkuntzen sistema prozesua ”corporaren” erabileran oinarritua dago.

2. SISTEMEN EBALUAKETA:  Hizkuntz errekurtsoak, jada garatuta dauden sistemak konparatzeko eta garatzeko erabiltzen dira.

 

JUDASEN EBANJELIOA diciembre 26, 2007

Archivado en: Ana Elejabeitia,Joseba Abaitua,Littera — maitek @ 12:45 pm

 

  • DEFINIZIOA:

Judasen ebanjelioa, “Elizaren gurasoen” testimonioen arabera, “cainitas” izeneko sekta gnostiko batek erabilitako ebagelioa izan zen. Seguruenik II.mendean sortua.

  •  AURKIKUNTZA:

Uste denez, 1978an aurkitu zuten  Egiptoko nekazari batzuek el Minya izeneko herrialdean. Esaten dutenez, Egiptotik ilegalki atera zuten.

Beranduago, hain zuzen, 2006ko apirilaren 6an National Geographic Societyk manuskritoaren itzulpena eta berreraiketa publiko egin zuen.

  • EDUKIA:

Judasen ebanjelioak, 250 lerro ditu. Honetaz gain, folio bateko zabalera du eta 66 orrialdeko kodizean aurkitzen da. Gainera heren bat ezin da irakurri. Azkenik esatea, beste hiru obra dituela.

 

INKUNABLEA diciembre 23, 2007

Archivado en: Ana Elejabeitia,Littera — maitek @ 3:51 pm

Hauxe da nik aukeratu dudan inkunablea:

IZENBURUA:

Cura de la piedra y dolor de la ijada y cólica rrenal

IDAZLEA:

Julian Gutierrez

DATA:

Toledo, 4 de abril de 1498

AIPATZEKOA:

 ”Tamaño: Folio. 88 hojas (176 páginas). Existen dos emisiones: un conjunto de ejemplares de la tirada presenta una estampa de los Santos Cosme y Damián, amén del título, como portada; y otro conjunto de ejemplares ofrece en cambio un título breve en el centro del recto de esa primera hoja. Texto en castellano a dos columnas. Letra gótica de dos tamaños, incluyendo la r perruna. Titulillos. Marca tipográfica. Indicación del privilegio y la tasa.”

BIBLIOGRAFIA:

 

AGREGATZAILEAK diciembre 11, 2007

Archivado en: Joseba Abaitua,Littera — maitek @ 10:04 am

  • DEFINIZIOA:

Agregadore bat softaware mota bat da, berrien kanaletan (RSS, Atom eta XML / RDFtik deribatutako beste formato batzutan) suskribatzeko.

  • GAUR EGUN:

Gaur egun hainbat blog eta web orrialde euren eguneraketak eskaintzen dituzte, hauek puntu bakar batean administratuak izan daitezke.

  • FUNTZIOAK:

Ingelesez batu dut azalpen hau izan ere oso egokia iruditu zait: “Aggregators reduce the time and effort needed to regularly check websites for updates, creating a unique information space or personal newspaper. Once subscribed to a feed, an aggregator is able to check for new content at user-determined intervals and retrieve the update. The content is sometimes described as being pulled to the subscriber, as opposed to pushed with email or IM. Unlike recipients of some pushed information, the aggregator user can easily unsubscribe from a feed.”

  • ADIBIDEAK:

Honen adibide dira, My Yahoo!, Google Reader, Bloglines…

  • BIBLIOGRAFIA:
 

 
Seguir

Get every new post delivered to your Inbox.