Lematizazio
Lematizazioa hitz bati dagokion oinarrizko lema lortzean datza. Prozesu honek hitzari perpaus baten dagokion kategoria gramatikala definitzeko beharra du, eta beraz, hizkuntzaren gramatikaren ezagutza beharrezkoa du.
Hizkuntza askotan hitzaren bukaeran moldaketak izaten dituzte. Adibidez, euskaraz, eman aditza aldaera ezberdinetan ager daiteke, hala nola ematen, emateko, emango, emanen edo emandako. Oinarrizko forma, eman, hiztegi batean agertuko litzatekeen hori, 'lema' dela esan ohi da. Oinarrizko forma hau kategoria gramatikal batekin bateratzean lexema izena hartzen du.
Lematizazioak lotura handia du stemming kontzeptuarekin. Ezberdintasun nagusia stemmer batek hitzarengan testuinguruaren ezagutzarik gabe eragitean datza, eta beraz, ezin da esanahi ezberdinak dituzten hitzak ezberdindu. Hala eta guztiz ere, stemmer-ak errazagoak dira sortzeko, azkarrago funtzionatzen dute eta baliteke bere mugek garrantzirik ez izatea hainbat aplikaziorentzako.
Adibidez:
- "hobe" hitzak "ongi" du bere lema, baina stemming-ak ez du hori antzematen, lematizazioak bai ordea.
- "ekarriko" hitzak "ekarri" du bere lema, bai stemmer eta bai lematizatzaileak antzematen dutelarik.
Kanpo estekak
[aldatu | aldatu iturburu kodea]- (Ingelesez) Lexed by Lionel Clément