Euskal poligono industrial batean gertatzen den eszena ezagun batetik abiatu gaitezen: “Debekatuta” dioen tokian kamioia uzten duenak abisua jasotzen duenean haserrea pizten da: “Horrek ez du zentzurik, seinalea txarto dago, poligonoa guztiona da!”. Edukiekin Interneten antzeko zerbait gertatu da azken urteotan. Adimen artifizialak testu, irudi eta datuekin trebatzean, nahasmendua handitu da: nork erabakitzen du nire edukien gainean? Ba al dute baimenik entrenatzeko? Nola esan dezaket “ez entrenatu”? Nola lortu ordainketa bat? Lehena legea ezagutzea da, eta Europan badugu marko bat, argia eta eraginkorra, eta gu geu gara seinaleak ondo jartzeaz arduratu behar dugunak.
“Interneteko poligonoetan” testu eta datuen meatzaritza (TDM) egiten da. TDM testu eta datu multzo handiak automatikoki prozesatzea da, ereduak, joerak eta ezagutza berria ateratzeko. Horretarako maiz crawler edo spider deituriko botak erabiltzen dira (Interneteko web tokiak sistematikoki arakatzen dituzten programak). Ezagunena Common Crawl da: CCBot arakatzailea exekutatzen du eta, gutxi gorabehera hilean behin, webaren zati handi baten kopia publikoa egiten du. Bildutako edukia doan jartzen du eskuragarri ikertzaileentzat eta enpresentzat, eta bere arakatzaileak robots.txt eta nofollow politikak errespetatzen ditu. Datuak web artxibatzeko formatu estandarretan argitaratzen dira. Zertarako erabiltzen da orain eduki guzti hori? Bai, Adimen Artifizialak entrenatzeko.
Testu eta Datuen Meatzaritzari dagokionez, Europan bi arau sinple dira gako: ikerketa-erakundeek sarbide legala dutenean baimena eskatu gabe TDM egin dezakete; gainerako guztiek (enpresek) ere egin dezakete sarbide legala badute, baldin eta titularrak ez baditu eskubideak berariaz erreserbatu makina-irakurgarri den moduan. Argi esanda: isiltasuna baimena da TDMerako; seinale argiak, betoa. Horregatik, AA garatzaileek seinale horiek errespetatu behar dituzte, eta, AA eredu handien esparruan, prestakuntza-edukiari buruzko laburpen publikoa emateko joera gero eta estandarizatuagoa da.
Noizean behin “bidesari” orokorraren ideia agertzen da: entrenamenduagatik ordainketa automatikoa ezarri, titular bakoitzari ezer esan gabe. Baina Europako oreka bestelakoa da: berariaz erreserbatzen ez bada, TDM posible da; erreserbatuz gero, debekua. Beraz, nork erabakitzen du? Edukiaren titularrak. Seinalea jarrita, ez dago zalantzarik.
Horretarako, webgunea fabrika bat balitz bezala seinaleztatu behar da. Lehenik, robots.txt fitxategiak boten sarbidea antolatzen du; ez da lizentzia, baina jokabide-arauak ezartzen ditu. Bigarrenik, TDMRep protokoloak eskubide-erreserba makina-irakurgarri moduan adierazten du, eta .well-known bidean edo metadatuetan aitortzen da. Hirugarrenik, RSLk robots.txt hedatu eta License lerro baten bidez webguneko lizentzia-termino zehatzak makinaz irakurtzeko moduan jartzen ditu, baimenak (entrenamendua, inferentzia, ez-komertziala, atribuzioa…) finean adosteko. Osagarri gisa, X-Robots-Tag goiburuarekin fitxategi solteetan ere adieraz daitezke jarraibideak (PDF, XML edo Office dokumentuak barne).
Nire enpresak edukiak sortzen ditu. Zer egin dezake zure enpresak gaur bertan? Lehenik, AA politika labur bat idatzi: indexazioa bai edo ez; entrenamendua baimendu edo mugatu; laburpenak eta embedding-ak onartu; erabilera ez-komertziala eta atribuzioa eskatu… Denak argi, modu ulerterrazean. Ondoren, seinalea jarri: TDMRep bidez opt-out edo baldintzak; eta, komeni bada, RSL bidez baimen granularrak zehaztu, robots.txt eta license fitxategiarekin. Hirugarrenik, koherentzia zaindu: meta-etiketak, X-Robots-Tag goiburuak eta Erabilera Baldintzak ez daitezela kontraesanetan sartu.
Nire enpresak AA garatzen du. Ereduak entrenatzeko erabiltzen diren edukiekin kontuz: TDMRep eta RSL detektatu eta errespetatu; prestakuntzari buruzko dokumentazioa zaindu; eta trebakuntza-iturrien laburpen publikoa prest izan. Hobe gaur egokitzapenean inbertitzea, bihar auzitegian ordaintzea baino.
“Lapurreta” dela pentsatzeko tentazioa badago, baina TDMk ez du zure pieza berez kopiatzen, ezta egiletza ezabatzen ere. Eta, hala ere, ez baduzu nahi makina batek zure edukiekin ikastea, esan ezazu makinek ulertzen duten hizkuntzan: seinale argiak jarrita, ateak zuk nahi bezala ixten edo zabaltzen.
Azkenik, euskararen ikuspegitik aukera garbia dago: euskal enpresentzat eta euskarazko edukientzat seinalizazio egokia egitea giltzarri da, euskarazko AA ereduak ondo elikatzeko eta gure edukiak behar bezala babestu eta komertzializatzeko. Horrela, negozioaren interesak eta komunitatearen hizkuntza-ondarea batera doaz, ordenagailuek ere ulertzen duten araubide argi baten pean.
Legeak badaude (ezagutu!), gezurtiak ere (hemen datorrena gezurra da!) eta Interneteko robotak kasu honetan seinaleak jartzeko eta irakurtzeko nahita ezinezkoak dira.