Vés al contingut

Tema de Viquipèdia:La taverna/Propostes

Invisibilització del català als webs d'infotaula d'organització

26
Xavier Dengra (discussiócontribucions)

Per explicar l'assumpte poso dos exemples: Caixabank i Bizum. Són empreses fundades a Catalunya i que tenen el web en català. Tot i això, la de Caixabank no té responsivitat de llengua (és a dir, si entres al genèric caixabank.com, surt per defecte en castellà) i el de Bizum és més descarat encara, perquè al final de la pàgina bizum.es té un selector de llengua bloquejat que només accepta el castellà, però en realitat els miserables tenen un bizum.es/ca que has de forçar per trobar que sí que hi ha la pàgina en la nostra llengua.

Per què dic això? Perquè les infotaules es nodreixen del que surt a Wikidata i a Wikidata el valor general de CaixaBank (Q847225) és caixabank.com (i no caixabank.cat, que sí que duu al català) i el Bizum (Q66106225) és bizum.es (jo hi vaig posar ahir bizum.es/ca com a segon valor, però xucla el primer de la llista). Estem perdent l'oportunitat de mostrar webs en la nostra llengua d'empreses que és evident que l'amaguen, però que el tenen.

Tenint en compte que això passa a tort i a dret en centenars de casos, hi ha cap manera d'importar el valor que tingui el qualificador Llengua del terme, de l'obra o del nom (P407) o, fent-ho més agressiu i eficient encara per no haver-les de fiscalitzar totes i actualitzar-les a Wikidata, que la infotaula afegeixi el /ca per defecte a tots els webs que no siguin un .cat per a forçar la versió en català? Diria que un /ca que no existeixi no dóna error, sinó que retorna a la pàgina principal, per tant hauria de ser innocu si no té versió en català.

Ping a usuaris potser interessats o amb coneixement tècnic: @Amadalvarez, @Quetz72, @Jove, @Paucabot, @Vriullop, @Wecoc, @Forat Negre

Forat Negre (discussiócontribucions)

Jo no forçaria un /ca perquè hi pot haver interferències (he vist alguns casos on afegeixen "ca" pel Canadà), casos on no hi ha redirecció (en molts casos el que apareix és una pàgina d'error 404; vegeu per exemple la pàgina de Seat o Lidl), o també alguns casos on hi ha versió en català però amb un format diferent (per exemple /es-ca, o ?lang=ca).

La millor opció que se m'acudeix és la de poder afegir l'enllaç que ens interessa com a paràmetre opcional de la plantilla, de manera que ignori el de Wikidata i forci aquell quan sigui necessari. Al cap i a la fi la plantilla ja accepta alguns paràmetres a part de "item", com ara "especialitat", "persona_clau", etc.

Un cop implementat el paràmetre el que caldria és fer una comprovació dels casos on calgui incloure'l. És possible que aquest pas es pugui automatitzar, però almenys d'entrada sembla una solució menys invasiva que la redirecció.

Wecoc (discussiócontribucions)

Aquesta opció que dius ja existeix, emprant el paràmetre |lloc_web. He fet la prova amb l'article de La Caixa (sense publicar els canvis) i funciona com s'esperaria.

Quetz72 (discussiócontribucions)

Sí posar-ho 'a mà' a la plantilla sempre és possible, però el tema entenc que és més aviat l'emmarcar-ho en la recomanació general de fer servir sempre [que sigui possible] WD. Si fos afegir-ho a mà a la plantilla, entra en joc la possibilitat dels bots de revisió i control, tot i que no crec que en tinguem cap que entengui la llengua del web al que porta una URL...

Pere prlpz (discussiócontribucions)

D'acord amb que afegir el /ca sembla una mala idea, a menys que algú faci proves i demostri el contrari (i en aquest cas més aviat seria una eina per troba la versió catalana i pujar-la a Wikidata que per aplicar-la automàticament).

La idea que entre les diferents webs que hi ha a Wikidata agafi la que té el qualificador de llengua en català em sembla bé. Probablement, el més adient seria obrir un fil amb aquest suggeriment a la discussió de la infotaula que sigui, més que a la Taverna, però notifico en @Amadalvarez.

Quetz72 (discussiócontribucions)

No pas sempre és un /ca en absolut com s'ha dit ja, tot i que sí sigui habitual, de fet hi afegeixo encara un altre casuística que és la de webs (no pas només d'empreses) que practiquen la segregació lingüística, i et pots trobar el català i el valencià (caldria quedar d'acord quina hi indiquem en aquest cas, més enllà del criteri de qui ho posi que sempre pot ser, és clar). Tot i que la infotaula xucli el primer per defecte, això entenc que algun crack com @Amadalvarez podria fàcilment fer que les nostres plantilles xuclessin el web que estigui informat amb llengua catalana (la llengua del web és un paràmetre que normalment no s'emplena però apareix l'avís). Hi ha tanmateix el problema en aquest cas que si ho fem per wikidata, això fa que si és la primera URL que s'hi posa, en principi li sortirà a tothom el domini personalitzat. Novament tampoc no seria un problema si les altres WP també personalitzen la seva plantilla, però suposo que limita la discrecionalitat d'entrada.

Quetz72 (discussiócontribucions)

Per a no afectar a altres WP, potser el que podem fer és incorporar el domini o URL curta primer, en la llengua que hi surti sigui quina sigui, i afegir tot seguit la URL de la versió catalana. Això crec que seria ben factible, tot i que no evitaria errors i possibles guerres d'edicions a WD. D'altra banda pensem també que, en els casos on la URL en català s'introdueix pel paràmetre 'lang', aquest pot aparèixer al final d'una URL llarga que incorpori altres paràmetres. I casuístiques similars com que el de caixabank.com en català la URL és https://www.caixabank.com/ca/home_ca.html, i tot i que la lògica diria que ens podem quedar amb caixabank.com/ca, aquesta URL no funciona.

Xavier Dengra (discussiócontribucions)

@Quetz72 jo el que demanava és precisament una solució més pragmàtica o automàtica per evitar que haguem d'incorporar manualment el domini en català de milers d'empreses a Wikidata (com he fet amb Bizum), que és una feina d'arqueologia no s'acabarà mai, amb un retorn relativament baix, susceptible a reversions i amb una inestabilitat temporal força elevada.

Quetz72 (discussiócontribucions)

Tampoc no cal pretendre tenir-ho fet tot en un moment, m'ho prendria més com una feina a llarg termini i d'anar fent, ja sigui via WD o paràmetre afegit manualment a la infotaula. En aquest darrer cas tanmateix se m'acudeix que el bot pugui provar 3 o 4 opcions (.cat, /ca, paràmetre ?lang=ca, subdomini ca.domini.com,...) i deixar la que no doni error o cap si totes donen error. Però mai no podrem tenir la certesa que el resultat és efectivament el correcte: si no dona un error 404 sinó que fa una redirecció, per exemple, pot donar falsos positius. En tot cas de bots no hi entenc...

Pere prlpz (discussiócontribucions)

D'acord amb que no podem trobar una solució màgica que ens trobi tots els webs en català. Si volem que surti el web en català però no volem fer la feina de buscar-lo, ho tenim cru.

Pere prlpz (discussiócontribucions)

Sobre ordre dels valors dins d'una mateixa propietat a Wikidata: No sé que hi hagi una política a Wikidata sobre aquest ordre i només hi ha un ordre lògic (i acceptat pacíficament) quan els diferents valors són cronològics. Per la resta, els diferents valors són del mateix nivell i si algunes eines agafen el primer (com fa el ListeriaBot quan fa seccions a les llistes automàtiques) més aviat és un problema de l'eina.

Fins ara la situació és que podem remenar bastant lliurement l'ordre sense que s'hi fiqui ningú perquè hi ha pocs casos en que a diferents usuaris els convinguin ordres diferents. En el cas de les versions idiomàtiques del web la solució és filtrar per llengua i no reordenar els valors. De fet, algunes guerres edicions de Wikidata estan motivades pel que mostren infotaules mal fetes d'altres viquipèdies i no seria qüestió de començar-ne una perquè la nostra infotaula encara no tria.

O sigui, si algú té temps lliure per començar una guerra d'edicions amb l'ordre de les url, pot aprofitar millor aquest mateix temps aprenent Lua i per a ajudar a millorar la infotaula.

Wecoc (discussiócontribucions)

Crec que el que convé és modificar l'apartat lloc_web de la plantilla de manera que comprovi si existeix un enllaç a la llista al qual P407 sigui català (Q7026) i retornar aquest, i en cas negatiu retornar el primer o "prioritari" com fins ara.

Així no cal ni barallar-se per l'ordre de la llista ni afegir el paràmetre lloc_web manualment. El que sí que caldrà és afegir l'enllaç en català a la llista com s'ha fet amb Bizum, però això es pot fer sense provocar cap alteració a altres versions de la Viquipèdia i sense aixecar cap guerra d'edicions.

Pau Colominas (discussiócontribucions)

Molt a favor de modificar el funcionament de les plantilles perquè apuntin a la versió en català si ha estat afegida a Wikidata. Gràcies per la proposta, Xavier Dengra!

Amadalvarez (discussiócontribucions)

Penso que serà fàcil d'implantar la selecció del Lloc web (P856) segons el que digui el seu qualif. Llengua del terme, de l'obra o del nom (P407), que és la forma canònica d'indicar la versió lingüística d'una web.

Els invents de posar /ca o similars, no responen a cap norma universal i pot funciona per alguns casos i no per altres.

Heu parlat del tema de la prioritat. En el cas de la P856 és un tema complicat de decidir, perquè la lògica diu que, totes les adreces que hi posin han de ser d'igual prioritat. Excepcionalment, poden posar com a preferent la llengua de l'estat de l'entitat que es potencialment la que miren els seus clients. Aquesta regla ja sabeu que ens perjudica.

Això no ens ha de preocupar ara, perquè si faig una selecció per "ca", la faré sobre totes les adreces que tinguin declarades siguin o no prioritàries i estiguin la primera o la darrera. Si no trobo cap en català, llavors si que agafaré només la més prioritària tal com es fa a la resta de propietats.

Entrar-ho a mà és una opció, però aprofito per desanimar-vos a fer-ho, ja que és igual de llarga una URL si l'escrius a mà o si la entres a WD. Preu per preu, allà on faci més bé i on sigui més fàcil de recordar-se si un dia la canvien.

Per que estigueu distrets amb allò que no tenim a WD, us passo tot el que tenim a persones i altres items, majoritàriament són organitzacions, però també hi ha algun edifici, sèries o premis.

Apa, a carregar !.

Ja us avisaré a mida que vagi adaptant infotaules.

Salut !

Xavier Dengra (discussiócontribucions)
Pere prlpz (discussiócontribucions)

L'Amador ha passat les consultes de persones i altres que a Wikidata tenen un web amb l'idioma informat com a català. Si l'ha de fer servir algú, podem mirar de fer la consulta dels que no tenen el web informat en català, si convé separat per altres propietats com el lloc d'origen.

Xavier Dengra (discussiócontribucions)

Si teniu una llista com aquesta de les primeres 500 empreses amb seu a Catalunya, País Balears i País Valencià amb més llengües que en tenen article (o que tenen més "autoritat" ja sigui via propietat de facturació anual o altres) i que no tenen el web informat en català, m'aniria perfecte. Així, sincerament, m'ho poso com a repte personal per a fer-ne recerca i emplenar-ho a Wikidata i també per a propòsits d'interès lingüístic fora off-wiki.

Pere prlpz (discussiócontribucions)

Mira què tal et va aquesta:

SELECT DISTINCT ?item ?itemLabel ?web ?llenguaLabel ?article ?seuLabel ?paisLabel WHERE {
  ?item wdt:P31/wdt:P279 wd:Q43229.
  ?item wdt:P17 wd:Q29.
  ?item p:P856 ?sweb.
  ?sweb ps:P856 ?web.
  OPTIONAL {
    ?sweb pq:P407 ?llengua.
  }
  ?article schema:isPartOf <https://ca.wikipedia.org/>.
  ?article schema:about ?item.
  ?item wdt:P159 ?seu.
  ?seu wdt:P131* ?pais.
  wd:Q234963 wdt:P527 ?pais.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca". }
}
ORDER BY(?itemLabel)

Prova-ho !

Comentaris:

  • No cal triar les 500 més grans perquè no hi ha 500 organitzacions amb seu als Països Catalans amb web i article.
  • He posat la llengua dels webs però no he eliminat els que en tenen en català pel risc de deixar els altres webs de les mateixes organitzacions de manera que es barregessin les que tenen no tenen web en català amb les que en tenen en més llengües però també en català. Si fes molta falta podria fer més proves.
  • Algunes organitzacions amb més d'un valor de seu poden sortir repetides. Les que tenen més d'una seu i més d'un web poden sortir repetides molts cops.

Ja em diràs si serveix.

Amadalvarez (discussiócontribucions)

Molt bona feina, @Pere prlpz.

Surten molts que no tenen llengua i són els primers on hauriem de posar el focus per descobrir si són gent seriosa que tenen malament emplenat el Lloc web (P856), com el que acabo d'arreglar que la té en 3 llengües i el CA és la principal o a pseudo-monopolis "catalans" en que l'opció CA ni està ni se l'espera.

Amadalvarez (discussiócontribucions)

@Xavier Dengra [off-topic] Pels temes off-wiki en que lluites, mira't aquesta web i on tenen la seu social.

Si ells poden, la resta també, oi?

Amadalvarez (discussiócontribucions)

Ja ho tenim fet per {{infotaula organització}} i tracta igual el Català (Q7026), Valencià (Q32641) o Català balear (Q804899), tot i que hi ha pocs casos.

Proveu i detecteu si alguna cosa no funciona.

Coses que he trobat:

  1. hi ha força casos amb una URL i dues llengües. Si una d'elles és CA funciona. Ara bé, si la web realment permet seleccionar, la feina ben feta és corregir WD i separar-lo en dues entrades cadascuna amb la seva web complerta de cada llengua, per evitar entrar a la web i haver de clicar el selector. Ex: Partit Socialista del País Valencià
  2. Quan no hi ha versió CA, la infotaula mostra la preferent o la primera. En casos com Lidl, la prioritària és l'alemany i queda una mica estrany perquè estem acostumats a trobar ES com a llengua alternativa del nostre entorn. Si voleu que sigui aquest el resultat, és tant simple com afegir P407=català a l'entrada de la web en castellà, de forma "que digui" que una URL respon a dues llengües, tot i que quan mostri la web, òbviament, sortirà en la llengua en que estigui feta. Aquesta opció ha estat rebutjada pels participants. CAL ABSTENIR-SE d'aplicar-la
  3. Si no hi ha P856, però té Blog oficial (P1581), el mostra seguint les mateixes regles.

Amb els vostres comentaris, l'acabarem de polir i després només caldrà anar replicant-lo a d'altres infotaules.

Paciència,

Aplicat a Infotaula persona, el 25/7/24. La resta d'items amb llengua informada en altres infotaules són mínims, ja aniré aplicant-lo quan faci algun altre canvi.

Ara toca millorar WD amb la query del @Pere prlpz. Apa !

Cataleirxs (discussiócontribucions)

Del punt 2 (Lidl), vot en contra d'oferir la versió en castellà com a "mal menor". Els companys de Cat. N i l'Alguer no en tenen culpa.

Quetz72 (discussiócontribucions)

Amb el punt 2 efectivament tampoc no hi perdria el temps. A banda de subscriure el que diu @Cataleirxs, fins ara ja apareixia lidl.de, per tant no canvia ni crec que hagi de canviar res, a banda que la VP no és un directori de webs que hagi de donar prioritat als elements pràctics davant dels enciclopèdics, si la llengua de l'obra és castellà, aleshores no és català. Dit això no entenc com en casos com aquest hi ha 2 'prioritats', el .de i el .com, realment no té cap mena de sentit. En tot cas hauria de tenir prioritat a WD el domini genèric davant dels territorials (per EUA hi ha el .us). En tot cas estaria d'acord en un criteri objectiu d'aquest tipus davant l'absència de versió en català.

Amadalvarez (discussiócontribucions)

@Quetz72 WD permet més d'una entrada prioritària per poder fer un subgrup destacat respecta els altres. Però només un subgrup; no hi ha prioritari, semi-prioritari i like-to-me, .....

De què serveix?. Si, com el cas que ens ocupa, esperes una resposta única, no ajuda gens. Però, quan el multivalor és una resposta correcta obres, premis, membre de xyz, etc. permet tenir la totalitat dels continguts (llista exhaustiva) amb una marca en aquells que sortiran si vols una llista curta. Qui decideix que va a la llista curta ?. Pot ser un tema subjectiu i discutible, però normalment s'acaba prioritzant per raons d'eficiència; per exemple, si hi ha diverses dades "discutides" o dates més precises amb diverses fonts, és a dir, quan sense voler eliminar un valor, se'l rebaixa de categoria.

El casos de .de / .com que comentes, pretenen situar-los com a sinònims l'un de l'altre. Però el fet d'igualar-los entre si, deixa tota la resta fora de joc.

Dit això, la utilització natural de la priorització és destacar "el valor vigent" d'una sèrie. Per tant, només un.

Pere prlpz (discussiócontribucions)

D'acord a no definir llengües prioritàries alternatives.

Si el web està relativament ben fet l'usuari que hi arribi ja hi trobarà un selector de llengües per triar la de la seva preferència.

I d'acord a fer servir el bloc oficial com a alternativa al web oficial.

Jove (discussiócontribucions)

Moltes gràcies per iniciar aquesta tasca de donar preferència a l'opció lingüística en català que cas que aquesta existeixi als respectius web corporatius. També molt d'acord en triar el bloc oficial en cas d'absència de web oficial.

Resposta a «Invisibilització del català als webs d'infotaula d'organització»