Hoppa till innehållet

Användardiskussion:Wiisourcebot

Sidans innehåll stöds inte på andra språk.
Från Wikipedia

Sveriges Radio-källor

@LittleGun Nu har jag börjat komma igång med att fixa SR-källor m.m., skall börja på koden idag. Detta konto Wiisourcebot kommer jag göra mina redigeringar via.

Finns det något sätt jag kan skapa sandlådesidor som jag kan öva boten på? Wii174 (diskussion) 18 februari 2024 kl. 17.14 (CET)[svara]

Grymt! Hur fungerar boten? Fixar den också att ersätta texten "sverigesradio.se" till "Sveriges Radio" under parametern verk? Och allra helst manuellt(?) peta in rätt författare?
Jag tycker inte något av det ska vara tvingande för boten, men att ändra verk borde var "lågt hängande frukt, som man säger? Så för min del går det att köra ändå.
Hur man gör med sanlådesidor/provkörning vet jag tyvärr inte. Testa att fråga på Wikipedia:Wikipediafrågor. LittleGun (diskussion) 18 februari 2024 kl. 17.48 (CET)[svara]
Uttryckte nog mig lite fel. Det finns ingen kod klar alltså, utan jag har nyss skaffat mig motivationen att börja. Men ja, målet är att fixa allt som är fel i källhänvisningarna, åtminstone så mycket som möjligt.
Kom på nu att man kanske kan skapa sandlådesidor under botens användarsida. Ska testa. Wii174 (diskussion) 18 februari 2024 kl. 18.18 (CET)[svara]
Postar via bot-kontot: Har nu satt upp Användare:Wiisourcebot/sandlåda. Om du hittar några andra typer av källor, t.ex. SR med mer info eller SVT som jag tror vi nämnde, är det fritt fram att posta dem på denna sida så lägger jag in dem på min sandlåda. Wiisourcebot (diskussion) 18 februari 2024 kl. 18.28 (CET)[svara]
Grymt! Man kan absolut göra undersidor till boten. Man kan till och med kopiera in befintliga artiklar till undersidor. Jag tänkte att det kanske fanns något etablerat sätt.
Känn dig inte tvungen att "fixa allt". Att bara få bort förnamn=Sveriges och efternamn=Radio (som ger "Radio, Sveriges" i referensåtergivningen) är en stor förbättring.
Om inte url:en funkar går det att använda "mediearkivet". Då är det snyggt sätta dit hämtatum och Läst via=Mediarkivet. Se Wikipediadiskussion:Wikipediabiblioteket. Men det är verkligen överkurs.
Lycka till! LittleGun (diskussion) 18 februari 2024 kl. 18.33 (CET)[svara]
Arkiverar mediearkivet alla SR-sidor alltså? Wiisourcebot (diskussion) 18 februari 2024 kl. 18.36 (CET)[svara]
Inte alla, jag tror det blir fel ibland. Men det mesta. Sen vet jag inte hur långt tillbaks, men det är nog inte så länge. LittleGun (diskussion) 19 februari 2024 kl. 00.00 (CET)[svara]
Då vet jag. Här är regexet som jag planerar använda, i Python-stil: {{Webbref.*?(\|förnamn=Sveriges.*?\|efternamn=Radio|\|efternamn=Radio.*?\|förnamn=Sveriges)}} Testat en sökning manuellt på Bahnhof, som har ett urval Radio, Sveriges (4 matchar). Wiisourcebot (diskussion) 19 februari 2024 kl. 10.11 (CET)[svara]
Detta regex fångar inte mallanrop där
  • det finns ytterligare parametrar efter förnamn/efternamn. Ett exempel på där så är fallet är artikeln Eva Rydberg. Jag tror att du kan plocka bort de inledande och avslutande måsvingarna utan större risk för några falska träffar.
eller
  • mallnamnet anges som webbref i stället för Webbref. Ett exempel på där så är fallet är artikeln Elli Avram. Jag tror att du även kan plocka bort det inledande W:et utan större risk för några falska träffar.
-- Larske (diskussion) 19 februari 2024 kl. 11.34 (CET)[svara]
Jag fick ett nytt regex designat av en bekant: {{[Ww]ebbref\|(?:[^}]|(?:}(?!})))*?(?:förnamn=Sveriges\b(?:[^}]|(?:}(?!})))*?\|efternamn=Radio\b|efternamn=Radio\b(?:[^}]|(?:}(?!})))*?\|förnamn=Sveriges\b)(?:[^}]|(?:}(?!})))*?}} Detta regex bör matcha alla webbrefs korrekt, och undvika att två webbrefs kombineras. Wiisourcebot (diskussion) 19 februari 2024 kl. 11.55 (CET)[svara]

Det är jättebra om dessa felaktiga för- och efternamn åtgärdas, men om det är ett inbyggt fel i VisualEditor som ständigt skapar dessa "förslag" som sedan okritiskt accepteras, känns det som ett Sisyfosarbete. Vi borde nog även försöka påverka lite mer uppströms i processen så att felen undviks från början. Ett steg på vägen skulle kunna vara att införa ett redigeringsfilter som ger en markering, till exempel Kontrollera redigeringen, i Senaste ändringar.

Därför har jag filat lite på ett Testfilter som gör att redigeringar som lägger till rader där förnamn=Sveriges och/eller efternamn=Radio förekommer förses med ett märke som syns i Senaste ändringar och även i den berörda artikelns historik.

Exempel från Sandlådan

Om detta fungerar bra kan vi, efter eventuella justeringar, göra ett separat filter för problemet. --Larske (diskussion) 19 februari 2024 kl. 12.16 (CET)[svara]

Jo, så är det. Boten ska inte vara den slutgiltiga lösningen, utan främsta uppdraget är att rensa bort det som redan är fel. Jag överlåter nog resten till dem som sköter VE. Boten kan byggas om för att laga i teorin vilka källor som helst, inte bara SR. Efter allt är klart kan jag köra igång den igen alltså ifall samma problem uppstår med någon annan källa. Wiisourcebot (diskussion) 19 februari 2024 kl. 12.33 (CET)[svara]

LittleGun: Har tittat lite på olika typer av artiklar på SR. Det är väldigt inkonsistent. Oftast saknas författarens namn. Ibland finns det med men en robot kan inte urskilja det så lätt eftersom det ibland blir att de skriver t.ex. "P3 Kalmar" i författarrutan. Tror vi får skippa och gå vidare utan det. Ska börja testredigering idag. Wii174 (diskussion) 19 februari 2024 kl. 13.14 (CET)[svara]

Ja, det är synd men jag förstår det. Jag undrar vad man kan ska skicka webmastern göra för att få ordning på detta. Vissa tidningar, särskilt amerikanska, funkar det klockrent på. "Landsortspressen" hade jag en bild tidigare av att det fungerade på också. Tex [1] LittleGun (diskussion) 19 februari 2024 kl. 13.54 (CET)[svara]
Nyss körde jag en testredigering: https://sv.wikipedia.org/w/index.php?title=Användare:Wiisourcebot/sandlåda&diff=prev&oldid=54449208, ser väl bra ut? Om du tycker det kan jag kanske låta boten redigera 5-10 sidor och rulla tillbaka ifall det strular. Wiisourcebot (diskussion) 19 februari 2024 kl. 14.30 (CET)[svara]
Här kommer även ett större test: https://sv.wikipedia.org/w/index.php?title=Användare:Wiisourcebot/sandlåda&diff=prev&oldid=54449230, som innefattar 12 källor Wiisourcebot (diskussion) 19 februari 2024 kl. 14.39 (CET)[svara]

Botflagga

@LittleGun Jag lät boten redigera ett tiotal sidor. Resultatet ser gott ut. Wii174 (diskussion) 19 februari 2024 kl. 17.19 (CET)[svara]

Trycke enter för snabbt! Har nu ansökt om botflagga iaf. Wii174 (diskussion) 19 februari 2024 kl. 17.20 (CET)[svara]
Uppdatera gärna din ansökan med avseende på "verk" och "utgivare", så att ingen som läser den blir förvirrad, så ska jag sätta robotflaggan. -- Larske (diskussion) 19 februari 2024 kl. 18.46 (CET)[svara]
Sådär, fixat! 84.218.4.74 19 februari 2024 kl. 23.10 (CET)[svara]
Oops, glömde visst att logga in. Men 84-IP:n är jag iallafall! Wii174 (diskussion) 19 februari 2024 kl. 23.11 (CET)[svara]
Botflaggan är nu tilldelad. Kör försiktigt och lycka till med rensningen av "Radio, Sveriges". Larske (diskussion) 20 februari 2024 kl. 21.07 (CET)[svara]

Ska Sveriges Radio anges som verk eller utgivare?

@Wii174: Jag funderar lite på det här med |verk=Sveriges Radio. Är det inte bättre med |utgivare=[[Sveriges Radio]]? Det är åtminstone vanligare:

  • Länk till sökfråga som hittar (just nu 287) artiklar som använder |verk=Sveriges Radio
  • Länk till sökfråga som hittar (just nu 2 717) artiklar som använder |utgivare=[[Sveriges Radio]] (med eller utan wikilänk)

Enligt malldokumentationen kan verk vara "... en bok, tidskrift eller större webbplats", men inte ett företag. Som värde på verk är sverigesradio.se vanligt:

-- Larske (diskussion) 19 februari 2024 kl. 17.44 (CET)[svara]

Hm, det har du kanske rätt i. Jag tar och fixar de redigeringar jag gjort hittils då. Wii174 (diskussion) 19 februari 2024 kl. 17.51 (CET)[svara]
Sorry, det var jag... LittleGun (diskussion) 19 februari 2024 kl. 23.03 (CET)[svara]

Fel i Senaste ändringar

@Larske: Boten dyker ännu upp i Special:Senaste ändringar, se omkr kl 16:30. Har stoppat boten tills vidare. Wii174 (diskussion) 21 februari 2024 kl. 16.41 (CET)[svara]

Fixat. Behövde bara uppdatera botlösen med nya tillåtelsen Wiisourcebot (diskussion) 21 februari 2024 kl. 18.27 (CET)[svara]

Status

Boten har fått göra sin första sökning och lagade 400 artiklar. Nu låter jag den gå igenom varje sida på svwp för att fixa. Den söker nu genom varje artikel på svwp vilket ska ta lite mer än en vecka. Wii174 (diskussion) 21 februari 2024 kl. 22.13 (CET)[svara]

Hmm, om boten bara letar efter artiklar som innehåller |förnamn=Sveriges och |efternamn=Radio finns det ett snabbare sätt än att "gå igenom varje sida på svwp". Du kan på några sekunder med sökfunktionen plocka fram kandidater för rättning
  • Länk till sökfråga som hittar (just nu 359) artiklar som innehåller |förnamn=Sveriges och |efternamn=Radio
för att sedan beta av dessa artiklar med boten. Larske (diskussion) 22 februari 2024 kl. 01.28 (CET)[svara]
Nu finns det endast 6 st artiklar kvar med problemet. Detta uppstår pga oväntade mellanslag, förekomst av mall inom mall, t.ex då {Webbref|titel=Testar {{!}} 1 2 3|url=...} matchas som {Webbref|titel=Testar {{!}}. Jag vet inte om det går att bygga om regexet för att exkludera mallar inuti mallar. Jag tänkte själv gå vidare och beta av SVT-problemet. Den blir lite svårare då "författarnamnen" ser lite olika ut från källa till källa. Wii174 (diskussion) 23 februari 2024 kl. 08.32 (CET)[svara]

"Landningssida"

@Wii174, @Larske och alla andra som bryr sig: För att slippa det som Larske kallar "sisofysarbete", kan man göra en landningssida för källfunktionen?

Landningssidan inser att det är en Sveriges Radio källa. Den kollar då vad som brukar vara fel i den metadata de får mot en wikipediansk "korrigeringsisda" för Sveriges Radio. Via korrigeringssidan får den i det fallet veta att verk=sverigesradio.se ska bytas eller kompletteras med utgivare=Sveriges Radio, och om det för författare är uppgivet "Radio, Sveriges", ska den tas bort och helst ersättas med en annan parameter för författaren etc.

Att Wikipedia helt enkelt identifierar var olika källors metadata skiljer sig från standard och försöker korrigera det. Det förutsätter att det alltid är samma fel i metadatan. I fallet Sveriges radio är det i varje fall alltid det för författare, och den skriver alltid "sverigesradio.se" istället för det snyggare "Sveriges Radio".

Så slipper man underhålla Argeus stall efter att Herkules rengjort det för första gången på 30 år och 1000 djur. LittleGun (diskussion) 23 februari 2024 kl. 09.32 (CET)[svara]

@LittleGun, borde man inte istället kunna modifiera direkt i VE? Vilka är det som håller i VE:s källkod? På något sätt kanske man kan lägga till ett undantag i koden för vissa webbsidor med kända fel t.ex. SR och SVT.
Jag förstår inte riktigt hur du menar, men en annan temporär lösning är väl att göra boten till en faktisk Sisyfos? Vi matar den med Seanst redigerade och låter den checka varje ny redigering. Wii174 (diskussion) 23 februari 2024 kl. 09.53 (CET)[svara]