Overleg gebruiker:EpochFail/Kladblok

Pagina-inhoud wordt niet ondersteund in andere talen.
Onderwerp toevoegen
Uit Wikipedia, de vrije encyclopedie

Uitslag van de labelcampagne okt 2021[brontekst bewerken]

Hallo allemaal:
User:DimiTalen, User:Sylhouet, User:Rots61, User:Encycloon, User:Bas dehaan, User:Themanwithnowifi, User:Tristan Surtel, User:Effeietsanders, User:Sijtze Reurich, User:Mbch331, User:StuivertjeWisselen

Bedankt voor jullie hulp bij deze labelcampagne, er zijn enkele interessante dingen naar voren gekomen! Nog een laatste stap is te nemen voordat we de data uit de label campagne goed kunnen gebruiken, en daar heb ik nog even jullie hulp bij nodig. Het zou geweldig zijn als dit donderdag af is, dan gaan wedit gelijk ook verwerken, en beloof ik dat we jullie even niet meer lastig vallen. Knipoog

Voor de label-set van 100 artikelen was er een willekeurige selectie gemaakt van 25x een D-artikel, 50x een C-artikel en 25x een B-artikel - scores volgens de ORES b-versie, dus nog niet dus de versie die nu ontwikkeld wordt (=c-versie). Deze 100 artikelen zijn ieder door 3 verschillende personen beoordeeld, en daar kwam de volgende gemiddelde uitslag uit:

41 E
40 D
16 C
2 B

We voor deze campagne kozen voor de drie (voorspelde) sets middenklasse artikelen D/C/B omdat deze nog het moeilijkste zijn om te te bepalen voor ORES. De meerderheid van de artikelen (81 van de 100) is door jullie ingeschaald in D of E. De volledige uitslag voor alle 100 artikelen is hier te zien.

Hoe nu verder[brontekst bewerken]

De ontwikkelaars en ik zijn benieuwd waarom jullie hebben gekozen voor een bepaald label: jullie argumenten bij de menselijke labeling maken namelijk duidelijk op welke punten de automatische labels nog afwijken.

  1. Kunnen jullie deze argumenten voor de inschaling op deze pagina delen (hoeft niet voor alle 100 artikelen uiteraard)?
  2. Kunnen we samen een (beargumenteerde) invulling geven aan de kolom voor de uiteindelijke label voor deze 100 artikelen?

Extra puntje: 'bronvermelding' als noodzakelijk voor D-schaal en hoger?[brontekst bewerken]

Graag zou ik aan de hand van twee voorbeelden uit de C-artikelengroep een vraag willen voorleggen:

  • Anduze
    • ORES voorspelt: C
    • Drie verschillende labels: E, D, en C
    • De voorgestelde criteria zeggen: het kan geen C of D zijn zonder een bron.
  • Criollo (paard)
    • ORES voorspelt: C
    • Twee D labels en een C label
    • De voorgestelde criteria zeggen: het kan geen C of D zijn zonder een bron.

Kijkend naar deze uitslagen, denken jullie dat de 'geen bron-voorwaarde' (beide voorbeeldartikelen hebben geen bron) in de C-versie van de kwaliteitsschaal juist is? Of moet deze misschien versoepeld worden?

Persoonlijk snap ik dat dit de meest wenselijke situatie is ("alles boven E heeft minimaal 1 bron"), maar veel van onze bronvermeldingen werden in de afgelopen 20 jaar ook gedaan op manieren die (nog) niet door machines leesbaar zijn. Ze was het hier jaren gebruikelijk om de bron vermelding in de bewerkingssamenvatting te doen, of onder een kopje "externe links" je bronnen te noemen. Dit is voor ORES niet te lezen, en ik ben met de hulp van Valhallasw wel bezig om in ieder geval die bronnen uit de bewerkingsgeschiedenis zichtbaar in het artikel te gaan krijgen, maar zover is het nog niet.

Is, met dit in het achterhoofd, het dan terecht om het systeem nu al te trainen met een dergelijke kwaliteitseis, of is dat een aanpassing die we kunnen gaan doen als al die bronvermeldingen nagelopen en leesbaar zijn, èn als de gemeenschap consensus kent dat een bron per artikel in ieder geval zéér gewenst is? De laatste peiling hierover uit 2020 is an sich veelbelovend, maar moet nog grondig gepolijst worden.

Ik ben benieuwd naar jullie overwegingen!
Groetjes, Ciell need me? ping me! 15 nov 2021 15:01 (CET) Ciell need me? ping me! 16 nov 2021 13:30 (CET)Reageren

Reacties[brontekst bewerken]

  • De bron-criteria zorgden bij mij inderdaad voor lagere inschalingen. Van mij mag de grens 'bron/geen bron' wel een niveau hoger, zodat Gustaaf Hermans (bronloos) wel in 'D' zou komen maar niet in 'C', en Criollo (paard) (heeft nog wel externe links/een overzichtsbron) in 'C' zou passen. Encycloon (overleg) 16 nov 2021 14:20 (CET)Reageren
    Dank je Encycloon, hier kunnen we vast wat mee! Het zou heel waardevol zijn om tot een gezamenlijke conclusie te komen voor in de laatste kolom in de tabel, maar ik weet even niet hoe ik dit vorm kan geven: jouw scheiding tussen wel/niet externe links of overzichtsbron zou daar misschien wel een handvat voor geven.
    De gebruikers die hierboven gepinged zijn, zijn degene die hebben geholpen met het labelen van de 100 artikelen, 11 gebruikers in totaal. Ciell need me? ping me! 17 nov 2021 12:59 (CET)Reageren
    Ik volg collega Encycloon in dezen. Bij het beoordelen heb ik het broncriterium vrij strikt toegepast: enkel als er daadwerkelijk naar een secundaire bron werd verwezen, kon het D of C zijn. Dat leidde er soms toe dat een 'lang' artikel toch geen D werd. In sommige gevallen heb ik een zogenaamde 'externe link' wel als bron beschouwd (als het bijvoorbeeld om een informatieve site ging). Ik heb dat zo toegepast, maar vind het zelf ook streng. Voor mij mag E staan voor een beginnetje, D voor een doorsnee artikeltje, en C voor iets dat aan onze huidige normen beantwoordt: goede paragrafen en degelijk bebrond. DimiTalen 21 nov 2021 20:01 (CET)Reageren
  • Ik heb op de achtergrond meegekeken maar ik denk dat het bron-criterium wel een goede reflectie is van de de kwaliteit. Dat het systeem struikelt over ouder gedrag met bronnen is jammer maar het kan dienen als leerweg en uitdaging voor mensen die het artikel omhoog willen boksen. The Banner talk 16 nov 2021 19:29 (CET)Reageren
    Hi The Banner, ik ben het met je eens, en zou heel erg graag tot een overeenstemming komen met de gemeenschap voor wat betreft minimaal bron gebruik, vandaar dat ik in de tekst hierboven ook refereer aan de laatste peiling die er was over bronnen!
    Ik vind het alleen lastig om te bepalen wat ORES zou moeten doen met wel/geen bron, als de gemeenschap zich hier nog niet duidelijk/definitief over uitgesproken heeft, maar neig ernaar om te zeggen dat het daarom ook geen uitsluitend kenmerk mag zijn voor het huidige kwaliteitsmodel. Ciell need me? ping me! 17 nov 2021 13:02 (CET)Reageren
  • Ik heb het momenteel heel druk met andere zaken en zit ook middenin een circuit van medische onderzoeken, dus ik houd het kort en stip alleen twee dingen aan die ik heel raar vind:
    • dat het mogelijk is dat ORES een lagere waardering toekent als een artikel wordt uitgebreid. Voorbeeld: The Applejacks. Beoordeeld met D (2,62). Na toevoeging van een infobox en een voetnoot is de waardering gedaald naar D (2,58). Voor een ander voorbeeld kun je door de geschiedenis van Värska (plaats) bladeren. De ene keer stijgt de waardering na een toevoeging en dat lijkt me niet raar, maar de andere keer daalt de waardering en dat vind ik wel raar;
    • dat doorverwijspagina's doorgaans heel hoog scoren. Waarom is bijvoorbeeld Pilpaküla met D (2,57) zoveel beter dan Pilpaküla (Hiiumaa) met D (2,17)? En waarom is Mustla met D (2,78) stukken beter dan elk van de vijf artikelen waarheen het doorverwijst?
Daar laat ik het bij. Sijtze Reurich (overleg) 16 nov 2021 20:14 (CET)Reageren
Dank je Sijtze! Wat vervelend dat je in de medische molen zit. Bedankt voor je opmerkingen en dit soort verschillen zullen logischer worden als ORES beter afgestemd wordt. Dit overleg gaat specifiek over de resultaten van de labelcampagne waar je mee geholpen hebt, en om de beweegredenen voor mensen om de meeste artikelen lager in te schalen dan ORES op basis de 1b-versie van de kwaliteitsschaal (waarin onder andere het bron-kenmerk nog niet voorkwam) voorspelde. Mocht je daar ook nog ideeën over hebben, verneem ik ze graag. Ciell need me? ping me! 17 nov 2021 13:05 (CET)Reageren
  • Beste Ciell, Sorry dat ik zo laat ben, hopelijk heb je nog wat aan mijn reactie. Ik kan niet meer exact per beoordeeld artikel reproduceren wat mijn overwegingen waren maar ik weet wel dat ik de criteria zeer strikt heb gehanteerd. Met name de broneisen heb ik zwaar gewogen. Jouw voorstel om de broneis te verplaatsen naar C spreekt me wel aan. Alleen moeten we voorzichtig zijn met de formulering eventueel als een algemene bron onder een kopje literatuur of externe link. Het woord eventueel zal aanleiding geven tot discussies en meningsverschillen. Enige coulance met artikelen uit de periode dat we nog niet zo streng waren op bronnen is gerechtvaardigd, maar het moet in ieder geval niet zo zijn dat nieuwe artikelen onder een uitzonderingsregel kunnen vallen. Ik heb ook wat suggesties voor aanpassingen aan de kwaliteitsschaal:
    • B2: Het artikel begint met een bondige introductie van het onderwerp, en waarin wordt uitgelegd waarom het onderwerp beschreven dient te worden in Wikipedia. ==> Het artikel heeft een introductie waaruit blijkt dat het onderwerp beschreven dient te worden in Wikipedia.
    • B5: Het artikel is voldoende uitgebreid. Dit betekent dat het alle grote feiten bevat die betrekking hebben op het onderwerp. ==> Het artikel is voldoende uitgebreid: het bevat alle feiten die van belang zijn voor het onderwerp.
    • B6: Het artikel bevat géén (uitgebreide) bulletlist; alle onderdelen zijn uitgeschreven in de paragrafen van het artikel. ==> Het artikel bevat geen (uitgebreide) bulletlist; alle 'bullets' zijn uitgeschreven.
    • A3: Het artikel focust op het hoofdonderwerp en is niet tè uitgebreid: hoofd- en bijzaken worden gescheiden aan de hand van gezaghebbende overzichtsliteratuur. ==> Het artikel focust op het hoofdonderwerp en is bondig: hoofd- en bijzaken worden gescheiden aan de hand van gezaghebbende overzichtsliteratuur.
    • A4: De hoofdtekst kent een juist detailniveau, waarbij de geïnteresseerde leek niet wordt afgeschrikt door specialistische verfijning, maar waar een deskundig ingestelde lezer wel iets aan heeft. ==> De hoofdtekst kent een zodanig detailniveau dat de deskundige lezer er iets aan heeft en de geïnteresseerde leek niet wordt afgeschrikt door specialistische verfijning.
    • A6, nog niet bestaand. ==> De tekst is optimaal toegankelijk voor leken: waar mogelijk is jargon vermeden.
Groet, Sylhouet contact 24 nov 2021 18:07 (CET)Reageren
Hi Sylhouet,
Ik verwacht eigenlijk bij de bots achter ORES (waar we dit model voor maken) niet heel veel discussies en meningsverschillen Knipoog, maar kan je suggesties wel even voorleggen aan de ontwikkelaars. Een kwalificatie als "voldoende uitgebreid" is voor een bot moeilijker te snappen dan "externe link ja/nee". Niet onmogelijk, maar we zullen dan eerst moeten gaan selecteren wat *niet voldoende uitgebreid* is, en wat *voldoende uitgebreid* is. Pas dan kan de bot ook gaan leren: dit houdt in dat we het systeem veel intensiever moeten gaan trainen dan we tot nu toe hebben gedaan. Dat is misschien een mooi streven voor de toekomst, maar lijkt me nu nog een brug te ver.
Wel fijn om te horen dat ook jij je kunt vinden in het versoepelen van de bronneneis! Want inderdaad: 10 jaar geleden konden artikelen zonder enige bron het nog tot Etalage artikel schoppen, dat kan nu echt niet meer. Ergens daar tussenin ligt denk ik momenteel de middenweg. Ciell need me? ping me! 24 nov 2021 19:15 (CET)Reageren
Ik heb mijn twijfels bij B6: ‘Het artikel bevat géén (uitgebreide) bulletlist; alle onderdelen zijn uitgeschreven in de paragrafen van het artikel.’ Kijk eens naar kleinrondstempel: ingeschaald als B, maar wel een uitgebreide bulletlist. Maar hoe zou het anders moeten en hoe zou je de onderdelen moeten gaan uitschrijven? Sijtze Reurich (overleg) 3 dec 2021 11:17 (CET)Reageren

Kwaliteitsschaal aangepast[brontekst bewerken]

Ik heb naar aanleiding van de opmerkingen hierboven de kwaliteitsschaal aangepast wat betreft de bronneneis. Het zou nog heel erg fijn zijn als we kunnen komen tot een definitief label voor de artikelen op deze kladblokpagina, maar ik worstel er een beetje mee hoe dit vorm te geven.

Kunnen we dat hier in overleg doen, of vinden jullie het fijner om deze set te laten voor wat het is en met deze aanpassing van de bronneneis in de hand een nieuwe set van 100 artikelen te beoordelen...? Ciell need me? ping me! 28 nov 2021 22:00 (CET)Reageren

Hoe zouden we te werk gaan om de artikels op de kladblokpagina definitief te labellen? Doet iemand een voorstel en kunnen we vervolgens laten weten of er beoordelingen zijn waar we het niet eens mee zijn, of ...? DimiTalen 29 nov 2021 11:14 (CET)Reageren
Dat lijkt me inderdaad een manier! Ik denk niet dat het handig is om een discussie over alle 100 artikelen te houden, maar het zou wel fijn zijn als iemand een 'definitief' label zou kunnen voorstellen. Als er dan andere meningen en overwegingen zijn, kunnen we die inderdaad bespreken. Ciell need me? ping me! 29 nov 2021 11:27 (CET)Reageren
Ik wil gerust een poging wagen. Ik zal me daarbij zo strikt mogelijk aan de criteria houden. DimiTalen 30 nov 2021 08:33 (CET)Reageren
@DimiTalenhet zou heel fijn zijn als jij een eerste aanzet doen wilt, dankjewel! Ciell need me? ping me! 30 nov 2021 08:38 (CET)Reageren
Jullie vinden mijn inschatting hier. Misschien interessant: de criteria die het vaakst 'de knoop doorhakken', zijn heel duidelijk:
  • "Het artikel telt minstens twee paragrafen geschoonde tekst" om klasse E te kunnen overstijgen.
  • "Het artikel bevat minstens één bron, eventueel als een algemene bron onder een kopje "literatuur" of "externe link"" en "Het artikel heeft naast de bron ook minstens één referentie in de lopende tekst." om klasse D te kunnen overstijgen.
Vullen jullie aan in de kolom Opmerkingen met jullie feedback? :-) DimiTalen 30 nov 2021 08:59 (CET)Reageren
Hmmm, naar mijn mening is een externe link geen bron. Idem voor een literatuurlijst of bibliografie. Het is beter nu streng te zijn, want aanpassingen achteraf kunnen wel eens heel moeilijk zijn. The Banner talk 30 nov 2021 10:24 (CET)Reageren
Een externe link onder "externe links" is geen bron in de zin van voor de inhoud van het artikel: het is wel een zoekingang voor het *bestaan* van het beschreven onderwerp.
Misschien moet de formulering anders, maar ik ben het niet met je eens dat we nu maar streng moeten zijn, terwijl de gemeenschap zich niet heeft uitgesproken dat er een bron in de zin van referentie moet zijn voor de inhoud van het artikel. Als de gemeenschap zich hier wel (duidelijk) over uitspreekt, bv na peiling/stemming en dien ten gevolge een wijziging van richtlijnen, zal het geen probleem zijn om het model aan te passen. Ciell need me? ping me! 30 nov 2021 10:32 (CET)Reageren
Een 'externe link' is soms wel een bron. De naamgeving daarrond wordt zeker niet consequent toegepast.
Verder heb ik de criteria streng toegepast, in de zin die collega Sylhouet hierboven ook toelichtte. DimiTalen 30 nov 2021 11:11 (CET)Reageren
Conform de wiki-traditie is het wijzigen/verstrengen van normen achteraf een bijna onmogelijke klus. Vandaar mijn voorstel om nu al streng te zijn omdat wij daar in de toekomst baat bij hebben. The Banner talk 30 nov 2021 11:32 (CET)Reageren
Ik snap je bedoeling the Banner. Het kwaliteitsmodel van ORES is echter niet bedoeld om de huidige situatie van de beoordeling van kwaliteit te veranderen, maar om een (algemene) inschatting van de kwaliteit van een artikel te geven, volgens de huidige maatstaf van onze Nederlandse gemeenschap. Dit model heeft dus de intentie om de staande praktijk in kaart te brengen: het is verwarrend om in deze discussie een ander doel na te streven, en ik denk dat je die discussie dan ook op andere plekken zult moeten voeren. Ciell need me? ping me! 30 nov 2021 11:45 (CET)Reageren
Dus de boel blijft zo krom en halfslachtig als het nu is? The Banner talk 30 nov 2021 12:08 (CET)Reageren
Ik weet niet aan welke 'boel' je precies refereert, en het spijt me als de ontwikkeling je teleurstelt. Echter, met het kwaliteitsmodel van ORES kunnen in ieder geval de gaten in de encyclopedie zichtbaar gemaakt worden en ik denk dat dat al een grote winst is. Ciell need me? ping me! 30 nov 2021 17:11 (CET)Reageren
Als ORES geen verbetering oplevert in de kwaliteitsbeoordeling, levert het niets op voor de encyclopedie. Want op dit moment schiet de beoordeling ernstig te kort en blijkbaar is het dus niet de bedoeling daar wat aan te doen. Naar mijn mening een gemiste kans. The Banner talk 30 nov 2021 17:47 (CET)Reageren
Nee, dat ben ik niet met je eens: je zult deze discussie op een breder vlak moeten voeren als je beleid wilt veranderen. ORES maakt bestaande praktijk zichtbaar. Ciell need me? ping me! 30 nov 2021 19:05 (CET)Reageren
Toen ik hier pas meedeed, zette ik mijn bronnen vaak onder de externe links. Het was (de helaas vertrokken) Kleuske die mij erop attent maakte dat dit minder gewenst is. Sindsdien maak ik er voetnoten van. Het kan zijn dat er hier nog wat oudere artikelen van mijn hand rondzweven waar de bronnen onder het kopje ‘Externe links’ staan. De bronnen zijn er dus wel, maar ze staan op de verkeerde plaats. Sijtze Reurich (overleg) 3 dec 2021 09:54 (CET)Reageren

Definitieve label[brontekst bewerken]

Hallo,

DimiTalen is zo vrij geweest om de kolom met het 'definitieve label' te vullen. Sylhouet geeft aan zich op basis van een steekproef in de inschaling door DimiTalen te kunnen vinden.

User:Rots61, User:Encycloon, User:Bas dehaan, User:Themanwithnowifi, User:Tristan Surtel, User:Effeietsanders, User:Sijtze Reurich, User:Mbch331, User:StuivertjeWisselen: misschien willen jullie ook nog een laatste blik werpen, voordat ik deze uitkomst teruggeef aan de ontwikkelaars?

Bij voorbaat dank! Ciell need me? ping me! 2 dec 2021 21:31 (CET)Reageren

Na een steekproef: ook eens. Alleen de vraag of Jordi Balk misschien toch D moet zijn (staat nu E ingeschaald door DimiTalen). Encycloon (overleg) 2 dec 2021 22:59 (CET)Reageren
Ik heb die E ingeschaald omdat hij slechts één paragraaf (meer dan 1 zin) opgeschoonde tekst telt. DimiTalen 3 dec 2021 07:09 (CET)Reageren
Dank je Encycloon: waarom zou jij dat artikel als D beoordelen? Ciell need me? ping me! 4 dec 2021 09:22 (CET)Reageren
Dat heeft ermee te maken dat ik het niet echt als één paragraaf zie ([1]), maar misschien gaat dat wat te ver voor een automatisch oordeel. Encycloon (overleg) 4 dec 2021 09:37 (CET)Reageren
Ik zou dit zelf ook denk ik zeker wel op D inschalen. Hoewel slechts 1 echte paragreef tekst heeft (9 zinnen), het daarnaast wel een prima tabel (niet te uitgebreid maar wel goed gevuld), èn een infobox, èn meerdere referenties. Het is daarmee duidelijk meer dan een 'beginnetje' imho. Ciell need me? ping me! 7 dec 2021 17:32 (CET)Reageren
Akkoord. Zoals ik hierboven schreef: "Het artikel telt minstens twee paragrafen geschoonde tekst" is als criterium een barrière voor veel artikels om klasse E te kunnen overstijgen, ook al voldoen ze aan de andere voorwaarden. DimiTalen 7 dec 2021 20:03 (CET)Reageren
Nu is een artikel met een enkele paragraaf tekst geen D-artikel, maar wat nou als we het omzetten naar een gecombineerde constructie? Als het artikel D.1. niet heeft, dan is een artikel met een combinatie van D.2. en D.3. + 2 kenmerken van C.1.-C.3. toch voldoende voor een D-klassificering. (Het is voor ons even puzzelen met de schaal ernaast open, maar volgens mij is dit wat wij hier zeggen Dimi, en de botjes kunnen dit wel begrijpen.) Ciell need me? ping me! 8 dec 2021 16:26 (CET)Reageren
Precies, daar komt het op neer. Als dat kan, en als die criteria dan nog een beetje begrijpelijk zijn voor ons arme stervelingen ook, lijkt me dat een prima oplossing. Groetjes, DimiTalen 8 dec 2021 17:47 (CET)Reageren
@DimiTalen heb jij tijd om de E-artikelen nog even langs te lopen om ze nog even langs deze meetlat te leggen? Dan kunnen ze nog mee in de batch voor Aaron's plan (hieronder) voor zondag. Ciell need me? ping me! 10 dec 2021 10:12 (CET)Reageren
@Ciell, heb een poging gedaan. Vraag me af hoeveel C-criteria er nodig zijn om tegemoet te komen aan het niet voldoen aan D.1, maar in de praktijk stelde dit weinig problemen: de meeste artikels hadden een infobox, een afbeelding en een bron en dus minstens drie C-criteria. Groetjes, DimiTalen 10 dec 2021 10:34 (CET)Reageren
Ha Dimi, Ik zou Alatina tetraptera hebben ingeschaald op E ipv D, want tekst + infobox met plaatje is mager. Don't Change Your Husband zou ik dan juist weer op D ipv E hebben ingeschaald want naast de eisen voor de E-inschaling heeft het artikel een inleidende zin + aparte paragraaf tekst + infobox (C.2) + afbeelding (C.3) (en zelfs meerdere afbeeldingen op Commons) = 2 van de C.1-C.3 kenmerken. Dan zou het van E toch naar D kunnen gaan, toch? Ciell need me? ping me! 10 dec 2021 10:45 (CET)Reageren
Alatina tetraptera vermeldt minstens 3 feiten en heeft meer dan 15 woorden tekst, toch? :-)
Don't Change Your Husband bestaat voornamelijk uit plotbeschrijving; de rest van de tekst is minder dan 15 woorden. Ik geef toe dat het een twijfelgeval is omdat het verder wel een prima beginnetje is ... DimiTalen 10 dec 2021 11:42 (CET)Reageren
Maar @DimiTalen, Alatina tetraptera heeft zeker geen 2 paragrafen tekst? Het artikel kent slechts 3 zinnen.... Als dit D is, dan de film ook. :) Ciell need me? ping me! 12 dec 2021 22:37 (CET)Reageren
Zeker, maar we hadden toch afgesproken dat als D.1 niet werd gehaald, dat we ook zouden kijken naar de C-criteria om een artikel van E naar D te halen? DimiTalen 13 dec 2021 10:15 (CET)Reageren
Het heeft een bron, een infobox en een afbeelding. Het voldoet aan de eisen voor E, maar heeft voldoende kenmerken van C om als D te worden geclassificeerd, zou ik zeggen.
De film heeft geen bron én de feitelijke info in lopende tekst is beperkter (al is dat verschil klein, akkoord). DimiTalen 13 dec 2021 11:10 (CET)Reageren

Hodge podge of data and building a new ORES model[brontekst bewerken]

Hey folks! I'm taking this opportunity to discuss the data we have for nlwiki article quality predictions in ORES. This is helpful for me to make sense of things and I figured it would be informative for anyone who is following this page.

So, we have the original dataset that we produced by tracking templates, running database queries, and applying approximations. This line in the datasets pipeline describes its construction: https://github.com/wikimedia/nlwiki_articlequality/blob/master/Makefile#L14

Recently, I went through the wiki, read through your feedback, and gathered a new dataset based on your feedback for ORES. Essentially, any time someone said, "This article should be X class", I included that in the dataset. You can see the result of that work here: https://github.com/wikimedia/articlequality/blob/master/datasets/nlwiki.human_labels.manually_extracted.json

Then we adjusted the quality criteria and I generated a new set of articles to label based on that new criteria in wikilabels. We had 3 labels per item and I posted the articles where people disagreed on my User:EpochFail/Kladblok page. DimiTalen did a lot of work to re-consider those articles and give them a final label. So I can use those as updated training data.

I think the best next step to bring this together is to gather the labels from User:EpochFail/Kladblok and the wikilabels campaign, combine them with my last manual extraction, and see where we land. This should produce a model that is much more aligned with the current quality criteria. My plan is to get this together on Sunday, Aug 12th. I'll post an update here once I have it. Note that, once we have a model ready, we'll still need to get the model deployed in ORES and that will likely require a review period with the ML team. With any luck, we can have the new ORES model available in the gadget within a week.

Thanks for your patience, folks! --EpochFail (overleg) 9 dec 2021 18:04 (CET)Reageren

Probably referring to Sunday, Dec 12th? ;-) Thanks for the update! DimiTalen 10 dec 2021 08:11 (CET)Reageren
Ha. I don't how I ended up saying Aug. Yes. Dec 12th :) --EpochFail (overleg) 13 dec 2021 01:07 (CET)Reageren
OK new model in place: https://github.com/wikimedia/articlequality/pull/169 I was only able to gather 32 examples of C-class pages to train ORES and that severely limited out ability to train the system. See below for a breakdown in our observations. If we were able to find a way to gather C and D class examples, I can boost the the training. For now, I think this will be useful and I'll work on getting it deployed.
   331 A
   335 B
    23 C
    56 D
   365 E

--EpochFail (overleg) 13 dec 2021 02:13 (CET)Reageren

I think these articles of my own are all Cs, maybe that can help you train the model: Manzanita (plant), George Perkins Marsh, Rashida Tlaib, Cori Bush, Lee Carter (politicus), Arc 1600.
More generally: I think this distribution shows the model currently doesn't deal very well with mediocre articles. We have no difficulty defining Es, we can easily tell what should be A or B, but we have trouble telling the middle group apart in a meaningful way. What does it take to be more than a stub? What's the benchmark to be considered 'decent' (C)? Looks like we're getting closer, but this distribution seems to be related to our struggles. DimiTalen 13 dec 2021 11:19 (CET)Reageren