Fenomen polskiej Wikipedii
Jak donosi Paweł Wimmer, polskiej Wikipedii stuknęło pół miliona artykułów. Gratulacje i podziękowania dla autorów! Mnie natomiast zawsze zadziwiał fenomen Wikipedii w naszym kraju. Oto bowiem przeciętnie ludne państwo ze stosunkowo niewysoką penetracją internetu stworzyło czwartą co do wielkości wersję językową Wikipedii.
Więcej artykułów niż w języku polskim mają tylko Wikipedie po angielsku, niemiecku i francusku. W Polsce jest około 14 milionów internautów, a pod względem ilości artykułów w internetowej encyklopedii wyprzedzamy język hiszpański (122 mln internautów), japoński (94 mln), portugalski (58 mln) czy włoski (33 mln). Sprawdziłem liczbę artykułów w Wikipedii w przeliczeniu na 1000 internautów, dla których dany język jest językiem podstawowym i oto wynik.

Polacy stworzyli 35 artykułów w przeliczeniu na tysiąc internautów posługujących się polskim językiem. Lepsi od nas są tylko Szwedzi (40 artykułów na 1000 internautów), a średnia dziesięciu najpopularniejszych języków to 7 artykułów na 1000 internautów. Do zestawienia użyłem liczby internautów posługujących się danym językiem ze strony World Internet Usage Statistics. W przypadku Polski, Szwecji i Holandii brałem pod uwagę liczbę internautów danego kraju gdyż tylko takie dane były dostępne, ale nie powinno to wpływać zauważalnie na wyniki (przynajmniej w przypadku Polski i Szwecji, dla języka holenderskiego współczynnik mógł wyjść nieco zawyżony). Dane w formie tabeli wyglądają następująco.

Liczby artykułów w danych językach zaczerpnąłem ze strony głównej Wikipedii – liczniki aktualizowane są dość rzadko (prawdopodobnie są to dane sprzed kilku dni), dlatego nie ma jeszcze 500 tys. w polskiej encyklopedii (ale nie ma to żadnego znaczenia, liczby dla wszystkich języków są sprzed kilku dni).
Nie podejmuję się interpretować tych danych, bo ani zbyt wiele nie wiem o Wikipedii od środka ani nie mam nic wspólnego z socjologią, ale jeśli macie swoje teorie lub pomysły na to, dlaczego polscy internauci są kilkakrotnie bardziej aktywni od innych akurat przy tworzeniu Wikipedii, piszcie śmiało w komentarzach.
Uaktualnienie:
ToSter w komentarzach zwrócił uwagę na kompletną listę języków na Wikipedii. Jest tam podanych znacznie więcej parametrów odnośnie każdej wersji językowej niż tylko liczba artykułów – między innymi “Depth”, współczynnik starający się odzwierciedlić jakość danej wersji (bierze pod uwagę liczbę edycji w stosunku do liczby artykułów, liczbę “wydmuszek”, czyli zalążków artykułów, itd). Wersja angielska ma depth 349, kolejnych siedem wersji jest pomiędzy 50 a 100, wersja polska ma zaś depth 8. Wśród 19 wersji językowych posiadających ponad 100 tys. artykułów jesteśmy w tej kategorii na przedostatnim miejscu.
To pozwala nieco wyjaśnić stąd tak duża liczba artykułów w stosunku do liczby internautów. W polskiej Wikipedii jest bardzo dużo zalążków, samych haseł bez towarzyszących im encyklopedycznych opisów. Nieduży jest też stosunek liczby edycji do liczby artykułów – średnio 26 edycji na artykuł (wersja angielska 94 edycje, francuska 47 edycji, niemiecka 63 edycje, hiszpańska 49 edycji). Siła Wikipedii polega na wspólnym redagowaniu, wzajemnym poprawianiu i uzupełnianiu informacji przez autorów. W pewnym uproszczeniu można przyjąć, że im mniejsza liczba edycji przypadająca średnio na artykuł tym niższa jakość, bo im więcej razy artykuł był poprawiany lub uzupełniany, tym staje się lepszy.
Czy można zatem stwierdzić, że polscy wikipedyści idą na ilość, zaniedbując jakość? Tworzą artykuły-wydmuszki w postaci pustych zalążków oraz wolą tworzyć nowe wpisy niż poświęcać czas na ulepszanie i dopieszczanie już istniejących?
Przeczytaj także:
- Grono spamuje Wikipedię. Niektórzy nie widzą w tym nic złego
- Wikipedia na mapach Google Maps – niestety w Polsce na razie symbolicznie
- Ile osób w Polsce używa Google Chrome
- Jak działa Feedburner – jak interpretować jego licznik
- Google publikuje liczby wyszukiwań poszczególnych słów kluczowych (wreszcie)


Dość często mam wrażenie, że to może być objaw narodowej megalomanii i chwalipieństwa. Sam przecież niejednokrotnie “krytykowałeś” jakość haseł. A w źródle wiedzy jednak jakość nie ilość ma pierwszorzędną rolę.
Nie twierdzę, że polska Wikipedia jest lepsza bo ma więcej haseł. Ten artykuł jest tylko i wyłącznie o ujęciu ilościowym i jedynę co twierdzę to to, że ma więcej haseł. I chętnie zrozumiałbym dlaczego. :)
Biorąc pod uwagę, że przeciętny Polak zna się na wszystkim i we wszystkich dziedzinach jest ekspertem, duża liczba artykułów nie może dziwić. To założenie potwierdzać może kiepska jakość artykułów, przynajmniej tych, które jestem w stanie zweryfikować.
Jeśli chodzi o liczbę artykułów w Wikipedii anglojęzycznej, nie bardzo jesteśmy w stanie ocenić próg, powyżej którego nie bardzo jest o czym pisać. Być może ta wersja właśnie zbliża się do tej granicy?
Kolejną sprawą są liczne skandale wokół zarządzających Wikipedią. Mogą one hamować jej rozwój, bo część osób nie chce mieć nic wspólnego z wyczynami Walesa. Część z nich jest opisana w plotkarskim serwisie Valleywag. Możliwe, że jego wiarygodność nie jest rewelacyjna, ale z drugiej strony artykuły tam publikowane mogą dawać do myślenia…
Zarządzający zarządzającymi, ale na pewno dziwi mnie polityka adminów polskiej Wikipedii. W głośnej sprawie o naruszenie dóbr osobistych poprzez treść hasła odmówili ingerencji, bo regulamin nie zezwala, podczas gdy w jeśli chodzi o wpis poświęcony Tomaszowi Polakowi nie są aż tak pryncypialni.
Takie zachowanie to jest gorzej niż źle dla wiarygodności. Mam coraz silniejsze wrażenie, że z Wiki robi się po prostu kolejne ‘forum’ garstki ludzi, którzy myślą, że mają monopol (na wiedzę? chyba nie…)
Ja bym najpierw postarał się porównać jakość polskich artykułów do innych wersji językowych. Łatwo powiedzieć, że większość artów prezentuje marny poziom (btw, co oznacza kiepska jakość? Mało danych? Źle napisana? Błędy merytoryczne? Może jeszcze coś innego?).
Z drugiej strony – staramy się dbać o ten poziom, nie zezwalając np. na jednozdaniowe stuby (w przeciwieństwie do tego, co dzieje się np. w en.wikipedia.org)
Heh nie raz tłumaczone medalowe hasło z en wiki okazywało się mieć felery, więc jak już to dobra jest niemiecka wiki.
Co do polskiej mentalności, bodajże Oramus kiedyś napisał taki fajny esej “Krytyk i eunuch”.
Mikołaj – górny próg jest hoho i dalej – gwiazdy, galaktyki, gatunki, związki chemiczne. Tych ostatnich jest odkrytych chyba z 20 milionów.
@ Maciek
Kiepska jakość to dla mnie artykuły źle napisane, z małą ilością danych, z błędami merytorycznymi. Między innymi oczywiście, bo jest też trochę artykułów “od czapy” z wąskich dziedzin, w których autor jest w stanie wmówić laikom wszystko i wykreować własną rzeczywistość.
Przykładem może być Rain marks, które przez poczekalnię SdU przeszło bez problemu. Ba, zamiast zastanowienia się nad sensownością zgłoszeń od razu pojawiła się kwestia nagonki…
Akurat modelarstwo jest dziedziną, na której się znam, ale w tych dyskusjach nie zdążyłem uczestniczyć. Gdybym nawet był w tym czasie przy kompie, to i tak bym sobie odpuścił. Szkoda byłoby mi energii na przekonywanie amatorów, bo i tak niewiele to zmieni. Historia SdU wyraźnie pokazuje szeregi sensownych czy bardziej przydatnych artykułów, które odeszły w niebyt, ale za to możemy się poszczycić artykułem o 280. odcinku Świata według Kiepskich.
PS. Na koncie mam kilkaset edycji na polskiej oraz kilka tysięcy na angielskiej Wikipedii, więc argumentację “popraw sam, jak ci zależy” stosowałem. Do czasu oczywiście, bo przestało mi zależeć. Sorry, ale zasada “1 człowiek = 1 głos” przy budowie serwisów merytorycznych się nie sprawdza.
W tym samym czasie wolę wyprodukować jakiś porządnie opracowany wyspecjalizowany serwis tematyczny, gdzie amatorzy w danej dziedzinie nie będą głosować nad tym, czy coś się wydarzyło, czy może jednak nie. We własnym serwisie nie będę też musiał pilnować, czy przypadkiem ktoś nie rozbudował artykułu o jakieś nowe “fakty”, co na Wikipedii ma miejsce nad wyraz często.
@ Jorge
Generalnie górny próg to pewnie miliardy artykułów, zwłaszcza jeśli się weźmie pod uwagę możliwość przetłumaczenia artykułów encyklopedycznych np. w Polsce na angielski. Chodzi mi jednak o górną granicę, przy której ludzie przestaną rozbudowywać Wikipedię, skupiając się na projektach bardziej wyspecjalizowanych. Zauważ, że artykułów o gwiazdach, galaktykach, gatunkach czy związkach chemicznych pojawia się znacznie mniej, niż artykułów o celebrytach, bohaterach seriali i tym podobnych.
Robiłem ostatnio bardzo podobne wyliczenie dla 20 wikipedii, ale w odniesieniu do całej ludności – oczywiście zdecydowanie dominują Skandynawowie, Holendrzy, Słowacy. Polska na 6. miejscu.
Spojrzenie trochę się zmieni, jeśli się zauważy, że mnóstwo z tych artykułów to wsie w Polsce, Francji czy Włoszech, stworzone przez boty. Po ich odliczeniu bylibyśmy nadal w pierwszej dziesiątce, ale na pewno dalej. Ciekawe jest zestawienie http://meta.wikimedia.org/wiki/Complete_list_of_language_Wikipedias_available ze szczególnym uwzględnieniem kolumny “Depth”, która prezentuje się u nas strasznie marnie. Zdziwiłem się mocno właśnie, kiedy odnalazłem się na liście top 600 polskiej wiki – a jestem aktywny od kilku miesięcy dopiero. Tak więc jest jeszcze mnóstwo do zrobienia, jeśli chodzi o werbowanie i cementowanie społeczności
Tego zestawienia nie znałem, faktycznie interesujące. No i czarno na białym pokazuje, że polska Wikipedia jest raczej w ogonie, niż w czołówce…
@ToSter: dzięki za linka. Uzupełniłem artykuł.
Po przeczytaniu uzupełnienia widzę, że jednak teza o ilości i jakości na jakieś uzasadnienie ;) Poczekajmy jeszcze na boty semantyczne które będą w stanie analizować kryteria takie jak chwalipieństwo czy kryptoreklama :)
Heh, Mikołaj – sprawdź w kategoriach jakich artykułów jest najwięcej, bo akurat odwrotnie niż piszesz :)
http://tinyurl.com/64t98g
o obiektach astronomicznych jest bardzo dużo, jak i o geograficznych, owszem o miejscowościach.
Dopiero na 76 pozycji: Amerykańskie aktorki (1 206 elementów)
Czy ja czegoś nie rozumiem, czy jest dokładnie odwrotnie? Im niższe depth, tym wyższa jakość? Dlaczego? Bo stosunek nie-artykułów do artykułów zwiększa tą wartość, ergo, negatywne 7/10 jest większe niż 1/10. Również stub ratio — im więcej stubów, tym większa wartość. Czy naprawdę zu.wikipedia (w języku isiZulu, pozycja 209) gdzie na jedną stronę z artykułem przypada dziewięć meta-stron, jest ponad trzydzieści (262:8) razy lepsza od polskiej?
Studiuje w Anglii i czesto korzystam z wikipedii lecz z jakością ma sie to różnie. Często w polskich opisach na dany temat znajdę hmm z 500 słów a tutaj w Angielskiej parę stron.
@Maciej Łebkowski: Tak patrzę na tę formułę:
Depth = ((Edits/Articles) × (Non-Articles/Articles) × (Stub-ratio))
Edits/Articles – im więcej edycji na artykuł tym wyższa jakość – artykuł był więcej razy (i w domyśle przez większą liczbę osób) poprawiany i ulepszany. Im wyższy iloczyn tym lepsza jakość.
Non-Articles/Articles. Definicja Non-Articles: User pages, Images, talk pages, “project” pages, categories, and templates. Tak jak pisałem – nie znam dobrze Wikipedii, jestem zwykłym użytkownikiem jedynie korzystającym ze zgromadzonych treści – ale to może być wskaźnik pokazujący jak dużo jest treści towarzyszących w porównaniu do artykułów. Im gęstszy podział na kategorie, im więcej obrazów, im więcej dyskusji nad artykułami, tym lepsza jakość treści. Czyli jednak – im wyższy iloczyn tym lepsza jakość.
Stub-ratio. Nigdzie nie znalazłem wyjaśnienia stub-ratio (czyli co przez co jest dzielone), ale to równie dobrze może być Liczba-Nie-Stub/Liczba-Stub i wówczas również im wyższy tym lepiej. Prawdopodobnie tak właśnie jest, biorąc pod uwagę konstrukcję poprzednich elementów – inaczej nie miałoby to sensu.
@Bartek, jasne, wgryzłem się w sprawę i faktycznie — nie miałem racji. Jednak nie wiem, czy wysoka ilość non-articles może być wyznacznikiem jakości. Na pewno *coś* pokazuje. ;-)
Zainteresowanych odsyłam do:
http://meta.wikimedia.org/wiki/Talk:Complete_list_of_language_Wikipedias_available
gdzie jest sporo dyskusji na temat tego parametru (nie doczytałem do końca)
W polskiej wikipedii jest mnóstwo artykułów, w których są przedstawione małe miasta z całego świata.Taki artykuł można napisać bardzo szybko
Przecież wystarczy poczytać Wikipedię, by przekonać się, że jest przepełniona ideologią, nieprawdami, półprawdami itp.itd. A porównania do Britanniki? Sam pisałem o tym newsa. I o tym, że kilka miesięcy później autorzy porównań przyznali, że źle przeprowadzili swoje badania, więc wypadły one na korzyść Wikipedii. No, ale o tej drugiej informacji już się nie pamięta. Bo Wales, były akwizytor, wie, w jaki sposób tworzyć “kultowe” towary, których nie wolno tknąć. Moim zdaniem Wikipedia to jedno z najbardziej szkodliwych zjawisk w Sieci. Niesie bowiem ze sobą pseudowiedzę, która, dzięki kultowemu statusowi Wikipedii, staje się prawdą objawioną. A tłumy lubią prawdy objawione, nawet, jeśli z prawdą mają one tyle wspólnego, co PiS z liberalizmem.
@ Jorge
Obawiam się, że jednak nie, bo nie chodzi mi o sztywną liczbę artykułów, często tworzonych przez boty, ale o proporcje obiektów opisanych do nieopisanych.
Zobacz, jak wiele jest obiektów astronomicznych czy miejscowości na świecie i ile z nich opisano w Wikipedii. Obawiam się, że te proporcje będą znacznie gorsze, niż w przypadku amerykańskich aktorek, że już na nich poprzestaniemy. Jeśli jeszcze odejmiemy od tego artykuły stworzone przez boty, to nagle się okaże, że Wikipedia wcale nie jest tak różowo…