Nie chcę już dłużej wpław przez cyfrową rzekę, czyli dajcie mi nowe Google
“Mimo kryzysu ilość danych cyfrowych rośnie szybciej niż przewidywano” – taki tytuł notki prasowej przyciągnął dziś moje oczy. Rozumiem krzykliwe tytuły a schemat nagłówków w rodzaju “mimo kryzysu [tu wstawiasz cokolwiek] wciąż rośnie” widuję niemalże codziennie na głównej Gazety, więc nie powinno mnie to specjalnie dziwić, ale jednak kliknąłem i pomyślałem:
A niby dlaczego, do diabła, z powodu kryzysu ludzkość miałaby spowolnić podukcję cyfrowych danych? Ich tworzenie jest przecież stosunkowo darmowe. Napisanie jakichś bzdur na Facebooku lub na blogu kosztuje znacznie mniej niż bilet do kina, więc ta stosunkowo niedroga rozrywka zwłaszcza w czasach kryzysu może nabierać atrakcyjności. Niestety staje się to pomału jednym z największych problemów dzisiejszego cyfrowego świata, o tym za chwilę.
Firma EMC, która sponsorowała badania zakończone cytowanym na początku wnioskiem, deklaruje, że w minionym roku utworzono 3 892 179 868 480 350 000 0001 bitów nowych danych. Szkoda, że bit jest niepodzielną jednostką. Gdyby wymyślono jakieś nanobity, albo chociaż mikrobity, liczba mogłaby wyglądać chyba jeszcze bardziej efektownie. Tłumacząc na ludzkie jest to podobno 487 miliardów GB. Biorąc pod uwagę, że liczba użytkowników internetu na świecie to jakieś 1,6 miliarda ludzi, można w uproszczeniu przyjąć, że każdy z nas przeciętnie w ciągu roku wyprodukował pełniutki dysk twardy o przeciętnej pojemności (305 GB).
Znaczna część tych danych egzystuje gdzieś online – i to jest przekleństwo naszych czasów. Co gorsza, wg EMC liczba wszystkich cyfrowych danych na świecie ma się podwajać co 18 miesięcy, a w 2012 roku powstanie pięciokrotnie więcej danych niż w 2008. Biorąc pod uwagę, że liczba użytkowników internetu ma wzrosnąć raptem z 1,4 mld w 2008 do 1,9 mld w 2012, oznacza to, że już za trzy lata każdy wyprodukuje przeciętnie nie 305 GB, ale 1200 GB danych – lekko ponad terabajt na głowę (choć pewnie wciąż, bez większych zmian, będzie to odpowiadało przeciętnej pojemności dysku twardego). Oznacza to też pięć razy więcej rzeczy atakujących nas na Blipie, Twitterze, Flakerze, Facebooku, Naszej klasie i wszelkimi innymi możliwymi sposobami – a to będzie już prawdziwe Przekleństwo przez całkiem spore “P”.
Ja natomiast już w 2009 jestem nieco bezradny i bezsilnie załamuję ręce nad potokiem owych cyfrowych danych zalewających mnie na różne sposoby. Tak jak w latach dziewięćdziesiątych ubiegłego wieku hitem internetu było wyszukiwanie, tak jak pod koniec obecnej dekady wielu stawia na agregację, tak już za kilka lat internet wygrają ci, którzy znajdą skuteczny sposób na filtrowanie tego procencika wartościowych danych z całego, wielkiego potoku informacji. Przy czym będzie to znacznie trudniejsze niż wyszukiwanie.
Szukanie jest proste – szukamy czegoś konkretnego, więc w wielkim śmietniku danych wypatrujemy tego, co jest zgodne z podanym wzorcem (zapytaniem). Filtrując nie szukamy niczego konkretnego – nie mamy wzorca, do którego możemy porównać dane. Dla użytkownika interesujące mogą być zarówno zdjęcia ze ślubu koleżanki na naszej-klasie (ale już zdjęcia dziesięciu innych koleżanek niekoniecznie) jak i notowania giełdowe i artykuły dotyczące kilku spółek (ale nie całej reszty). Do tego trzeba to robić w czasie rzeczywistym, bo każde pozostawienie spływających danych “na później” skutkuje w dzisiejszych czasach wiadomo czym (a jeśli nie wiadomo to zasubskrybujcie sobie w ramach eksperymentu RSS pięćdziesięciu popularnych blogów, po czym nie zbliżajcie się do czytnika przez dwa tygodnie).
Wzrost ilości produkowanych danych cyfrowych (z 305 GB do 1200 GB na głowę w ciągu czterech lat) to tylko część problemu. Zagęszczanie sieci dostarczającej te dane do rozmaitych odbiorców to kolejny, wcale nie mniejszy. Pięciokrotny wzrost ilości tworzonych danych nie bolałby tak bardzo, gdyby nie jednoczesne zwielokrotnienie (obawiam się, że większe niż 5x) ilości kanałów komunikacji oraz liczby adresatów, do których te dane trafiają – a co za tym idzie ilości nadawców, od których cyfrowe dane napływają do nas. Pięć lat temu życie było prostsze. Nie atakowały tuż po ich umieszczeniu w sieci zdjęcia znajomych, z którymi widuję się raz na pół roku (nasza-klasa). Nie wyskakiwało mi żadne powiadomienie gdy ktoś z niezliczonych znajomych pił kawę (blip, twitter). Nie dowiadywałem się o przedmiotach wystawianych na aukcjach Allegro ani ulubionych dodawanych do Delicious przez znajomych, których chciałem subskrybować w zasadzie tylko krótkie statusy co u nich słychać (flaker, wszelkie agregatory). I choć oczywiście większość tych narzędzi daje opcje mniejszego lub większego konfigurowania tego co ma do mnie trafiać, to daleko odbiega to od wygodnego rozwiązania.
Rozwiązaniem nie jest ręczne konfigurowanie filtrów przez każdego odbiorcę. Spływają do nas coraz bardziej różnorodne dane i coraz trudniej jest je klasyfikować. Ręczne ustawianie setek, czy wręcz tysięcy filtrów – oraz późniejsze nimi zarządzanie – wykracza ponad możliwości zdecydowanej większości użytkowników. Jeśli ktoś miałby w najbliższych latach dokonać rewolucji w filtrowaniu cyfrowego potoku śmiecia, to musi to zrobić w jakiś nieporównywalnie sprytniejszy sposób. Nie mam pojęcia w jaki, ale jeśli mu się to uda to będę skłonny mu za tę usługę płacić albo oglądać reklamy obok przefiltrowanego strumyczka danych wysokiej jakości (oraz tylko tych interesujących mnie) zamiast teraz obok produktów Google.
Przeczytaj także:
- Garść statystyk z rynku webowego
- Duży debiut giełdowy rosyjskiej wyszukiwarki – Yandex chce wejść na giełdę wyceniając się na 5 mld dolarów
- Fałszywe maile atakujące użytkowników sieci społecznych – ciąg dalszy czyli nowa fala spamu
- Dlaczego w Europie (prawie) nie ma tematycznych społecznościówek?
- Google Trends pokazuje ile ruchu Google wysyła do poszczególnych witryn (uaktualnienie)
Komentarze (16):
Dyskusja na innych blogach (trackbacks):


My tu gadugadu, a webstop ożył!
@Paweł Szołtysek gadugadu bo serwery wstały, wczoraj byśmy nie pogadali :)
Bartku, powrót w wielkim stylu, tekst na prawdę ciekawy. Próbowałem sam policzyć ilość danych/liczbę ludzi, ale mój kalkulator odmówił posłuszeństwa (pokazał costam do e cośtam do którejś tam).
Już są pierwsze próby agregacji informacji, ale na razie mało owocne.
należy tylko wziąć pod uwagę, że większa ilość danych nie oznacza wprost większą ilość informacji. Zmieniają się formy zapisu oraz jakość danych ale nie zawsze wpływa to na ich ilość.
Skąd to poczucie bezradności – skąd ta ilość danych u Ciebie?
@hazan: Poczucie bezradności wynika z tego, że jeśli nie ma mnie 48h przy komputerze, to gdybym po powrocie chciał przejrzeć wszystko to co do mnie przez ten czas przypłynęło (blip, flaker, nk, facebook, rss), musiałbym nad tym siedzieć chyba z kilkanaście godzin.
W tym momencie przestaję już w jakikolwiek sposób panować nad infomacjami jakie przyswajam – dochodzę do etapu, na którym przyswajam losowe treści, które akurat miały szczęście pojawić się w tym momencie, w którym zerkałem – a nie te treści, które sam bym wybrał gdybym miał na to czas (lub gdyby nie było to tak czasochłonne).
Może mi napiszesz, że Ty tak nie masz? Że po 24h czy 48h przychodzisz i w kwadrans obrabiasz się z wszystkimi danymi, które same do Ciebie przyszły? Jeśli tak to zazdroszczę :).
U mnie niestety dzieje się to losowo. Ok, mogę szybko rzucić okiem na treści z ostatniej godziny czy dwóch i wyselekcjonować z niej te ciekawsze, którym chcę się przyjrzeć bardziej (np. przeczytać), ale poprzednie 46h zostaje nietknięte. Czyli przetwarzam tak naprawdę losowo – i stąd poczucie bezradności, bo to już nie ja decyduję o tym jakie informacje przetwarzam, a przypadek – jeśli coś miało szczęście pojawić się akurat wtedy, gdy patrzyłem.
Dużo racji jest w tym co piszesz. Ja mam tak samo. Siadam sobie do komputera, przeglądam RSS, jak się trafi kilka tytułów, które mnie zainteresują to czytam, a resztę do kosza bo i tak nie będę miał na to czasu. W efekcie to co czytam jest dość przypadkowe, czyli dokładnie tak jak piszesz.
Pewnie z tego wynika duża popularność twittera i jego klonów. Po prostu zamiast każdy samemu się trudzić w odfiltrowaniu ciekawych informacji, zdajemy się na grupę znajomych. Interesujemy się tym czym wszyscy w danej chwili się interesują. I to jest ten filtr o którym piszesz. A że przez niego trafiają niekoniecznie istotnie wiadomości. To inna sprawa. Ważne, że trafiają w ilości, w której jesteśmy je w stanie przyswoić.
Hmm, ale przeciez sam wybierasz te dane, ktore chcesz ogladac. Sam dodajesz feedy to GReadera, sam zakladasz konto na facebooku, twitterze, blipie, flakerze.
To Twoj wybor, ze wybierasz poziom “caly szum”. A sa przeciez dostepne jeszcze: “tylko RSS”, “tylko email”, “tylko telefon” jak rowniez cala masa kombinacji.
Opisywany przez Ciebie problem jest raczej problemem wyboru samego czlowieka.
Nawiazujac do tego co napisal Michal wyzej – to wszystko Twoj wybor.
Tez mialem takie uczucie jeszcze zupelnie niedawno. Bezradnosc w obliczu zalewu informacji – na pewno czesc z nich byla interesujaca, ciekawa, godna uwagi, ale ze wzgledu na ‘losowe’ przetwarzanie ginela w tlumie mniej wartosciowych bitow.
Poradzilem sobie za pomoca… diety cyfrowej :)
Po lekturze “The Power of Less” i “Bit Literacy” (jeszcze mam czas na czytanie ksiazek!!:) dokonalem egzekucji – idea dojrzewala we mnie dosc dlugo i robilem male kroczki w tym kierunku, ale w tych ksiazkach znalazlem pomoc do konkretnych rozwiazan (btw. wiekszosc to banaly..) i motywacje do radykalnych krokow.
Teraz mam Inbox0, GReader0, wiecej udaje mi sie zrobic w zdecydowanie krotszym czasie, a i mam wiecej czasu na offline’owe zycie. Aha i ograniczylem tylko szum, sygnal tylko bardziej zorganizowalem.
Zapraszam na browara, to opowiem Ci o konkretach:)
@Bartek – w moim przypadki nie mam efektu przemęczenia. Mam w RSS-ach z 30 źródeł + przeglądam 4 agregatory i to wszystko. Dzięki temu czytanie newsów przy kawie nadal sprawia mi przyjemność – a jak przegapię jeden czy dwa dni to nie zagłębiam się w to co się działo i wszystko zaznaczam jako przeczytane.
Jeśli jakiś news był naprawdę treściwy i wart zainteresowania to i tak w jakiś sposób wróci i się o nim dowiem.
Bardzo Ciekawy post, ale małe sprostowanie. “[...] Szkoda, że bit jest niepodzielną jednostką.[...]” – bit nie jest wcale niepodzielny – chociaż faktycznie nieczęsto w praktyce bity dzielimy. Do zakodowania N stanów potrzeba log(N) bitów i nie musi to być liczba całkowita.
@ahajduk, @hazan: Również podobnymi metodami radzę sobię z natłokiem, ale mam świadomość, że już od dawna nie kontroluję tego jakie newsy przetwarzam.
@wojtek log(10)=1, ale jednym bitem dziesięciu stanów nie zapiszesz. Prawdopodobnie chodziło Ci o log2(N) (w sensie logarytm o podstawie 2), ale tu też raczej trzeba dodać ceil(log2(N)). Nie istnieje coś takiego jak półtora bita, którymi możnaby zapisać liczbę 3. No chyba, że mi pokażesz taki zapis i będzie to faktycznie półtora bita, a nie dwa bity. ;-)
@Bartek jasne, że chodziło o log2, bo bit jest zdefiniowany jako najmniejsza ilość informacji jaką można opisać system o 2 stanach, ale nie jest powiedziane że jest to najmniejsza ilość informacji jako takiej. Liczbę 3 ( stany 0,1,2 ) można zakodować przy użyciu 1.5849 bit-a. Gdy zapiszę to na dwóch bitach – to tracę ponad 0.4 bita informacji ( w dobie kryzysu to istne marnotrawstwo ;-) ). Jeżeli chcę jednak zakodować łącznie np. 5 takich wartości ( od 0 do 2 każda ) to potrzebuję na to 7.9 bitów ( a więc jeżeli faktycznie użyję 8-miu to tracę tylko 0.1 bita ! ). Może to jest pomysł na rozwiązanie kryzysu który ponoć powoli dociera do IT ?
@wojtek: teraz się zgadzam :). Oczywiście pozostaje pytanie czy taka oszczędność będzie de facto oszczędnością, bo odszukanie i odkodowanie tak przechowywanej informacji przez system operujący na wartościach 8-bitowych (lub wielokrotnościach) może być bardziej kosztowne niż zaoszczędzony nośnik – ale to już dyskusja mocno akademicka i zdecydowanie off topic ;-).
@Bartek cieszę się że Cię przekonałem. Problem jest akademicki, chociaż nie czysto. Miałem do tej pory jedną sytuację w systemie komercyjnym, w której faktycznie musiałem wykorzystać 1.5 bita i było to uzasadnione. Ale przechodząc do głównego topic-u. To myślę że bardzo mocno wzrasta ilość informacji graficznej i video – bo po prostu łatwiej i taniej ją wytworzyć i coraz taniej ją przesłać, dramatycznie rośnie też ilość informacji “system to system” ( np. spam generator to spam filter ) i pewnie to zaważyło na statystykach. Nie jestem natomiast pewien jaki jest wzrost ilości informacji czysto tekstowej ( pewnie już nie tak imponujący ). Podejrzewam że niewiele większy niż wzrost samej liczby internautów. A przecież jak do tej pory to tylko informacja tekstowa jest indeksowana i ona stanowi główną pożywkę dla google. Tak czy inaczej jest to potok, w którym powoli wszyscy toniemy ( liczba informacji przekroczyła poziom przyswajalności ). Rozwiązanie problemu to targetowanie wyników. Wyszukiwarka ( filtr ) musiałaby znać moje preferencje, mój stan finansów, stan zdrowia, poglądy (?) analizować moje zachowanie, i produkować wyniki które mnie zadowolą. Wszyscy wielcy już nad tym pracują, ale komu się uda ? Znając życie – to pewnie komuś o kim jeszcze nie słyszeliśmy … a potem kupi ich google.
“… Boże święty, Boże miłosierny, dlaczego niczemu nie można poświęcić uwagi, świat jest sto milionów razy za obfity i co ja pocznę z moją nieuwagą…”
Witold Gombrowicz, Kosmos.
@Michal: można sobie pożartować, że to wybór człowieka na co kieruje swoją ograniczoną percepcję; jak komuś źle, to można np. się wynieść do Palestyny i zająć się nasłuchiwaniem bomb zamiast wyszukiwaniem informacji o technologiach internetu konsumenckiego przez podłączone do sieci i prądu urządzenia w Polsce. Niemniej autor zauważa, że w zaistniałych warunkach cywilizacyjnych takie wspomaganie percepcji by się przydało i prawdopodobnie da się kiedyś zakodować.
I ja też podzielam taką potrzebę w ogólności. Pewnie dobrze by było takie filtry wspomóc ludzkim inputem – co innym wydało się ciekawe. Takie “top posts”. Szybko doszlibyśmy do wniosku, że ciekawe są tylko rzeczy po angielsku lub chińsku. ;) Technorati pracowało kiedyś nad attention.xml – może jeszcze dadzą głos kiedyś.