Tomasz Downarowicz Instytut Matematyki i Informatyki Politechnika Wrocławska Wybrzeże Wyspiańskiego 27 50-370 Wrocław Prawo serii Konspekt wykładu wygłoszonego na seminarium instytutowym Wrocław, 17 stycznia 2006
Co to jest „prawo serii”? W potocznym rozumieniu nie jest to prawo, tylko raczej obserwacja. O serii mówi się, gdy jakieś zdarzenie losowe uważane za rzadkie zdarzy się kilka (co najmniej dwa) razy w stosunkowo małych odstępach czasu. Miano „prawa” sugeruje, że serie takie obserwowane są na tyle często, że zaczyna to wyglądać na ingerencję jakiejś nieznanej siły fizycznej lub nieodkrytej reguły statystycznej. Przykłady
Fanatycznym badaczem prawa serii był serii był działający na przełomie XIX i XX wieku austriacki biolog Paul Kammerer.(1880-1926; na zdjęciu). Jego książka Das Gesetz der Serie zawiera wiele przykładów z życia jego i jego bliskich. Oto próbka (w wolnym tłumaczeniu):
Przykłady serii mieszają się w literaturze z przykładami innych „niewiarygodnych” zbiegów okoliczności. Ich lista jest długa i fascynująca, ale cytując je odbieglibyśmy od tematu. Pionierami w wysnuwaniu teorii o nieobjętych prawami fizyki siłach prowokujących m. innymi serie zdarzeń podobnych i inne zbiegi okoliczności byli, oprócz Kammerera, Karol Gustaw Jung (szwajcarski profesor filozofii) i zdobywca nagrody Nobla w dziedzinie fizyki, Austriak, Wolfgang Pauli (1900-1958; na zdjęciu). Postulują oni istnienie w naturze swoistego „przyciągania” w przestrzeni i czasie zjawisk lub obiektów posiadających wspólne cechy (tzw. teoria synchronizmu).
Serie spontaniczne w procesie niezależnym Pogląd przeciwstawny do teorii synchronizmu głosi, że wszelkie serie, koincydencje i temu podobne, są wynikiem czystego przypadku i nie kryje się za nimi żadna nadprzyrodzona lub niewyjaśniona siła. Matematyk, dr Warren Weaver (1894-1978; na zdjęciu) argumentuje, że rzeczywistość przeprowadza w każdym ułamku sekundy miliony prób losowych polegających na przypadkowym zestawianiu w przestrzeni i czasie różnych liczb, nazwisk, wydarzeń, itp., nie ma zatem niczego nadzwyczajnego w tym, że od czasu do czasu pojawi się seria elementów identycznych lub podobnych, albo koincydencja odbierana przez nas jako „niewiarygodna”. Każda z nich ma bowiem prawdopodobieństwo niezerowe, więc przy odpowiednio dużej liczbie prób ma prawo, a nawet „obowiązek” kiedyś się pojawić. Nasz problem polega na ignorowaniu sekwencji zdarzeń nie noszących znamion nadzwyczajności, a przez to nie dostrzeganiu globalnej „liczby nieudanych prób” jakie towarzyszą wystąpieniu jednemu zauważalnemu zbiegowi okoliczności. W odniesieniu do serii powtórzeń zdarzeń identycznych lub podobnych, argumentacja Weavera i innych statystyków odwołuje się też do zjawiska tzw. spontanicznej klasteryzacji. Jeśli jakieś zdarzenie A powtarza się w czasie w sposób „czysto losowy”, to znaczy, że jego pojawienia się tworzą realizację procesu Poissona (czyli o przyrostach niezależnych). Proces taki charakteryzuje jeden parametr l zwany intensywnością, który jest równy wartości średniej liczby sygnałów (wystąpień zdarzenia A) w jednostce czasu. W typowej realizacji procesu Poissona rozmieszczenie sygnałów na osi czasu nie będzie bynajmniej zbliżone do równomiernego. Wykazywać będzie ono pewną naturalną skłonność do tworzenia skupisk (klastrów). Te właśnie skupiska obserwujemy i interpretujemy jako „serie”. Takie naturalne, czysto przypadkowe występowanie serii nazwiemy stochastycznie obojętnym, a występującą w nim klasteryzację, spontaniczną. Porównanie klasteryzacji spontanicznej (w środku) z przyciąganiem i odpychaniem Chcąc zatem uściślić rozumienie pojęcia prawa serii zdefiniujmy przyciąganie jako odchylenie procesu sygnałów od procesu Poissona w kierunku klasteryzacji silniejszej niż spontaniczna. Podobnie, odpychanie to klasteryzacja mniejsza niż spontaniczna, czyli bardziej równomierne rozmieszczenie sygnałów w czasie. Spór między Paulim a Weaverem jest o to, czy w występowaniu różnych zdarzeń w przyrodzie występuje tak rozumiane przyciąganie czy też nie. O ile nie ma wątpliwości, że Pauli i Jung rozumieli specyfikę procesu Poissona i ich postulaty dotyczą przyciągania właśnie jako odchylenia od tego wzorca, o tyle wydaje się, że Kammerer, nie mając wystarczającej wiedzy probabilistycznej, w wielu swoich eksperymentach „odkrywał” jedynie klasteryzację spontaniczną. Przyciąganie w wielu procesach zachodzących w rzeczywistości jest podyktowane silną zależnością fizyczną i nikt nie dopatruje się w nim działania sił niewyjaśnionych. Wiele zjawisk wykazuje zwiększoną częstotliwość w okresach występowania tzw. sprzyjających warunków, tworzących z kolei proces o wolno przebiegających zmianach stanu. Przykładem mogą tu być erupcje wulkanów występujące seryjnie w czasach zwiększonej aktywności tektonicznej, lub serie zachorowań na choroby zakaźne. Z kolei przykładem procesu wykazującego odpychanie mogą być wizyty przy wodopoju jakiegoś konkretnego zwierzęcia. Będą one z oczywistych powodów zdecydowanie bardziej równomiernie rozmieszczone w czasie niż sygnały w procesie Poissona. Spór o prawo serii dotyczy oczywiście tylko takich zjawisk, gdzie nie ingerują ewidentne mechanizmy fizyczne powodujące przyciąganie i wydaje się, że proces ich pojawień „powinien” być poissonowski. Jednakże procesy o przyrostach czysto niezależnych zdarzają się tylko w teorii, a w praktyce niezależność ta jest na ogół tylko przybliżona. Może się zatem zdarzyć, że jakieś śladowe zależności, nieuchwytne dla naszej wiedzy i pomiarów, na długą metę generują na przykład przyciąganie w procesie, który uważamy za stochastycznie nieobciążony. Teorię synchronizmu, o ile chcemy traktować ją racjonalnie (w odniesieniu do prawa serii) należy zatem interpretować w właśnie tak: śladowe zależności działają w taki sposób, że generują przyciąganie. Pytanie, czy tak jest i dlaczego?
Nasz głos w dyskusji Niedawno, wspólnie z Yvem Lacroix (na zdjęciu po lewej) uzyskaliśmy pewien wynik z teorii ergodycznej, który pozwala nam w tym właśnie miejscu włączyć się do dyskusji. Opowiadamy się po stronie Paulego i Junga, mając w ręku bardzo silny argument – twierdzenie matematyczne. Mówi ono, z grubsza rzecz ujmując, że w odniesieniu do zdarzeń „elementarnych” (zbiorów bazowych o bardzo małym prawdopodobieństwie) odchylenia od niezależności mogą generować jedynie przyciąganie. Zatem w przyrodzie istotnie występuje naturalna preferencja przyciągania nad odpychaniem. Nie musimy rozumieć mechanizmów zależności w danym procesie, aby mieć pewność, że jedynym efektem ich działania na pewne mało prawdopodobne zdarzenia może być przyciąganie. I oczywiście nie ma w tym nic magicznego albo (od teraz) niewyjaśnionego.
Uściślenie definicji Aby wyjaśnić szczegóły naszego twierdzenia musimy nieco uściślić pojęcie przyciągania (a także odpychania). Przyciąganie, jako kierunek odchylenia procesu pojawień się jakiegoś zdarzenia (czyli procesu sygnałów) od procesu Poissona, nie wymaga na szczęście wnikania w szczegóły wielowymiarowych rozkładów takiego procesu. Wystarczy prosta nierówność dla dystrybuanty czasu oczekiwania na pierwszy sygnał. Po pierwsze zauważmy, że przyciąganie nie powinno zależeć od średniej częstości l pojawiania się sygnałów. Ponieważ chcemy dokonywać porównań danego procesu z procesem Poissona o takiej samej intensywności, możemy założyć, że l = 1. Odpowiada to przyjęciu za jednostkę czasu odwrotności l (nazywamy to normalizacją). W procesie Poissona czas oczekiwania na pierwszy sygnał (jak również długość przerwy między kolejnymi sygnałami) ma rozkład wykładniczy. Dla parametru jednostkowego dystrybuanta takiego rozkładu jest zadana funkcją FP(t) = 1– e–t (t ³ 0).
W świetle tych definicji, aby jakiś proces był stochastycznie obojętny, nie musi on być procesem Poissona. Wystarczy aby zachodziła tożsamość funkcji F(t) = 1– e–t. Gwoli ścisłości, do definicji tej trzeba jeszcze założyć ergodyczność, aby miało sens mówienie o cechach typowej realizacji. Wyjaśnimy teraz dlaczego taką właśnie przyjmujemy definicję przyciągania. Twierdzenie ergodyczne gwarantuje, że dla typowej realizacji dowolnego stacjonarnego (i ergodycznego) procesu sygnałów, w odpowiednio długim przedziale czasu stosunek liczby sygnałów do czasu będzie w przybliżeniu równy l (czyli 1). Zatem w losowo wybranym przedziale czasu długości t wartość oczekiwana liczby sygnałów wynosi lt, czyli t. Wartość F(t) informuje nas, jakie jest prawdopodobieństwo, że w losowo wybranym odcinku czasu o długości t wystąpi co najmniej jeden sygnał. Iloraz t/F(t), to zatem warunkowa wartość oczekiwana ilości sygnałów w tych odcinkach czasu długości t, w których występuje co najmniej jeden sygnał. Jeśli F(t) < 1– e–t, to ta warunkowa wartość oczekiwana jest większa, niż w procesie Poissona. Innymi słowy, jeśli prowadzimy obserwacje takiego procesu przez czas t to albo nie zaobserwujemy żadnego sygnału, albo w pewnym momencie pojawi nam się sygnał, i wtedy możemy spodziewać się większej globalnej liczby zaobserwowanych sygnałów, niż gdyby to był proces Poissona. Pierwszy sygnał „przyciąga” następne, czym przyczynia się do zwiększonej klasteryzacji. Odpychanie to efekt przeciwny. Pierwszy sygnał zmniejsza warunkową wartość oczekiwaną ilości sygnałów w obserwowanym odcinku czasu, przyczyniając się do zmniejszonej klasteryzacji, czyli do bardziej równomiernego rozmieszczenia sygnałów w czasie. Jeśli w danym procesie występuje przyciąganie z pewnych odległości i odpychanie z innych, skłonność do klasteryzacji jest niejednoznaczna i zależy od perspektywy czasu obserwacji procesu. Natomiast jeśli dany proces wykazuje wyłącznie przyciąganie, to w dowolnej skali czasu zobaczymy tyko podwyższoną klasteryzację. To jest właśnie kwintesencja zjawiska występującego w prawie serii.
Ścisłe sformułowanie twierdzenia Nasze twierdzenie dotyczy występowania małych (w sensie prawdopodobieństwa) zdarzeń losowych w stacjonarnych procesach stochastycznych z czasem dyskretnym obustronnie nieskończonym. Nie są to dowolne zdarzenia, lecz zdarzenia bazowe (odpowiednik zdarzeń elementarnych), czyli cylindry nad długimi blokami względem rozbicia skończonego P przestrzeni stanów. Obrazowo mówiąc zakładamy, że nasz proces przypomina proces powstawania jakiegoś tekstu w wyniku stukania w klawiaturę, a zdarzenie, którego powtórzenia nas interesują, to pojawienie się jakiegoś konkretnego długiego ciągu liter (np. zdania). Robimy przy tym dwa nieodzowne założenia o samym procesie. Pierwsze to wspomniana ergodyczność, czyli żądanie aby wszystkie (ze zbioru o prawdopodobieństwie 1) realizacje procesu miały takie same własności probabilistyczne. Jest ona automatycznie spełniona, jeśli obserwujemy tylko jedną losowo wybraną realizację dowolnego procesu, tak więc założenie to ma charakter czysto techniczny. Drugie, to niedeterministyczność, czyli postulat, aby przyszłość realizacji procesu względem rozpatrywanego rozbicia P nie dała się całkowicie przewidzieć na podstawie jej przeszłości. Jest oczywiste, że interesują nas wyłącznie takie procesy. Ponadto w procesach deterministycznych nie ma nadziei na żadne prawo serii (weźmy pod uwagę procesy okresowe, gdzie nie ma nawet klasteryzacji spontanicznej). Reasumując, nasze założenia są naturalne, konieczne i nie ujmują ogólności.
Innymi słowy: I. Jeśli e reprezentuje dokładność, z jaką potrafimy porównać dwie dystrybuanty, i jeśli w naszym procesie (z ustalonym rozbiciem P ) wybierzemy przypadkowo wystarczająco długi blok, to z prawdopodobieństwem bliskim jedności będzie to blok, którego występowanie w czasie będzie albo statystycznie obojętne, albo będzie wykazywało przyciąganie. Zaobserwowanie odpychania jest prawie niemożliwe. II. W każdym procesie niedeterministycznym znajdziemy rozbicie, którego długie bloki wykazywać będą nie tylko brak odpychania, ale wręcz bardzo silne przyciąganie.
Komentarz do twierdzenia Przede wszystkim, dotyczy ono wyłącznie zbiorów małych, a więc zdarzeń rzadkich. Nie obejmuje to zdarzeń takich jak pojawianie się konkretnych pojedynczych liczb w ruletce, czy występowanie okularów u przechodniów (ulubione eksperymenty Kammerera), czy też wizyty jakiegoś zwierzęcia u wodopoju. Bardziej adekwatne jest tu zdarzenie polegające na rozbiciu banku w ruletce. Zauważamy, że część I nie mówi o powszechności przyciągania, a jedynie o śladowości odpychania. Nie wyklucza ona jeszcze, że wszystkie procesy spełniające założenia twierdzenia są asymptotycznie stochastycznie obojętne (czyli, że przyciąganie zanika tak samo jak odpychanie gdy n rośnie). Dopiero druga część twierdzenia wskazuje na asymetrię. Sytuacja przypomina trochę II zasadę termodynamiki: teoretycznie dowodzi się jedynie, że „entropia układu nie może zmaleć” (ale może wzrosnąć). Niezmienność entropii jest jednak dla układu fizycznego nieosiągalnym stanem doskonałym, dlatego w praktyce entropia stale rośnie. Podobnie jest z naszym „powszechnym prawem serii”. Nie można w teorii wyeliminować procesów asymptotycznie stochastycznie obojętnych (czyli pozbawionych również przyciągania). W końcu istnieje przecież proces Poissona. Ale, jak już mówiliśmy, w praktyce żaden proces nie przylega idealnie do schematu procesu o przyrostach niezależnych. Nawet w modelowej serii rzutów monetą niezależność jest tylko teoretyczna, a w praktyce – przybliżona. Można przypuszczać, że podobnie jest ze statystyczną obojętnością, a może nawet jej wersją asymptotyczną, i co za tym idzie, w procesach występujących w praktyce dominuje przyciąganie. Dokładne zbadanie tego jest jeszcze zadaniem na przyszłość. W każdym razie druga część twierdzenia ukazuje przynajmniej tyle, że przyciąganie (i to bardzo silne) zaobserwujemy w każdym procesie, nawet niezależnym, jeśli tylko odpowiednio zmienimy rozważane rozbicie. W tym sensie przyciąganie jest zjawiskiem powszechnym. Pewnym „mankamentem” powyższego twierdzenia jest to, że dotyczy ono wyłącznie bloków, czyli zbiorów cylindrycznych i tylko powtórzeń dokładnie tego samego bloku. Trudno jest na razie orzec, jakie zdarzenia z realnych eksperymentów dają się zamodelować jako długie bloki. Ich struktura sugeruje, że muszą to być sekwencje zdarzeń „grubych” pojawiające się w określonej kolejności. Ale swoboda wyboru rozbicia generującego (czyli zestawu tych zdarzeń grubych) daje tutaj duże możliwości manewru. Jeśli chodzi o serie zdarzeń podobnych, ale nie identycznych, wiele z nich można modelować jako identyczne poprzez odpowiednie kodowanie utożsamiające pewne atrybuty na zasadzie podobieństwa. Ale chyba wkraczamy tu zbytnio w świat spekulacji. Istotą naszego twierdzenia jest przede wszystkim wskazanie naturalnego mechanizmu prowadzącego do „przewagi” przyciągania nad odpychaniem w procesach stochastycznych, przez co stawia ono prawo serii w zupełnie nowym świetle. Zapewne jest to dopiero początek badań. Dalsze uściślenia i uogólnienia mogą stanowić ciekawy kierunek przyszłych dociekań.
Główne idee dowodu Dowód części I twierdzenia opiera się jednym zasadniczym tricku technicznym i dwóch istotnych obserwacjach. Trick ów polega na analizowaniu powtórzeń (zamiast bloku B) konkatenacji dwóch bloków BA, z których lewa część B znacznie dłuższa niż prawa część A. Na chwile możemy założyć, że A jest jednym symbolem (ostatnią literą naszego bloku). Dalej interesować nas będzie proces powtórzeń bloku B i proces symboli występujących bezpośrednio po B. Na rysunku poniżej realizacją takiego "indukowanego" procesu, jest ciąg ...A-1A0A1A2...
Główny i najtrudniejszy lemat mówi, że
Dowód tego lematu korzysta mocno z zaawansowanej teorii ergodycznej, głównie z pojęcia entropii. Druga kluczowa obserwacja jest dużo łatwiejsza. Załóżmy dla uproszczenia, że niezależności o których mowa w punkcie 1 są pełne. Wtedy nietrudno dowodzi się, że
Ale przy okresowym pojawianiu się B i przy założonej niezależności, wystąpienia bloku BA są dokładnie takie jak wstąpienia bloku A w procesie niezależnym z czasem dyskretnym (o jednostce równej przerwie w wystąpieniach bloku B). Wtedy czas oczekiwania na BA ma rozkład geometryczny. Ponieważ A jest tak naprawdę też całkiem długim blokiem, jego prawdopodobieństwo p jest małe, a dystrybuanta rozkładu geometrycznego o małym parametrze p w przybliżeniu pokrywa się z dystrybuantą rozkładu wykładniczego 1– e-t. To wszystko razem dowodzi, że możliwe maksymalnie odpychające występowanie bloku C jest i tak bliskie stochastycznie nieobciążonemu, co kończy dowód. Dowód części II to skomplikowana konstrukcja pewnego układy symbolowego. Skorzystaliśmy przy niej nieco z pomocy specjalisty od układów Bernoullowskich, Dana Rudolpha. |