W głośnym wywiadzie prof. Joanna Tyrowicz mówi, że w efekcie programu 500 plus podaż pracy kobiet spadła o 3 pkt proc., powołując się na wyniki badania zrobionego z zastosowaniem machine learning w USA przez polskiego doktoranta Filipa Premika. Dziś rozmawiamy z nim w 300Gospodarce o tej nowatorskiej metodzie i o tym, dlaczego dwa badania tej samej materii dają różne wyniki.
Katarzyna Mokrzycka, 300Gospodarka: W wywiadzie pt. „Polskie transfery socjalne są kuriozalne, wsteczne i niczego nie rozwiązują” prof. Joanna Tyrowicz powołała się na pana badania, z których wynika, że o około 3 pkt proc. spadła podaż pracy kobiet po wprowadzeniu programu 500 plus. Robiąc te badania, posłużył się pan dość nowatorską dla badań ekonomicznych metodą uczenia maszynowego. To była chęć sprawdzenia nowinki czy konieczność, a jeśli tak – z czego wynikająca?
Filip Premik, ekonomista współpracujący z GRAPE, doktorant na Uniwersytecie Minnesota w USA: Jeśli chcemy w ekonomii odkryć coś nowego o świecie, powiedzieć coś o jakiejś zależności na podstawie danych statystycznych, to musimy dysponować jakąś miarą poprawności naszych konkluzji. W standardowych metodach używanych w ekonomii mamy łatwy dostęp do teorii statystycznej, która daje odpowiedź na pytanie czy wynik, jaki dostaliśmy, ma sens czy nie, czy jest on precyzyjnie oszacowany czy nie.
Przez długi czas metody uczenia maszynowego nie miały tego statystycznego fundamentu, który pozwalałby na weryfikowanie tego typu hipotez. Na początku nie było to po prostu potrzebne – metody uczenia maszynowego służyły głównie do prognozowania. W tym przypadku łatwo o miarę jakości modelu – możemy użyć modelu do przewidzenia zachowań części jednostek znajdujących się w naszym zbiorze danych, a następnie porównać te prognozy z zachowaniem zaobserwowanym w rzeczywistości.
W ostatnich latach jednak kilkoro bardzo mądrych ludzi, między innymi Susan Athey (żona tegorocznego noblisty w dziedzinie ekonomii Guido W. Imbensa) i Stefan Wager, wyprowadziło teorię statystyczną dla niektórych z modeli uczenia maszynowego. Dzięki poznaniu ich własności statystycznych zakres ich użyteczności rozszerzył się poza standardowe zadania predykcyjne. My ekonomiści uzyskaliśmy zupełnie nowe i potencjalnie bardzo użyteczne narzędzia do opisywania zależności w gospodarce. Co ważne, jesteśmy w stanie coś powiedzieć o jakości naszych oszacowań, na przykład poprzez wskazanie przedziału, do którego w 95 przypadkach na sto będzie wpadał parametr, który chcemy poznać.
Jeżeli ileś razy mamy powtarzalność wyniku, to znaczy, że on jest poprawny? I taką właśnie metodą uzyskał pan wartość około 3-proc. spadku w podaży kobiet na rynku pracy po wprowadzeniu programu 500 plus ?
Na tym bazuje cała klasyczna teoria statystyki. Zauważmy, że zwykle dysponujemy tylko próbką danych z całej populacji i to na jej podstawie chcemy wyciągać wnioski dotyczące ogółu. W celu zapewnienia wiarygodności naszych wyników ważne jest, by dysponując różnymi, ale wciąż losowymi próbkami, otrzymywać porównywalne oszacowania.
Każdy algorytm „wypluwa” nam jakąś liczbę, niezależnie czy używamy prostej średniej w próbie czy zaawansowanych metod uczenia maszynowego. Chcielibyśmy, aby ta liczba opisywała konkretną zależność w populacji. Na przykład, w moim badaniu chcę odkryć zmiany w przepływach na rynku pracy Polek wynikające z wprowadzenia programu 500 plus. Co się może wydarzyć? Są trzy możliwości: albo mój algorytm poda mi nieobciążoną wartość, to znaczy, że co do średniej wskaże poszukiwaną wartość w populacji dla całej populacji, albo jest zgodny (im mam większą próbkę, tym bardziej zbiegam do wartości populacyjnej, to znaczy, że jeśli bym miał nieskończenie wiele danych, tobym dostał wartość z populacji, a jak mam ich mniej to wyląduję gdzieś obok, ale w pobliżu), albo dostaję liczbę która opisuje coś zupełnie innego niż poszukuję. Pierwsza możliwość jest najbardziej pożądana, ale bardzo trudna do otrzymania. Trzecia dyskwalifikuje całe badanie. Teoria wyprowadzona przez panią Athey i pana Wagera daje gwarancję dla uzyskania zgodności i daje oszacowanie zmienności rezultatów, wynikające z dysponowania jedynie próbką z populacji.
Czy pan się zajmował badaniem dotyczącym transferów 500 plus i przepływów w podaży pracy, bo interesuje się pan programami społecznymi czy socjalnymi, czy to temat wybrany aby przećwiczyć uczenie maszynowe w badaniach ekonomicznych?
Ja nie jestem ekonomistą rynku pracy. Na co dzień zajmuję się czymś zupełnie innym, a statystyka i ekonometria to moje hobby. Pojawienie się teorii statystycznej dla algorytmów uczenia maszynowego (i w szczególności lasu losowego na którym opieram moje badanie) wydało mi się szansą na obejście restrykcyjnych dotyczących procesu generowania danych, które są niezbędne do otrzymania sensownych wyników w szacowaniu skutków dużych programów rządowych i które w mojej ocenie nie zawsze są spełnione.
Pytam, bo wynik tego badania wywołał ostrą burzę. Mniej więcej w podobnym czasie Instytut Badań Strukturalnych opublikował inne badania, pana Jana Gromadzkiego, doktoranta jak pan, z których wynikało, że cytuję: „szczegółowa analiza pokazuje że bezwarunkowy transfer nie miał istotnego wpływu na podaż pracy matek: prawdopodobieństwo bycia osobą pracującą, godziny pracy czy indywidualne zarobki”. Rozumiem, że są różnice w sposobie przeprowadzenia badania, ale my mamy dwa różne wyniki na temat podaży pracy kobiet, które dostały 500 plus. Jest wpływ, nie ma wpływu. Jak to możliwe? Czy może być tak, że w różnych badaniach tego samego tematu, tej samej materii uzyskujemy dwa różne wyniki?
Generalnie – tak. Trzeba sobie zadać pytanie, jak robione jest badanie. Pan Gromadzki szuka trochę czegoś innego niż ja. On porównuje zmiany w podaży pracy kobiet przed i po wprowadzeniu programu 500 plus pomiędzy grupą z dziećmi 2+ i grupą z jednym dzieckiem, interpretując wynik jako efekt dochodowy (wynikający ze zmian w dochodzie). Ja natomiast patrzę, ile kobiet faktycznie przyszło i odeszło z rynku pracy. To znaczy: mieliśmy ileś kobiet pracujących przed wprowadzeniem 500 plus i po wprowadzeniu 500 plus, a ja sprawdzam, jak się zmieniły ich decyzje przez udział lub brak udziału w programie transferów 500 plus. Mój model uwzględnia potencjalne zmiany w oczekiwaniach oraz warunkach ekonomicznych na poziomie makro. Ja i pan Gromadzki skupiamy się na zupełnie innych aspektach pozornie tej samej sprawy.
Ale czy nie najważniejszy jest tu „bottom line” – pan mówi o spadku w podaży pracy matek aż o 3 pkt proc., IBS, komentując badania pana Gromadzkiego pisze, że „bezwarunkowy transfer nie miał istotnego wpływu na podaż pracy matek”. To miał czy nie miał? Jak ma to to rozumieć nieekonomista?
Poza wyznaczeniem parametru, który chcemy otrzymać, ważna jest jeszcze populacja, dla której chcemy otrzymać nasz wynik. Problem jest taki, że pozornie używamy tych samych danych, bo w obu przypadkach są to dane BAEL (Badanie Aktywności Ekonomicznej Ludności – przyp. red.). Dlatego być może wiele osób uznało, że jeden z tych wyników musi być błędny. Jednak nie musi tak być, bo znaczenie ma również coś innego – próba wybrana do badania i grupa porównawcza. W badaniach pana Gromadzkiego mamy tylko zamężne matki w wieku 29-49, ja analizuję zachowania wszystkich kobiet w wieku 20-60 lat. Zauważmy, że jeżeli motywacje stojące za decyzjami o uczestnictwie w rynku pracy singielek w wieku 20-29 różnią się od reprezentowanych przez zamężne kobiety w wieku 29-49, to wyniki tego samego algorytmu oszacowane na tych podpróbach mogą być mocno zróżnicowane.
Fundamentalne znaczenie w interpretacji wyników, zwłaszcza przy użyciu standardowych metod, ma grupa porównawcza, znana również jako kontrolna. W przypadku pana Gromadzkiego są to kobiety z jednym dzieckiem. U mnie grupa porównawcza nie odgrywa aż tak ważnej roli, gdyż w odpowiedzi na pytania „co by było, gdyby” bazuję na jak najlepszym oszacowaniu reguły decyzyjnej opisującej średnie zachowania kobiet w podobnej sytuacji życiowej, a nie na bezpośrednim różnicowaniu zachowań pomiędzy dwiema grupami kobiet.
Prof. Tyrowicz mówiła w wywiadzie: „500 plus spowodowało, że ludzie, którzy stracili pracę z mniejszą werwą szukali nowej. Nikt z nas, ekonomistów pracy, nie uważał, że ludzie rzucą robotę, bo dostali 500 zł na miesiąc. Ostrzegaliśmy natomiast, że jeśli już kobieta straciła pracę to z mniejszym zaangażowaniem będzie szukała nowej. A im mniejszy zapał w poszukiwaniu, tym mniejsze szanse na sukces. Kilka lat później możemy potwierdzić, że to jest ten główny kanał, który skutkuje trwałym obniżeniem podaży.” To jednak dotyczy chyba przede wszystkim kobiet, które właśnie urodziły dziecko, więc trudno mówić o 50-latkach?
To, na czym ja dokładnie się skupiam to, po pierwsze, prawdopodobieństwo tego, czy kobieta, będąc poza zasobem pracy się „zaktywizuje” – chodzi nie tyle nawet o to czy znajdzie pracę, tylko czy w ogóle będzie jej szukać. Po drugie, analizuję prawdopodobieństwo dezaktywizacji – odsetek kobiet, które miały pracę, ale z różnych powodów ją opuściły i nie mają zamiaru wracać. Moje badanie wskazuje, że pierwszy z wymienionych czynników jest odpowiedzialny na rynku pracy za większą część zmian, wynikających z wprowadzenia programu 500 plus.
Aby zbadać efekty wprowadzenia 500 plus musimy umieć odpowiedzieć na pytanie, co by się stało, gdyby program nie został wprowadzony.
Z punktu widzenia wiarygodności otrzymanych wyników, nie ma w badaniach empirycznych nic lepszego niż eksperyment, tylko on nie zawsze jest dostępny. To jest problem. Często w ekonomii szukamy tzw. zmienności quasi-eksperymentalnej, to jest zmiennej, która stawia podobnych sobie ludzi w diametralnie różnej sytuacji, niezależnie od ich wyborów czy zachowań. Wówczas, opierając się na intuicji metod eksperymentalnych, porównujemy wyniki dla obydwu grup. Za rozwój metodyki w tej dziedzinie Angrist i Imbens dostali w tym roku nagrodę Nobla.
Czyli by móc dobrze zbadać metodą tradycyjną na przykład kobiety z 2+ dzieci, dostające 500 plus, potrzebna jest grupa kobiet z dziećmi 2+, które 500 plus nie dostają, czy tak?
Tak. Z punktu widzenia statystyki najlepiej byłoby przyznawać świadczenie w wyniku losowania. Ale oczywiście tego zrobić nie można z powodów etycznych.
W moim badaniu wszystko sprowadza się do przewidywania decyzji kobiet: szukać pracy czy nie. Gdy chcemy znaleźć efekty wprowadzenia programu 500 plus, bierzemy stan zastany czyli to, co się stało przez program 500 plus i odejmujemy od tego wynik, który otrzymalibyśmy gdyby programu 500 plus nie było. Tego drugiego nie jesteśmy w stanie zaobserwować (bo program został wprowadzony), więc musimy go przybliżyć, używając danych, którymi dysponujemy. W standardowym podejściu zakładamy, że zachowanie osób w grupie kontrolnej dobrze przybliża zachowanie osób w grupie poddanej oddziaływaniu w świecie, w którym nie otrzymałyby świadczenia, przez co porównanie średnich dynamik dla obydwu podgrup daje pożądany wynik.
Zauważmy, że w przypadku dużych programów rządowych o uniwersalnym charakterze znalezienie odpowiedniej grupy kontrolnej (lub chociaż tzw. zmienności quasi-eksperymentalnej) może być kłopotliwe. Dlatego w moim podejściu kładę nacisk na precyzyjne oszacowanie reguły decyzyjnej kobiet. Mając (nawet przybliżony) algorytm podejmowania decyzji łatwiej jest odpowiadać na pytania, co by było gdyby, to znaczy wskazać, jak potoczyłyby się losy podaży pracy, gdyby programu 500 plus nie było.
Ale przecież musimy też przyjąć, że na zmianę decyzji mogły także wpływać inne czynniki, nie tylko 500 plus.
I tu z pomocą przychodzą strategie badawcze oraz modele, które w sprytny sposób pozwalają nam odcedzić wpływ programu 500 plus od innych czynników. Te pierwsze pozwalają nam na nadanie oszacowanej liczbie pożądanej interpretacji. Te drugie pozwalają na dokładne oszacowanie pożądanego parametru. Tutaj w szczególności użyteczne są modele uczenia maszynowego, które w naturalny sposób są w stanie wyłapać wiele zmienności na poziomie indywidualnym, które zostałyby uśrednione używając klasycznych metod. Natomiast cały czas sednem problemu jest jak najdokładniejsze odwzorowanie mechanizmu powodującego, że kobiety decydują się lub nie na branie udziału w rynku pracy.
Jaki okres do badania pan przyjął?
Zaczynam od 2013 roku, a kończę na roku 2019. W ocenie procesu aktywizacji, skupiam się na dynamice zmian w decyzjach podejmowanych przez kobiety. W uproszczeniu, „biorę” kobietę, która w danym kwartale nie była aktywna na rynku pracy – tzn. nie pracowała i nie szukała pracy – i używam algorytmów uczenia maszynowego (dokładnie: uogólnionego lasu losowego) do oszacowania na ile prawdopodobne jest, że w następnym kwartale zmieni zdanie i zacznie pracy szukać lub po prostu ją znajdzie.
Przy okazji dyskusji wokół wywiadu z Joanną Tyrowicz, najczęściej w komentarzach publicznych pojawiały się uwagi o tym, jak niska musiała być jakość pracy i wynagrodzeń kobiet, które nie chciały wracać do pracy mając 500 plus. Czy jakość pracy i wynagrodzenie miały znaczenie dla ich decyzji?
Moje badanie nic na ten temat mówi. Nie badam kwestii dochodowych. Lepiej o tym rozmawiać z ekonomistami rynku pracy. Ja się tym nie zajmuję.
Czy gdyby miał Pan ponownie przeprowadzić to badanie, ponownie korzystając z uczenia maszynowego, zrobiłby je pan dokładnie tak samo?
Tak. I będę się upierał, że jest to najlepsza metoda z czysto metodologicznych aspektów.
Przede wszystkim dlatego, że nie wymaga mocnych założeń o ewolucji reguły decyzyjnej w grupie kontrolnej. Skoro nie jestem w stanie znaleźć dobrej grupy kontrolnej ani eksperymentu różnicującego osoby którym przyznano zasiłek, za to mam mnóstwo danych opisujących jednostki w populacji, to wykorzystam metody uczenia maszynowego, by jak najlepiej odwzorować reguły decyzyjne. Innymi słowy, oszacować funkcję, która dla kobiet w konkretnej sytuacji społeczno-zawodowej i w danym punkcie czasu zwróci ich prawdopodobieństwo aktywizacji (i dezaktywizacji). Biorę zatem zbiór kobiet w danym roku, dzielę je na te, które na pewno dostały transfer czyli z 2+ dzieci oraz te, które na pewno nie dostały, czyli bezdzietne i w każdym roku, biorąc oddzielnie każdy podzbiór, staram się oszacować dla tych kobiet ich reguły decyzyjne. Jak? Wrzucam do modelu wszystko, co jestem w stanie o nich znaleźć – o nich, ich rodzinie, rodzicach, partnerze i tak dalej.
Ale co konkretnie – dochody, wydatki, wyjazdy na wakacje, miejsce pracy?
Wszystko, co jest o nich dostępne w BAEL-u, np. skład gospodarstwa domowego, miejsce zamieszkania, wiek, status matrymonialny, czy w danym okresie pracowała jak zwykle, czy pracowała w ograniczonym wymiarze czasowym, jak się przykładają obowiązki macierzyńskie czy inne obowiązki związane z opieką na to czy chciała pracować, czy teraz szuka pracy, czy pracuje w pełnym wymiarze, czy pracuje w niepełnym wymiarze, gdzie pracuje, jakie ma wykształcenie i jaki zawód. Problematyczne są płace. Dużo osób w BAEL-u odmawia odpowiedzi na pytanie o płace. Tam gdzie są dostępne naturalnie ich używam, natomiast w mojej opinii z powodu braków danych nie warto na nich budować całej narracji.
Analizuje pan zarówno kobietę, jak i całe jej otoczenie?
Tak, z tym, że dla rodziców przyjąłem nieco mniej danych, ale dla partnera wszystkie te same dane, co dla kobiety.
Wprawdzie nie nazywa pan tego grupą porównawczą, ale bada pan także grupę kobiet, które nie mają dzieci. Czemu ona służy w tym badaniu ?
Bo te kobiety również są na rynku pracy i również mogą zmieniać swoje zachowania pod wpływem programu 500 plus. Ponadto, porównanie kierunku i charakteru zmian w regułach decyzyjnych dla kobiet, które dostały i nie dostały zasiłku ułatwia mi interpretację zmian w podaży pracy, które wynikają ze zmian w wynagrodzeniach, bezpieczeństwie zatrudnienia i ogólnej sytuacji na rynku pracy, które przecież też mogły mieć swoją praprzyczynę we wprowadzeniu programu 500 Plus. Musiałem zrezygnować z analizy kobiet z jednym dzieckiem (poniżej 18 roku życia), gdyż nie byłem w stanie wskazać, które z nich kwalifikowały się do wzięcia udziału w programie przed rozpoczęciem wypłat, a także przed rozszerzeniem programu na wszystkie dzieci.
Czy uczenie maszynowe się uczy? Czy istnieje ryzyko, że za jakich czas sztuczna inteligencja się rozwinie i zmieni wyniki tego samego badania?
Nie. Nazwa sztuczna inteligencja sugeruje, że jest tam jakaś inteligencja, jakaś myśl, podczas gdy cały czas mamy do czynienia wyłącznie z algorytmem, czyli inaczej przepisem na otrzymanie jednej liczby z kilku innych. Algorytmy, co prawda, stają się coraz bardziej skomplikowane, ale nie przestają być algorytmami.
Co jeszcze wynika z pana badań? Zakładam, że z tak dużego zbioru analizowanych informacji zarysowało się kilka ciekawych wniosków.
Najważniejszy wniosek to, że ostatecznie po wprowadzeniu programu 500 plus kobiet z dwójką i więcej dzieci, które mają pracę jest o 2-4 punktów procentowych mniej niż było przed programem. Ale oczywiście mamy w badaniu wnioski dla mniejszych podgrup podzielonych na przykład ze względu na edukację, na rozmiar miasta, w którym mieszkają, wiek kobiety itp. Widzę na przykład, że kobiety z małymi dziećmi zaczęły częściej odchodzić z pracy.
Po prostu rezygnują? Składam wypowiedzenie i więcej tu nie wrócę?
To znaczy, że z kwartału na kwartał przestają być zatrudnione i nie szukają dalej pracy. To widzę w danych i to wyłapały moje algorytmy. Ponadto stopa aktywizacji wyraźnie zmalała. Wcześniej kobiety szukały pracy i deklarowały, że jej szukają nawet, gdy było o nią trudno. Później wiele z nich na pytanie o poszukiwania odpowiadało już: nie.
Czyli jednak ma znaczenie jakość pracy i jakość dochodu
Tego nie oceniam. Mój model „widzi” tylko, że nagle coś się zmieniło. Pokazuję natomiast, jakie zmienne były najważniejsze w budowaniu tej reguły decyzyjnej, tzn. które zmienne najbardziej różnicowały zachowania kobiet przed i po 500 plus. Zwraca chociażby uwagę to, jak wśród 10 najważniejszych predyktorów dla kobiet z dziećmi wzrosła po wejściu programu waga subiektywnej oceny wykonywanych obowiązków rodzinnych. Nagle te obowiązki zyskały na znaczeniu, w podejmowaniu decyzji kobiet o uczestnictwie w rynku pracy, podobnie, jak zmienne dotyczące bezpieczeństwa zatrudnienia oraz udział zasiłków w głównym dochodzie rodziny.
Wyniki modelu sugerują również, że przy podejmowaniu decyzji o uczestnictwie w rynku pracy ważniejsze stały się informacje o sytuacji zawodowej męża. Na przykład pensja jaką miał mąż kwartał wcześniej ma większe znaczenie w objaśnianiu prawdopodobieństwa aktywizacji zawodowej kobiet w następnym kwartale po wprowadzeniu programu 500 plus niż przed. Skłania to do powzięcia wniosku, że zasiłki w ramach programu 500 plus nie w każdym przypadku sprzyjały wzrostowi niezależności finansowej kobiet.
Czy badania ekonomiczne z wykorzystaniem machine learning wyprą klasyczne metody badawcze?
Osiągnięciem m.in. Athey i Wagera jest wprowadzenie metod uczenia maszynowego do przybornika klasycznych metod badawczych. Myślę że machine learning nie wyprze dotychczas stosowanych algorytmów, a raczej rozszerzy zakres pytań, na które będziemy w stanie odpowiedzieć.