Seriál Minitab:
Data mining a regresní modely

Problémy při použití data miningu
k vytvoření regresních modelů

Data mining využívá algoritmy k prozkoumání korelací v datech. Je tak vytvořen model, do kterého jsou automaticky zahrnuty proměnné pouze na základě statistické významnosti. Není však kladen důraz na to, zda proměnné, znaménka nebo velikost jejich koeficientů dávají smysl.

Může se objevit pokušení vytvořit regresní model pomocí co největšího počtu různých kombinací proměnných a poté vybrat model, jehož statistiky vypadají nejlépe. Někdo by si mohl říct: „Co by přece na těchto výsledcích mohlo být špatně, pokud jsou veškeré p-hodnoty významné a hodnoty různých druhů koeficientů determinace jsou vysoké?“

Možná Vás v následujícím textu přesvědčíme, abyste byli při použití tohoto postupu opatrnější. U data miningu může totiž dojít k několika problémům. Pro lepší ilustraci uvedeme tyto problémy na konkrétním příkladě. Data mining lze totiž použít tak, aby to vypadalo, že naprosto náhodně vygenerované vysvětlující proměnné (prediktory) jsou schopny vysvětlit většinu změn v náhodně vygenerované vysvětlované proměnné!

Abychom to vyzkoušeli, vygenerujme worksheet v Minitabu, který bude obsahovat 100 sloupců a každý z nich bude mít 30 řádků s naprosto náhodnými daty (Návod: Calc > Random Data > Normal). Nyní proveďme regresi s postupným vyřazováním a s přidáváním proměnných do modelu (Stepwise Regression), čímž dostaneme nejvhodnější kombinaci prediktorů modelu. První sloupec vybereme jako naši vysvětlovanou proměnnou (Response), zbylých 99 jsou potenciální vysvětlující proměnné (Predictors).

Po skončení regrese s postupným vyřazováním a přidáváním proměnných do modelu zůstalo 28 proměnných, které vysvětlují 100 % rozptylu vysvětlované proměnné! Jelikož máme pouze 30 pozorování, tak je zjevné, že jsme do modelu zahrnuli příliš mnoho prediktorů. Přetížení modelu nadměrným množstvím prediktorů je odlišný problém, který ovšem také navyšuje koeficient determinace.

Nyní se zaměřme skutečně pouze na problémy data miningu. Abychom se vyhnuli přetížení modelu, existuje pravidlo nezahrnout do modelu více než 1 proměnnou na každých 10 pozorování. V našem příkladě máme 30 pozorování, takže zahrneme pouze první 3 statisticky nejvýznamnější proměnné získané z předchozího modelu, jedná se o sloupce C7, C77 a C95. Výstup prvních třech kroků regrese je následující.

stepwise_swo

Ve třetím kroku můžeme vidět, že všechny koeficienty jsou statisticky významné. Koeficient determinace s hodnotou 67,54 % může být dobrý až průměrný, záleží na zkoumané oblasti. Ani při pohledu na zbylé dva koeficienty determinace nelze vidět problém.

Při bližším pohledu na to, jak byl model postupně skládán, vidíme, že při každém kroku koeficienty determinace rostly. To přece chceme, no ne? Pro ilustraci vytvořme graf jedné vysvětlující proměnné (C7) s vysvětlovanou proměnnou (C1). Koneckonců vidět přece znamená věřit, že ano?

scatterplot

Graf vypadá také skvěle! Opravdu to vypadá, že když se C7 zvýší, tak má C1 také tendenci růst – což je v souladu s kladným koeficientem této proměnné ve výstupu. Pokud bychom nevěděli, že jsou data naprosto náhodná, tak bychom si i mysleli, že jsme odhadli skutečně dobrý model.

Vraťme se k otázce, která byla položena na začátku, co by tedy mohlo být na tomto přístupu špatně? U data miningu lze snadno dojít ke klamným výsledkům. Statistiky i grafy mohou vypadat dobře, ale výsledky mohou být založeny na naprosto náhodných datech s absolutně žádným reálným vlivem. To jsme mohli pozorovat i v našem příkladě, kde regresní model naznačoval, že náhodná data vysvětlují jiná náhodná data, i když je to nemožné. Vše vypadalo na první pohled skvěle, ale model byl ve skutečnosti mizerný.

Doufáme, že Vás tento příklad zaujal a nezapomeňte být obezřetní, protože všechno nemusí být tak, jak se může na první pohled zdát.

Pozn.: Originální znění článku i s worksheetem, se kterým se v textu pracovalo, a odkazy na související témata naleznete na tomto odkazu http://blog.minitab.com/blog/adventures-in-statistics/problems-using-data-mining-to-build-regression-models.

Disclaimer: MINITAB® and all other trademarks and logos for the Company’s products and services are the exclusive property of Minitab Inc. All other marks referenced remain the property of their respective owners. See minitab.com for more information.