non-lineariteit en opsporen

  • Als er geen rekening wordt gehouden met non-lineariteit, dan kan er geen goede voorspelling worden gedaan van Y en zijn de onderzoeksresultaten niet meer betrouwbaar. Er is dus mogelijk kans op fouten (bias). Dit is normaal gesproken het geval, maar hoeft niet per se zo te zijn. Daarnaast is er bij non-lineariteit altijd sprake van inefficiëntie. 
    Maar wanneer er sprake is van bias, maakt het al niet meer uit als het inefficiënt is of niet, aangezien bias hetgeen is wat we in ieder geval willen voorkomen.



    Er zijn verschillende manieren om non-lineariteit op te sporen:
    1. Theoretische verwachtingen.
    2. Visuele inspectie van de data (scatterplot), maar dit geldt alleen voor bivariate
    analyses.
    3. Regressie op basis van subsets van de gegevens. Een subset is een bepaalde set van
    gegevens. Een beperking is dat het aantal subsets willekeurig is. Het volgende plaatje laat twee subsets zien. Eentje voor de lage sufficiënties en een voor de hoge sufficiënties.

    4. Regressie op basis van transformaties van de data. Je gaat op zoek naar significante coëfficiënten voor niet-lineaire termen.



    Vrijwel alle (behalve de logistische) regressies kunnen door middel van transformaties van de variabelen benaderd worden met een polynomiale model.


    Y=a+b(1)X(1)+b(2)X(1)^2+b(3)X(1)^3...b(k)X(1)^k


    Het polynomiale model is nog steeds een lineair model voor de toepassing van OLS. Het is non-lineair in zijn variabelen, maar lineair in zijn parameters. De logistieke curve die we hierboven hebben gezien kan niet geschat worden door een model dat lineair is in zijn parameters. In plaats daarvan hebben we maximum likelihood technieken zoals: logit, probit, Heckman selection models en count models.

    Hieronder staat een klein polynomiaal model. De functie dy/dx is de afgeleide van de functie van Y. b1 is het effect van X op Y wanneer X gelijk is aan 0. De vraag is waarom we ons bezig houden met de waarde X = 0. We re-centreren de data door de gemiddelde waarde af te trekken van elke variabele, dan wordt het gemiddelde de nieuwe nul. b2 is de mate van verandering in het effect van X op Y.


    -Y=a+b(1)X(1)+b(2)X(1)^2. 


    dY/dX= b(1) + b(2)X(1)^2


    Hieronder staan de grafieken die we hierboven al eerder hebben besproken, maar dan met de relaties wat betreft b1 en b2 te zien.

    Rapporteer Plaats commentaar