Las variables ficticias, variables dummy o también conocidas como variables indicadoras son «variables artificiales» creadas para representar un atributo con dos o más niveles o categorías diferentes.
Para entender mejor las variables ficticias, es preciso comprender porqué utilizamos estas variables. El análisis de regresión trata como numéricas a todas las variables independientes del análisis, veámoslas como X. Estas variables numéricas pueden ser de escala, de proporción o de intervalos y por ende sus valores pueden ser comparables, por ejemplo, «4 es el doble que un 2» o «9 menos 1 es igual a 8».
Existen casos en los que es preciso introducir una variable de atributo o una variable de escala nominal como lo puede ser una MARCA o un TIPO DE EFECTO.
Ejemplo de utilización de una variable ficticia
Imaginemos que tenemos 6 tipos de efectos enumerados 1, 2, 3, 4, 5 y 6. En este caso si decimos 4 menos 2 no significa realmente nada, no se puede restar el efecto 2 al efecto 4. Estos números empleados aquí se utilizan para indicar los niveles del tipo de efecto más no tienen un significado intrínseco propio.
Las variables ficticias se utilizan en estos casos para de cierta forma engañar al algoritmo de regresión con la intención de que analice de forma correcta las variables de atributos.
Puntos claves sobre las variables dummy
Algunos aspectos claves a tener en cuenta sobre las variables ficticias son los siguientes:
- Las variables ficticias asignan los números 1 y 0 como indicativo de pertenencia a cualquier categoría mutuamente excluyente, y exhaustiva y mutuamente excluyente.
- El número de variables ficticias necesarias para la representación de una única variable de atributo es igual al número de niveles o categorías de esa variable menos uno.
- Para una variable de atributo determinada, ninguna de las variables ficticias construidas puede ser redundante. Por lo tanto una variable ficticia no puede ser un múltiplo constante o una simple relación lineal de otra.
- Cuando interactúan dos o o más variables de atributo, por ejemplo estado civil y sexo, deben representarse mediante una tercera variable ficticia que será el producto de las variables ficticias individuales.