Читать книгу: «Guía práctica para la evaluación de impacto», страница 5

Шрифт:

4.6. Problemas potenciales de la aleatorización

A pesar de las bondades evaluativas que ofrecen los experimentos sociales, los experimentos, en la práctica, pueden desviarse del diseño ideal. Problemas en la aleatorización pueden implicar que la inferencia estadística acerca de los efectos causales calculados no es válida para la población bajo estudio. Por ejemplo, los individuos actúan de manera diferente al conscientemente participar en un experimento, que si participaran en un programa fuera del marco experimental. El participar en un experimento puede alterar el comportamiento del grupo de tratamiento (efecto experimental o Hawthorne) o el del grupo de control (efecto John Henry). Otro problema potencial es que, dados los altos costos de los experimentos sociales, es posible que el tamaño de la muestra sea pequeño y, por tanto, la medición de los efectos no sea suficientemente precisa. Además, si la muestra es pequeña no se garantiza el supuesto de independencia, porque la probabilidad de que todas las madres con ciertas características particulares (por ejemplo, las más recursivas) caigan en un grupo particular (tratamiento o control) no es despreciable.

Otros factores, como una mala aleatorización, el no cumplir con el protocolo de tratamiento y la pérdida de muestra, introducen correlación entre el tratamiento, Di, y el término de error, ui. Así, el estimador de diferencias es sesgado. Si hay fallas en la aleatorización, el tratamiento no es asignado de manera completamente aleatoria, sino que se basa en parte en las características o preferencias de los individuos. Los resultados de las variables objetivo reflejarán tanto el impacto del programa como el efecto de la falla en la aleatorización. Suponga que la pertenencia a los grupos de tratamiento y control en Canasta se hace con base en la primera letra del apellido. Dadas las diferencias étnicas en apellidos, podría haber diferencias sistemáticas en etnicidad entre los grupos de tratamiento y control, generando una correlación entre la variable de tratamiento y el error. Otro ejemplo de fallas en la aleatorización tiene que ver con el caso en que algunos individuos favorecidos en la lotería, y, por tanto, miembros potenciales del grupo de tratamiento, decidan no participar en el programa. También puede suceder que personas que no salieron favorecidas originalmente en la lotería, y, por tanto, son del grupo de control, insistan hasta que las metan en el programa. Seguramente estos dos grupos de personas tienen características diferentes al resto, tanto en variables incluidas como en otras que no quedaron registradas en la base de datos. Esto introduce una correlación entre el tratamiento, Di, y el término de error, ui . El permitir que estas personas cambien de grupo genera sesgo de selección y, por tanto, las técnicas descritas en este capítulo no pueden usarse para estimar el efecto del programa.

Cuando el protocolo de tratamiento no se cumple al pie de la letra, se pueden generar problemas que ponen en riesgo el éxito de la aleatorización. Imagine que la administración central de Canasta envía las listas del resultado de la aleatorización a los municipios después de que inicia el proceso de inscripción al programa. Algunos de los ya inscritos, y, por tanto, beneficiarios del programa pertenecían originalmente al grupo de control. Aunque la intención de tratamiento era aleatoria, el tratamiento efectivo no lo es, puesto que las madres más proactivas pertenecen al grupo de tratamiento por haberse inscrito primero. Esto implica que las madres del grupo de tratamiento son más proactivas que las del grupo de control. El grupo que recibe los beneficios es un subconjunto particular de la población y, por tanto, los grupos de tratamiento y control se determinan en parte por autoselección.24

4.7. Verificación de la aleatorización

¿Cómo evaluar si la aleatorización está bien hecha? Si el tratamiento fue recibido de manera aleatoria, Di no estará correlacionado con ninguna variable observada de los agentes. Podemos entonces estimar la siguiente ecuación por MCO25:


donde X1i a XKi son características individuales. Cuando el tratamiento no está correlacionado con las características individuales, los coeficientes que acompañan las Xki deben ser cero. En la práctica, se calcula un estadístico F de significancia conjunta26 de las Xki. Puesto que Di es binaria, necesitamos calcular errores estándar robustos, como lo muestra el anexo 4. Si los resultados sugieren que el tratamiento no fue asignado de manera aleatoria, es posible ajustar las fallas de la aleatorización al usar el estimador de diferencias con controles adicionales. Sin embargo, si la falla en la aleatorización no se limita sólo a variables que se encuentran en la base de datos, sino que el tratamiento depende además de variables para las cuales no tenemos información que determinan Y, esta estrategia no resuelve las fallas en la aleatorización.

Ejemplo 4.3:

Para determinar si la aleatorización en Canasta fue exitosa, estimaríamos la siguiente regresión:


donde la variable independiente es el tratamiento, Di, y X1i a Xki son las características de los niños y hogares, tales como raza, edad, sexo del jefe del hogar y número de personas en el hogar. Para que el experimento sea válido y sus resultados sean confiables, debemos rechazar la hipótesis de que el conjunto de variables observables X1i a Xki explica el tratamiento.

4.8. Desventajas de los métodos experimentales

Los experimentos sociales tienen varias ventajas sobre los métodos no experimentales (descritos en capítulos posteriores). Por un lado, es fácil explicar en qué consiste un experimento social, ya que la asignación aleatoria es muy intuitiva. Como las técnicas usadas para calcular el impacto del programa usando datos experimentales son sencillas, sus resultados son transparentes para políticos, diseñadores de políticas y el público en general. Además, es difícil manipular los resultados de la evaluación, ya que el evaluador no puede elegir estratégicamente el método de estimación para generar los resultados deseados.

A pesar de las ventajas descritas, los experimentos sociales no son una solución fácil de todos los problemas evaluativos y sufren de diversas limitaciones. Hacer una buena evaluación con base en un experimento social controlado es costoso monetaria y políticamente. Los primeros experimentos sociales realizados en Estados Unidos se hicieron a gran escala, lo cual implicaba un fuerte esfuerzo presupuestal y una implementación compleja. En cuanto a los costos políticos, es bien sabido que hubo un fuerte escándalo en los medios cuando se supo que el orden de ampliación del programa mexicano de subsidios condicionados, Oportunidades (que en la época se llamaba Progresa), se había determinado de manera aleatoria. Los métodos experimentales pueden ser más costosos que los no experimentales pues la evaluación de los segundos puede hacerse, y con frecuencia se hace, con datos ya existentes; como el experimento aleatorio se hace específicamente para evaluar una intervención, se deben destinar recursos para la prueba piloto, la recolección de información, los seguimientos y a veces incluso la implementación del programa.

Hay además una injusticia fundamental: por pertenecer al grupo de control, se está excluyendo a un segmento de la población, igualmente vulnerable, de los beneficios de la intervención. Como no se pueden negar los beneficios del programa durante largos períodos, eventualmente el grupo de control entra a formar parte del grupo de tratamiento. Así, aunque se sabe que los efectos de corto y largo plazo con frecuencia difieren sustancialmente (en un experimento social no se pueden negar los beneficios del programa en el largo plazo), entonces no se pueden estudiar dichos efectos.

También puede haber externalidades o efectos de equilibrio general. Las externalidades son los efectos externos (esperados o no) generados por el programa, mientras que los efectos de equilibrio general son los efectos que puede tener la intervención sobre su entorno. Tomemos el programa colombiano de subsidios condicionados, Familias en Acción. El objetivo del componente nutricional es mejorar el estado nutricional de los niños menores de cinco años de familias vulnerables, entregándole a la familia un subsidio mensual en dinero. Dado que este subsidio se entrega a las familias que tengan niños menores de cinco años, una posible externalidad es que las familias decidan tener hijos para recibirlo. Un posible efecto de equilibrio general es el aumento en el nivel de precios de los alimentos, si a causa del programa aumenta sustancialmente la capacidad de compra de los habitantes del municipio. Tanto los efectos de equilibrio general como las externalidades afectan al grupo de control y esto contamina la medición del efecto de la intervención.

Finalmente, por las características de los experimentos sociales, solamente se puede evaluar el programa tal como está diseñado, y no se puede evaluar el impacto de variaciones en el programa existente (análisis contrafactual). Por ejemplo, no se puede saber cuál sería el efecto de proveer mercados con valores diferenciados en Canasta, según el sexo de los niños, a no ser que se hagan experimentos donde distintos hogares reciben aleatoriamente distintos valores de Canasta.

Si tanto el diseño como la implementación de la aleatorización son adecuados, los resultados son internamente válidos, es decir, el impacto estimado es generado por la intervención. Uno de los objetivos fundamentales de los experimentos sociales es la posibilidad de generalizar los efectos estimados del programa a un grupo más grande de la población. Sin embargo, diversos aspectos pueden amenazar la validez externa del experimento. El experimento debe ser suficientemente similar al programa para poder generalizar los resultados a la población de interés; tanto la población estudiada como el programa implementado deben ser suficientemente similares a la población y al programa de interés. Los efectos de equilibrio general y externalidades también pueden afectar la validez externa. Por ejemplo, al escalar una intervención pequeña y focalizada se puede cambiar el entorno económico de manera tal que no se pueden generalizar los efectos del experimento. Finalmente, dado que con frecuencia la participación en los programas es voluntaria, el efecto de un programa medido sobre una población elegida aleatoriamente puede no ser un estimador insesgado del efecto del programa real.27

Tres aspectos fundamentales afectan la posibilidad de generalizar los resultados de una evaluación aleatoria en otros contextos. Primero, los experimentos modernos son con frecuencia de pequeña escala y manejados con extremo cuidado, por ejemplo, operados por los actores más experimentados de los programas. Por tanto, se teme que este estándar de implementación no se pueda replicar al escalar el programa. Para solucionar esto es necesario documentar adecuadamente la implementación del experimento para poder replicarlo. Segundo, dado que los experimentos sociales se realizan en regiones específicas, ¿se puede concluir que, dado que una población particular respondió de una manera al programa, otra población reaccionará de una manera similar a un programa parecido? No necesariamente. Para solucionar esto se puede, o bien realizar el mismo experimento en diversas regiones, o bien usar modelos comportamentales que determinen el canal mediante el cual se genera el efecto, para predecir si es posible replicar el éxito del programa. Tercero, una situación similar se da cuando nos preguntamos por el efecto de variaciones en el programa. Una posibilidad interesante es entonces combinar experimentos sociales con modelos económicos, bien sea para estimar un mayor número de parámetros, o para determinar los canales mediante los cuales se generan los efectos.

Si la aleatorización no es completamente exitosa, el estimador de diferencias es sesgado y necesitamos utilizar otras técnicas econométricas para estimar el efecto del programa, tal y como se estudia en los siguientes capítulos. Pero, como se discutió anteriormente, incluso si la aleatorización es exitosa, los resultados de los experimentos sociales sufren diversos problemas, tales como potencial falta de validez externa, efectos Hawthorne o John Henry, no tienen en cuenta efectos de equilibrio general, comúnmente miden efectos de corto plazo, entre otros.

4.9. Implementación del modelo de diferencias en Stata

En el ejemplo práctico que se utiliza en este libro acerca del programa Canasta, se evalúa el efecto de la intervención sobre la estatura según la edad de los niños participantes. Como se mencionó anteriormente, asumimos que se tiene a disposición el puntaje Z de la estatura según la edad, es decir, el número de desviaciones estándar que el niño está por encima o por debajo de la media de su grupo relevante.

En todos los ejemplos de este libro, esta variable tiene el nombre de “ha_nchs”, ya que corresponde al puntaje Z que utiliza para su cálculo los estándares de 1977 del National Center for Health Statistics (NCHS).

Además, cuando es relevante, se define una variable adicional con base en el puntaje Z de la estatura según la edad. En particular, si un niño está al menos dos desviaciones estándar por debajo de la media de su grupo relevante, entonces se considera que el niño padece de desnutrición crónica (“desn_cr”):


En el presente capítulo asumimos que se tienen datos provenientes de un experimento social controlado. Así, además del error de muestreo, la única diferencia entre los grupos de tratamiento y control es la intervención. Para estimar el impacto de Canasta sobre la estatura según la edad de los niños beneficiarios, se puede calcular la diferencia de medias entre las dos poblaciones. El puntaje Z promedio del grupo de tratamiento es –0.6116.28 Esto se lee como que en promedio los niños tratados están algo más de tres quintos de desviación estándar por debajo del promedio. Esto se debe a que pertenecen a una población vulnerable. Por su parte, el puntaje Z promedio del grupo de control es –0.8460. Así, el impacto de Canasta es:


Entonces, ser beneficiario de Canasta genera un aumento en el indicador de estatura según la edad de 0.2343 desviaciones estándar. Alternativamente, se puede estimar el efecto del programa usando una regresión sencilla de la estatura según la edad sobre el indicador de tratamiento Di. El resultado 4.1 confirma que el efecto del programa es 0.2343 desviaciones estándar y es estadísticamente significativo al 1% de confianza porque el p-valor (P > |t|) es menor que 0.01. Una desviación estándar de la estatura entre los 0 y los 5 años de edad es de entre 3 y 5 centímetros dependiendo de la edad exacta del niño, lo cual implica que el efecto del programa está entre 0.6 y 1 centímetro de estatura. Esto podría considerarse como un efecto cuantitativamente importante.29 El anexo 5 presenta a manera de ejemplo la salida (output) de Stata del resultado 4.1 traducida al español, además de una tabla que describe en detalle qué es cada uno de los estadísticos que reporta el programa.

Incluso si la aleatorización fue exitosa, otras variables pueden contribuir a determinar la variable de resultado, además del tratamiento. Por tanto, es deseable incluir en la estimación las variables que no son afectadas directamente por el tratamiento y que ayudan a determinar la estatura según la edad, con el objetivo de mejorar la eficiencia del estimador. Esto se hace incorporando controles adicionales en la estimación del impacto del programa.

Resultado 4.1:


El resultado 4.2 muestra que, al agregar diversos controles, el efecto de Canasta es de 0.2305 desviaciones estándar, lo cual es bastante parecido a los resultados que habíamos obtenido anteriormente en el resultado 4.1. Además, algunas de las variables incluidas están significativamente asociadas con la estatura según la edad de los niños. En particular, retomemos el ejemplo donde existen dos grupos o “razas” en la población, altos y bajos. En esta estimación, pertenecer a la raza baja está asociado con una estatura según la edad 0.4218 desviaciones estándar más baja con respecto a los de raza alta. La disminución en los errores estándar asociados con el impacto del programa (de 0.0399 en el resultado 4.1 a 0.0318 en el resultado 4.2) tiene que ver con la ganancia en eficiencia de la estimación al incluir las variables explicativas adicionales.

Si Canasta mejora la nutrición de manera más eficiente en los altos que en los bajos, por sus predisposiciones genéticas, es deseable calcular los efectos diferenciales del programa entre las dos razas. Para esto se introduce una interacción entre el indicador de tratamiento, Di , y el indicador de raza baja.

El resultado 4.3 muestra la estimación del impacto de Canasta con controles adicionales y efectos heterogéneos. La intervención tiene efectos diferenciales sobre los individuos dependiendo de la raza a la que pertenecen. En particular, aumenta 0.3258 desviaciones estándar de la estatura por edad para el grupo alto, y 0.1351 (=0.3258-0.1906) para los bajos. El primer efecto se lee directamente de la regresión, pues es el coeficiente que acompaña el tratamiento, mientras que el segundo se calcula como la suma del coeficiente del tratamiento y el de la interacción del tratamiento con el indicador de raza, D_baja. Así, el efecto del Programa de 0.2305 calculado en el resultado 4.2, no es más que el promedio ponderado de los efectos heterogéneos entre las dos razas.

Resultado 4.2:


Resultado 4.3:


Para determinar si los impactos diferenciales para los dos grupos son estadísticamente significativos, se realiza una prueba estadística donde la hipótesis nula es que la suma de los coeficientes del tratamiento y de la interacción entre tratamiento y raza es estadísticamente igual a cero. La diferencia de casi un quinto de desviaciones estándar es estadísticamente significativa al 5% de confianza (ver la prueba F, presentada en la parte inferior del resultado 4.3). Así, como la prueba estadística determinó que la suma de los coeficientes del tratamiento y la interacción es diferente de cero, y cada uno de éstos es significativo individualmente, el efecto del programa en la raza baja es positivo y significativo estadísticamente, aunque sea menor que el calculado para la raza alta.

Finalmente, es necesario determinar si el tratamiento fue efectivamente recibido de manera aleatoria. Con este objetivo, se estima una regresión con el indicador de tratamiento, Di , como variable dependiente, y el conjunto de variables incluidas anteriormente en la estimación como variables independientes. De esta manera, se determina si la asignación del tratamiento está correlacionada con alguna variable para la cual se tiene información. Dado que el tratamiento es un indicador, esta estimación se puede realizar usando el modelo de probabilidad lineal con errores estándar robustos, o usando un modelo logit o probit. En el resultado que se presenta a continuación se escoge la opción de estimar el modelo por probit.

Resultado 4.4:



El resultado 4.4 presenta los efectos marginales calculados usando un probit. El hecho de que en la estimación ninguna de las variables de control incluidas resulte significativa (ver pruebas t sombreadas), y que el modelo en su conjunto tampoco lo sea (ver prueba de significancia conjunta X2 (ji-cuadrada) sombreada en la parte superior), verifica que el tratamiento no se asigna de acuerdo con características de los individuos para las cuales tenemos información en la base de datos disponible. Por tanto, la aleatorización está bien hecha y podemos usar el modelo de diferencias para calcular los impactos.

1 243,91 ₽
Возрастное ограничение:
0+
Объем:
568 стр. 331 иллюстрация
ISBN:
9789561425507
Издатель:
Правообладатель:
Bookwire
Формат скачивания:
epub, fb2, fb3, ios.epub, mobi, pdf, txt, zip

С этой книгой читают

Новинка
Черновик
4,9
178