Делая выбор метода анализа данных, я остановила выбор именно на регрессионном анализе, поскольку он способен объяснить взаимосвязь между многими переменными и показать, как один показатель зависит от остальных. Это именно то, что требуется в моем случае, поскольку требуется объяснить владение ТДП различными характеристиками домохозяйств. После ознакомления с литературой, описывающий данный метод, мне представляется возможным сделать следующие методические замечания, которые касаются моей задачи.
1. Регрессионный анализ предназначен для моделирования поведения одной количественной переменной от других. Следовательно, индекс обеспеченности ТДП, который я строю, должен быть количественным (а не качественным: например, высокая/средняя/низкая обеспеченность).
2. Регрессионный анализ предполагает также использование числовых переменных в качестве независимых (объясняющих). Некоторые показатели, которые есть в базе данных (например, доход) уже удовлетворяют этому требованию. Но, например, местность проживания, которую я тоже хочу учесть, так как городские домохозяйства обычно обеспечены лучше сельских, является качественной. Поэтому для нее требуется специальное преобразование, которое сделает эту переменную двоичной.
3. Регрессионный анализ является многомерным статистическим методом, то есть, учитывает больше, чем 1 взаимосвязь между признаками. Коэффициенты регрессионной модели должны интерпретироваться по принципу «при прочих равных условиях», а не каждый в отдельности. То есть, например (забегая вперед), нельзя говорить, что каждый дополнительный член семьи обеспечивает рост индекса ТДП на 0,148. Это утверждение верно лишь при прочих равных условиях, т.е. для семей с таким же доходом, таким же числом источников дохода и т.д.
4. Заложенный в SPSS регрессионный анализ является «линейным», что позволяет определить общие закономерности, но может быть недостаточно точным, если суть взаимосвязей между изучаемыми мной признаками нелинейная. Это надо тоже учесть при подготовке выводов. Но нелинейные модели, конечно, достаточно сложны. С другой стороны, если заглянуть в научные журналы, особенно зарубежные, линейный регрессионный анализ используется сплошь и рядом.
5. Качество модели регрессионного анализа определяют с помощью показателя R2 (R-квадрат). Он варьируется от 0 до 1. «0» означает абсолютно бесполезную модель, «1» - идеальную. Он же имеет интерпретацию в процентах объяснения поведения зависимой переменной. Например, R2=0,09 означает, что модель объясняет поведение зависимой переменной на 9%. Надо, забегая вперед, сказать, что качество моих моделей оказалось не очень высоким. Но это тоже важный результат. Я проверила и доказала, что индекс ТДП слабо зависит от тех переменных, которые я выбрала.
6. Имеет смысл обращать на значимость коэффициентов регрессии и значимость модели в целом (это графы Sig. в SPSS). Эти значения, наоборот, должны быть маленькими. Они как бы показывают, надежность результатов. Потому что, например, на маленькой выборке результаты могут быть не очень надежными.
7. Необходимо обратить внимание на наличии специальных кодов, которые могут содержаться в переменных. Например, в анкете RLMS если респондент отказывался отвечать на вопрос о доходе, там вбивался код «99999». Важно избавиться от этих кодов перед началом моделирования, иначе SPSS посчитает 999999 за величину дохода семьи респондента в рублях. Что, конечно, исказит результаты.