ПР №11 "Многофакторная линейная регрессионная модель "

Субботина Ю.А.

Практическая работа №11

"ПОСТРОЕНИЕ И АНАЛИЗ МНОГОФАКТОРНЫХ ЛИНЕЙНЫХ РЕГРЕССИОННЫХ
МОДЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ «ПАКЕТА АНАЛИЗА»."

Содержательная постановка задачи:
Бетон — это искусственный камень, полученный в результате затвердевания перемешанной и уплотненной смеси вяжущего материала (цемента), мелкого (песок) и крупного (щебень) заполнителей, различных добавок и воды. Из промышленных отходов в качестве добавок наиболее часто используются шлак и зола. Добавки, специально приготовленные для бетона (суперпластификаторы) способствует повышению прочности и увеличению пластичности бетона.

Прочность на сжатие является важнейшей характеристикой бетона как конструкционного
материала. Под прочностью бетона понимают способность материала сопротивляться
разрушению от действия внутренних напряжений, возникающих под действием внешней нагрузки или других факторов. Зависимость прочности бетона от состава бетонной смеси является существенно нелинейной. Выявление и анализ этой зависимости является актуальной практической задачей.

В качестве экспериментальных данных используются данные о составе бетонной смеси (Кг/куб.м смеси), возрасте бетона (дни) и прочности бетона на сжатие (MPa). Эти данные получены в лаборатории университета Тайваня и хранятся в репозитарии http://www.ics.uci.edu/

Задание:
Экспериментальные данные (920 записей) находятся в файле base1.xls
Используя эти данные:
1. сформировать обучающую (700 записей) и контрольную выборки (220 записей).
2. по обучающей выборке найти регрессионные коэффициенты и оценить адекватность, статистическую значимость регрессионных коэффициентов и стандартную ошибку следующих прогностических моделей прочности бетона P
a) P =a0+ a1*цемент + a2*вода + a3*щебень + a4*песок + a5*шлак + a6*зола + a7*пластификатор + a8*возраст
b) P =a0+ a1*цемент + a2*вода + a3*щебень + a4*песок + a5*шлак + a6*зола + a7*пластификатор + a8*lg(возраст)
c) P =a0 + a1*lg(возраст)
3. Рассчитать стандартную ошибку по контрольной выборке для каждой из построенных моделей.

Этапы выполнения работы:
1. Формирование обучающей и контрольной выборок с использованием генератора случайных чисел.
1.1. Открыть файл base1.xls, сохранить его на рабочий диск под своей фамилией. Вызвать пакет программ Анализ данных (вкладка Данные-Анализ). Из списка доступных программ выбрать программу Генерация случайных чисел.
Задать параметры этой программы: необходимо добавить 920 равномерно распределенных в диапазоне от -100 до 100 случайных чисел в столбец, начиная с ячейки $K$2.
1.2. Выделить всю таблицу, включая добавленный столбец случайных чисел. Вызвать программу сортировки (Данные – Сортировка и фильтр – Сортировка).
В открывшемся окне указать, что требуется выполнить сортировку по столбцу К.
В результате строки будут перемешаны случайным образом (порядок номеров записей в столбце А изменится):
1.3. Удалить столбец К, содержащий случайные числа. Создать лист Обуч, скопировать на него заголовки столбцов и первые 700 записей (строки 1-701). Создать лист Контр, скопировать на него заголовки столбцов и оставшиеся записи (строки 1 и 702-921).

2. Использование программы Регрессия из пакета Анализ данных для расчета характеристик регрессионной модели.
2.1. Перейти на лист Обуч. Вызвать пакет программ Анализ данных (вкладка Данные-Анализ). Из списка доступных программ выбрать программу Регрессия. В открывшемся окне задать параметры регрессионной модели:
Входной интервал Y – отклик, данные о прочности бетона из столбца В
Входной интервал Х – факторы, данные о параметрах смеси из остальных столбцов
Метки – столбцы имеют заголовки
Параметры вывода – новый рабочий лист с именем Модель1
2.2. Перейти на лист Модель1. Изменить ширину столбцов так, чтобы были видны заголовки. Добавить расчетные формулы:
Ячейка=Содержимое=Формула
D14=дисперсия относительно среднего=C14/B14
E14=расчетное значение критерия Фишера=D14/D13
F14=табличное значение критерия Фишера=FРАСПОБР(0,05;B14;B13)
Выделить красным шрифтом полученные значения.
Выделить цветом характеристики регрессионной модели:
Синим – коэффициенты модели
Желтым – значение R-квадрат
Зеленым – оценки статистической значимости регрессионных коэффициентов (P-значения)
Оранжевым – величину стандартной ошибки
2.3. Скопировать лист Обуч, назвать копию Обуч2. Добавить пустой столбец перед столбцом К (возраст). В этом столбце рассчитать значения lg(возраст).
Повторить вычисления п.2 для других заданных моделей, используя данные на листе Обуч2, в качестве выходных интервалов указать новые листы Модель2 и Модель3.

3. Расчет стандартной ошибки по контрольной выборке.
3.1. Перейти на лист Контр. В ячейке K1 записать заголовок Расчет1. Выделить диапазон ячеек K2:K221. Вызвать функцию ТЕНДЕНЦИЯ и задать ее аргументы:
Нажать одновременно клавиши Shift, Ctrl и Enter, чтобы заполнить весь выделенный диапазон.
В ячейке K222 рассчитать значение стандартной ошибки по формуле
=КОРЕНЬ(СУММКВРАЗН(B2:B221;K2:K221)/220)
3.2. Скопировать лист Контр, назвать копию Контр2. Добавить пустой столбец перед столбцом К (возраст). В этом столбце рассчитать значения lg(возраст). Аналогично п.3.1 рассчитать значения стандартной ошибки для контрольной выборки для остальных моделей в столбцах L и М. В качестве аргументов функции ТЕНДЕНЦИЯ указать интервалы данных с листа Обуч2.

Ниже представлены модели №1, №2, №3 соответственно:

Вывод:
Теоретические основы
Предположим, что переменная y (отклик) зависит от нескольких переменных x1, …, xn (факторов) линейно. Многофакторная линейная регрессионная модель будет иметь вид
y=A0 + A1X1 + … +AnXn.

Коэффициенты этой модели могут быть определены с использованием метода наименьших
квадратов путем минимизации функции
Сумма(y - A0 - A1X1 - … - AnXn)^(2) --> min

Адекватность модели позволяет установить, насколько хорошо модель описывает
экспериментальные данные. Для проверки адекватности линейной регрессионной модели
используют

1)коэффициент детерминированности R^(2), который изменяется в пределах от 0 до 1. Если он равен 1, то выбранная модель абсолютно адекватна экспериментальным данным; если он равен 0, то никакой связи между экспериментом и выбранной моделью нет.
2) Критерий Фишера, основанный на сравнении расчетного значения

F=Sy^(2)/Sост^(2)

где Sy^(2) – дисперсия относительно среднего значения,
Sост^(2) – остаточная дисперсия с табличным значением Fтабл.

Проверка значимости регрессионных коэффициентов позволяет установить, влияет ли выбранный фактор на значения отклика. Для проверки используется критерий Стьюдента. Пакет анализа, наряду со значениями критерия выдает величину вероятности, с которой регрессионный коэффициент является значимым (P-значение). Если эта вероятность больше заданного значения(обычно 0,05), коэффициент считается значимым.

Стандартная ошибка регрессионной модели вычисляется по формуле
D=((1/n)*Сумма(y - A0 - A1X1 - … - AnXn)^(2))^(0,5)