Метод наименьших квадратов представляет собой математическую процедуру построения линейного уравнения, которое бы наиболее точно соответствовало набору двух рядов чисел. Целью применения данного способа является минимизация общей квадратичной ошибки. В программе Excel имеются инструменты, с помощью которых можно применять данный метод при вычислениях. Давайте разберемся, как это делается.
Метод наименьших квадратов (МНК) является математическим описанием зависимости одной переменной от второй. Его можно использовать при прогнозировании.
Включение надстройки «Поиск решения»
Для того, чтобы использовать МНК в Экселе, нужно включить надстройку «Поиск решения» , которая по умолчанию отключена.

Теперь функция Поиск решения в Excel активирована, а её инструменты появились на ленте.
Условия задачи
Опишем применение МНК на конкретном примере. Имеем два ряда чисел x и y , последовательность которых представлена на изображении ниже.
Наиболее точно данную зависимость может описать функция:
При этом, известно что при x=0 y тоже равно 0 . Поэтому данное уравнение можно описать зависимостью y=nx .
Нам предстоит найти минимальную сумму квадратов разности.
Решение
Перейдем к описанию непосредственного применения метода.

Как видим, применение метода наименьших квадратов довольно сложная математическая процедура. Мы показали её в действии на простейшем примере, а существуют гораздо более сложные случаи. Впрочем, инструментарий Microsoft Excel призван максимально упростить производимые вычисления.
Метод наименьших квадратов используется для оценки параметров уравнение регрессии.Одним из методов изучения стохастических связей между признаками является регрессионный анализ .
Регрессионный анализ представляет собой вывод уравнения регрессии, с помощью которого находится средняя величина случайной переменной (признака-результата), если величина другой (или других) переменных (признаков-факторов) известна. Он включает следующие этапы:
- выбор формы связи (вида аналитического уравнения регрессии);
- оценку параметров уравнения;
- оценку качества аналитического уравнения регрессии.
В случае линейной парной связи уравнение регрессии примет вид: y i =a+b·x i +u i . Параметры данного уравнения а и b оцениваются по данным статистического наблюдения x и y . Результатом такой оценки является уравнение: , где , - оценки параметров a и b , - значение результативного признака (переменной), полученное по уравнению регрессии (расчетное значение).
Наиболее часто для оценки параметров используют метод наименьших квадратов (МНК).
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (u) и независимой переменной (x) (см. предпосылки МНК).
Задача оценивания параметров линейного парного уравнения методом наименьших квадратов
состоит в следующем: получить такие оценки параметров , , при которых сумма квадратов отклонений фактических значений результативного признака - y i от расчетных значений – минимальна.
Формально критерий МНК
можно записать так: .
Классификация методов наименьших квадратов
- Метод наименьших квадратов.
- Метод максимального правдоподобия (для нормальной классической линейной модели регрессии постулируется нормальность регрессионных остатков).
- Обобщенный метод наименьших квадратов ОМНК применяется в случае автокорреляции ошибок и в случае гетероскедастичности.
- Метод взвешенных наименьших квадратов (частный случай ОМНК с гетероскедастичными остатками).
Проиллюстрируем суть классического метода наименьших квадратов графически
. Для этого построим точечный график по данным наблюдений (x i , y i , i=1;n) в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.
Математическая запись данной задачи: .
Значения y i и x i =1...n нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров - , . Чтобы найти минимум функции 2-ух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их нулю, т.е. .
В результате получим систему из 2-ух нормальных линейных уравнений:
Решая данную систему, найдем искомые оценки параметров:
Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).
Для расчета оценок параметров , можно построить таблицу 1.
Знак коэффициента регрессии b указывает направление связи (если b >0, связь прямая, если b <0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формально значение параметра а – среднее значение y при х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.
Оценка тесноты связи между признаками
осуществляется с помощью коэффициента линейной парной корреляции - r x,y .
Он может быть рассчитан по формуле: . Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
.
Область допустимых значений линейного коэффициента парной корреляции от –1 до +1. Знак коэффициента корреляции указывает направление связи. Если r x, y >0, то связь прямая; если r x, y <0, то связь обратная.
Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице ê r x , y ê =1, то связь между признаками функциональная линейная.
Если признаки х и y линейно независимы, то r x,y близок к 0.
Для расчета r x,y можно использовать также таблицу 1.
Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации – R 2 yx:
,
где d 2 – объясненная уравнением регрессии дисперсия y ;
e 2 - остаточная (необъясненная уравнением регрессии) дисперсия y ;
s 2 y - общая (полная) дисперсия y .
Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y , объясняемую регрессией (а, следовательно, и фактором х), в общей вариации (дисперсии) y . Коэффициент детерминации R 2 yx принимает значения от 0 до 1. Соответственно величина 1-R 2 yx характеризует долю дисперсии y , вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации.
При парной линейной регрессии R 2 yx =r 2 yx .
Метод наименьших квадратов представляет собой математическую процедуру построения линейного уравнения, которое бы наиболее точно соответствовало набору двух рядов чисел. Целью применения данного способа является минимизация общей квадратичной ошибки. В программе Excel имеются инструменты, с помощью которых можно применять данный метод при вычислениях. Давайте разберемся, как это делается.
· Использование метода в Экселе
o Включение надстройки «Поиск решения»
o Условия задачи
o Решение
Использование метода в Экселе
Метод наименьших квадратов (МНК) является математическим описанием зависимости одной переменной от второй. Его можно использовать при прогнозировании.
Включение надстройки «Поиск решения»
Для того, чтобы использовать МНК в Экселе, нужно включить надстройку «Поиск решения» , которая по умолчанию отключена.
1. Переходим во вкладку «Файл» .
2. Кликаем по наименованию раздела «Параметры» .
3. В открывшемся окне останавливаем выбор на подразделе «Надстройки» .
4. В блоке «Управление» , который расположен в нижней части окна, устанавливаем переключатель в позицию «Надстройки Excel» (если в нём выставлено другое значение) и жмем на кнопку «Перейти…» .
5. Открывается небольшое окошко. Ставим в нём галочку около параметра «Поиск решения» . Жмем на кнопку «OK» .
Теперь функция Поиск решения в Excel активирована, а её инструменты появились на ленте.
Урок: Поиск решения в Экселе
Условия задачи
Опишем применение МНК на конкретном примере. Имеем два ряда чисел x и y , последовательность которых представлена на изображении ниже.
Наиболее точно данную зависимость может описать функция:
При этом, известно что при x=0 y тоже равно 0 . Поэтому данное уравнение можно описать зависимостью y=nx .
Нам предстоит найти минимальную сумму квадратов разности.
Решение
Перейдем к описанию непосредственного применения метода.
1. Слева от первого значения x ставим цифру 1 . Это будет приближенная величина первого значения коэффициента n .
2. Справа от столбца y добавляем ещё одну колонку – nx . В первую ячейку данного столбца записываем формулу умножения коэффициента n на ячейку первой переменной x . При этом, ссылку на поле с коэффициентом делаем абсолютной, так как это значение меняться не будет. Кликаем по кнопке Enter .
3. Используя маркер заполнения, копируем данную формулу на весь диапазон таблицы в столбце ниже.
4. В отдельной ячейке высчитываем сумму разностей квадратов значений y и nx . Для этого кликаем по кнопке «Вставить функцию» .
5. В открывшемся «Мастере функций» ищем запись «СУММКВРАЗН» . Выбираем её и жмем на кнопку «OK» .
6. Открывается окно аргументов. В поле «Массив_x» y . В поле «Массив_y» вводим диапазон ячеек столбца nx . Для того, чтобы ввести значения, просто устанавливаем курсор в поле и выделяем соответствующий диапазон на листе. После ввода жмем на кнопку «OK» .
7. Переходим во вкладку «Данные» . На ленте в блоке инструментов «Анализ» жмем на кнопку «Поиск решения» .
8. Открывается окно параметров данного инструмента. В поле «Оптимизировать целевую функцию» указываем адрес ячейки с формулой «СУММКВРАЗН» . В параметре «До» обязательно выставляем переключатель в позицию «Минимум» . В поле «Изменяя ячейки» указываем адрес со значением коэффициента n . Жмем на кнопку «Найти решение» .
9. Решение будет отображаться в ячейке коэффициентаn . Именно это значение будет являться наименьшим квадратом функции. Если результат удовлетворяет пользователя, то следует нажать на кнопку «OK» в дополнительном окне.
Как видим, применение метода наименьших квадратов довольно сложная математическая процедура. Мы показали её в действии на простейшем примере, а существуют гораздо более сложные случаи. Впрочем, инструментарий Microsoft Excel призван максимально упростить производимые вычисления.
http://multitest.semico.ru/mnk.htm
Общие положения
Чем меньше числа по абсолютной величине, тем лучше подобрана прямая (2). В качестве характеристики точности подбора прямой (2) можно принять сумму квадратов
Условия минимума S будут
![]() | (6) |
![]() | (7) |
Уравнения (6) и (7) можно записать в таком виде:
![]() | (8) |
![]() | (9) |
Из уравнений (8) и (9) легко найти a и b по опытным значениям x i и y i . Прямая (2), определяемая уравнениями (8) и (9), называется прямой, полученной по методу наименьших квадратов (этим названием подчеркивается то, что сумма квадратов S имеет минимум). Уравнения (8) и (9), из которых определяется прямая (2), называются нормальными уравнениями.
Можно указать простой и общий способ составления нормальных уравнений. Используя опытные точки (1) и уравнение (2), можно записать систему уравнений для a и b
y 1 =ax 1 +b, | ||
y 2 =ax 2 +b, ... | (10) | |
y n =ax n +b, |
Умножим левую и правую части каждого из этих уравнений на коэффициент при первой неизвестной a (т.е. на x 1 , x 2 , ..., x n) и сложим полученные уравнения, в результате получится первое нормальное уравнение (8).
Умножим левую и правую части каждого из этих уравнений на коэффициент при второй неизвестной b, т.е. на 1, и сложим полученные уравнения, в результате получится второе нормальное уравнение (9).
Этот способ получения нормальных уравнений является общим: он пригоден, например, и для функции
есть величина постоянная и ее нужно определить по опытным данным (1).
Систему уравнений для k можно записать:
Найти прямую (2) по методу наименьших квадратов.
Решение. Находим:
X i =21, y i =46,3, x i 2 =91, x i y i =179,1.
Записываем уравнения (8) и (9)91a+21b=179,1,
21a+6b=46,3, отсюда находим
a=0,98 b=4,3.
Метод наименьших квадратов (МНК)
Система m линейных уравнений с n неизвестными имеет вид:
Возможны три случая: m В случае, если m>nи система является совместной, то матрица А имеет по крайней мере m - nлинейно зависимых строк. Здесь решение может быть получено отбором n любых линейно независимых уравнений (если они существуют)и применением формулы Х=А -1 ЧВ, то есть, сведением задачи к ранее решенной. При этом полученное решение всегда будет удовлетворять и остальным m - nуравнениям. Однако при применении компьютера удобнее использовать более общий подход - метод наименьших квадратов. Под алгебраическим методом наименьших квадратов понимается метод решения систем линейных уравнений путем минимизации евклидовой нормы Ax ? b? > inf . (1.2) Рассмотрим некоторый эксперимент, в ходе которого в моменты времени производится, например, измерение температуры Q(t). Пусть результаты измерений задаются массивом Допустим, что условия проведения эксперимента таковы, что измерения проводятся с заведомой погрешностью. В этих случаях закон изменения температуры Q(t) ищут с помощью некоторого полинома P(t) = + + + ... +, определяя неизвестные коэффициенты, ..., из тех соображений, чтобы величина E(, ...,), определяемая равенством гаусс алгебраический exel аппроксимация принимала минимальное значение. Поскольку минимизируется сумма квадратов, то этот метод называется аппроксимацией данных методом наименьших квадратов. Если заменить P(t) его выражением, то получим Поставим задачу определения массива так, чтобы величина была минимальна, т.е. определим массив методом наименьших квадратов. Для этого приравняем частные производные пок нулю: Если ввести m Ч n матрицу A = (), i = 1, 2..., m; j = 1, 2, ..., n, где I = 1, 2..., m; j = 1, 2, ..., n, то выписанное равенство примет вид Перепишем написанное равенство в терминах операций с матрицами. Имеем по определению умножения матрицы на столбец Для транспонированной матрицы аналогичное соотношение выглядит так Введем обозначение: i -ую компоненту вектора Ax будем обозначать В соответствии с выписанными матричными равенствами будем иметь В матричной форме это равенство перепишется в виде A T x=A T B (1.3) Здесь A - прямоугольная mЧ n матрица. Причем в задачах аппроксимации данных, как правило, m > n. Уравнение (1.3) называется нормальным уравнением. Можно было с самого начала, используя евклидову норму векторов, записать задачу в эквивалентной матричной форме: Наша цель минимизировать эту функцию по x. Для того чтобы в точке решения достигался минимум, первые производные по x в этой точке должны равняться нулю. Производные данной функции составляют 2A T B + 2A T Ax и поэтому решение должно удовлетворять системе линейных уравнений (A T A)x = (A T B). Эти уравнения называются нормальными уравнениями. Если A - mЧ n матрица, то A>A - n Ч n - матрица, т.е. матрица нормального уравнения всегда квадратная симметричная матрица. Более того, она обладает свойством положительной определенности в том смысле, что (A>Ax, x) = (Ax, Ax) ? 0. Замечание. Иногда решение уравнения вида (1.3) называют решением систе- мы Ax = В, где A прямоугольная m Ч n (m > n) матрица методом наименьших квадратов. Задачу наименьших квадратов можно графически интерпретировать как минимизацию вертикальных расстояний от точек данных до модельной кривой (см. рис.1.1). Эта идея основана на предположении, что все ошибки в аппроксимации соответствуют ошибкам в наблюдениях. Если имеются также ошибки в независимых переменных, то может оказаться более уместным минимизировать евклидово расстояние от данных до модели. Приведенный ниже алгоритм реализации МНК в Excel подразумевает, что все исходные данные уже известны. Обе части матричного уравнения AЧX=B системы умножаем слева на транспонированную матрицу системы А Т: А Т АХ=А Т В Затем обе части уравнения умножаем слева на матрицу (А Т А) -1 . Если эта матрица существует, то система определена. С учетом того, что (А Т А) -1 *(А Т А)=Е, получаем Х=(А Т А) -1 А Т В. Полученное матричное уравнение является решением системы m линейных уравнений с nнеизвестными при m>n. Рассмотрим применение вышеописанного алгоритма на конкретном примере. Пример. Пусть необходимо решить систему В Excelлист с решением в режиме отображения формул для данной задачи выглядит следующим образом: Результаты расчетов: Искомый вектор Х расположен в диапазоне Е11:Е12. При решении заданной системы линейных уравнений использовались следующие функции: 1. МОБР - возвращает обратную матрицу для матрицы, хранящейся в массиве. Синтаксис: МОБР(массив). Массив -- числовой массив с равным количеством строк и столбцов. 2. МУМНОЖ - возвращает произведение матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом строк, как массив1 и с таким же числом столбцов, как массив2. Синтаксис: МУМНОЖ(массив1;массив2). Массив1, массив2 -- перемножаемые массивы. После введения функции в левую верхнюю ячейку диапазона массива следует выделить массив, начиная с ячейки, содержащей формулу, нажать клавишу F2, а затем нажать клавиши CTRL+SHIFT+ENTER. 3. ТРАНСП - преобразует вертикальный набор ячеек в горизонтальный, или наоборот. В результате использования этой функции появляется массив с числом строк, равным числу столбцов исходного массива, и числом столбцов, равным числу строк начального массива.
Метод наименьших квадратов (МНК) основан на минимизации суммы квадратов отклонений выбранной функции от исследуемых данных. В этой статье аппроксимируем имеющиеся данные с помощью линейной функции
y
=
a
x
+
b
.
Метод наименьших квадратов
(англ.
Ordinary
Least
Squares
,
OLS
) является одним из базовых методов регрессионного анализа в части оценки неизвестных параметров
регрессионных моделей
по выборочным данным. Рассмотрим приближение функциями, зависящими только от одной переменной:
Примечание
: Случаи приближения полиномом с 3-й до 6-й степени рассмотрены в этой статье. Приближение тригонометрическим полиномом рассмотрено здесь. Нас интересует связь 2-х переменных
х
и
y
. Имеется предположение, что
y
зависит от
х
по линейному закону
y
=
ax
+
b
. Чтобы определить параметры этой взаимосвязи исследователь провел наблюдения: для каждого значения х
i
произведено измерение y
i
(см.
файл примера
). Соответственно, пусть имеется 20 пар значений (х
i
; y
i).
Примечание:
Если шаг изменения по
х
постоянен, то для построения
диаграммы рассеяния
можно использовать
, если нет, то необходимо использовать тип диаграммы
Точечная
. Из диаграммы очевидно, что связь между переменными близка к линейной. Чтобы понять какая из множества прямых линий наиболее «правильно» описывает зависимость между переменными, необходимо определить критерий, по которому будут сравниваться линии. В качестве такого критерия используем выражение: где
ŷ
i
=
a
*
x
i
+
b
;
n – число пар значений (в нашем случае n=20) Вышеуказанное выражение представляет собой сумму квадратов расстояний между наблюденными значениями y
i
и ŷ
i
и часто обозначается как SSE (
Sum
of
Squared
Errors
(
Residuals
), сумма квадратов ошибок (остатков)
)
.
Метод наименьших квадратов
заключается в подборе такой линии
ŷ
=
ax
+
b
, для которой вышеуказанное выражение принимает минимальное значение.
Примечание:
Любая линия в двухмерном пространстве однозначно определяется значениями 2-х параметров:
a
(наклон) и
b
(сдвиг). Считается, что чем меньше сумма квадратов расстояний, тем соответствующая линия лучше аппроксимирует имеющиеся данные и может быть в дальнейшем использована для прогнозирования значений y от переменной х. Понятно, что даже если в действительности никакой взаимосвязи между переменными нет или связь нелинейная, то МНК все равно подберет «наилучшую» линию. Таким образом, МНК ничего не говорит о наличии реальной взаимосвязи переменных, метод просто позволяет подобрать такие параметры функции
a
и
b
, для которых вышеуказанное выражение минимально. Проделав не очень сложные математические операции (подробнее см.
), можно вычислить параметры
a
и
b
: Как видно из формулы, параметр
a
представляет собой отношение ковариации и
, поэтому в MS EXCEL для вычисления параметра
а
можно использовать следующие формулы (см.
файл примера лист Линейная
): =
КОВАР(B26:B45;C26:C45)/ ДИСП.Г(B26:B45)
или =
КОВАРИАЦИЯ.В(B26:B45;C26:C45)/ДИСП.В(B26:B45)
Также для вычисления параметра
а
можно использовать формулу =
НАКЛОН(C26:C45;B26:B45)
. Для параметра
b
используйте формулу =
ОТРЕЗОК(C26:C45;B26:B45)
. И наконец, функция
ЛИНЕЙН()
позволяет вычислить сразу оба параметра. Для ввода формулы
ЛИНЕЙН(C26:C45;B26:B45)
необходимо выделить в строке 2 ячейки и нажать
CTRL
+
SHIFT
+
ENTER
(см. статью про
). В левой ячейке будет возвращено значение
а
, в правой –
b
.
Примечание
: Чтобы не связываться с вводом
формул массива
потребуется дополнительно использовать функцию
ИНДЕКС()
. Формула =
ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);1)
или просто =
ЛИНЕЙН(C26:C45;B26:B45)
вернет параметр, отвечающий за наклон линии, т.е.
а
. Формула =
ИНДЕКС(ЛИНЕЙН(C26:C45;B26:B45);2)
вернет параметр, отвечающий за пересечение линии с осью Y, т.е.
b
. Вычислив параметры, на
диаграмме рассеяния
можно построить соответствующую линию. Еще одним способом построения прямой линии по методу наименьших квадратов является инструмент диаграммы
Линия тренда
. Для этого выделите диаграмму, в меню выберите
вкладку Макет
, в
группе Анализ
нажмите
Линия тренда
, затем
Линейное приближение
. Поставив в диалоговом окне галочку в поле «показывать уравнение на диаграмме» можно убедиться, что найденные выше параметры совпадают со значениями на диаграмме.
Примечание
: Для того, чтобы параметры совпадали необходимо, чтобы тип у диаграммы был
. Дело в том, что при построении диаграммы
График
значения по оси Х не могут быть заданы пользователем (пользователь может указать только подписи, которые не влияют на расположение точек). Вместо значений Х используется последовательность 1; 2; 3; … (для нумерации категорий). Поэтому, если строить
линию тренда
на диаграмме типа
График
, то вместо фактических значений Х будут использованы значения этой последовательности, что приведет к неверному результату (если, конечно, фактические значения Х не совпадают с последовательностью 1; 2; 3; …).Алгебраический метод наименьших квадратов
Анализ данных эксперимента
МНК в Excel
Линейная зависимость