Чим відрізняється інтерполяція від лінійної регресії?


Відповідь 1:

Однолінійний: Інтерполяція вимагає, щоб ми пройшли всі точки, але регресія цього не робить - вона вимагає лише, щоб ми були максимально наближені до всіх точок.

Для більшості практичних застосувань регресія є кращим варіантом через кілька наступних причин:

  1. Це набагато менш обчислювально вимогливо, це дозволяє нам бачити закономірності, особливо в експериментах, де помилки є загальноприйнятими, це дозволяє гнучкість в інтерпретації даних, вона не має дивних форм, особливо якщо є очевидний зовнішній вигляд

Але звичайно є серйозні недоліки використання регресії:

  1. Це робить незв'язані дані схожими на парадокс Сімпсона

Нижче наведено деякі недоліки кожного з них, що також більш наочно ілюструє різницю.

Інтерполяція

Існує кілька типів інтерполяції, але найбільш типовим є поліном.

Як бачите, це виглядає або невеликою частиною кубічного графіка, або в цьому випадку це насправді синусова крива. Але інтерполюючий многочлен є

f(x)=-0.0001521x^6-0.003130x^5+0.07321x^4-0.3577x^3+0.2255x^2+0.9038x \tag*{}

Звичайно, цей многочлен повинен проходити через задані точки, він, очевидно, не підходить до того, що ми інтуїтивно думаємо (чому це послідовний многочлен, коли це близьке наближення до кубічного / синусового).

Погіршується.

Це більш широкий погляд на Росію

f(x)f(x)

. За межами регіону, який він намагається інтерполювати, це, безумовно, не допомагає нам розпізнати модель. Це свого роду суперечить нашому здоровому глузду.

Таким чином, екстраполяція інтерполяції не може допомогти нам передбачити закономірність, і може стати жахливо неправильним. А як щодо самої інтерполяції? Коли є чужа, вона псує:

Ось набір даних, які я годую WolframAlpha:

(1,2),(3,4),(4,3),(5,6),(6,8),(7,10),(8,13),(9,15) \tag*{}

Як видно, інтерполяція не дуже добре працює в регіоні між

x=1x=1

і

x=3x=3

, через шип.

Можуть бути й інші причини інтерполяції, включаючи математичну точність, і, можливо, ми дуже впевнені, що отримані дані є помилковими. Але зараз я не бачу сенсу робити інтерполяцію. (Скажіть мені в коментарях, якщо ви знаєте інші практичні причини робити інтерполяцію)

Математики в інтерполяції досить багато, а LaGrange - геніальна. Коли дається набір даних

(xi,yi)(x_i,y_i)

де

ii

варіюється від

11

до

nn

, ми можемо мати частини Лагранжа інтерполяційного многочлена як:

\displaystyle L_j(x) = \prod_{1\leq i\leq n, i\neq j} \frac {x-x_i}{x_j-x_i} \tag{1}

І тоді інтерполюючий многочлен є

\displaystyle f(x) = \sum_{i=1}^n y_jL_j(x) \tag{2}

Коли ви повністю зрозумієте математичну мову, ви б почали цінувати, наскільки геніальний метод. По суті кожен

Lj(x)L_j(x)

"під замовлення" для точки даних

(xj,yj)(x_j,y_j)

.

Існує щось на кшталт лінійної інтерполяції, і це означає, що «граф зламаної лінії».

В обох випадках (лінійна або поліноміальна інтерполяція) математичне вираження стає все складніше уявити.

Регресія

Регресійних моделей набагато більше, ніж в інтерполяції. Найпростіший - лінійна регресія.

Ми не прагнемо пройти через усі точки, а знайти пряму лінію, яка найкраще відповідає всім точкам даних, тобто маючи найменшу відстань. Але з цим є проблеми - люди, що переживають. (Це завжди проблема)

Існують деякі люди, що сидять, але синя - проста лінія регресії. По-людськи, ми можемо бачити, що червоні точки в нижньому правому куті не вписуються в загальний малюнок, але комп'ютери не хвилюються, і таким чином генерується не точна синя лінія.

Що робити, якщо відносини не є лінійними?

Скажіть верхній правий графік. Він досить інтуїтивно квадратичний. Якщо ми просто використовуємо одну модель, це не мало б сенсу. Використання лише однієї моделі регресії виключає інші можливості у взаємозв'язку між двома змінними.

Існує також щось, що називається парадокс Сімпсона.

Гнучкість, дозволена в регресії, дозволяє нам зробити два цілком суперечливі висновки: набір даних, що мають одночасно позитивні та негативні зв'язки. Це особливість, унікальна для регресії, оскільки інтерполяція не може допустити двозначності.

Отже, як бачите, між ними є помітні відмінності. І вам слід вибрати, який саме використовувати відповідно до того, що ви хочете досягти.

Статистика завжди хитра - вам потрібно мати точність на тлі помилок. Інтерполяція абсолютно лояльна до вихідних даних, але можуть бути помилки поза діапазоном даних; регресія може не бути лояльною до вихідних даних, але іноді дозволяє дотримуватися правильну схему.


Відповідь 2:

Трохи несправедливо порівнювати інтерполяцію з лінійною регресією

Інтерполяція - це як алгоритм без "мозку": він намагається домогтися ідеального відповідності даним даним. Він не ідеально підходить до ваших даних, але, принаймні, спробує дізнатись деякі відомості з них. Яссін Алуїні

Дано

nn

Точки даних, під час інтерполяції ви шукаєте функцію, яка має певну заздалегідь форму, яка має значення в цих точках точно так, як зазначено. Це означає задані пари

(xi,yi)(x_i, y_i)

ви шукаєте

FF

якоїсь заздалегідь визначеної форми, яка задовольняє

F(xi)=yiF(x_i) = y_i

,

i\forall i

(1in). (1\leq i \leq n) .

Під час регресії ви шукаєте функцію, яка мінімізує деяку вартість, як правило, суму квадратів помилок. Вам не потрібно, щоб функція мала точні значення в заданих точках, ви просто хочете гарної апроксимації. Загалом, ваша знайдена функція

FF

може не задовольнити

F(xi)=yiF(x_i) = y_i

для будь-якої точки даних, але функцію витрат, тобто

i=1n(F(xi)yi)2\sum_{i=1}^n (F(x_i) - y_i)^2

буде найменшою можливою з усіх функцій заданої форми.