每當(dāng)我們想要預(yù)測(cè)一個(gè)數(shù)值時(shí),就會(huì)出現(xiàn)回歸問(wèn)題。常見(jiàn)的例子包括預(yù)測(cè)價(jià)格(房屋、股票等)、預(yù)測(cè)住院時(shí)間(對(duì)于住院患者)、預(yù)測(cè)需求(對(duì)于零售銷售)等等。并非每個(gè)預(yù)測(cè)問(wèn)題都是經(jīng)典的回歸問(wèn)題。稍后,我們將介紹分類問(wèn)題,其目標(biāo)是預(yù)測(cè)一組類別中的成員資格。
作為一個(gè)運(yùn)行示例,假設(shè)我們希望根據(jù)房屋的面積(以平方英尺為單位)和年齡(以年為單位)來(lái)估算房屋的價(jià)格(以美元為單位)。要開(kāi)發(fā)預(yù)測(cè)房?jī)r(jià)的模型,我們需要掌握由銷售額組成的數(shù)據(jù),包括每個(gè)房屋的銷售價(jià)格、面積和年齡。在機(jī)器學(xué)習(xí)的術(shù)語(yǔ)中,數(shù)據(jù)集稱為訓(xùn)練數(shù)據(jù)集或訓(xùn)練集,每一行(包含與一次銷售對(duì)應(yīng)的數(shù)據(jù))稱為示例( 或數(shù)據(jù)點(diǎn)、實(shí)例、樣本)。我們?cè)噲D預(yù)測(cè)的東西(價(jià)格)稱為標(biāo)簽(或目標(biāo)). 預(yù)測(cè)所依據(jù)的變量(年齡和面積)稱為特征(或 協(xié)變量)。
%matplotlib inline
import math
import time
import numpy as np
import torch
from d2l import torch as d2l
%matplotlib inline
import math
import time
import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2l
3.1.1. 基本
線性回歸可能是解決回歸問(wèn)題的標(biāo)準(zhǔn)工具中最簡(jiǎn)單和最受歡迎的。追溯到 19 世紀(jì)初(高斯,1809 年,勒讓德,1805 年),線性回歸源于一些簡(jiǎn)單的假設(shè)。首先,我們假設(shè)特征之間的關(guān)系x和目標(biāo) y近似線性,即條件均值 E[Y∣X=x]可以表示為特征的加權(quán)和x. 由于觀察噪聲,此設(shè)置允許目標(biāo)值仍可能偏離其預(yù)期值。接下來(lái),我們可以假設(shè)任何此類噪聲都表現(xiàn)良好,服從高斯分布。通常,我們會(huì)使用n來(lái)表示我們數(shù)據(jù)集中的示例數(shù)量。我們使用上標(biāo)來(lái)枚舉樣本和目標(biāo),并使用下標(biāo)來(lái)索引坐標(biāo)。更具體地說(shuō),x(i)表示i-th 樣品和 xj(i)表示其j-th 坐標(biāo)。
3.1.1.1. 模型
每個(gè)解決方案的核心都是一個(gè)模型,該模型描述了如何將特征轉(zhuǎn)換為對(duì)目標(biāo)的估計(jì)。線性假設(shè)意味著目標(biāo)(價(jià)格)的期望值可以表示為特征(面積和年齡)的加權(quán)和:
這里warea和wage稱為 權(quán)重,并且b稱為偏差(或偏移量或 截距)。權(quán)重決定了每個(gè)特征對(duì)我們預(yù)測(cè)的影響。當(dāng)所有特征都為零時(shí),偏差決定了估計(jì)值。即使我們永遠(yuǎn)不會(huì)看到任何面積恰好為零的新建房屋,我們?nèi)匀恍枰睿驗(yàn)樗试S我們表達(dá)特征的所有線性函數(shù)(而不是將我們限制在通過(guò)原點(diǎn)的直線上)。嚴(yán)格來(lái)說(shuō), (3.1.1)是輸入特征的仿射變換,其特點(diǎn)是通過(guò)加權(quán)求和對(duì)特征進(jìn)行線性變換,結(jié)合平移通過(guò)增加偏差。給定一個(gè)數(shù)據(jù)集,我們的目標(biāo)是選擇權(quán)重 w和偏見(jiàn)b平均而言,使我們的模型預(yù)測(cè)盡可能接近數(shù)據(jù)中觀察到的真實(shí)價(jià)格。
在通常關(guān)注僅具有少量特征的數(shù)據(jù)集的學(xué)科中,明確表達(dá)模型的長(zhǎng)格式,如 (3.1.1)中,是常見(jiàn)的。在機(jī)器學(xué)習(xí)中,我們通常使用高維數(shù)據(jù)集,在這種情況下使用緊湊的線性代數(shù)符號(hào)會(huì)更方便。當(dāng)我們的輸入包括 d特征,我們可以為每個(gè)特征分配一個(gè)索引(介于1和 d) 并表達(dá)我們的預(yù)測(cè)y^(通常,“帽子”符號(hào)表示估計(jì)值)作為
將所有特征收集到一個(gè)向量中 x∈Rd并將所有權(quán)重放入向量中 w∈Rd,我們可以通過(guò)點(diǎn)積來(lái)簡(jiǎn)潔地表達(dá)我們的模型w和x:
在(3.1.3)中,向量x對(duì)應(yīng)于單個(gè)示例的特征。
評(píng)論