-
關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。
關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中, X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。
-
回歸分析
回歸分析是一種數(shù)學(xué)模型。當(dāng)因變量和自變量為線性關(guān)系時,它是一種特殊的線性模型。
最簡單的情形是一元線性回歸,由大體上有線性關(guān)系的一個自變量和一個因變量組成;模型是Y=a+bX+ε(X是自變量,Y是因變量,ε是隨機(jī)誤差)。
通常假定隨機(jī)誤差的均值為0,方差為σ2(σ2﹥0,σ^2與X的值無關(guān))。若進(jìn)一步假定隨機(jī)誤差遵從正態(tài)分布,就叫做正態(tài)線性模型。一般的,若有k個自變量和1個因變量,則因變量的值分為兩部分:一部分由自變量影響,即表示為它的函數(shù),函數(shù)形式已知且含有未知參數(shù);另一部分由其他的未考慮因素和隨機(jī)性影響,即隨機(jī)誤差。
當(dāng)函數(shù)為參數(shù)未知的線性函數(shù)時,稱為線性回歸分析模型;當(dāng)函數(shù)為參數(shù)未知的非線性函數(shù)時,稱為非線性回歸分析模型。當(dāng)自變量個數(shù)大于1時稱為多元回歸,當(dāng)因變量個數(shù)大于1時稱為多重回歸。
- 分類分析
分類的主要用途和場景是“預(yù)測”,基于已有的樣本預(yù)測新樣本的所屬類別。例如信用評級、風(fēng)險(xiǎn)等級、欺詐預(yù)測等;同時,它也是模式識別的重要組成部分,廣泛應(yīng)用到機(jī)器翻譯,人臉識別、醫(yī)學(xué)診斷、手寫字符識別、指紋識別的圖像識別、語音識別、視頻識別的領(lǐng)域;另外,分類算法也可以用于知識抽取,通過模型找到潛在的規(guī)律,幫助業(yè)務(wù)得到可執(zhí)行的規(guī)則。
常見應(yīng)用場景:
對沉默會員做會員重新激活,應(yīng)該挑選具有何種特征會員
商品選取何種促銷活動清倉
那些廣告更適合VIP商家的投放需求
提煉特征規(guī)則利用的是在構(gòu)建分類算法時產(chǎn)生的分類規(guī)則。
- 聚類分析
聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異?!拔镆灶惥郏艘匀悍帧?,在自然科學(xué)和社會科學(xué)中,存在著大量的分類問題。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué),但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。
- 集成學(xué)習(xí)
集成學(xué)習(xí)(ensemble learning)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),有時也被稱為多分類器系統(tǒng)(multi-classifier system)、基于委員會的學(xué)習(xí)(committee-based learning)。
集成學(xué)習(xí)通過將多個學(xué)習(xí)器進(jìn)行結(jié)合,??色@得比單一學(xué)習(xí)器更加顯著的泛化性能。這對“弱學(xué)習(xí)器”尤為明顯。因此集成學(xué)習(xí)的理論研究都是針對弱學(xué)習(xí)器進(jìn)行的,而基學(xué)習(xí)器有時也被直接稱為弱學(xué)習(xí)器。但需注意的是,雖然從理論上說使用弱學(xué)習(xí)器集成足以獲得很好的性能,但在實(shí)踐中出于種種考慮,例如希望使用較少的個體學(xué)習(xí)器,或是重用一些常見學(xué)習(xí)器的一些經(jīng)驗(yàn)等,人們往往會使用比較強(qiáng)的學(xué)習(xí)器。
在一般經(jīng)驗(yàn)中,如果把好壞不等的東西摻到一起,那么通常結(jié)果會是比最壞的要好些,比最好的要壞一些。集成學(xué)習(xí)把多個學(xué)習(xí)器結(jié)合起來,如何能得到比最好的單一學(xué)習(xí)器更好的性能呢?
- 自然語言處理
自然語言處理( Natural Language Processing, NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分
自然語言處理主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測、自動摘要、觀點(diǎn)提取、文本分類、問題回答、文本語義對比、語音識別、中文OCR等方面 。
- 圖像處理
圖像處理(image processing),用計(jì)算機(jī)對圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù),又稱影像處理,圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用工業(yè)相機(jī)、攝像機(jī)、掃描儀等設(shè)備經(jīng)過拍攝得到的一個大的二維數(shù)組,該數(shù)組的元素稱為像素,其值稱為灰度值。圖像處理技術(shù)一般包括圖像壓縮,增強(qiáng)和復(fù)原,匹配、描述和識別3個部分。
深度學(xué)習(xí)(DL, Deep Learning)是機(jī)器學(xué)習(xí)(ML, Machine Learning)領(lǐng)域中一個新的研究方向,它被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能(AI, Artificial Intelligence)。
深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。 深度學(xué)習(xí)是一個復(fù)雜的機(jī)器學(xué)習(xí)算法,在語音和圖像識別方面取得的效果,遠(yuǎn)遠(yuǎn)超過先前相關(guān)技術(shù)。
深度學(xué)習(xí)在搜索技術(shù),數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),機(jī)器翻譯,自然語言處理,多媒體學(xué)習(xí),語音,推薦和個性化技術(shù),以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機(jī)器模仿視聽和思考等人類的活動,解決了很多復(fù)雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進(jìn)步。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7183瀏覽量
89723 -
關(guān)聯(lián)規(guī)則
+關(guān)注
關(guān)注
0文章
29瀏覽量
8027 -
回歸分析
+關(guān)注
關(guān)注
0文章
7瀏覽量
5925
發(fā)布評論請先 登錄
相關(guān)推薦
評論