欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

WSDM精選論文分析機器學習

大?。?/span>0.9 MB 人氣: 2017-09-30 需要積分:1

  人工智能機器學習領(lǐng)域的學術(shù)論文汗牛充棟。每年的各大頂級會議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場也很難追蹤到所有的前沿信息。在時間精力有限的情況下,選擇精讀哪些論文,學習哪些熱門技術(shù)就成為了AI學者和從業(yè)人員所頭痛的問題。這個欄目就是要幫助大家篩選出有意思的論文,解讀出論文的核心思想,為精讀提供閱讀指導。

  數(shù)據(jù)挖掘和機器學習應用的頂級會議The Tenth ACM International Conference on Web Search and Data Mining (WSDM 2017)今年2月已經(jīng)在英國劍橋圓滿舉行。正值WSDM十周年,會議上對WSDM的發(fā)展進行了回顧和展望??v觀過去十年的發(fā)展,WSDM已經(jīng)成長為學術(shù)圈和工業(yè)界都十分倚重的經(jīng)典跨界會議。不像KDD、WWW或者SIGIR,WSDM因為從最開始就由不少工業(yè)界的學術(shù)領(lǐng)導人發(fā)起并且長期引領(lǐng),所以十分重視工業(yè)界的學術(shù)成果的展現(xiàn)。有不少經(jīng)典的工業(yè)界文章在過去十年里,都是通過WSDM發(fā)表的。今年也不例外,因為WSDM的論文涵蓋非常廣泛的主題,而且一般的讀者很難從浩如煙海的文獻中即刻抓取到有用信息,這里筆者從80篇會議文章中精選出5篇有代表性的文章,為讀者提供思路。

  Unbiased Learning-to-Rank with Biased Feedback

  概要:這篇文章獲得了WSDM 2017最佳論文。在實際生產(chǎn)中,我們大量獲得的是 “有偏差”(Biased)的數(shù)據(jù)。那么,如何從這些 “有偏差”的數(shù)據(jù)中,進行“無偏差”(Unbiased)的機器學習就成為了過去很長一段時間以來,實際生產(chǎn)中非常急迫解決的問題。本文探討了解決這個問題的一種思路。

  這篇文章來自康奈爾大學的Thorsten Joachims以及他的學生。Thorsten在上一個十年的學術(shù)研究中,因為開發(fā)SVMLight而名聲顯赫。他也是最早思考如何利用用戶反饋數(shù)據(jù)進行排序模型(Ranking Model)訓練的學者。那么,這篇獲獎論文主要是要解決一個什么樣的問題?其實,這篇文章要嘗試解決的問題在學術(shù)和工業(yè)界的應用中非常普遍,可以說是一個困擾學者和普通的工程人員已久的問題。那就是,如何從“有偏差”用戶反饋數(shù)據(jù)中,訓練“無偏差”的排序模型。為什么用戶反饋數(shù)據(jù)會“有偏差”?道理很簡單,用戶在和系統(tǒng)交互的時候,受到各方面因素的干擾,從而只對部分信息進行了反饋而忽略了其他信息。比如,在搜索引擎里,因為排版的因素,用戶可能僅僅對排名靠前的幾個文檔進行查看,而徹底忽略排名靠后的所有文檔,即便這些文檔其實可能是相關(guān)的。另外一個更加常見的“偏差”則是由現(xiàn)在的“作業(yè)系統(tǒng)”(Production System)引起的?!白鳂I(yè)系統(tǒng)”往往根據(jù)現(xiàn)有的算法或者模型選擇出了用戶可能最偏好的少部分文檔,而大多數(shù)文檔用戶則沒有可能見到,和前面情況一下,即便這些文檔有可能是十分相關(guān)的。于是,用戶的反饋就受到了現(xiàn)在系統(tǒng)的影響,而后面的機器學習很有可能僅能從現(xiàn)在系統(tǒng)偏好中改進,而有可能無法提升到全局最優(yōu)的情況。傳統(tǒng)中,很多學者和從業(yè)人員已經(jīng)意識到了直接使用用戶“有偏差”反饋的數(shù)據(jù),特別是點擊數(shù)據(jù),會產(chǎn)生問題。但是很長一段時間來,大家并沒有找到如何系統(tǒng)地解決這個問題。Thorsten首先在這篇文章中提出了基于Inverse Propensity Scoring(IPS)的Partial-Info Learning-to-Rank。這部分內(nèi)容其實并沒有太多的新意,不過是把從Multi-armed Bandit領(lǐng)域用IPS來做Unbiased Offline Evaluation的思路借鑒過來。不過文章指出了一個核心問題,那就是如何來估計這些Propensity Probability,其實也就是當前系統(tǒng)選擇各個文檔的概率。傳統(tǒng)上,特別是以前的Unbiased Offline Evaluation基于隨機產(chǎn)生文檔順序,因此這些Propensity Probability都是Uniform分布的。但這樣的設計在現(xiàn)實中是不可能的,因為Uniform分布的文檔,用戶體驗會變得很差。那么,這篇文章則是要直擊這個痛點。這篇文章采取了這樣一個思路,文章假設現(xiàn)在系統(tǒng)的“偏差”可以通過一個Position-based Click Model with Click Noise(PCMCN)來解釋。簡單說來PCMCN就是來對用戶查看一個排序文檔進行建模,從而達到可以Propensity Probability能夠被方便預測,這么一個目的。為了能夠PCMCN,作者們還提出了一個基于交換兩個位置文檔的實驗方法,用于收集數(shù)據(jù)。值得肯定的是,僅僅交換兩個位置文檔的方法,相比于以前的Uniform的方法,要更加注重用戶體驗。文章的實驗部分展示了在人工數(shù)據(jù)以及真實系統(tǒng)中的表現(xiàn)??傮w說來,能夠?qū)Α坝衅睢钡挠脩魯?shù)據(jù)建模,比直接利用這些數(shù)據(jù),訓練的模型效果要來的好得多。這篇文章非常值得推薦系統(tǒng)、搜索引擎等方面的研究和工程人員精讀。

  Real-Time Bidding by Reinforcement Learning in Display Advertising

  ?????

  摘要:傳統(tǒng)中,Real-Time Bidding(RTB)把Bidding考慮成為靜態(tài)的決策過程。這篇文章,則是把Reinforcement Learning(強化學習)引入到RTB的應用中,從而提高RTB的效率和整體效果。

  這篇文章的作者團隊來自上海交大和倫敦大學學院(University College London)。此文是繼強化學習被應用到搜索和推薦領(lǐng)域之后,又一個把強化學習應用到一個重要領(lǐng)域的嘗試。與推薦和搜索不同的是,RTB因為其實時性,更加講究能夠?qū)τ谝粋€決策過程進行動態(tài)調(diào)整,從而能夠提供最優(yōu)的解決方案。目前大多數(shù)Bidding算法或者是策略(Strategy)的核心問題,就是他們都是靜態(tài)的一個決策過程。那么,這篇文章的主要思路就是用Markov Decision Process(MDP)來對RTB進行建模。MDP的一般建模,需要三個必備元素,那就是State、Action和Reward。這里,State是一個(當前時間,剩余預算,當前Feature Vector)三元組;Action則是以State為輸入,輸出一個少于當前預算的Bid;Reward在這篇文章里定義為在當前Feature Vector為輸入情況下的點擊率(CTR)或者是0(沒有贏得Auction的情況)。MDP除了這三個要素以外,一般還需要定義從每一個狀態(tài)跳轉(zhuǎn)另外狀態(tài)的轉(zhuǎn)移概率。文章中,轉(zhuǎn)移概率是一個Feature Vector的概率分布和市場價格分布的一個乘積。市場價格分布取決于現(xiàn)在的Feature Vector和當前的Bid價格。整個MDP的布局設置好以后,RTB的問題就轉(zhuǎn)換成為了如何在MDP中找到最優(yōu)Action的決策問題。和傳統(tǒng)的MDP一樣,文章介紹了通過Value Iteration的方式來找到最佳的Value函數(shù),然后通過找到的Value函數(shù),來找到最佳的Bidding策略。然而,這樣的方法,只適合在比較小規(guī)模的數(shù)據(jù)上,原因是第一個階段的得到最佳Value函數(shù)的步驟太過于耗時。文章介紹了一種在大規(guī)模數(shù)據(jù)上的思路,通過小數(shù)據(jù)來學習Value函數(shù)的表達,然后應用到大規(guī)模數(shù)據(jù)上。文章在兩個數(shù)據(jù)集上做了實驗,一個是PinYou的數(shù)據(jù),另一個是YOYI的數(shù)據(jù),數(shù)量都算是當前比較大的RTB數(shù)據(jù)集了。從實驗結(jié)果上來看,采用MDP的方法能夠比其他方法大幅度有效提高CTR,以及各項指標。除了在這兩個數(shù)據(jù)集上的結(jié)果以外,這篇文章還在Vlion DSP的線上系統(tǒng)進行了評測,在CTR基本和以前方法持平的情況下,CPM和eCPC都更加有效??傊?,這篇文章對于希望探索強化學習在廣告或者是推薦以及搜索等領(lǐng)域的應用有著一定的借鑒意義。從目前的情況來看,算法依然比較復雜,而且Value函數(shù)的逼近可能有不小的性能損失。另外,參考文獻部分十分詳盡,對于想了解RTB的朋友來說,是一個不可多得的言簡意賅的介紹。

  Learning Sensitive Combinations of A/B Test Metrics

  摘要:在線A/B實驗最大的困擾就是所需要觀測的指標(Metric)常常需要很長時間觀測到統(tǒng)計意義的變化抑或需要很多的用戶數(shù)量。這篇文章就是要嘗試解決這么一個問題,探討如何通過Variance Reduction的辦法來讓尋找到的Metrics能夠更加容易觀測,并且和用戶的指標相匹配。

  這篇文章來自俄羅斯搜索引擎團隊Yandex。近幾年以來,Yandex的研究人員已經(jīng)陸續(xù)發(fā)表了一系列的文章來推動在線A/B實驗的研究和實踐。這篇文章是要解決什么問題呢?在A/B在線測試中,我們希望觀測到的指標有方向性,能夠告訴我們用戶的喜好變化;同時,我們也希望這個指標能夠很容易觀測,不需要大量的數(shù)據(jù)長時間觀察。文章提出了這么一個假設,那就是我們能否通過數(shù)據(jù)以及歷史信息,學習到一組指標的組合,使得這個學習到的結(jié)果滿足上述條件?Yandex通過對8個關(guān)鍵指標的建模,使得學習到的指標達到了3.42倍的“敏感度”(Sensitivity),相比于之前的指標而言,也就是達到了約11倍的Sample Size的削減,可以說效果非常顯著。那么,這篇文章的作者是如何做的呢?首先,每一個實驗單元(可以是一個用戶,一個Session或者一個Query)都被一個Feature Vector所描述。這里的Feature Vector,有可能就是我們已知的指標本身。那么,整個問題的設置就成為了,學習一個這些Feature Vector的線性組合,使得學習到的新指標對于未來的實驗,更加具有“敏感度”。文章中,作者討論了多種定義“敏感度”的方法,而最終采用的是通過z-score來衡量。這樣的選擇,非常接近普通的t-test的需要。也就使得這篇文章的實用度更加廣泛。如果來解這么一個優(yōu)化問題就成為了文章下一個重點。文章簡單介紹采用Geometric的方法來接這個優(yōu)化問題的思路,并且也探討了一下這種方法和Linear Discriminant Analysis的聯(lián)系。然而作者們認為這個思路并不適合大多數(shù)的情況,于是文章介紹了一個基于標準優(yōu)化算法的思路。也就是,利用定義的“敏感度”z-score,作為衡量兩個實驗結(jié)果的“距離函數(shù)”,最終的目標函數(shù)是包括這么三個部分:1. 盡量讓已知A/B有效果的實驗里的距離不減少;2. 盡量讓已知的A/A實驗的結(jié)果不變化;3. 盡量分離已知A/B實驗效果不明顯的結(jié)果。當然,這個目標函數(shù)是Non-Convex的,不過文章依然使用了L-BFGS來解這個優(yōu)化問題。從實驗來說,作者們用了118個歷史實驗數(shù)據(jù)來學習這個函數(shù),得到的效果都是學習到的指標能夠更好地指導實驗的結(jié)果,同時采用學習到的指標能夠大幅度降低需要達到統(tǒng)計意義效果明顯(Statistically Significant)的數(shù)據(jù)量,這對于真實的工業(yè)環(huán)境來說是非常有意義的方法。這篇文章建議所有工業(yè)界的讀者精讀。

  Recurrent Recommender Networks

  摘要:如何把深度學習和推薦系統(tǒng)相結(jié)合是最近一兩年來推薦系統(tǒng)領(lǐng)域?qū)W者比較關(guān)心的問題,這篇文章探討了如何把LSTM-Autoregression模型和推薦系統(tǒng)結(jié)合的例子,在真實的數(shù)據(jù)中達到了更好的效果。

  這篇文章來自卡內(nèi)基梅隆大學Alex Smola的實驗室以及Google研究院的Amr Ahmed,陣容可謂非常強大。從傳統(tǒng)的概率圖模型(Probabilistic Graphical Model)的角度來說,要想能夠?qū)r間信息(Temporal)進行有效建模,則必須采用Sequential Monte Carlo等其他辦法。這些辦法往往計算非常復雜而且極易出錯。所以,這篇文章希望通過RNN來幫助這樣的建模場景。文章希望能夠用RNN來對現(xiàn)在的觀測值以及模型參數(shù)的時間變化進行統(tǒng)一建模。當然,另外一個比較好的選擇就是LSTM。這篇文章采用了LSTM。有了時間的變化以后,在單一時間的Rating Prediction,則是用戶方面信息和物品(文章中采用的是電影)信息的點積,非常類似傳統(tǒng)的矩陣分解模式。有一個小改動的地方來自于最后的預測結(jié)果是一個與時間有關(guān)的變化和與實踐無關(guān)變量的一個分解。這一點主要是為了讓不同時間段的變化都能夠被模型解釋。這樣看似簡單一個模型最大的問題其實是優(yōu)化算法,如果使用簡單的Back-propagation,計算量則會很大。這篇文章采用了一個叫Subspace Descent的方法,使得優(yōu)化算法本身能夠比較便捷。在實驗中,文章比較了TimeSVD++以及之前提出的AutoRec,在IMDB和Netflix的數(shù)據(jù)集上都有顯著的提高。當然,從比較大的角度來看,這篇文章的意義其實非常有限,主要是最近類似思路的文章其實已經(jīng)有不少,并且從學術(shù)貢獻來看,這篇文章完全解答了如何用深度學習和推薦系統(tǒng)結(jié)合的更佳的根本問題,適合熟悉推薦系統(tǒng)的讀者快速閱讀。

  Learning from User Interactions in Personal Search via Attribute Parameterization

  摘要:傳統(tǒng)的基于機器學習的排序模型訓練都是依賴于從大量的用戶數(shù)據(jù)得到訓練數(shù)據(jù)。而這篇文章要解決一個比較極致的問題,那就是如果模型需要應用到一個用戶的時候,如何采集有效的訓練數(shù)據(jù)并且訓練一個有效的模型。

  這篇文章來自Google的個人搜索團隊,所有作者都是信息檢索界響當當?shù)膶W者。Marc Najork之前來自微軟硅谷研究院,曾是《ACM Transaction on Web》的主編。微軟硅谷研究院解散之后來到Google。而Donald Metzler、Xuanhui Wang以及Michael Bendersky都是信息檢索界大牛W. Bruce Croft的得意門生。這篇文章是要解決所謂個人搜索(Personal Search)的問題。個人搜索,顧名思義,也就是對個人的文檔進行搜索(比如電子郵件、文本文件、圖片、資料等)。由于這樣特殊的產(chǎn)品需求,傳統(tǒng)的很多方法都不能夠直接適用。另外一個特殊的需求是,由于涉及到用戶的個人隱私,不能夠盲目把不同用戶的信息交互到一起。要解決這些問題,這篇文章提供了這樣一個基本思路,那就是把用戶的Query以及文檔都映射到一個Attribute的空間。在這個空間里,所有的信息都可以跨用戶橫向比較。那么,下面的問題就是我們?nèi)绾伟堰@些信息給映射到這個Attribute的空間。作者們采用了構(gòu)建一個圖(Graph)的做法。在這個圖上有四個類型的節(jié)點:文檔、Query、文檔的Attribute和Query的Attribute。兩種節(jié)點之間的鏈接是通過Feature Function來定義的。這一點很像Markov Random Field的構(gòu)建。這也難怪作者之一的Donald Metzler曾經(jīng)是提倡使用這類模型的主要推手。在定義Feature Graph之后,作者們提出了兩種思路來使用Feature Graph,一種就是直接用機器學習的方法;另一種則是手工方法和機器學習方法的混合。這篇文章采用了第二種方法,因為這樣在一個生產(chǎn)系統(tǒng)中可能更加穩(wěn)定。從整體上來看,整個技術(shù)層面并不復雜,不過這里的思路相對來說比較新穎。同時,作者還提到了如何從點擊數(shù)據(jù)中提取有效的訓練數(shù)據(jù)。在最后的實驗方面,作者們展示了提出的這種方法的有效性。不過,值得一提的是,因為數(shù)據(jù)集和整個問題的特殊性,這篇文章并沒法和很多其他方法進行公

  人工智能和機器學習領(lǐng)域的學術(shù)論文汗牛充棟。每年的各大頂級會議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場也很難追蹤到所有的前沿信息。在時間精力有限的情況下,選擇精讀哪些論文,學習哪些熱門技術(shù)就成為了AI學者和從業(yè)人員所頭痛的問題。這個欄目就是要幫助大家篩選出有意思的論文,解讀出論文的核心思想,為精讀提供閱讀指導。

  數(shù)據(jù)挖掘和機器學習應用的頂級會議The Tenth ACM International Conference on Web Search and Data Mining (WSDM 2017)今年2月已經(jīng)在英國劍橋圓滿舉行。正值WSDM十周年,會議上對WSDM的發(fā)展進行了回顧和展望??v觀過去十年的發(fā)展,WSDM已經(jīng)成長為學術(shù)圈和工業(yè)界都十分倚重的經(jīng)典跨界會議。不像KDD、WWW或者SIGIR,WSDM因為從最開始就由不少工業(yè)界的學術(shù)領(lǐng)導人發(fā)起并且長期引領(lǐng),所以十分重視工業(yè)界的學術(shù)成果的展現(xiàn)。有不少經(jīng)典的工業(yè)界文章在過去十年里,都是通過WSDM發(fā)表的。今年也不例外,因為WSDM的論文涵蓋非常廣泛的主題,而且一般的讀者很難從浩如煙海的文獻中即刻抓取到有用信息,這里筆者從80篇會議文章中精選出5篇有代表性的文章,為讀者提供思路。

  Unbiased Learning-to-Rank with Biased Feedback

  概要:這篇文章獲得了WSDM 2017最佳論文。在實際生產(chǎn)中,我們大量獲得的是 “有偏差”(Biased)的數(shù)據(jù)。那么,如何從這些 “有偏差”的數(shù)據(jù)中,進行“無偏差”(Unbiased)的機器學習就成為了過去很長一段時間以來,實際生產(chǎn)中非常急迫解決的問題。本文探討了解決這個問題的一種思路。

  這篇文章來自康奈爾大學的Thorsten Joachims以及他的學生。Thorsten在上一個十年的學術(shù)研究中,因為開發(fā)SVMLight而名聲顯赫。他也是最早思考如何利用用戶反饋數(shù)據(jù)進行排序模型(Ranking Model)訓練的學者。那么,這篇獲獎論文主要是要解決一個什么樣的問題?其實,這篇文章要嘗試解決的問題在學術(shù)和工業(yè)界的應用中非常普遍,可以說是一個困擾學者和普通的工程人員已久的問題。那就是,如何從“有偏差”用戶反饋數(shù)據(jù)中,訓練“無偏差”的排序模型。為什么用戶反饋數(shù)據(jù)會“有偏差”?道理很簡單,用戶在和系統(tǒng)交互的時候,受到各方面因素的干擾,從而只對部分信息進行了反饋而忽略了其他信息。比如,在搜索引擎里,因為排版的因素,用戶可能僅僅對排名靠前的幾個文檔進行查看,而徹底忽略排名靠后的所有文檔,即便這些文檔其實可能是相關(guān)的。另外一個更加常見的“偏差”則是由現(xiàn)在的“作業(yè)系統(tǒng)”(Production System)引起的?!白鳂I(yè)系統(tǒng)”往往根據(jù)現(xiàn)有的算法或者模型選擇出了用戶可能最偏好的少部分文檔,而大多數(shù)文檔用戶則沒有可能見到,和前面情況一下,即便這些文檔有可能是十分相關(guān)的。于是,用戶的反饋就受到了現(xiàn)在系統(tǒng)的影響,而后面的機器學習很有可能僅能從現(xiàn)在系統(tǒng)偏好中改進,而有可能無法提升到全局最優(yōu)的情況。傳統(tǒng)中,很多學者和從業(yè)人員已經(jīng)意識到了直接使用用戶“有偏差”反饋的數(shù)據(jù),特別是點擊數(shù)據(jù),會產(chǎn)生問題。但是很長一段時間來,大家并沒有找到如何系統(tǒng)地解決這個問題。Thorsten首先在這篇文章中提出了基于Inverse Propensity Scoring(IPS)的Partial-Info Learning-to-Rank。這部分內(nèi)容其實并沒有太多的新意,不過是把從Multi-armed Bandit領(lǐng)域用IPS來做Unbiased Offline Evaluation的思路借鑒過來。不過文章指出了一個核心問題,那就是如何來估計這些Propensity Probability,其實也就是當前系統(tǒng)選擇各個文檔的概率。傳統(tǒng)上,特別是以前的Unbiased Offline Evaluation基于隨機產(chǎn)生文檔順序,因此這些Propensity Probability都是Uniform分布的。但這樣的設計在現(xiàn)實中是不可能的,因為Uniform分布的文檔,用戶體驗會變得很差。那么,這篇文章則是要直擊這個痛點。這篇文章采取了這樣一個思路,文章假設現(xiàn)在系統(tǒng)的“偏差”可以通過一個Position-based Click Model with Click Noise(PCMCN)來解釋。簡單說來PCMCN就是來對用戶查看一個排序文檔進行建模,從而達到可以Propensity Probability能夠被方便預測,這么一個目的。為了能夠PCMCN,作者們還提出了一個基于交換兩個位置文檔的實驗方法,用于收集數(shù)據(jù)。值得肯定的是,僅僅交換兩個位置文檔的方法,相比于以前的Uniform的方法,要更加注重用戶體驗。文章的實驗部分展示了在人工數(shù)據(jù)以及真實系統(tǒng)中的表現(xiàn)??傮w說來,能夠?qū)Α坝衅睢钡挠脩魯?shù)據(jù)建模,比直接利用這些數(shù)據(jù),訓練的模型效果要來的好得多。這篇文章非常值得推薦系統(tǒng)、搜索引擎等方面的研究和工程人員精讀。

  Real-Time Bidding by Reinforcement Learning in Display Advertising

  ?????

  摘要:傳統(tǒng)中,Real-Time Bidding(RTB)把Bidding考慮成為靜態(tài)的決策過程。這篇文章,則是把Reinforcement Learning(強化學習)引入到RTB的應用中,從而提高RTB的效率和整體效果。

  這篇文章的作者團隊來自上海交大和倫敦大學學院(University College London)。此文是繼強化學習被應用到搜索和推薦領(lǐng)域之后,又一個把強化學習應用到一個重要領(lǐng)域的嘗試。與推薦和搜索不同的是,RTB因為其實時性,更加講究能夠?qū)τ谝粋€決策過程進行動態(tài)調(diào)整,從而能夠提供最優(yōu)的解決方案。目前大多數(shù)Bidding算法或者是策略(Strategy)的核心問題,就是他們都是靜態(tài)的一個決策過程。那么,這篇文章的主要思路就是用Markov Decision Process(MDP)來對RTB進行建模。MDP的一般建模,需要三個必備元素,那就是State、Action和Reward。這里,State是一個(當前時間,剩余預算,當前Feature Vector)三元組;Action則是以State為輸入,輸出一個少于當前預算的Bid;Reward在這篇文章里定義為在當前Feature Vector為輸入情況下的點擊率(CTR)或者是0(沒有贏得Auction的情況)。MDP除了這三個要素以外,一般還需要定義從每一個狀態(tài)跳轉(zhuǎn)另外狀態(tài)的轉(zhuǎn)移概率。文章中,轉(zhuǎn)移概率是一個Feature Vector的概率分布和市場價格分布的一個乘積。市場價格分布取決于現(xiàn)在的Feature Vector和當前的Bid價格。整個MDP的布局設置好以后,RTB的問題就轉(zhuǎn)換成為了如何在MDP中找到最優(yōu)Action的決策問題。和傳統(tǒng)的MDP一樣,文章介紹了通過Value Iteration的方式來找到最佳的Value函數(shù),然后通過找到的Value函數(shù),來找到最佳的Bidding策略。然而,這樣的方法,只適合在比較小規(guī)模的數(shù)據(jù)上,原因是第一個階段的得到最佳Value函數(shù)的步驟太過于耗時。文章介紹了一種在大規(guī)模數(shù)據(jù)上的思路,通過小數(shù)據(jù)來學習Value函數(shù)的表達,然后應用到大規(guī)模數(shù)據(jù)上。文章在兩個數(shù)據(jù)集上做了實驗,一個是PinYou的數(shù)據(jù),另一個是YOYI的數(shù)據(jù),數(shù)量都算是當前比較大的RTB數(shù)據(jù)集了。從實驗結(jié)果上來看,采用MDP的方法能夠比其他方法大幅度有效提高CTR,以及各項指標。除了在這兩個數(shù)據(jù)集上的結(jié)果以外,這篇文章還在Vlion DSP的線上系統(tǒng)進行了評測,在CTR基本和以前方法持平的情況下,CPM和eCPC都更加有效??傊?,這篇文章對于希望探索強化學習在廣告或者是推薦以及搜索等領(lǐng)域的應用有著一定的借鑒意義。從目前的情況來看,算法依然比較復雜,而且Value函數(shù)的逼近可能有不小的性能損失。另外,參考文獻部分十分詳盡,對于想了解RTB的朋友來說,是一個不可多得的言簡意賅的介紹。

  Learning Sensitive Combinations of A/B Test Metrics

  摘要:在線A/B實驗最大的困擾就是所需要觀測的指標(Metric)常常需要很長時間觀測到統(tǒng)計意義的變化抑或需要很多的用戶數(shù)量。這篇文章就是要嘗試解決這么一個問題,探討如何通過Variance Reduction的辦法來讓尋找到的Metrics能夠更加容易觀測,并且和用戶的指標相匹配。

  這篇文章來自俄羅斯搜索引擎團隊Yandex。近幾年以來,Yandex的研究人員已經(jīng)陸續(xù)發(fā)表了一系列的文章來推動在線A/B實驗的研究和實踐。這篇文章是要解決什么問題呢?在A/B在線測試中,我們希望觀測到的指標有方向性,能夠告訴我們用戶的喜好變化;同時,我們也希望這個指標能夠很容易觀測,不需要大量的數(shù)據(jù)長時間觀察。文章提出了這么一個假設,那就是我們能否通過數(shù)據(jù)以及歷史信息,學習到一組指標的組合,使得這個學習到的結(jié)果滿足上述條件?Yandex通過對8個關(guān)鍵指標的建模,使得學習到的指標達到了3.42倍的“敏感度”(Sensitivity),相比于之前的指標而言,也就是達到了約11倍的Sample Size的削減,可以說效果非常顯著。那么,這篇文章的作者是如何做的呢?首先,每一個實驗單元(可以是一個用戶,一個Session或者一個Query)都被一個Feature Vector所描述。這里的Feature Vector,有可能就是我們已知的指標本身。那么,整個問題的設置就成為了,學習一個這些Feature Vector的線性組合,使得學習到的新指標對于未來的實驗,更加具有“敏感度”。文章中,作者討論了多種定義“敏感度”的方法,而最終采用的是通過z-score來衡量。這樣的選擇,非常接近普通的t-test的需要。也就使得這篇文章的實用度更加廣泛。如果來解這么一個優(yōu)化問題就成為了文章下一個重點。文章簡單介紹采用Geometric的方法來接這個優(yōu)化問題的思路,并且也探討了一下這種方法和Linear Discriminant Analysis的聯(lián)系。然而作者們認為這個思路并不適合大多數(shù)的情況,于是文章介紹了一個基于標準優(yōu)化算法的思路。也就是,利用定義的“敏感度”z-score,作為衡量兩個實驗結(jié)果的“距離函數(shù)”,最終的目標函數(shù)是包括這么三個部分:1. 盡量讓已知A/B有效果的實驗里的距離不減少;2. 盡量讓已知的A/A實驗的結(jié)果不變化;3. 盡量分離已知A/B實驗效果不明顯的結(jié)果。當然,這個目標函數(shù)是Non-Convex的,不過文章依然使用了L-BFGS來解這個優(yōu)化問題。從實驗來說,作者們用了118個歷史實驗數(shù)據(jù)來學習這個函數(shù),得到的效果都是學習到的指標能夠更好地指導實驗的結(jié)果,同時采用學習到的指標能夠大幅度降低需要達到統(tǒng)計意義效果明顯(Statistically Significant)的數(shù)據(jù)量,這對于真實的工業(yè)環(huán)境來說是非常有意義的方法。這篇文章建議所有工業(yè)界的讀者精讀。

  Recurrent Recommender Networks

  摘要:如何把深度學習和推薦系統(tǒng)相結(jié)合是最近一兩年來推薦系統(tǒng)領(lǐng)域?qū)W者比較關(guān)心的問題,這篇文章探討了如何把LSTM-Autoregression模型和推薦系統(tǒng)結(jié)合的例子,在真實的數(shù)據(jù)中達到了更好的效果。

  這篇文章來自卡內(nèi)基梅隆大學Alex Smola的實驗室以及Google研究院的Amr Ahmed,陣容可謂非常強大。從傳統(tǒng)的概率圖模型(Probabilistic Graphical Model)的角度來說,要想能夠?qū)r間信息(Temporal)進行有效建模,則必須采用Sequential Monte Carlo等其他辦法。這些辦法往往計算非常復雜而且極易出錯。所以,這篇文章希望通過RNN來幫助這樣的建模場景。文章希望能夠用RNN來對現(xiàn)在的觀測值以及模型參數(shù)的時間變化進行統(tǒng)一建模。當然,另外一個比較好的選擇就是LSTM。這篇文章采用了LSTM。有了時間的變化以后,在單一時間的Rating Prediction,則是用戶方面信息和物品(文章中采用的是電影)信息的點積,非常類似傳統(tǒng)的矩陣分解模式。有一個小改動的地方來自于最后的預測結(jié)果是一個與時間有關(guān)的變化和與實踐無關(guān)變量的一個分解。這一點主要是為了讓不同時間段的變化都能夠被模型解釋。這樣看似簡單一個模型最大的問題其實是優(yōu)化算法,如果使用簡單的Back-propagation,計算量則會很大。這篇文章采用了一個叫Subspace Descent的方法,使得優(yōu)化算法本身能夠比較便捷。在實驗中,文章比較了TimeSVD++以及之前提出的AutoRec,在IMDB和Netflix的數(shù)據(jù)集上都有顯著的提高。當然,從比較大的角度來看,這篇文章的意義其實非常有限,主要是最近類似思路的文章其實已經(jīng)有不少,并且從學術(shù)貢獻來看,這篇文章完全解答了如何用深度學習和推薦系統(tǒng)結(jié)合的更佳的根本問題,適合熟悉推薦系統(tǒng)的讀者快速閱讀。

  Learning from User Interactions in Personal Search via Attribute Parameterization

  摘要:傳統(tǒng)的基于機器學習的排序模型訓練都是依賴于從大量的用戶數(shù)據(jù)得到訓練數(shù)據(jù)。而這篇文章要解決一個比較極致的問題,那就是如果模型需要應用到一個用戶的時候,如何采集有效的訓練數(shù)據(jù)并且訓練一個有效的模型。

  這篇文章來自Google的個人搜索團隊,所有作者都是信息檢索界響當當?shù)膶W者。Marc Najork之前來自微軟硅谷研究院,曾是《ACM Transaction on Web》的主編。微軟硅谷研究院解散之后來到Google。而Donald Metzler、Xuanhui Wang以及Michael Bendersky都是信息檢索界大牛W. Bruce Croft的得意門生。這篇文章是要解決所謂個人搜索(Personal Search)的問題。個人搜索,顧名思義,也就是對個人的文檔進行搜索(比如電子郵件、文本文件、圖片、資料等)。由于這樣特殊的產(chǎn)品需求,傳統(tǒng)的很多方法都不能夠直接適用。另外一個特殊的需求是,由于涉及到用戶的個人隱私,不能夠盲目把不同用戶的信息交互到一起。要解決這些問題,這篇文章提供了這樣一個基本思路,那就是把用戶的Query以及文檔都映射到一個Attribute的空間。在這個空間里,所有的信息都可以跨用戶橫向比較。那么,下面的問題就是我們?nèi)绾伟堰@些信息給映射到這個Attribute的空間。作者們采用了構(gòu)建一個圖(Graph)的做法。在這個圖上有四個類型的節(jié)點:文檔、Query、文檔的Attribute和Query的Attribute。兩種節(jié)點之間的鏈接是通過Feature Function來定義的。這一點很像Markov Random Field的構(gòu)建。這也難怪作者之一的Donald Metzler曾經(jīng)是提倡使用這類模型的主要推手。在定義Feature Graph之后,作者們提出了兩種思路來使用Feature Graph,一種就是直接用機器學習的方法;另一種則是手工方法和機器學習方法的混合。這篇文章采用了第二種方法,因為這樣在一個生產(chǎn)系統(tǒng)中可能更加穩(wěn)定。從整體上來看,整個技術(shù)層面并不復雜,不過這里的思路相對來說比較新穎。同時,作者還提到了如何從點擊數(shù)據(jù)中提取有效的訓練數(shù)據(jù)。在最后的實驗方面,作者們展示了提出的這種方法的有效性。不過,值得一提的是,因為數(shù)據(jù)集和整個問題的特殊性,這篇文章并沒法和很多其他方法進行公平比較。所以,文章值得對搜索和信息檢索研究有興趣的讀者泛讀。

  平比較。所以,文章值得對搜索和信息檢索研究有興趣的讀者泛讀。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?