歡迎來(lái)到安徽國鼎包裝有限公司官網!

安徽國鼎包裝有限公司

安徽國鼎包裝有限公司

AI在内容分(fēn)發上的絆腳石

文章(zhāng)出處:未知 人(rén)氣:0 發表時間:2017-07-28

自(zì)從(cóng)互聯網商業化發展以來(lái),不論是新聞客戶端、視頻網站(zhàn)或是電商平台……所有的平台,都(dōu)是把自(zì)己默認爲一個******的飼養員(yuán),它按照(zhào)自(zì)己的想法,把内容(飼料)Push(喂)給用戶。

 

這些飼養員(yuán)都(dōu)是受過訓練的專業人(rén)士,行話(huà)叫做---由網站(zhàn)編輯爲用戶設置議(yì)程,按照(zhào)大(dà)多數用戶的口味挑選内容。

 

後來(lái)編輯實在忙不過來(lái),采用機(jī)器幫忙---最簡單的機(jī)器方式則是“熱(rè)門(mén)推薦”,比如(rú)按照(zhào)點擊量或其它數據來(lái)做排序。

 

飼養員(yuán)模式******的問(wèn)題是不知道食客胃口如(rú)何,這會導緻兩個顯著的後果:一是食客不滿意,用戶個性化需求不能得(de)到滿足;二是自(zì)身(shēn)資源浪費,大(dà)量長尾資源長期得(de)不到曝光(guāng),增加沉沒成本。

 

有人(rén)發現了機(jī)器的好處。機(jī)器可(kě)以是根據用戶特征來(lái)推薦内容。正如(rú)一個高明的廚子可(kě)以根據每一個食客的口味提供飯菜,如(rú)果機(jī)器足夠聰明,在一定程度上可(kě)以解決所有用戶的個性化需求。這豈不是内容産業的C2M?

 

準确的說(shuō),這是内容分(fēn)發的C2M,它以單個用戶爲對象進行溝通,跳(tiào)出了大(dà)衆傳播/分(fēn)衆傳播窠臼,是不是足以革了所有的搜索引擎和門(mén)戶網站(zhàn)的命?

 

這種智能化的内容C2M有深刻的時代背景。今天,你(nǐ)已經站(zhàn)在時代邊緣,眼睜睜的看(kàn)着AI技術(shù)點燃了IOT的引線,接下來(lái)你(nǐ)将發現自(zì)己無可(kě)拒絕的進入下一個信息核爆的時代:信息終端爆炸、信息規模爆炸、信息平台爆炸……

 

在信息高速公路(lù)上,你(nǐ)開過的車,你(nǐ)走過的路(lù),全都(dōu)變了規則,你(nǐ)所熟悉的一切的基于飼養員(yuán)模式的知識框架都(dōu)面臨颠覆。

 

在這個時代,飼養員(yuán)模式已經失靈了,聰明的機(jī)器将成爲******的變量。

 

******個出現的場景是人(rén)類生(shēng)産内容,機(jī)器分(fēn)發内容。

 

下一個出現的場景是機(jī)器生(shēng)産内容,機(jī)器分(fēn)發内容。

 

内容産業面臨C2M革命,行不行?

 

“當然不行,機(jī)器很蠢。”如(rú)果你(nǐ)這樣想,那麽很遺憾,你(nǐ)注定是看(kàn)不到明天的太陽了。

 

“當然行。”如(rú)果你(nǐ)這麽想,那麽祝賀你(nǐ)掉進坑裡(lǐ)了。

 

真實的情況,你(nǐ)可(kě)能意想不到。

 

一、内容C2M之路(lù)本質是走向個體(tǐ)化溝通

 

作(zuò)爲一個獨立的研究方向,推薦系統的源頭可(kě)以追溯到90年(nián)代初的協同過濾算法,中期的代表則是傳統的機(jī)器學習算法,比如(rú)Netflix大(dà)賽所推動的隐語義模型,現在則是更加複雜的深度學習模型。

 

近些年(nián),深度學習突飛猛進,使得(de)機(jī)器推薦變成了整個互聯網的太陽。在新技術(shù)的推動下,個性化溝通也變得(de)更加可(kě)行,而且越來(lái)越接近單用戶溝通。

 

(一)協同過濾蹒跚起步

 

按照(zhào)百科(kē)詞條解釋,協同過濾是利用用戶群體(tǐ)的喜好來(lái)爲你(nǐ)推薦感興趣的信息,這些用戶要麽興趣相(xiàng)投、要麽具有共同經驗,然後網站(zhàn)結合你(nǐ)的反饋(如(rú)評分(fēn)),進行過濾分(fēn)析,進而幫助别人(rén)篩選信息。

 

當然,用戶喜好不一定局限于特别感興趣的信息,特别不感興趣信息的紀錄也相(xiàng)當重要。協同過濾表現出了出色的效果,開始在互聯網行業稱王稱霸。

 

起先,協同過濾應用于郵件(jiàn)過濾。

 

1992年(nián),施樂公司的科(kē)學家提出了Tapestry系統。這是最早應用協同過濾系統的設計(jì),主要是解決Xerox公司在Palo Alto的研究中心資訊過載的問(wèn)題。這個研究中心的員(yuán)工(gōng)每天會收到非常多的電子郵件(jiàn)卻無從(cóng)篩選分(fēn)類,于是研究中心便發展這項實驗性的郵件(jiàn)系統來(lái)幫助員(yuán)工(gōng)解決這項問(wèn)題。

 

接着,協同過濾思路(lù)開始應用于内容推薦。

 

1994年(nián),美國(guó)Minnesota的GroupLens項目組創辦了一個新聞篩選系統,這個系統可(kě)以幫助新聞的閱聽者過濾其感興趣的新聞内容,閱聽者看(kàn)過内容後給一個評比的分(fēn)數,系統會将分(fēn)數記錄起來(lái)以備未來(lái)參考之用,假設前提是閱聽者以前感興趣的東西在未來(lái)也會有興趣閱聽,若閱聽者不願揭露自(zì)己的身(shēn)分(fēn)也可(kě)以匿名進行評分(fēn)。作(zuò)爲最老牌的内容推薦研究團隊,GroupLens于1997年(nián)創建了電影(yǐng)推薦系統MovieLens,還(hái)有性質相(xiàng)近的音樂推薦系統Ringo,以及影(yǐng)音推薦系統Video Recommender等等。

 

後來(lái),出現了另一個裡(lǐ)程碑——電子商務推薦系統。

 

1998年(nián),亞馬遜的林登和他(tā)的同事(shì)申請(qǐng)的基于物品的協同過濾(item-to-item)技術(shù)******,是亞馬遜早期使用的經典算法,一度引爆流行。

 

協同過濾算不算人(rén)工(gōng)智能?從(cóng)技術(shù)的角度來(lái)看(kàn),它也屬于AI範疇。但(dàn)必須指出的是協同過濾算法比較弱智,無論是基于用戶的協同過濾,還(hái)是基于物品的協同過濾,推薦效果總是差強人(rén)意。

 

怎樣通過一個成體(tǐ)系的方法論來(lái)引導推薦系統的不斷優化?如(rú)何才能把複雜的現實因素糅合到推薦結果中?攻城(chéng)獅們一度非常非常頭大(dà),重賞之下必有勇夫,後來(lái),終于有人(rén)發現了更加靈活的思路(lù)。

 

(二)傳統機(jī)器學習開始加速

 

2006年(nián),Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線影(yǐng)片租賃網站(zhàn),舉辦大(dà)賽的目的旨在解決電影(yǐng)評分(fēn)預測問(wèn)題的機(jī)器學習和數據挖掘問(wèn)題。主辦方爲此下了血本,宣稱對于那些能夠将Netflix的推薦系統Cinematch的準确率提升10%的個人(rén)或團隊,獎勵100萬美元!

 

Netflix在自(zì)家blog上披露了許多龐大(dà)的數據,舉例如(rú)下:

 

  • 我們有幾十億的用戶評分(fēn)數據,并且以每天幾百萬的規模在增長。

  • 我們的系統每天産生(shēng)幾百萬的播放(fàng)點擊,并且包含很多特征,例如(rú):播放(fàng)時長、播放(fàng)時間點和設備類型。

  • 我們的用戶每天将幾百萬部視頻添加到他(tā)們的播放(fàng)列表。

 

顯然,在這些海量數據面前,我們已經不能靠由純人(rén)工(gōng)或者小型系統建立起來(lái)的分(fēn)類标準對整個平台用戶喜好進行标準化。

 

比賽開始一年(nián)後,Korbell的團隊以8.43%的提升赢得(de)了******個階段獎。他(tā)們付出了超過2000個小時的努力,融合了107種算法。其中兩種最有效的算法:矩陣分(fēn)解(通常被叫做SVD,奇異值分(fēn)解)和局限型玻爾茲曼機(jī)(RBM)。

 

矩陣分(fēn)解作(zuò)爲協同過濾的補充,核心是将一個非常稀疏的用戶評分(fēn)矩陣R分(fēn)解爲兩個矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數據構建這些向量,使用它們來(lái)預測未知的項。該算法在有效提高計(jì)算精度的同時,還(hái)能夠加入各種建模元素,使更多元化的信息融合進來(lái),更好地利用大(dà)量數據。

 

然而矩陣分(fēn)解也有不足。不足之處在于,矩陣分(fēn)解和協同過濾算法一樣,都(dōu)屬于監督學習範疇,粗糙且簡單,适用于小型系統。擺在網絡巨頭們面前的問(wèn)題是,如(rú)果需要建立一個大(dà)型推薦系統,協同過濾和矩陣分(fēn)解則會花費較長的時間。怎麽辦?

 

于是,一些攻城(chéng)獅将眼光(guāng)轉移到無監督學習中。無監督學習中的聚類算法的本質是識别用戶組,并對這個組内的用戶推薦相(xiàng)同的内容。當我們擁有足夠的數據,******使用聚類作(zuò)爲******步,來(lái)縮減協同過濾算法中相(xiàng)關鄰居的選擇範圍。

 

隐語義模型運用了聚類分(fēn)析方法,其一大(dà)優勢是既可(kě)以做評分(fēn)預測,又可(kě)以同時對文本内容建模,使得(de)通過内容來(lái)進行推薦的效果得(de)到較大(dà)提升。

 

傳統的分(fēn)析方式在對用戶打标簽,并根據标簽映射到結果的兩個步驟中準确度不高。比如(rú)用戶填寫的年(nián)齡不一定真實,或者并非所有青少年(nián)都(dōu)喜歡漫畫(huà)。而隐語義模型的核心,是超越這些表層語義标簽的維度,通過機(jī)器學習技術(shù),挖掘用戶行爲中更深層的潛在關聯,使得(de)推薦精度更高。

 

Netflix Prize百萬美元武林大(dà)賽号令之下,天下英才頻出。2009年(nián)達到了一個高峰,成爲推薦系統領域最标緻性的事(shì)件(jiàn),這次比賽吸引了衆多專業人(rén)士投身(shēn)于推薦系統領域的研究,也讓這項技術(shù)從(cóng)專業圈子滲透到了商業領域,引發了熱(rè)烈的討(tǎo)論并逐漸勾起了主流網站(zhàn)的垂涎,基于内容的推薦、基于知識的推薦、混合推薦、基于信任網絡的推薦等等走上了快(kuài)速發展的通道。

 

這些推薦引擎與協同過濾不同,例如(rú)基于内容的推薦是建立在項目的内容信息上作(zuò)出推薦的,而不需要依據用戶對項目的評價意見(jiàn),更多地需要用機(jī)器學習的方法從(cóng)關于内容的特征描述的事(shì)例中得(de)到用戶的興趣資料。内容過濾主要采用自(zì)然語言處理(lǐ)、人(rén)工(gōng)智能、概率統計(jì)和機(jī)器學習等技術(shù)進行過濾。

 

百萬美元花得(de)值不值?據2016年(nián)的Netflix用戶數據:注冊會員(yuán)6500******,每天觀看(kàn)視頻的總時長1億個小時。Netflix說(shuō),每年(nián)靠這套系統能夠節省10億美元。

 

(三)深度學習帶來(lái)“無人(rén)駕駛”

 

近些年(nián)來(lái),用戶的大(dà)痛點出現。智能手機(jī)的普及,讓龐大(dà)的信息量和狹小的閱讀(dú)屏幕成爲一對難以化解的矛盾,用戶閱讀(dú)場景不再是固守于電腦屏幕,而是向移動化碎片化轉變,搜索引擎失靈了,人(rén)工(gōng)推薦忙不過來(lái),機(jī)器推薦也不夠用了,這種轉變對大(dà)内容平台簡直是生(shēng)死考驗。能滿足需求則生(shēng),不滿足則死。

 

面對這一問(wèn)題,YouTube和Facebook提出了新解決思路(lù):運用深度學習,制造聰明的機(jī)器。近十年(nián)來(lái),深度學習已經取得(de)了巨大(dà)的飛躍,對于解決大(dà)數據量更有優勢。

 

如(rú)果說(shuō)人(rén)工(gōng)内容推薦如(rú)同司機(jī)開車,那麽深度學習所帶來(lái)的内容推薦,則如(rú)無人(rén)駕駛汽車。在這種技術(shù)是利用用戶數據來(lái)“感知”用戶喜好,其推薦系統基本可(kě)以分(fēn)爲數據層、觸發層、融合過濾層和排序層,當數據層生(shēng)成和存儲的數據進入候選層後,也就(jiù)觸發了核心的推薦任務。

 

以YouTube爲例,其******公開的推薦系統算法由兩個神經網絡組成,一個用于候選生(shēng)成,一個用于排序。首先,以用戶的浏覽曆史爲輸入,候選生(shēng)成網絡可(kě)以顯著減小可(kě)推薦的視頻數量,從(cóng)龐大(dà)的庫中選出一組最相(xiàng)關的視頻。

 

這樣生(shēng)成的候選視頻與用戶的相(xiàng)關性最高,再進一步對用戶評分(fēn)進行預測。這個網絡的目标,隻是通過協同過濾提供更廣泛的個性化。排序網絡的任務則是仔細分(fēn)析候選内容,精選出少量最優選擇。具體(tǐ)操作(zuò)爲根據視頻描述數據和用戶行爲信息,使用設計(jì)好的目标函數爲每個視頻打分(fēn),将得(de)分(fēn)最高的視頻呈獻給用戶。

 

在這種模式下,機(jī)器全然接管了平台。在深度學習的持續訓練下,機(jī)器越來(lái)越聰明,與人(rén)打交道的智商會逐漸提升,在某種意義上也逐漸承擔起看(kàn)門(mén)狗的責任。

 

二、内容産業是否即将被C2M颠覆

 

世界之大(dà)無奇不有,美國(guó)得(de)克薩斯州科(kē)珀斯—克裡(lǐ)斯蒂市一家銀行的一台自(zì)動取款機(jī)(ATM)竟然在11日(rì)吐出了字條,上面寫着“救我”,這條新聞很快(kuài)傳遍中文網絡,成爲許多網站(zhàn)的頭條。

 

你(nǐ)需要從(cóng)N個網站(zhàn)上看(kàn)到一模一樣的文章(zhāng)嗎(ma)?

 

這些冗餘的信息消耗了你(nǐ)的精力和流量,就(jiù)像你(nǐ)打開任何一個電視頻道,都(dōu)能看(kàn)到許多方便面廣告一樣,讓人(rén)很難從(cóng)大(dà)量的信息中快(kuài)速找到自(zì)己想要的内容。

 

如(rú)何解決用戶信息冗餘的尴尬?

 

過去(qù)曾經有許多不成功的技術(shù)方案,個人(rén)門(mén)戶昙花一現,RSS訂閱不成氣候,跨站(zhàn)跟蹤上不了台面。能引領未來(lái)者,隻有C2M。

 

C2M模式可(kě)以像今日(rì)頭條這樣應用于全網,也可(kě)以像Facebook那般基于巨頭的平台。其核心就(jiù)在于基于用戶行爲習慣、特征和訴求,對海量的信息進行提取、分(fēn)揀然後傳遞給用戶,這是克服痛點的秘密。

 

但(dàn)質疑的聲音也不少。比如(rú)有觀點認爲,協同過濾這樣的推薦容易讓用戶形成信息繭房(fáng)、無法識别閱讀(dú)場景、即時性差、耗時長等缺點,而今日(rì)頭條這樣的模式也常常被诟病,還(hái)要應付難以捕捉的用戶興趣、用戶數據的隐私和管理(lǐ)等多項挑戰。

 

支持和質疑各執一端,孰是孰非?未來(lái)雖有兩大(dà)機(jī)遇,但(dàn)是目前要跨越三座大(dà)山(shān)。

 

1.支持的理(lǐ)由如(rú)下:

 

①******千面,衆口可(kě)調。

 

個性化的内容推薦機(jī)制能夠根據用戶的喜好爲其推薦信息。通過各種算法,通過分(fēn)析用戶的曆史行爲,對比相(xiàng)關用戶和相(xiàng)關物品猜測用戶可(kě)能喜歡的内容,列出候選集并進行驗證,用戶可(kě)以得(de)到較爲準确的内容,使信息分(fēn)發做到******千面,實現内容與用戶的******連接,而不是傳統意義上的******一面般的投放(fàng)。

 

②海裡(lǐ)撈針,提高效率

 

個性化推薦省去(qù)了用戶在海量信息中進行提取和搜尋的環節。用戶無需在海量信息中摸針,在一定程度上爲用戶去(qù)除了部分(fēn)無用信息,縮小了用戶信息搜索的範圍,提高了用戶的閱讀(dú)效率。

 

③投其所好,增強粘性

 

不斷爲用戶推薦适合他(tā)的内容能夠增加用戶粘性。個性化推薦技術(shù)通過算法進行用戶感興趣的内容的******推薦,幫助用戶快(kuài)捷發現感興趣的内容,當你(nǐ)看(kàn)完一個内容後,會立馬給你(nǐ)推薦相(xiàng)關的東西,可(kě)以增加用戶粘性,提高用戶體(tǐ)驗。

 

④挖掘長尾,打破兩極

 

個性化推薦能夠通過相(xiàng)關算法幫助用戶挖掘長尾内容,避免兩極分(fēn)化的馬太效應。當A用戶喜歡比較冷(lěng)門(mén)的長尾内容,而B用戶又有跟A用戶有相(xiàng)同或相(xiàng)似的興趣和行爲習慣時,系統就(jiù)能夠把A用戶喜歡的冷(lěng)門(mén)内容推薦給B用戶,這樣就(jiù)使冷(lěng)門(mén)内容得(de)到更多的曝光(guāng),幫助用戶發現更多的長尾内容,避免内容生(shēng)産生(shēng)态兩極分(fēn)化。

 

⑤雙向交流,深度優化

 

基于用戶進行個性化推薦是對用戶進行深度分(fēn)析和交流的結果,提升了用戶的交互式體(tǐ)驗。傳統的人(rén)工(gōng)推薦是遍地撒網地推薦,沒有對用戶進行細緻地劃分(fēn)和篩選,機(jī)器推薦以用戶特點和習慣爲基礎進行推薦,用戶能夠得(de)到雙向的交流和溝通,用戶的行爲也能對下一步的推薦産生(shēng)影(yǐng)響,在一定程度上得(de)到了反饋,提升了用戶的交互式體(tǐ)驗。

 

⑥分(fēn)門(mén)别類,運營細化

 

個性化推薦也有利于平台對内容進行分(fēn)類,從(cóng)而利于平台精細化管理(lǐ)和運營。信息時使得(de)平台不斷湧現,各種形式的内容越來(lái)越豐富,用戶手機(jī)端展示的區域有限,個性化推薦能夠使商家更好地針對不同客戶對内容進行分(fēn)類,有利于精細化運營。

 

2.質疑的觀點主要有:

 

①畫(huà)地爲牢,思維設限

 

個性化新聞體(tǐ)驗容易讓思想裹足不前。個性化推薦的結果是基于用戶的曆史數據和曆史行爲,基于相(xiàng)似用戶或者相(xiàng)似物品進行的推薦,在一定程度上将用戶感興趣的内容固定在一個特定的閉環裡(lǐ),在爲用戶篩選信息的同時也爲用戶隔斷了很多信息。個性化推薦的内容采集自(zì)你(nǐ)的興趣,又決定了你(nǐ)的興趣。因此,無法接觸“新”事(shì)物自(zì)然就(jiù)不能培養新的興趣,容易讓用戶越來(lái)越狹隘。

 

②人(rén)心變幻,機(jī)器何解

 

機(jī)器推薦無法識别閱讀(dú)場景的變化而帶來(lái)的需求的變化,無法感知用戶爲什麽需要閱讀(dú),難以匹配人(rén)類情感的複雜程度。例如(rú)在某一個階段,我們因爲大(dà)家都(dōu)在討(tǎo)論某件(jiàn)事(shì)而去(qù)關注這件(jiàn)事(shì),但(dàn)這并不意味着我們對類似的事(shì)情都(dōu)感興趣。

 

③審美下線,好壞難分(fēn)

 

個性化推薦的難度對推薦内容的質量帶來(lái)了挑戰。以往評價一篇文章(zhāng)的好壞對編輯來(lái)說(shuō)都(dōu)沒那麽容易,如(rú)今機(jī)器推薦很容易忽略質量這一維度。機(jī)器算法不準确會使标題黨内容混雜出現,機(jī)器推薦可(kě)能會把一篇沒有價值的文章(zhāng)推薦的很高,也有可(kě)能把真正有價值的文章(zhāng)埋沒掉,機(jī)器推薦隻能從(cóng)外部數據來(lái)衡量你(nǐ)的文章(zhāng)有沒有價值,目前還(hái)沒有辦法從(cóng)内容的本質上分(fēn)析有沒有價值。

 

④耗時較長,總慢(màn)半拍(pāi)

 

基于海量數據的個性化推薦行爲耗時較長,即時性較差。如(rú)新聞推薦存在及時性問(wèn)題,需要不斷更新,通過分(fēn)析用戶的曆史行爲、對比類似用戶等數據分(fēn)析工(gōng)作(zuò)耗時較長,不易在******時間形成推薦結果。并且協同過濾等方法還(hái)存在冷(lěng)啓動的問(wèn)題,即在用戶體(tǐ)驗之初,并未形成成熟的曆史數據時,需要經過很長的時間收集用戶點擊日(rì)志數據,從(cóng)而産生(shēng)推薦。

 

⑤熱(rè)點共通,個體(tǐ)趨同

 

并不是所有的用戶都(dōu)彼此相(xiàng)等,但(dàn)協同過濾方法不考慮用戶之間的個體(tǐ)差異。例如(rú),我們觀察到娛樂新聞不斷推薦給大(dà)多數用戶,即使用戶不點擊娛樂的故事(shì)。原因是,娛樂新聞一般都(dōu)是非常流行的,因此總是從(cóng)一個用戶的“鄰居”的娛樂故事(shì)足夠的點擊進行推薦。

 

3.未來(lái)的機(jī)遇在哪裡(lǐ)?

 

未來(lái)的機(jī)遇在于兩大(dà)推動力:業界對長尾金礦的商業動力;用戶強烈的個性化需求的推動。

 

①長尾金礦

 

個性化推薦能夠幫助用戶發現更多優質的長尾内容,提高平台商業價值。一般平台用戶訪問(wèn)的隻局限在熱(rè)門(mén)的10%左右的内容,很多小衆的、冷(lěng)門(mén)的内容卻沉在數據庫中不易被發現,我們将其稱之爲長尾内容。

 

按長尾理(lǐ)論,由于成本和效率的因素,當商品儲存流通展示的場地和渠道足夠寬廣,商品生(shēng)産成本急劇(jù)下降以至于個人(rén)都(dōu)可(kě)以進行生(shēng)産,并且商品的銷售成本急劇(jù)降低時,幾乎任何以前看(kàn)似需求極低的産品,隻要有賣,都(dōu)會有人(rén)買。個性化推薦能夠通過協同過濾中基于用戶的推薦技術(shù)将小衆喜歡的長尾内容擴散開來(lái),充分(fēn)挖掘長尾内容,産生(shēng)長尾金礦。

 

②時代剛需

 

我們所處的時代已經變化了。經過20年(nián)發展,互聯網變成了移動互聯網,現在即将融合AI進入IOT時代,終端和信息正在以核爆的态勢發生(shēng)急劇(jù)膨脹,用戶在海量的數據中想要找到他(tā)們需要的信息将變得(de)越來(lái)越難。在這種情況下,傳統的搜索引擎已經力不從(cóng)心。早先******代表性的就(jiù)是分(fēn)類目錄的雅虎和搜索引擎的谷歌,已經進入死胡同,想要通過搜索引擎去(qù)了解一個陌生(shēng)領域的知識,效率極低!

 

要滿足時代剛需,希望在于個性化推薦。機(jī)器需要盡可(kě)能的了解用戶,并且根據用戶的數據,主動推薦讓用戶有興趣和需求的信息。目前這20來(lái)年(nián),雖說(shuō)取得(de)了一點點成就(jiù),但(dàn)僅僅是唐僧取經邁出了******步,還(hái)有很長的路(lù)要走。

 

4.當下需要跨越的三座大(dà)山(shān)

 

個性化推薦在發展過程中面臨很多諸如(rú)難以預測用戶興趣、用戶相(xiàng)關數據涉及隐私以及數據的處理(lǐ)難度等問(wèn)題,都(dōu)給個性化推薦帶來(lái)了很大(dà)的威脅和挑戰。

 

******座山(shān),準确。

 

用戶的興趣易受多重因素影(yǐng)響而不斷變化,這對個性化推薦來(lái)說(shuō)是個不可(kě)避免的挑戰。個性化推薦系統的基礎部分(fēn)是用戶興趣建模,用戶興趣建模的質量直接決定了個性化推薦的質量。但(dàn)是用戶興趣随時都(dōu)會受到社交、場景、環境等多重因素影(yǐng)響,用戶興趣地不斷變化使得(de)根據以往數據預測用戶未來(lái)傾向的工(gōng)作(zuò)變得(de)很難,也會影(yǐng)響推薦結果的準确性。

 

第二座山(shān),隐私。

 

對以用戶數據爲基礎進行的個性化推薦來(lái)說(shuō),如(rú)何保護用戶隐私是個不小的難題。傳統的内容推薦系統對用戶的頁面訪問(wèn)記錄進行數據挖掘,找出用戶的訪問(wèn)習慣,然後在服務器端根據用戶需求進行信息篩選,試圖爲用戶提供信息推薦服務和垃圾信息過濾服務。但(dàn)如(rú)何能在保護用戶隐私的同時,又爲用戶提供更準确的内容推薦服務是一個不小的挑戰。

 

第三座山(shān),價值觀。

 

除了三座大(dà)山(shān)外,還(hái)有一個問(wèn)題也值得(de)重視。現在的機(jī)器推薦等于“沒有三觀”、“沒有審美”,在中文圈運營,由于衆所周知的原因,一定會遇到相(xiàng)當的挑戰。

 

流量造假和作(zuò)弊是比較明顯的例子。比如(rú)有網友告訴筆者說(shuō):網上經常看(kàn)到一些視頻學習人(rén)數幾萬、幾十萬,數字大(dà)的得(de)令我們懷疑人(rén)生(shēng),結果測試了一下,頁面刷新一次人(rén)數就(jiù)加三而新課程加幾十,瞬間明了。半夜測試某些視頻直播,對着牆拍(pāi),從(cóng)啓動直播十分(fēn)鍾直播粉絲還(hái)能蹭蹭往上漲,進一個真粉絲時人(rén)數又一波漲,作(zuò)弊一時爽,但(dàn)心裡(lǐ)不踏實。

 

曾經有企業在智能推薦的客戶端上投過一些非常垂直大(dà)号的廣告,有的效果真好,有的造假太明顯---在閱讀(dú)量瞬間破萬的時候帶過來(lái)的流量,還(hái)不如(rú)自(zì)己閱讀(dú)破千的号效果好。如(rú)此種種,數據是正經的,就(jiù)看(kàn)用它的人(rén)正經不正經了。

 

未來(lái),個性化推薦如(rú)何在技術(shù)和管理(lǐ)上繼續革新,人(rén)工(gōng)智能因素的參與能否改善現存的諸多問(wèn)題,爲用戶産生(shēng)更優質的推薦結果将成爲一個重要課題。

 

三、巨頭正在開辟的技術(shù)路(lù)線

 

其實,無論支持還(hái)質疑有多麽大(dà),個性化推薦已經引得(de)無數巨頭競折腰。

 

目前在市場上,依然是新老技術(shù)各占一方地盤,新派深度學習技術(shù)快(kuài)速崛起,咄咄逼人(rén);老派技術(shù)也在不斷優化,以防不測。新老技術(shù)之争,是當下的一個熱(rè)點,也是決定未來(lái)發展的兩大(dà)路(lù)線。

 

(一)老派技術(shù)認爲:傳統推薦技術(shù)可(kě)以自(zì)我完善

 

1.Google新聞的套路(lù),不斷優化

 

Google新聞是一個在線信息門(mén)戶站(zhàn)點,它聚集數千家信息源的新聞報道(在将相(xiàng)似新聞分(fēn)組後)并以個性化的方法展現給登錄用戶。由于文章(zhāng)和用戶數量巨大(dà),以及給定的響應時間要求,純粹的基于記憶的方法是不适用的,需要一種可(kě)擴展的算法,因此Google新聞組合使用了基于模型和基于記憶的技術(shù)。

 

Google新聞的套路(lù)依然是協同過濾的底子。它在個性化推薦方面采用的是基于模型和基于記憶的技術(shù)相(xiàng)結合的協同過濾技術(shù)。根據《推薦系統》一書(shū)的介紹,基于模型的那部分(fēn)依賴兩種聚類技術(shù):

 

①概率潛在語義索引(PLSI):協同過濾的“第二代”概率技術(shù),爲了識别出有相(xiàng)似想法的用戶和相(xiàng)關物品的聚類,引入了隐藏變量,對應每個用戶—物品對的有限狀态集合,能适應用戶可(kě)能同時對多個主題感興趣的情況。

 

②MinHash:根據兩個用戶浏覽過物品的交集将兩者放(fàng)入相(xiàng)同的聚類(哈希桶)。爲了讓這種哈希過程具有可(kě)擴展性,采用了一種特殊方法尋找近鄰,并采用Google自(zì)己的MapReduce技術(shù)在幾個機(jī)群之間分(fēn)發計(jì)算任務。

 

基于記憶的方法主要是分(fēn)析“伴随浏覽量”。“伴随浏覽量”指的是一篇文章(zhāng)在預先定義的一段時間内被相(xiàng)同用戶浏覽過。預測時需要遍曆活躍用戶最近的曆史數據和從(cóng)内存裡(lǐ)獲取鄰近的文章(zhāng)。運行時,預先設定集合裡(lǐ)候選物品的綜合推薦評分(fēn)是這三種方法(MinHash、PLSI和伴随浏覽)獲得(de)的分(fēn)數的線性組合計(jì)算值,然後再根據計(jì)算值的高低進行推薦結果的輸出。

 

2.Linkedin爲四個場景開發的系統

 

Linkedin主要是通過自(zì)主研發設計(jì)的協同過濾推薦平台Browsemap實現個性化推薦。Browsemap是Linkedin開發的一個實現了物品協同過濾推薦算法的泛化平台,該平台可(kě)支持Linkedin中所有實體(tǐ)的推薦,包括求職者、招聘貼、企業、社會群體(tǐ)(如(rú)學校(xiào)等)、搜索詞等,若要通過該平台實現某個新的實體(tǐ)協同過濾推薦,開發者要做的工(gōng)作(zuò)僅僅包括:相(xiàng)關行爲日(rì)志的接入、編寫Browsemap DSL配置文件(jiàn)和調整相(xiàng)關過期參數等簡單工(gōng)作(zuò)。

 

論文指出,Browsemap平台在Linkedin最常用的有四個推薦場景:給求職者推薦公司、相(xiàng)似公司推薦、相(xiàng)似簡曆推薦和搜索詞推薦等等。

 

①給求職者推薦公司:通過Browsemap實現基于物品的協同過濾,計(jì)算用戶和潛在意向公司的相(xiàng)似度值,得(de)到相(xiàng)關公司特征;将相(xiàng)關公司特征和用戶/公司内容特征(包括用戶位置、工(gōng)作(zuò)經驗;企業産品、相(xiàng)關描述)一起分(fēn)析得(de)到最終的偏好分(fēn)值。

 

②相(xiàng)似公司推薦:與給求職者推薦公司有兩點不同:一是内容特征相(xiàng)似度變爲公司畫(huà)像之間的相(xiàng)似度;二是基于多種用戶行爲構建browsemap。

 

③相(xiàng)似簡曆(用戶)推薦:通過公司詳情頁浏覽行爲和用戶畫(huà)像特征實現該部分(fēn)推薦。同時将相(xiàng)似簡曆的屬性用于補足簡曆的缺失屬性,得(de)到該用戶的虛拟簡曆。

 

④搜索詞推薦提供了四種關聯方式:一是協同過濾:在計(jì)算搜索詞間相(xiàng)關性時會加入時間和空間因素;二是基于推薦搜索詞搜索結果的點擊率;三是基于搜索詞之間的重合度;四是基于推薦搜索詞的點擊率。但(dàn)實驗結果表明協同過濾的結果******,甚至也好于将這四種方式綜合的結果。

 

3.今日(rì)頭條的三個階段

 

作(zuò)爲國(guó)内當紅(hóng)的個性化推薦産品,今日(rì)頭條技術(shù)經曆了三個階段:

 

早期階段,以非個性化推薦爲主,重點解決熱(rè)文推薦和新文推薦,這個階段對于用戶和新聞的刻畫(huà)粒度也比較粗,并沒有大(dà)規模運用推薦算法。

 

中期階段,以個性化推薦算法爲主,主要基于協同過濾和内容推薦兩種方式。協同過濾技術(shù)思想和前文介紹的并無差别。基于内容推薦的方式,則是先對新聞進行刻畫(huà),然後利用用戶的正反饋(如(rú)點擊,閱讀(dú)時長、分(fēn)享、收藏、評論等)和負反饋(如(rú)不感興趣等)建立用戶和新聞标簽之間的聯系,從(cóng)而來(lái)進行統計(jì)建模。

 

當前階段,以大(dà)規模實時機(jī)器學習算法爲主,用到的特征達千億級别,能做到分(fēn)鍾級更新模型。架構分(fēn)爲兩層:檢索層,有多個檢索分(fēn)支,拉出用戶感興趣的新聞候選;打分(fēn)層,基于用戶特征、新聞特征、環境特征三大(dà)類特征使用實時學習進行建模打分(fēn)。值得(de)一提的是,實際排序時候并不完全按照(zhào)模型打分(fēn)排序,會有一些特定的業務邏輯綜合在一起進行最終排序并吐給用戶。

 

頭條爲何能取得(de)成功?文章(zhāng)分(fēn)析,很多人(rén)會說(shuō)是頭條的個性化推薦技術(shù)做得(de)好,其實不盡然。原因在于,今日(rì)頭條的個性化推薦也是經曆着複雜的演變過程:從(cóng)人(rén)工(gōng)推薦到機(jī)器推薦再到最終不斷叠代算法和技術(shù),反複的進行驗證,日(rì)益完善。

 

(二)新派技術(shù)認爲:深度學習才是明智選擇

 

新派技術(shù)主要指采用了深度學習的個性化推薦系統。

 

深度學習是機(jī)器學習中一種基于對數據進行表征學習的方法。觀測值(例如(rú)一幅圖像)可(kě)以使用多種方式來(lái)表示,如(rú)每個像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從(cóng)實例中學習任務(例如(rú),人(rén)臉識别或面部表情識别)。深度學習的好處是用非監督式或半監督式的特征學習和分(fēn)層特征提取高效算法來(lái)替代手工(gōng)獲取特征。

 

當常規推薦算法已經無法及時地分(fēn)析處理(lǐ)體(tǐ)量較大(dà)的數據并準确地針對獨立用戶做出推薦時,具備相(xiàng)應技術(shù)水平的公司開始利用深度學習解決海量内容分(fēn)析推薦的痛點。我們以較早開始引入深度學習的YouTube、Facebook爲例進行分(fēn)析。

 

1.YouTube的神經網絡

 

YouTube的推薦系統是是世界上規模******、最複雜的推薦系統之一。YouTube的全球用戶已經超過十億,每秒上傳的視頻長度以小時計(jì)。視頻“語料”庫存日(rì)益增長,就(jiù)需要一個推薦系統及時、準确地将用戶感興趣的視頻不斷推薦給用戶。

 

相(xiàng)比其他(tā)商業推薦系統,Youtube推薦系統面臨三個主要的挑戰:

 

①規模。現有絕大(dà)多數可(kě)行的推薦算法,在處理(lǐ)YouTube級别的海量視頻就(jiù)力不從(cóng)心了。

 

②新鮮度。YouTube視頻“語料”庫不僅僅是儲量巨大(dà),每時每刻上傳的新增視頻也是源源不斷。推薦系統要及時針對用戶上傳的内容進行分(fēn)析建模,同時要兼顧已有視頻和新上傳視頻的平衡。

 

③噪聲。由于用戶行爲的稀疏性和不可(kě)觀測的影(yǐng)響因素,用戶的曆史記錄本質上難以預測。

 

爲了解決這些問(wèn)題,YouTube推薦系統将研究重點轉移到深度學習,使用Google Brain開發的TensorFlow(Google研發的第二代人(rén)工(gōng)智能學習系統)系統爲推薦系統帶來(lái)了開發測試上的靈活性。

 

YouTube推薦系統主要由兩個深度神經網絡組成:******個神經網絡用來(lái)生(shēng)成候選視頻列表;第二個神經網絡用來(lái)對輸入視頻列表打分(fēn)排名,以便将排名靠前的視頻推薦給用戶。

 

候選視頻生(shēng)成是依靠協同過濾算法産生(shēng)一個寬泛的針對用戶的個性化推薦候選名單。排名神經網絡是基于******個候選生(shēng)成網絡的列表,提供更精細的區分(fēn)細化,從(cóng)來(lái)達到較高的推薦命中率。通過定義目标函數來(lái)提供一系列描述視頻和用戶的特征,排名網絡則根據目标函數來(lái)給每一個視頻打分(fēn)。分(fēn)數最高的一組視頻就(jiù)被推薦給用戶。

 

正是YouTube海量級别的視頻才産生(shēng)了深度學習的需要,有效彌補了協同過濾存在地處理(lǐ)數據耗時長等問(wèn)題。

 

2.Facebook邁出的一大(dà)步

 

Facebook近10年(nián)來(lái)一直沿用其Newsfeed功能實現個性化推薦。2006年(nián)9月份,NewsFeed(信息流)問(wèn)世,同時問(wèn)世的還(hái)有MiniFeed(個人(rén)動态)。NewsFeed是一個系統自(zì)動整合生(shēng)成的内容信息流,它自(zì)行來(lái)決定我們讀(dú)到哪些新聞、動态、事(shì)件(jiàn)。它所覆蓋的範圍,其信息推送的******度,以及其影(yǐng)響力遠(yuǎn)超過我們的想象,可(kě)以說(shuō)NewsFeed是Facebook在人(rén)工(gōng)智能上所走的一大(dà)步。

 

Facebook是如(rú)何利用深度學習來(lái)評價内容和用戶的呢(ne)?

 

******,在檢視文本方面,Facebook使用“自(zì)然語言處理(lǐ)”技術(shù)來(lái)掃描每個人(rén)發的“狀态”和“日(rì)志”,以便“真正理(lǐ)解文本的語義”,不僅如(rú)此還(hái)要将它們評級。日(rì)志在掃描的過程中,系統會自(zì)動識别出“過度标題黨”或者“過度商業化”的内容,而且這樣的内容在NewFeed裡(lǐ)面是越來(lái)越少見(jiàn)到了。

 

第二,在内容翻譯上,當在處理(lǐ)非英語的語言時,Facebook工(gōng)程師(shī)專門(mén)開發了一個深度學習平台,每一天會對100多種語言所寫成的文本進行分(fēn)析,翻譯。比如(rú)當一個朋友以德語發表了一條動态時,NewsFeed會以英語體(tǐ)現出來(lái)給一個美國(guó)的朋友,營造了一個能夠跨過語言障礙的,人(rén)人(rén)實現互聯互通的數字虛拟環境。

 

第三,在識别物體(tǐ)方面,Facebook也在利用深度學習技術(shù)來(lái)識别照(zhào)片和視頻裡(lǐ)面的物體(tǐ),不僅如(rú)此,它還(hái)能進一步地去(qù)探究誰有可(kě)能對這些照(zhào)片感興趣,或者這些照(zhào)片跟哪些用戶相(xiàng)關聯,從(cóng)而推薦給目标用戶。

 

(三)深度學習之困境

 

深度學習能打遍天下無敵手嗎(ma)?

 

至少目前來(lái)看(kàn),深度學習隻是在Speech和Image這種比較“淺層”的智能問(wèn)題上效果是比較明顯的,而對于語言理(lǐ)解和推理(lǐ)這些問(wèn)題效果就(jiù)有點失分(fēn),也許未來(lái)的深度神經網絡可(kě)以更“智能”的解決這個問(wèn)題,但(dàn)目前還(hái)差點火(huǒ)候。

 

深度學習在推薦系統領域的研究與應用還(hái)處于早期階段。即使深度學習被認爲能夠解決協同過濾的冷(lěng)啓動、數據處理(lǐ)較慢(màn)的問(wèn)題,但(dàn)是風(fēng)光(guāng)之下,它也有自(zì)己的難言之隐。

 

******,成本太高。數據對深度學習的進一步發展和應用至關重要。然而過分(fēn)倚重有标注的大(dà)數據也恰恰是深度學習的局限性之一。數據收集是有成本的,而且标注成本已經開始水漲船(chuán)高,這就(jiù)使得(de)深度學習的成本過高。而且對于體(tǐ)量較小、數據較少的衆多小公司來(lái)說(shuō),即使有能力用深度學習改善個性化推薦結果,也面臨着沒有數據支撐的尴尬境地。

 

第二,降低成本的方案有沒有?有,但(dàn)是難以實現。深度學習分(fēn)爲有監督學習和無監督學習,大(dà)量無監督數據的獲取成本卻是微乎其微的。目前一般用的都(dōu)是監督學習,但(dàn)本質上基于監督學習的大(dà)多數推薦模型都(dōu)很難******規避現存問(wèn)題從(cóng)而提高推薦質量。無監督學習由于無需對數據進行加标簽等原因成本較有監督學習較低,但(dàn)目前深度學習對無監督數據的學習能力嚴重不足,因此深度學習在推薦系統中的應用仍處于早期階段。

 

新老派兩大(dà)力量相(xiàng)互抗争、相(xiàng)互促進但(dàn)又相(xiàng)互交融。傳統推薦技術(shù)在深度學習的沖擊下不斷完善,深度學習帶着趕超傳統推薦技術(shù)的強勢勁頭不斷革新但(dàn)也面臨着發展窘境。但(dàn)正是在多個平台的這種自(zì)我發展和革新的過程中,新老派的界限也變得(de)越來(lái)越模糊,越來(lái)越走向融合。即使堅持完善傳統推薦技術(shù)的公司也開始慢(màn)慢(màn)涉足到深度學習的領域中,深度學習發展較爲成熟的新派也并沒有完全摒棄老派技術(shù),那麽,未來(lái)到底何派爲王?

 

四.未來(lái)鹿死誰手?

 

内容C2M,本質上是對人(rén)心的一種洞察和預測。技術(shù)與人(rén)心的鬥法,并非一朝一夕便能奏功。人(rén)類思想的根本特征在于“意識”,即個體(tǐ)理(lǐ)解自(zì)己與他(tā)人(rén)的心理(lǐ)狀态,包括情緒意圖、期望、思考和信念等,并借此信息預測和解釋他(tā)人(rén)行爲的一種能力。

 

但(dàn)是,當前的人(rén)工(gōng)智能領域中存在着一個很嚴重的問(wèn)題:人(rén)們誤解了深度學習模型的工(gōng)作(zuò)機(jī)理(lǐ),并高估了網絡模型的能力。

 

通過深度學習,我們可(kě)以訓練出一個模型,它可(kě)以根據圖片内容生(shēng)成文字描述。這個過程被視作(zuò)機(jī)器“理(lǐ)解”了圖片和它生(shēng)成的文字。當某個圖像存在輕微改變,導緻模型開始産生(shēng)相(xiàng)當荒謬的字幕時,結果就(jiù)會讓人(rén)非常驚訝—模型失靈了。機(jī)器能找出一隻貓,但(dàn)機(jī)器仍然不能識别跟貓相(xiàng)關的所有信息。

 

回顧曆史不難發現,技術(shù)一直追求的目标,與其說(shuō)是讓機(jī)器替代人(rén)類,而不如(rú)說(shuō)是制造聰明的機(jī)器來(lái)提高效率。協同過濾技術(shù)的發展便是個明顯的例子。

 

最近幾年(nián)來(lái),互聯網巨頭制造“聰明的機(jī)器”的積極性異常高漲,也是效率使然。根據微軟研究院的估計(jì),亞馬遜網站(zhàn)上大(dà)約30%的頁面浏覽來(lái)自(zì)于推薦系統;Netflix首席産品官聲稱80%以上的電影(yǐng)觀看(kàn)來(lái)自(zì)于推薦系統,并稱Netflix推薦系統的價值每年(nián)高達十億美元;據阿裡(lǐ)巴巴披露數字,2013年(nián)當天由推薦直接引導的成交總額爲56.8億元。今日(rì)頭條則将公司核心業務架構在推薦引擎上,是當今最重視推薦技術(shù)的公司之一……

 

在内容C2M發展曆程中,盡管深度學習存在許多不足,但(dàn)深度學習主導未來(lái)是大(dà)概率事(shì)件(jiàn)。我們看(kàn)到代表着傳統推薦技術(shù)和深度學習的新老派在相(xiàng)互促進和相(xiàng)互融合,在全球流量前20的平台中,雖然有不少公司依然沿用采用協同過濾技術(shù),比如(rú)Google新聞,LinkedIn等,但(dàn)是其中一些公司也已經準備甚至已經采用深度學習等技術(shù)來(lái)改進自(zì)身(shēn)不足。而YouTube、Facebook等先行者已開始享受深度學習的紅(hóng)利。

 

從(cóng)飼養員(yuán)模式到聰明的機(jī)器,内容産業的C2M已然成勢,颠覆日(rì),不遠(yuǎn)了。

 

我們可(kě)以相(xiàng)信,雖然深度學習還(hái)存在着一些制約因素,但(dàn)是,随着AI技術(shù)和産業的強勁發展,技術(shù)上的瓶頸終究會被突破。

 

需要警惕的是,在C2M跨越了準确、隐私兩座大(dà)山(shān)後,人(rén)類通過AI掌握了新的力量,掌握者的欲望和野心,也應該受到一定的控制,尤其是價值觀問(wèn)題,将顯得(de)越發重要。