在“All in AI”的策略指導(dǎo)下,百度交出了一份這幾年來最漂亮的成績單。
截至3月31日的第一季度財報顯示,百度第一季總營收猛增31%,至 209 億元人民幣(33.3億美元),凈利潤 67 億元(11億美元),每股收益 16.6 人民幣 (2.60 美元),均高于市場預(yù)期。
數(shù)據(jù)是一片大好,看起來百度正走出低谷期。
這得益于兩個方面,一是組織的優(yōu)化,百度壯士斷腕,拋棄了不少累贅業(yè)務(wù);另外,也是因為在 AI 方面的押注取得了回報。
AI 帶來的盈利,最直接還是體現(xiàn)在了廣告上。陸奇表示這一季度里,百度首次在廣告系統(tǒng)鳳巢里,部署了強化學(xué)習(xí)技術(shù),能實現(xiàn)更精準的營銷。這達到了一個工程上的新里程碑。
強化學(xué)習(xí)其實不是個新鮮概念了,那么它具體是干啥?百度如何用它賺錢的?
真正意義上的自學(xué)成才
強化學(xué)習(xí)是機器學(xué)習(xí)的一個分支,相對應(yīng)的是監(jiān)督學(xué)習(xí),還是拿 Alpha Go 舉例:
過去采用監(jiān)督學(xué)習(xí)的 Alpha Go,需要輸入大量人類棋手的下法、對弈棋局等數(shù)據(jù),然后通過模擬完成“左右互搏”,最終不斷尋得更科學(xué)的下法,也就是說,它其實還是在“模仿”人類。
而采取了強化學(xué)習(xí)的最強版本 Alpha Go Zero 不同,它不需要對著人類的玩法照貓畫虎。了解到基本的規(guī)則以及最終要達到的目標后,就開始“隨便下”,如果下贏了,就會得到獎勵,然后指導(dǎo)下一步的決策;如果輸了,就會有懲罰。在這種嘗試——反饋——學(xué)習(xí)的過程中,完成自我進化。
某種角度來看,強化學(xué)習(xí)更接近智慧生命體的思維模式。通過不斷地試錯,獲得來自環(huán)境的反饋,從而獲取到更多地知識和數(shù)據(jù)。
那么,它能帶來什么好處呢?顯而易見,一是無需在前期輸入大量的數(shù)據(jù),減少準備的時間和成本,畢竟優(yōu)質(zhì)的大數(shù)據(jù)并不是隨時都能獲取的;二是適應(yīng)性強,它是真正意義上的“完全自學(xué)”,幾乎能被應(yīng)用在任何領(lǐng)域,理論上講,如果算力跟得上,它能解決任何問題。
當(dāng)然問題也出在這兒,因為完全是“兩眼一抹黑”式的自我探索,所以強
帶來的效果就是,客戶爸爸們的錢能花在刀刃上,花更少的錢,得到更精準的曝光。當(dāng)然,百度和 Google 們過去一直都是這么做的,只不過這是技術(shù)的有一次升級而已。
為什么要用強化學(xué)習(xí)?
就像之前提到的,它的優(yōu)勢在于:無需在前期就輸入大量數(shù)據(jù),直接可以上線,并在線完成學(xué)習(xí)的過程。
因為對于許多廣告來說,它并沒有太多可以參照的數(shù)據(jù),前人雖有成功案例,但時間、平臺、目標人群的不同,都會導(dǎo)致過去的經(jīng)驗沒法直接套用,監(jiān)督式的機器學(xué)習(xí)算法,學(xué)無可學(xué)。
這時候,強化學(xué)習(xí)就有用武之地了,它可以分析投放廣告本身的效果,而無需去尋找其他大數(shù)據(jù)作為參考,即插即用,方便快捷。
據(jù)量子位報道,長安汽車就在使用之后發(fā)現(xiàn)CTR(點擊通過率)顯著提高,轉(zhuǎn)化價格明顯降低,于是將每日投放預(yù)算提高了5倍。
不過,就像上文提到的,強化學(xué)習(xí)也有其自身的問題。如何優(yōu)化模型,使最終結(jié)果更快、更可信,是百度要面臨的技術(shù)考驗。
就像前 Facebook 工程師 Jeff Hammerbacher 的那句名言“我們這一代最聰明的人,竟然都在這里思考著怎樣讓人們?nèi)ゴ罅康狞c擊廣告”一樣,百度的技術(shù)說得頭頭是道,結(jié)果最后還是投廣告的事,肯定免不了被批判一番。
但其實,人類歷史上,任何技術(shù)的誕生初衷,都是為了商業(yè)服務(wù)的,而商業(yè)帶來的資本也能反哺技術(shù)的迭代。這個過程循環(huán)反復(fù),社會和文明自然而然就實現(xiàn)了進步。
競價醫(yī)療廣告除外。