国内精品久久久久久久星辰影视-亚洲天堂久久精品成人-亚洲国产成人综合青青-91精品啪在线看国产网站-日韩一区二区在线观看

?
    行業(yè)新聞 / Industry contribution

    微軟開源核心技術(shù),布局下一代產(chǎn)業(yè)格局

    日期:2015年12月4日  作者:超級管理員  來源:昆明逆火科技股份有限公司    點(diǎn)擊:730

       還記得11月9日Google Research推出第二代開源機(jī)器學(xué)習(xí)軟件庫TensorFlow吧,谷歌稱在建立和訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面,TensorFlow速度要比第一代系統(tǒng)快5倍,可支持 CPU、GPU、桌面機(jī)、服務(wù)器和移動(dòng)計(jì)算等平臺。TensorFlow吸引了開發(fā)者廣泛的眼球。

       就在同一天,微軟亞洲研究院也開源了分布式機(jī)器學(xué)習(xí)工具包DMTK。開源版DMTK包含了目前世界上最大規(guī)模的主題模型和分布式詞向量模型,據(jù)稱比同類模型高了好幾個(gè)數(shù)量級。以至于有開發(fā)者驚呼,怎么微軟也能把這樣的核心技術(shù)給開源了?

       那么,什么是DMTK分布式機(jī)器學(xué)習(xí)包?這還要從DMTK的開發(fā)歷史說起。DMTK的主要研發(fā)負(fù)責(zé)人、微軟亞洲研究院人工智能研究組首席研究員、美國卡耐基·梅隆大學(xué)(CMU)博士生導(dǎo)師劉鐵巖告訴記者,

    近年來全球機(jī)器學(xué)習(xí)領(lǐng)域主要有三大趨勢:更大規(guī)模的機(jī)器學(xué)習(xí)、更深度的機(jī)器學(xué)習(xí)以及更強(qiáng)交互性的機(jī)器學(xué)習(xí),這些都是基于大數(shù)據(jù)與云計(jì)算的興起。

       微軟亞洲研究院從兩年前開始研發(fā)DMTK分布式機(jī)器學(xué)習(xí)系統(tǒng)。首先,DMTK通過分布式計(jì)算部署的方式滿足了大規(guī)模機(jī)器學(xué)習(xí)的要求。由于云計(jì)算和高性能處理器的普及,讓機(jī)器學(xué)習(xí)從單機(jī)環(huán)境擴(kuò)展到多機(jī)環(huán)境甚至是集群系統(tǒng)。分布式機(jī)器學(xué)習(xí)就是通過在更為廉價(jià)的集群系統(tǒng)上部署機(jī)器學(xué)習(xí)的算法,把原來單機(jī)的計(jì)算能力擴(kuò)展到成千上萬臺服務(wù)器上。

       DMTK開源版提供了簡單高效的分布式機(jī)器學(xué)習(xí)框架,它由參數(shù)服務(wù)器和客戶端軟件開發(fā)包(SDK)兩部分構(gòu)成。開發(fā)者只需要簡單幾行代碼,就可以非常容易地把自己開發(fā)的機(jī)器學(xué)習(xí)算法從單機(jī)環(huán)境擴(kuò)展到多機(jī)或集群環(huán)境。這大幅降低了機(jī)器學(xué)習(xí)的門檻,無論是高校研究者或是商用機(jī)器學(xué)習(xí)開發(fā)商,都能基于微軟DMTK開源版輕松擴(kuò)展機(jī)器學(xué)習(xí)算法的計(jì)算環(huán)境和計(jì)算資源,從而實(shí)現(xiàn)基于大數(shù)據(jù)的大規(guī)模機(jī)器學(xué)習(xí)。

       其次,DMTK還提供了豐富的機(jī)器學(xué)習(xí)算法,以滿足更為深度、更為快速的機(jī)器學(xué)習(xí)。目前開源版的DMTK包含了其中兩款獨(dú)具特色的機(jī)器學(xué)習(xí)算法:LightLDA主題模型和分布式詞向量模型。

       什么是主題模型呢?互聯(lián)網(wǎng)和社交平臺等催生了龐大的文本內(nèi)容,通過機(jī)器學(xué)習(xí)對這些內(nèi)容進(jìn)行數(shù)據(jù)挖掘,可以得出相關(guān)的主題(Topic),這是機(jī)器學(xué)習(xí)和文本理解的基礎(chǔ)。據(jù)劉鐵巖介紹,DMTK提供的LightLDA算法是當(dāng)前世界上唯一一款能訓(xùn)練超過100萬個(gè)主題的機(jī)器學(xué)習(xí)算法,它僅用20臺服務(wù)器(300余個(gè)CPU內(nèi)核)就能訓(xùn)練如此龐大的主題模型,這讓其它同類系統(tǒng)望塵莫及。

       去年曾經(jīng)獲得國際數(shù)據(jù)挖掘大會(huì)(KDD)最佳論文獎(jiǎng)的AliasLDA算法,要用多達(dá)1萬個(gè)CPU內(nèi)核才能完成2000個(gè)主題的訓(xùn)練。 LightLDA算法之所以能夠用比AliasLDA少很多的計(jì)算資源訓(xùn)練出高若干數(shù)量級的模型,是因?yàn)樗哂幸环N獨(dú)創(chuàng)的、讓運(yùn)算復(fù)雜度與主題數(shù)目無關(guān)的高效采樣方法。這樣一來,即使訓(xùn)練再多的主題數(shù),也無需更大規(guī)模的計(jì)算資源。據(jù)了解,LightLDA已經(jīng)幫助微軟的很多關(guān)鍵產(chǎn)品實(shí)現(xiàn)了性能的飛躍。

       另一個(gè)更為神奇的分布式詞向量訓(xùn)練模型算法,能夠更好地計(jì)算兩個(gè)詞之間的“距離”。簡單地說,過去通過搜索引擎搜索內(nèi)容,主要依靠搜索關(guān)鍵詞的精確匹配。如果在被搜索的網(wǎng)頁上出現(xiàn)了與搜索關(guān)鍵詞相同的詞匯,被搜索網(wǎng)頁鏈接就會(huì)出現(xiàn)在搜索結(jié)果頁面。但在廣告展示、話題探索、垂直搜索等應(yīng)用領(lǐng)域,更多需要的是語義級別匹配,也就是在語義方面的相關(guān)性匹配。詞向量模型通過挖掘文本數(shù)據(jù),為每一個(gè)詞訓(xùn)練出上千個(gè)相關(guān)指標(biāo)(維度),而帶有上千個(gè)維度的一個(gè)詞即為一個(gè)向量,通過數(shù)學(xué)方式計(jì)算兩個(gè)詞向量之間的距離,即可以有效地表征兩個(gè)詞之間的語義相關(guān)度。

       DMTK中包含的分布式詞向量模型是目前市面上唯一的一款詞向量模型的多機(jī)版,它可以把單機(jī)計(jì)算資源擴(kuò)展到多機(jī)或集群中,從而更快、更高效地學(xué)習(xí)詞向量。分布式詞向量模型把“搜索”推進(jìn)到了“探索”階段,這有望給整個(gè)搜索和相關(guān)產(chǎn)業(yè)帶來顛覆性變化。

       據(jù)了解,DMTK已經(jīng)被應(yīng)用到了微軟的必應(yīng)搜索引擎、廣告、小冰等多款在線產(chǎn)品當(dāng)中,實(shí)現(xiàn)了更強(qiáng)交互性的機(jī)器學(xué)習(xí)。以微軟小冰為例,作為聊天機(jī)器人,人類用戶與小冰的平均每次對話輪數(shù)達(dá)到了18輪,而此前最領(lǐng)先同類機(jī)器人的平均輪數(shù)僅有1.5至2輪。這就說明微軟小冰在與人類對話中對相關(guān)詞匯的“命中率”遠(yuǎn)高于同類技術(shù),創(chuàng)造了更好的交互性機(jī)器學(xué)習(xí)體驗(yàn)。

       DMTK開源版在Github開源社區(qū)發(fā)布一周以來始終保持在Top 10的位置,DMTK官網(wǎng)目前的訪問量已經(jīng)突破百萬,DMTK可執(zhí)行文件下載量達(dá)到十余萬次,而GitHub開發(fā)人員也是在一周之內(nèi)就給DMTK上千顆星,這是很多同類開源項(xiàng)目幾年都無法達(dá)到的熱度。

       同一天開源的TensorFlow和DMTK之間到底有什么區(qū)別呢?記者了解到,谷歌目前開源出來的TensorFlow,作為單機(jī)深度學(xué)習(xí)工具并不支持分布式計(jì)算,而微軟DMTK開源版則支持分布式、異構(gòu)、異步計(jì)算集群環(huán)境部署。另外,谷歌的TensorFlow主要是系統(tǒng)實(shí)現(xiàn),并不包含算法方面的創(chuàng)新;而DMTK則兩者兼顧,因此可以用更少的資源,訓(xùn)練出大N個(gè)數(shù)量級的模型。

       那么為何科技巨頭們紛紛將機(jī)器學(xué)習(xí)技術(shù)開源?這一方面是為了推進(jìn)整個(gè)機(jī)器學(xué)習(xí)應(yīng)用的普及,通過開源高端算法和軟件,為人工智能和機(jī)器人產(chǎn)業(yè)打開新的機(jī)遇之門。另一方面則是在更深層次拉動(dòng)各自的軟件與算法生態(tài),從戰(zhàn)略技術(shù)制高點(diǎn)布局下一代產(chǎn)業(yè)格局。