
為了解決性能瓶頸問題,有兩條路徑可供選擇:一條是迅速擴(kuò)大基礎(chǔ)設(shè)施建設(shè)規(guī)模,但會(huì)增加成本壓力,并提升系統(tǒng)的整體復(fù)雜度;另一條是從系統(tǒng)與軟件層面進(jìn)行優(yōu)化,具備更高的經(jīng)濟(jì)性與可行性。經(jīng)過對TensorFlow框架與業(yè)務(wù)的分析定位,美團(tuán)發(fā)現(xiàn)業(yè)務(wù)中的TensorFlow集群均衡負(fù)載與分布式集群的通信機(jī)制、延遲、單實(shí)例性能,都是亟需重點(diǎn)優(yōu)化的方向,與英特爾合作探索第二條路徑勢在必行。明確方向后,美團(tuán)將TensorFlow系統(tǒng)構(gòu)建在基于英特爾可擴(kuò)展處理器的服務(wù)器集群上,并采用CPU進(jìn)行TensorFlow模型訓(xùn)練,在推薦系統(tǒng)場景中還使用了TensorFlowPS異步訓(xùn)練模式,支持業(yè)務(wù)分布式訓(xùn)練需求。
據(jù)了解,美團(tuán)從單實(shí)例性能、分布式計(jì)算優(yōu)化等多層面進(jìn)行了全方位實(shí)踐。新系統(tǒng)在支持能力層面,可做到千億參數(shù)模型、上千Worker分布式訓(xùn)練的近線性加速、全年樣本在1天內(nèi)完成訓(xùn)練,并支持在線深度學(xué)習(xí)的能力;各種架構(gòu)和接口也更友好,得到了美團(tuán)業(yè)務(wù)部門的認(rèn)可。