「Spark SQL不僅僅是SQL」,Spark 核心開發者的范文臣表示,Spark SQL除了強化Spark處理結構化數據的能力,同時也為用戶提供結構化API,「如果時光可以倒流,我們可能會稱它為Spark Structure。」 Spark的分散式計算模型RDD(Resilient Distributed Dataset)雖然簡單,但是相當通用,像是Spark SQL、Spark Streaming及圖像API模組GraphX,都是以RDD為基礎進行實作。但范文臣表示,此模型也有其限制,「它像是黑盒子,導致開發者不易進行修改、優化。」
from iThome 新聞 http://ift.tt/2ljELsm
沒有留言:
張貼留言