SQL分析為康卡斯特遙測分析提供支持

2021年5月28日上午10:30(太平洋時間)

下載幻燈片

康卡斯特是通信、娛樂和有線電視產品和服務的領先供應商之一。它的核心是康卡斯特RDK公司為該行業提供了遙測技術的支柱。RDK(參考設計工具包)是一個預先綁定的開源固件,用於一個完整的家庭平台,涵蓋視頻、寬帶和物聯網設備。Beplay体育安卓版本康卡斯特的RDK團隊分析每15分鍾從客戶家中安裝的7000萬台設備(視頻、寬帶和物聯網設備)中收集的pb級數據。他們每天運行ETL和聚合管道,發布分析儀表板,以減少客戶呼叫和固件推出。該分析還用於計算WIFI幸福指數,這是康卡斯特客戶體驗的關鍵KPI。

除此之外,RDK團隊還通過分析RDK固件質量來進行發布跟蹤。SQL Analytics允許客戶操作一個beplay体育app下载地址湖屋架構,在數據湖經濟中提供數據倉庫性能,SQL工作負載的價格/性能比傳統雲數據倉庫高4倍。

我們展示了使用SQL分析和與Databricks團隊合作的增量引擎“測試和學習”的結果。我們將展示一個快速的演示,介紹SQL本機接口、我們在遷移過程中麵臨的挑戰、執行的結果以及我們將其大規模生產的過程。

在這節課中觀看:
Suraj Nesamani, Comcast開發者
Molly Nagamuthu, Databricks的架構師

成績單

Molly Nagamuthu:大家好,感謝大家來到這裏。歡迎來到SQL分析講座。在今天的議程中,我們將簡要介紹一下Lakehouse平台,它是什麼,為什麼我們需要它,以及SQL分析在哪裏適用。Beplay体育安卓版本我們還將深入了解SQL Analytics。我今天的合作者,Suraj Nesamani,將會跟進所有我們測試的遙測用例的細節。在我們進行簡短的自我介紹之前,我的名字是Molly Nagamuthu。我是Databricks的常駐解決方案架構師。在這個職位上,我有很好的機會與我們的關鍵戰略客戶一起工作,利用我們的Databricks平台幫助他們在最困難的數據和人工智能實現方麵。beplay体育app下载地址Beplay体育安卓版本我在產品開發、工程和專業服務方麵有20多年的經驗。在我有機會合作過的一些很棒的公司,在不同的行業,這是一段很有意義的經曆。 I’ve been with Databricks for about two years and I’m loving it.
讓我們開始吧。Datebricks的願景是為所有企業提供數據驅動的創新。為了使這一切成為可能,我們引入了湖屋平台。Beplay体育安卓版本Lakehouse是Databricks公司推出的一個概念,旨在讓企業更容易地將最好的數據倉庫和數據湖組合到一個平台上。Beplay体育安卓版本我們為什麼需要這個?因為盡管該領域取得了所有的進步,但大多數企業仍在為數據而掙紮。如果您需要構建一個端到端數據驅動的企業,那麼您需要構建四個不同的棧,如這裏所示,以處理您的所有數據需求。這就是數據工程、數據倉庫、實時攝入、數據科學和ML。通常,就目前的情況而言,它們是非常不同的技術,通常不能很好地協同工作。這樣做的原因是,如您所見,有大量可用的工具。
唯一的問題是它們是斷開的。在某些情況下,您必須處理各種專有格式。當你在其中添加具有不同技能的角色時,我們現在談論的是豎井式的數據團隊,他們不能有效地溝通,結果導致生產力下降,核心問題是建立在技術堆棧之上的技術,為了解決這些問題,Databricks提供了一個完整的Lakehouse平台。Beplay体育安卓版本它在雲中運行,在所有的雲中運行。因此它是多雲的,並與所有不同的雲原生功能緊密集成。您的數據可以保留在一個開放的數據湖中。
Databricks與Delta提供數據管理和治理,以確保安全性、可靠性和性能。它支持一個平台上的所有工作負載,包括數據工程、BI數據科學和實時應Beplay体育安卓版本用。將所有這些工作保持在一個平台中,可以簡化數據團隊的工作,並允許輕Beplay体育安卓版本鬆的協作。現在讓我們關注Databricks SQL Analytics。
到目前為止,我們有5000多名客戶。beplay体育app下载地址而作為火花德爾塔動物流的最初創造者,我們與各行各業的企業都積累了豐富的合作經驗。我們已經在數據攝取ETL處理和機器學習方麵建立了可靠的跟蹤記錄。唯一需要處理的差距是為BI和SQL Analytics提供一個健壯的機製。
現在我們有了我們工具套件的最新成員,Databricks的SQL Analytics。它在Databricks中為SQL分析師提供了一個家,能夠查詢您的湖邊小屋,提供更好的價格和性能,簡化發現和共享新見解,連接到熟悉的工具,如Tableau或power BI,並簡化管理和治理。除了本機的可視性和可視化工具之外,SQL分析還為所有現有的BI應用程序提供支持。BI工具的範圍非常廣泛,包括Tableau和Power BI。您可以連接SQL分析端點以獲得可靠的數據和快速的查詢性能。
現在讓我們看看It支持的一些廣泛用例。他們主要是三倍。第一個是通過將您首選的BI工具(如Tableau或Power BI)與SQL分析端點連接到您的數據湖,從而最大化現有投資。連接器經過了完全的重新設計和優化,以確保數據湖的快速性能、低延遲和高用戶並發性。
第二種是通過為組織中的分析人員設計的自替代體驗,更快地響應業務需求。Databricks SQL Analytics提供了對數據的簡單而安全的訪問。您可以創建或重用後續查詢,並快速模擬和迭代最適合業務的可視化和儀表板。最後但並非最不重要的是,您可以為自己的組織或客戶構建豐富的自定義數據增強應用程序。beplay体育app下载地址現在我想指出的是,這裏的關鍵是你在你的數據湖上做所有這些,而不是將數據轉移到任何工具來獲得這些見解。數據湖上的數據總是可用的。
現在讓我們看看它是如何工作的,是什麼組件使它成為可能。首先,我們需要確保在數據湖中以一種開放的格式管理數據。不管它是結構化數據還是非結構化數據。數據湖成為體係結構的基礎部分。當然,我們需要一個本地的後續界麵來查詢整個數據湖,並能夠可視化這些結果。如果我們正在連接現有的BI工具,那麼我們將需要優化的連接器來連接您的數據。這些是由數據庫提供的。其次是計算機本身。如果您過去使用過Databricks,您就會知道通過創建和配置集群來設置計算是多麼容易,但是SQL Analytics通過後續端點將其進行了進一步改進,並將這種複雜性抽象了很多,使其更加簡單。
最重要的部分是一個強大的,完全重寫的向量化續作引擎。你可以得到所有的性能提升。為了在Databricks工作空間中查看所有這些內容,讓我們進行一個快速演示。需要澄清的是,這不是我們將要展示的用例的演示,這是上一張幻燈片的延續,以查看我們剛剛討論的所有組件,以及它們在Databricks工作空間中的樣子。讓我們繼續並登錄到Databricks工作空間。一旦你登錄到你的Databricks工作空間,你會看到你的常規數據工程工作負載和你的集群和一切;和你習慣的一樣。你還可以看到你的ML端到端管道,所有的ML模型等等。如果你,如果後續分析安裝在工作區中,那麼如果你想訪問,你可以從這裏訪問它。
我們繼續點擊它。一旦我們有了它,這就是秘密分析的主界麵。因此,讓我們先看看探索性數據分析用例,我們可以繼續創建查詢、儀表板或警報。一旦我們點擊create query,這裏有SQL編輯器,編輯器會自動開啟自動填充功能。當你輸入時,你會看到有哪些選項可用,如果你想要禁用它,你可以,你可以通過點擊這裏禁用它,你可以創建底部,try square很容易,如果你需要的話。這就是所有你可以訪問的數據庫的數據瀏覽器而且訪問可以很容易地控製使用-使用大語句。你可以看到表的模式,以及其他你可以訪問的數據庫等等。
這是終點。我們稍後會講到這個。這是SQL Analytics的主要計算。讓我們來加載我們已經擁有的查詢。我們隻是想探索TPCs數據庫。我隻是在做一個簡單的查詢,看看有哪些可用的呼叫中心。讓我繼續今年執行。不會占用太多時間,是的,我們有。對於結果,我們可以很容易地添加可視化效果。你可以看-你可以選擇x軸y軸和任何東西,任何按列的聚合,你可以,你可以創建任何你想要的。 We just fired a very simple query, so I’m just going to use the simplest visualization possible on this. I’m just looking at how many employees are distributed for- per call center for each of these cities.
一旦您有了查詢的可視化,您就可以很容易地將其添加到儀表板中,隻需將該可視化添加到儀表板中。現在讓我們看看如何拉動這些儀表盤。我們有一個儀表盤,在那裏我們添加了那個查詢。我們有另一個查詢,我們剛剛將儀表板添加到儀表板中,那隻是我剛剛運行的聚合的一個查詢。接下來,讓我們,也可以為這些查詢設置警報,為某些條件。這裏我有一個總和的警報集,它大於100萬美元,我可以在這裏為警報的電子郵件添加任意數量的用戶。這很容易設置。如果你把儀表板設置為定期刷新,我不會設置為刷新來展示這個功能。
一旦你有了刷新計劃,你就會知道,狀態會根據,發生在儀表板上的刷新被觸發。這就是我們如何進行探索,使用後續分析進行探索。現在我們來看看可用的端點。對於這裏的端點,有兩個端點在運動。正如我之前提到的,這些是t恤大小的,大的和中號的,要創造一個想法非常簡單。沒有很多。你隻需要做名字,端點的t恤大小,活動的分鍾數來自動停止負載平衡最小和最大值,然後我們是否需要photon打開或關閉,photon需要我們剛剛說過的向量化查詢引擎。當然還有現貨實例政策,等等。
現在,一旦我們有了端點,讓我們看一下這個的連接細節。它帶有這個URL。這是你用來從Tableau或Power BI或任何BI工具連接它的URL。端點也有一個SQL端點API。你可以使用那個端點到API來觸發,自動化端點並從你的應用程序執行查詢。另一個是,一些隨監控指標而來的指標,查詢的數量,峰值運行查詢的峰值和峰值緊急查詢的峰值,在這裏我們沒有太多的事情發生它沒有,它是一個共享共享集群;這不僅僅是我們剛剛運行的負載。它也有端點使用的簇的數量。這裏它不大於1 -我們把它設為均值為1,最大值為4,但它看起來隻使用了一個聚類。
這些是一些,這些是其中的一些,我們剛剛討論了SQL分析的一些特性在整個峰會中,我們對每一個的討論,我們現在不打算深入討論因為我們還需要討論我們測試它的用例。有很多演講都對這些組成部分做了深入的探討。所以,請大家看一下。這是每個t恤大小端點的集群級映射。
讓我們看一些其他的參考資料。在Databricks網站上還有很多其他的資源。我們還可以在Databricks的Lakehouse平台上通過我們的SQL Analytics、MVP客戶成功產品加速您的BI用例,該產品Beplay体育安卓版本將於第二季度發布。對於我剛才提到和展示的每一個組成部分,他們在峰會上進行了很多相關的會談。所以我們會,如果你之前錯過了這些,我們會在我們的虛擬平台上提供,我想一個月左右。Beplay体育安卓版本現在來告訴我們我們在康卡斯特工作的遙測用例,我把話筒交給今天的合作者,Suraj Nesamani,你先請。謝謝每一個人。

Nesamani:謝謝,莫莉。大家好。謝謝你的到來。在我開始之前,讓我先介紹一下我自己。我叫Suraj Nesamani。我是康卡斯特公司的首席工程師。我有15年的工程經驗,主要專注於RDK遙測和大數據分析。我領導著一個由分析師和工程師組成的團隊,他們負責構建RDK平台,分析平台。Beplay体育安卓版本我專門研究RDK遙測分析,為什麼它們會成為索引pod推薦引擎,當然還有處理pb級的標量數據集。現在讓我們來談談RDK[聽不清]RDK是Rutgers Descent Kit的縮寫,是一種開源格式,它預先捆綁在你家裏的任何設備上,包括Comcast[聽不清]。 So be it a video broadband device or IOT devices. To give you an example, if you’re on a phone with a service tech, because you set your set up box or your wifi gateway- gateway is not working, and they are sending a radio signal to a center box.
這是他們所在的手機,我們與之互動的手機。在早期,康卡斯特創建了這個規範,但現在它是開源的,在媒體行業和遙測行業非常流行,幾乎所有有RDK的設備都有遙測功能。我們在北美安裝了近1700萬台設備。我們對RDK設備上的遙測數據做了很多ETL聚合。我們用這些數據開發了儀表板,用於商業論證和這個增加的製作和推廣前者。現在讓我們談談RDK遙測和數據管道架構。任何預先構建的帶有RTK固件的設備都被稱為—我們稱之為文章設備。我們有近1700萬台設備,分布在全國各地。我們每天從這些設備上收集的數據接近24tb。
正如這個詞所說,遙測隻是設備本身收集的數據。我指示設備感知,遙測事件,每15分鍾,數據被收集到雲端。現在讓我們看看數據是如何在雲中收集的。RDK遙測[聽不清]數據通過曆史TP傳輸。我們使用Apache流來收集傳入的數據。一旦數據被收集到流感報告中,我們將其發送到CAF Apache Kafka進行實時流媒體傳輸,同時也發送到Splunk進行一些[聽不清]查詢,比如[聽不清]查詢,看看數據看起來如何或者我們想在數據上看到的任何東西。現在讓我們看看如何處理數據。我們在Kafka上有實時數據。所以我們把它作為數據流,處理到Spark EMARS,然後生成格式化的拚花文件。這些文件存儲在S3中,這是我們的存儲層。
然後我們將這些數據推送到S3和Redshift上,並在它們上運行另一個聚合查詢到CA,以獲得用於儀表板上的業務決策或任何MLR分析的聚合數據。現在,讓我們談談,看看我們的紅移簇是什麼樣子的。所以我們的集群,我們的活動集群是12個節點集群DC到8個大的音符。我們每天執行超過1000個查詢,CPU使用率非常高。大部分,但是考慮到你看到的數字,我們擁有的數據量,我們使用視頻重連接來收集數據,來獲取數據,來獲取聚合的數據。舉個例子,比如說,如果你想看一部電影,叫做,Kali spiking著色,客戶開始給我們打電話,我們開始接到很多電話,我們想知道,好吧,電話來自哪個區域。
現在你可以想象,我有這個填充數據,我有這個遙測數據。然後我有了這個賬戶數據,我必須把整個東西連接起來,看看問題出在哪裏。這讓教室一直很忙,但這部分是我們五年前建的。在那些日子裏,沒有尖端技術我們的數據也能做得更好。所以它一直運行得很好,但是,我們覺得是時候探索新的想法和更好的方法了,好吧,我們可以如何更好地探索市場上的新技術。讓我們看看紅移群的掌聲和反對者。吸收數據和儲存都很容易,儲存中的英語也很容易。隻需要添加注釋。紅移在處理複雜查詢方麵非常好,它很健壯,但我們在長時間存儲數據方麵遇到了挑戰,因為你必須旋轉更多的集群,這是昂貴的。
價格是我們建立更多集群時的另一個主要概念。現在,計算和存儲緊密耦合的事實給我們帶來了一些挑戰,我們要為峰值負載和數據提供和支付。隨著當天數據集的增加,這就變得非常昂貴。然後這些就像靜止的簇。所以我們每天早上,他們,我們需要一些業務儀表盤來填充,他們一整天都在做決定。無論如何,我們都要填充數據。當我們需要管理集群的時候,CPU可能會出現峰值,我們有一個盒子,我們有一個我們設置的工作負載管理。所以我們得到,我們得到一個查詢框,那,那使儀表板看起來是空的,團隊被困在那裏。
所以不管我們要填充什麼數據,我們要與TCP CPU和故事作鬥爭哪個查詢先運行,誰優先,等等。所以我們在探索替代方案,我們在尋找各種各樣的軟材料。這也是我們幾年前開始與Databricks合作的原因。好的,到目前為止,這是一個非常進步的關係,我們遷移了一些複雜的紅移管道使用spark 3 Data和Databricks,工作非常好。我們也可能把一些EMR工作負載轉移到我們的Databricks平台上。Beplay体育安卓版本我們也和Databricks一起做一些查詢優化。我們,我們,我們,我們,我們接受了一些數據庫方麵的培訓,這非常有用。我們升級了IX平台的新版本的數據,它更安全,更可擴展,更易於管理。Beplay体育安卓版本前麵描述過,我們的請求是得到更快、更便宜和更有效的方法來處理分析管道的請求。
當我在萊克豪斯建築幻燈片上看到這張圖片時,這對我們的平台意義重大。Beplay体育安卓版本我們想要付出,去嚐試;和Databricks啟用SQL分析,但在我們的工作空間的私人預覽。為什麼不給它一個機會,因為它無論如何在一個私人預覽,我們有特權給它一個嚐試。為了設置測試和著陸的範圍,我們選擇了10個最慢的查詢,以及我們在輪班中經常遇到的最沉重的查詢,以及像超時這樣的問題。他們收集了CPU使用率,所以我們選擇了10個最糟糕的查詢。我們有紅移。我們,我們,當我們想,好吧,我們在SQL Analytics中執行同樣的查詢,看看它是如何運行的。很難,很難在生產環境中單獨測試查詢。
讓我來設定期望。因此,由於我們一直在生產環境中運行其他查詢,模仿相同的環境並嚐試其運行速度,因此使用相同的集合、相同類型的集群是非常昂貴的。所以這不是蘋果和蘋果之間的比較,當我們運行這些查詢時,我們把我們的Vista,保持CPU空閑。當我們執行這個查詢時,它不是一個蘋果與蘋果的比較。但我們能做的最接近的是通過在Databricks上運行無圖書工作得到一個大致的數字。我們還想比較一下在數據Databricks上運行它,而不轉換為任何格式。
我們分配了2到3周的時間進行在線測試,我們決定使用Databricks內部的金屬爐。因為我們的大部分數據都在S3中。我們也有時間限製來進行測試。我們需要管理權限來創建數據[聽不清]分析端點。我們沒有在ACS上為各種查詢做好太多準備。我們要讓它快速啟動並運行,看看它是如何工作和運行的。第一個任務是轉換spark SQL查詢,90%的轉換很直接。我們必須想出創造性的解決辦法。由於運行了筆記本作業,我們對節點大小有了大致的了解。我們測試了SQL Analytics,超大點的。 We have seen benefits of Delta in the past. Plus we wanted to see how it perform this photon. So we tested against a photon as well.
下一張幻燈片,你可以看到細胞。所以看到這個結果是非常令人驚訝的。我們測試的工作量範圍很廣。那些性能非常好的是那些具有聚合和複雜查詢的。舉個例子,如果你看到第二組,我們加入了一個數據集,它有520億行對300萬行。有很多正則表達式的那個,有光子和沒有光子的模差。我們看到的觀察結果是SQL分析[聽不清]預覽,當我們運行我們的POC之前,SQL接口的需求是非常直觀和容易使用的。創建端點非常簡單。它幫助SQL Analytics成為一個偉大的前分析師。我們在很大程度上使用它。 As of now, analytics does not support does not have support for UDS. We did not test ACL’s too much, but it seemed simple enough though.
我的集中目錄將是非常好的,我們期待其他的結果,POC,這對我們來說是非常令人興奮的,但我們也有多個Databricks工作空間。我們的大部分數據都在S3中。我們目前不使用目錄,但看起來Databricks也有解決方案。我們稱之為統一目錄。這個功能,看起來很有希望,我們期待著使用它,看看它是如何運行的。我們仍處於實驗這個湖屋的早期階段,以及它如何滿足我們的需求,但這個項目足夠令人興奮,可以與大家分享。謝謝你!

蘇拉Nesamani

Suraj Nesamani是Comcast的首席工程師,專注於RDK分析。他是RDK儀表板的創建者和主要開發人員,該儀表板用於製定業務決策,如固件…
閱讀更多

莫莉Nagamuthu

Molly Nagamuthu是Databricks的高級常駐解決方案架構師。她一直在幫助他們的頂級戰略客戶大規模解決一些最棘手的大數據問題。beplay体育app下载地址
閱讀更多

Baidu
map