files-in-cubby

大數據分析可以定義為用于處理復雜數據集以發現市場趨勢、相關性和隱藏數據模式的技術和流程的集合。它使組織能夠做出明智的業務決策,并幫助研究人員驗證其科學模型。

無論是財務分析、零售、廣告還是醫療保健,大數據分析已成為任何業務的重要組成部分。全球數據量呈指數級增長,估計從今年的33ZB躍升至2025年的175ZB。這不僅創造了巨大的機遇,而且對基礎設施運行大數據分析提出了巨大的需求,也給數據工程師帶來了新的挑戰。

您可能還喜歡:
開放斯塔克斯坦:庫伯內特斯和裸機。

分析工作負載的獨特之處是什么?

首先,讓我們就分析工作負載的定義達成一致。根據Curt Monash的說法,”分析是交易的反義詞。雖然事務處理 (OLTP)的特點是一組短的離散操作,每秒事務量大,數據完整性嚴格,但分析工作負載通常以對數據源進行更復雜的和資源密集型查詢的用戶較少來區分。

窗簾后面正在進行大規模的并行性,通過使計算盡可能接近數據,盡可能降低數據移動。數據量大,模型復雜,計算由分布式系統完成,所有這些都給執行這些任務的基礎結構帶來了實際負擔。Data to the cloud

考慮過渡到云?

建立和維護大數據分析堆棧并不開玩笑,因此公司通常選擇將其分析工作負載遷移到云,以降低復雜性并提高運營效率。根據經驗,在準備向云過渡時,需要考慮兩個主要事項 – 數據存儲和數據處理。

要存儲的數據群

它是分布式數據存儲,您需要首先考慮大數據項目。參考Brewer定理,分布式數據存儲不可能同時提供兩個以上保證:一致性、可用性還是分區容差。所以,挑兩個,你很好去。與往常一樣,選擇取決于您的應用程序。

為了保持大數據輪式旋轉,需要高度可擴展、高效且經濟高效的存儲。幾乎總是它是某種類型的 NoSQL 數據庫 – 現在您有超過225個 NoSQL 數據庫可供選擇。

還記得布魯爾的定理嗎?這是當你開始做出犧牲的時候。如果某些數據變得不可用的風險是可以容忍的(犧牲可用性),那么一個高度靈活且易于擴展的文檔數據庫(如 MongoDB)可能具有直接查詢功能。無論您的客戶讀取不一致的數據(犧牲一致性)是否沒什么大不了的,您可能需要選擇像 Cassandra 這樣的容錯和線性可擴展的數據庫com/refcardz/基本后格列sql?章節#1″rel=”nofollow”\PostgreSQL和犧牲分區容差。盡管這可能會驗證您的時髦身份,但它可能涉及數據庫分片,并使處理非結構化數據幾乎是不可能的。讓我們離開 SQL 查詢數據倉庫,好嗎?

無論您選擇哪種數據庫,大多數數據庫在商品硬件上運行得非常好。盡管目前所有超大規模云提供商都在提供托管數據庫服務,而且其中一些提供商并不羞于將開源作為中指,但當存在卓越的開源產品時,沒有必要將其鎖定在生態系統中。

例如,您可以在具有 HDD、SSD 或 NVMe 直接連接的存儲的裸機云上運行 MongoDB 群集,以使每個節點上的 I/O 操作飛速增長。如果你是一個真正的速度風扇,設置一個內存數據庫,如點火或Redis可能是你的事情。

讓我們處理數據!等等,但怎么?

數據是新的石油,并非沒有原因。我們喜歡數據;它幫助我們更好地理解事物,并揭示可操作的見解。為此,我們必須以這樣或那樣的方式處理數據。

首先,有Hadoop,其批處理計算框架基于MapReduce計算范例。生活是美好的,歌曲被唱,而工程師水平擴展他們的大數據集群,并采用大規模并行。每個節點在已分配的映射數據上執行給定的縮減函數 – 這樣,巨大的數據塊被輕而易舉地處理。

這也是谷歌啟動搜索引擎的方式。隨著時間的推移,Hadoop 生態系統迅速擴展,并引入了額外的抽象層來解決新問題,因為大數據行業變得更加成熟。它仍然是當今數據行業中最突出和最常用的工具,您可以在簡單的商品服務器上平穩運行。只要確保您的節點上具有快速、直接連接的存儲,因為 Hadoop MapReduce 是磁盤綁定的。

雖然批處理是一個非常強大的概念,但我們首先需要存儲數據以進行處理。當您想要開始使用連續數據流進行實時預測時,這會產生困難。要達到算法股票交易或野火監控等功能,您的數據必須一瞥就處理。顯然,我們需要一個不同的范例,而Apache Spark在流處理方面處于創新的前沿。

該項目最初旨在解決 Hadoop 在流分析方面的弱點。Spark 沒有文件管理系統,因此它依賴于 HDFS 或任何其他存儲群集。它從群集讀取數據,在單個步驟中執行其操作,然后將數據寫回群集。這可能比 Hadoop 快 100 倍,因為默認情況下 Spark 在內存中運行。在為 Spark 群集選擇合適的基礎結構時,請查找一些功能強大的 RAM。

與大多數偉大的技術一樣,Spark 已經發展了很多,也發生了很大變化。它現在是一個統一的分析引擎,具有強大的交互式查詢、圖形處理和迭代算法。例如,您可以輕松地構建機器學習工作流,并在 Spark 上使用一些最流行的算法來迭代數據集并構建機器學習模型。它甚至可以處理批處理作業這些天。火花最棒的地方是什么?完全免費。

到云還是不到云

好吧,你口袋里有我們剛才討論過的這些強大的開源工具如果您購買了裸機服務器并在本地托管它們,您將能夠擠出原始基礎架構的大部分優勢,但需要巨大的前期資本投資和進一步的維護成本。

盡管這一選項對于大型企業來說仍然相當可觀,但中小型企業必須更加靈活。另一方面,租用基礎設施是一個更方便的選擇,因為您按使用量付費,無需投資硬件。假設您最終決定遷移到云。但是選擇哪一個呢?

大男孩

每個超大規模提供商(無論是 AWS、Azure 還是GCP)都擁有廣泛的托管服務組合,可為大數據社區提供從托管數據庫到集成機器學習框架。這似乎是一個一刀切的解決方案,但它們的大多數托管服務具有與免費的開源服務大致相同的功能。如果您仍希望從基礎架構中完全抽象出來,并且被鎖定在單個提供商中,可以準備好接收不斷增加的發票并使用復雜的定價計算器。有趣的是,云經濟學家甚至可以幫助您解決 AWS 發票。

好的,所以您希望完全控制云堆棧,并始終可以自由選擇云堆棧所在的位置。如前所述,像 Hadoop 和 Spark 這樣的開源技術在商用硬件上非常出色,因此主要問題是選擇哪種基礎架構作為服務提供商。從歷史上看,典型的云產品包括具有超額預訂硬件資源的虛擬機,這些硬件資源通常會導致工作負載波動和安全風險增加。盡管云服務生態系統大大擴展,但底層基礎結構服務仍然嚴重依賴虛擬機管理程序。

塊上的裸金屬云

裸金屬云是不同的。您仍然具有完全自動化的基礎架構配置,只是沒有底層虛擬化層。這是偉大的幾個原因。首先,所有服務器都是嚴格的單租戶,您是整個計算機的唯一所有者。單身在生活中并不有趣,但在云中卻很棒:您沒有嘈雜的鄰居,沒有硬件超額預訂,沒有虛擬機管理程序開銷,安全風險更少。簡而言之,裸機云是托管資源密集型應用程序的更簡潔的方法。對于需要強大基礎架構和增強安全性的數據分析工作負載,裸機云是無可匹敵的。

裸金屬的原始馬力

在裸機上運行大數據群集為您提供了額外的優勢。通過 RESTful API,服務器可在幾分鐘內輕松向上和向下擴展,這在運行分布式系統時至關重要。沒有虛擬化和硬件超額預訂,您可以以最大容量運行應用程序,并且仍然具有平穩穩定的工作負載。如果這還不夠,您可以根據需要自定義服務器硬件。只需在構建機器學習模型時添加 GPU 加速器,增加 RAM 以擴展內存中數據庫,或將 NVMe 存儲放入服務器,使 Hadoop 群集暴漲。您還能在哪里獲得如此簡單的專用硬件?通過消除虛擬機管理程序開銷和引入自定義硬件裸機云,您可以按需提供最高效的基礎架構。原始和簡單。

增強的隱私和安全性

在大數據領域,安全性受到非常嚴肅的處理,您需要相應地選擇基礎結構是可以理解的。處理敏感數據通常意味著您必須存儲和處理個人身份信息 (PII),并遵守法律法規。確保您的供應商符合 GDPR 標準,或獲得 ISO 27001 等行業認可的認證始終是一個好主意裸金屬云本質上是單租戶的,您不需要為此支付一分錢。

法律合規性很重要,但系統安全性同樣重要。在大數據上,分布式計算群集數據應在節點之間私下移動。要做到這一點,您通常需要一個專用網絡子網。在裸機云上,為每個服務器自動分配專用網絡接口。這樣,您可以在具有 10G 帶寬的快速安全 LAN 上內部處理數據。

100 倍更便宜的數據傳輸

當然,您嘗試使計算盡可能接近數據所在的位置。當數據集龐大時尤其如此,因為移動計算比移動數據便宜。但是,您仍然需要將數據移入和移出群集。雖然超大規模提供商吹噓其低數據傳輸價格,可能從 50 美元到超過 100 美元每 TB,但在裸機云上,您可以傳輸數據到互聯網,低至每 TB 1 美元。完全不同,對吧?

現在由你決定

市場上仍然只有少數裸機云提供商,甚至更少,這些提供商可以提供完全自動化且易于自定義的基礎架構。?因此,如果您即將用下一件大事征服世界,請考慮選擇更靈活、更高效、更經濟的云平臺來整合大數據應用程序。

進一步閱讀

Comments are closed.