lights-over-city

正如喬希·威爾斯曾經說過的

“數據科學家比任何程序員都更善于統計,也比任何統計人員都更善于編程。

數據科學的數學和統計是必不可少的,因為這些門徒構成了所有機器學習算法的基本基礎。事實上,數學是我們周圍一切事物的背后,從形狀、圖案和顏色,到花瓣的計數。數學植根于我們生活的方方面面。

雖然對編程語言有很好的理解,但機器學習算法和采用數據驅動方法對于成為數據科學家是必要的,但數據科學并不全是這些領域的。在本博客文章中,您將了解數學和統計對數據科學的重要性,以及如何使用它們來構建機器學習模型。

以下是我將在本數學和數據科學統計博客中介紹的主題列表:

  1. 統計簡介
  2. 統計術語
  3. 統計中的類別
  4. 了解描述性分析
  5. R 中的描述性統計信息
  6. 理解推斷分析
  7. R 中的推斷統計

您可能還喜歡:大數據:數據科學和高級分析。

統計簡介

要成為一個成功的數據科學家,你必須知道你的基本知識。數學和統計是機器學習算法的構建基塊。了解各種機器學習算法背后的技術非常重要,以便了解如何以及何時使用它們。現在問題出現了,統計究竟是什么?

統計學是一門與數據收集、分析、解釋和演示有關的數學科學。

Statistics - Math And Statistics For Data Science - Edureka統計與數據科學的數學和統計

統計用于處理現實世界中的復雜問題,以便數據科學家和分析人員可以查找數據中有意義的趨勢和變化。簡單來說,統計可以通過對數據執行數學計算來從數據中獲得有意義的見解。

實現多個統計函數、原則和算法,以分析原始數據、構建統計模型并推斷或預測結果。

Statistics Applications - Math And Statistics For Data Science - Edureka

統計應用 – 數據科學的數學和統計

統計領域對生活的所有領域都有影響,股票市場、生命科學、天氣、零售、保險和教育僅舉幾例讓我們討論統計中的基本術語。

統計術語 – 數據科學統計

在處理數據科學統計時,應了解幾個關鍵統計術語。我在下面討論了這些術語:

  • 總體是必須從中收集數據的一組源。
  • 樣本是總體的子集
  • 變量是可測量或計數的任何特征、數量或數量。變量也可以稱為數據項。
  • 統計參數或總體參數也稱為統計模型,是索引概率分布系列的數量。例如,總體的平均值、中位數等。

在我們進一步討論統計信息類別之前,讓我們看一下分析的類型。

分析類型

任何事件的分析可以通過兩種方式之一完成:

Types Of Analysis - Math And Statistics For Data Science - Edureka

例如,如果我想從星巴克購買咖啡,它有短,高和格蘭德。這是定性分析的一個例子。但是,如果一家商店每周銷售70種普通咖啡,這是定量分析,因為我們有一個數字代表每周銷售的咖啡。

雖然這兩種分析的目的是提供結果,但定量分析提供了更清晰的圖像,因此在分析中至關重要。

統計中的類別

統計中有兩個主要類別,即:

  1. 描述性統計
  2. 推斷統計

描述性統計

描述性統計使用數據通過數值計算或圖形或表提供總體描述。

描述性統計有助于組織數據,并側重于提供參數的數據的特征。

Descriptive Statistics - Math And Statistics For Data Science - Edureka

Descriptive Statistics Example - Math And Statistics For Data Science - Edureka

描述性統計示例 – 數據科學的數學和統計

推斷統計

推斷統計基于從相關總體獲取的數據樣本對總體進行推斷和預測。

推斷統計概括了大型數據集,并應用概率得出結論。它允許您基于樣本統計信息推斷總體參數,并在此基礎上構建模型。

Inferential Statistics - Math And Statistics For Data Science - Edureka推斷統計與數據科學的數學和統計

因此,如果我們考慮在”推斷統計”中查找班級中學生平均身高的同一示例,您將對該類進行一組示例,該示例集基本上是整個班級中的幾個人。你已經把班級分為高、平均和矮。在此方法中,您基本上構建一個統計模型,并將其擴展到類中的全部總體。

Inferential Statistics Example - Math And Statistics For Data Science - Edureka推斷統計示例 – 數據科學的數學和統計

現在,讓我們將注意力集中在描述性統計上,看看它如何用于解決分析問題。

了解描述性分析

當我們嘗試以圖形的形式表示數據時,如直方圖、線圖等,數據是基于某種中心趨勢表示的。中央趨勢度量,如,平均值,中值,或點差的度量,等用于統計分析。為了更好地理解統計,讓我們通過一個示例來討論統計中的不同度量。

Cars DataSet - Math And Statistics For Data Science - Edureka汽車數據集 – 數據科學的數學和統計

下面是包含變量的汽車示例數據集:

  1. 汽車
  2. 每加侖里程(英里)
  3. 氣缸類型(缸)
  4. 位移(分量)
  5. 馬力 (hp)
  6. 實際軸比(德拉特)。

在進一步行動起來之前,先確定中央主要措施或中心趨勢措施。

中心措施

  1. 平均值:樣本中所有值的平均值度量稱為平均值。
  2. 中位數:樣本集的中心值度量稱為”中位數”。
  3. 模式:示例集中最重復的值稱為”模式”。

使用描述性分析,您可以分析樣本數據集中的每個變量,包括平均值、標準偏差、最小值和最大值。

  • 如果我們想要找出汽車在汽車人口中的平均或平均馬力,我們將檢查和計算所有值的平均值。在這種情況下,我們將采用每輛車的馬力之和,除以汽車總數:

均值 = (110*110*93*96*90*110*110*110*110)/8 = 103.625

  • 如果我們想要找出 mpg 在汽車數量中的中心值,我們將按升序或降序排列 mpg 值,并選擇中間值。在這種情況下,我們有 8 個值,這是一個偶數條目。因此,我們必須采用兩個中間值的平均值。

8輛車的mpg: 21,21,218,23,23,23,23
中位數 = (22.8+23 )/2 = 22.9

  • 如果我們想要找出汽車人口中最常見的氣缸類型,我們將檢查重復次數最多的值。在這里我們可以看到,氣缸有兩個值,4 和 6。查看數據集,可以看到最重復值為 6。因此,6是我們的模式。

價差措施

與中心度量一樣,我們也有點差的度量,其中包括以下措施:

  1. 范圍:它是數據集中值分布方式的給定度量值。
  2. 四分位數范圍 (IQR):它是基于將數據集劃分為四分位數的可變性的度量。
  3. 差異:它描述了隨機變量與其預期值的不同程度。它需要計算偏差的平方。
    1. 偏差是每個元素與均值之間的差值。
    2. 總體方差是平方差的平均值
    3. 樣本方差是與平均值的平方差的平均值
  4. 標準偏差:它是一組數據從平均值的分散量的度量。

現在,我們已經看到了描述性分析背后的統計數據和數學,讓我們嘗試在 R 中解決它。

R 中的統計信息

世界向R移動的原因有很多。其中一對夫婦在下面登記:

  • R 是開源的,可免費使用。與 SAS 或 Matlab 不同,您可以自由安裝、使用、更新、克隆、修改、重新分發和轉售 R。
  • R 是跨平臺兼容的。它在 Windows、Mac OS X 和 Linux 上運行是兼容的。它還可以從微軟Excel、微軟訪問、MySQL、SQLite、甲骨文和其他程序導入數據。
  • R 是一種功能強大的腳本語言,它可以處理大型、復雜的數據集。
  • R高度靈活且不斷發展。統計領域的許多新發展首先顯示為 R 包。

現在,讓我們繼續前進,在 R 中實現描述性統計信息。

R 中的描述性統計信息

最好執行實際實現以更好地了解概念。在本節中,我們將執行一個小演示,向您展示如何計算平均值、中位數、模式、方差、標準偏差以及如何通過繪制直方圖來研究變量。這是一個相當簡單的演示,但它也構成了每個機器學習算法的基礎。

步驟 1:導入數據進行計算

>set.seed(1)
#Generate random numbers and store it in a variable called data
>data = runif(20,1,10)

第 2 步:計算數據的平均值

#Calculate Mean
>mean = mean(data)
>print(mean)

[1] 5.996504

第 3 步:計算數據的中位數

#Calculate Median
>median = median(data)
>print(median)

[1] 6

最大值(表格(匹配(x,ux)))
}
>結果 <- 模式(數據)>打印(數據)

[1] 3.389578 4.349115 6.155680 9.173870 2.815137 9.085507 9.502077 6.947180 6.662026
[10] 1.556076 2.853771 2.589011 7.183206 4.456933 7.928573 5.479293 7.458567 9.927155
[19] 4.420317 7.997007

>cat(”模式==”,結果)

模式 = 3.389578

第 5 步:計算數據的方差和 Std 偏差

#Calculate Variance and std Deviation
>variance = var(data)
>standardDeviation = sqrt(var(data))
>print(standardDeviation)

[1] 2.575061

第 6 步:繪制直方圖

#Plot Histogram
>hist(data, bins=10, range= c(0,10), edgecolor='black')

直方圖用于顯示數據點的頻率:

Math and Statistics For Data Science - Histogram - Edureka

到目前為止,您已經了解了描述性統計,現在讓我們來談談推斷統計5雷姆;字體系列:”=理解推斷分析

統計學家使用假設檢驗來正式檢查該假設是被接受還是被拒絕。假設檢驗是一種推斷統計技術,用于確定數據樣本中是否有足夠的證據來推斷特定條件對整個總體適用。

在一般總體特征下,我們隨機抽取樣本并分析樣本的特性。我們測試確定的結論是否準確代表總體,最后我們解釋他們的結果。是否接受該假設取決于我們從該假設中獲得百分比值。

為了更好地理解這一點,我們來看一個示例。

想想四個男孩,尼克,約翰,鮑勃和哈利,他們被發現在上課時偷課。他們被要求留在學校,打掃教室作為懲罰。

Inferential Analysis - Math And Statistics For Data Science - Edureka

推斷分析 ? 數據科學的數學和統計 ? Edureka

于是,約翰決定他們四個人輪流打掃教室。他想出了一個計劃,寫他們的名字,在chits上,并把它們放在一個碗

現在已經三天了,除了約翰的名字,每個人都來了!假設這個事件是完全隨機的,沒有偏見,約翰不作弊的概率是多少?

讓我們首先計算約翰一天不被選中的概率:

P(約翰一天不挑) = 3/4 = 75%

這里的概率是 75%,這是相當高的。現在,如果約翰連續三天沒有被選中,概率下降到42%

P(約翰 3 天未采摘) = 3/4 ±3/4 × 3/4 = 0.42 (約)

現在,讓我們考慮一個情況,約翰連續 12 天沒有被選中!概率下降到3.2%。因此,約翰作弊的可能性相當高。

P(約翰 12 天未采摘) = (3/4) ±12 = 0.032 <?.??

為了使統計學家得出結論,他們定義了所謂的閾值。考慮到上述情況,如果閾值設置為 5%,則表明,如果概率低于 5%,則 John 正在欺騙他走出拘留。但是,如果概率高于閾值,那么 John 就是幸運的,他的名字不會被選中。

概率和假設檢驗產生兩個重要概念,即:

  • 空假設:結果與假設沒有什么不同。
  • 備選假設:結果推翻了這一假設。

因此,在我們的示例中,如果事件發生的概率小于 5%,則它是一個偏置事件,因此它批準備用假設。

R 中的推斷統計

在本演示中,我們將使用間隙設置器數據集來執行假設檢驗。gapminder數據集包含142個國家的清單,其中分別列有1952年至2007年每五年的預期壽命、人均國內生產總值和人口值。

我們將首先下載隔空程序包并將其加載到我們的 R 環境中:

#Install and Load gapminder package
install.packages("gapminder")
library(gapminder)
data("gapminder")

現在,讓我們使用 R 中的 View() 函數來了解一下我們的數據集:

#Display gapminder dataset
View(gapminder)

以下是我們的數據集:

下一步是加載由 R 提供的臭名昭著的 dplyr 包。我們特別希望使用管道 (%>%)dplyr 包中的運算符。對于那些不知道管道操作員操作人員操作的人員,它基本上允許您將數據從左側輸送到管道右側的數據中。這是相當不言自明的。

#Install and Load dplyr package
install.packages("dplyr")
library(dplyr)

我們的下一步是比較兩個地方(愛爾蘭和南非)的預期壽命,并執行 t 檢驗以檢查比較是否遵循空假設或替代假設。

#Comparing the variance in life expectancy in South Africa & Ireland
df1 <-gapminder %>%
select(country, lifeExp) %>%
filter(country == "South Africa" | country =="Ireland")

因此,在將 t 檢驗應用于數據框 (df1) 并比較預期壽命后,您可以看到以下結果:

#Perform t-test

t.test(data = df1, lifeExp ~ country)

Welch Two Sample t-test

data: lifeExp by country
t = 10.067, df = 19.109, p-value = 4.466e-09
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
15.07022 22.97794
sample estimates:
mean in group Ireland mean in group South Africa
73.01725              53.99317

請注意,在愛爾蘭組和南非,您可以看到預期壽命幾乎相差 20。現在,我們需要檢查南非和愛爾蘭的預期壽命價值差異是否真正有效,而不僅僅是單純的偶然性。因此,進行了 t 檢驗。

特別注意 p 值也稱為概率值。p 值是一個非常重要的度量,當涉及到確保模型的重要性時。僅當 p 值小于預先確定的統計顯著性級別(理想情況下為 0.05)時,模型才具有統計顯著性。正如您從輸出中看到的,p 值為 4

在模型的摘要中,請注意另一個重要參數,稱為 t 值。較大的 t 值表明替代假設為真,并且平均壽命的差異不等于純運氣為零。因此,在我們的案例中,零假設被否決。

在演示結束時,我們將為每個大陸繪制一個圖表,以便該圖顯示每個大陸的預期壽命如何隨該大陸的人均 GDP 而變化。

#Plotting a gdpPercap vs lifeExp graph for each continent
#Install and Load ggplot2 package
install.packages("ggplot2")
library(ggplot2)
gapminder%>%
filter(gdpPercap &amp;lt; 50000) %>%
ggplot(aes(x=log(gdpPercap), y=lifeExp, col=continent, size=pop))+
geom_point(alpha=0.3)+
geom_smooth(method = lm)+
facet_wrap(~continent)

Plot - Math And Statistics For Data Science - Edureka

在上圖中,您幾乎可以看到每個大陸的預期壽命與人均 GDP 的線性差異。這還顯示了 R 語言可用于統計分析的方面。

有了這個,我們來到這個博客的結尾。

進一步閱讀

Comments are closed.