Báo cáo bài tập lớn xác suất thống kê nhóm 8

  • pdf
  • 27 trang
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO
MÔN XÁC SUẤT THỐNG KÊ

GVHD: PGS.TS NGUYỄN ĐÌNH HUY
NHÓM : 8

THÁNG 8/2012

Phan Nhật Anh . MSSV 81100126

BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ
Người viết

Bùi Công Huy Cường

Mã số sinh viên

41100438

Nhóm

8

Giảng viên hướng dẫn

PGS.TS Nguyễn Đình Huy

DANH SÁCH THÀNH VIÊN NHÓM 8
STT

Họ và tên

Mã số sinh viên

1

Phan Nhật Anh

81100126

2

Nguyễn Quốc Bảo

81100229

3

Hoàng Hải Bình

K1100283

4

Bùi Công Huy Cường ( nhóm trưởng )

41100438

5

Nguyễn Công Danh

81100495

6

Trần Văn Duy

21000501

7

Vũ Quang Đạt

41100770

8

Võ Văn Đồng

41100839

9

Nguyễn Du Phúc Hảo

81101012

10

Đỗ Quang Hưng

81101465

Bài số 8
1. Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Sách BT XSTK 2012
(N.Đ.HUY).
2. Đo đường kính X và chiều cao Y của 20 cây ta thu được số liệu sau:
X
Y

2,3
7

2,5
8

2,6
4

3,1
4

3,4
6

3,7
6

7,3
14

X

3,9

4

4,1

4,1

4,2

4,4

Y

12

8

5

7

8

7

6,9
11

6,9
16

X
Y

4,7
9

5,1
10

5,5
13

5,8
7

6,2
11

a) Tìm đường hồi quy của Y đối với X.
b) Tính sai số tiêu chuẩn của đường hồi quy.
c) Tính tỷ số F để kiểm định giả thiết có hồi quy tuyến tính giữa Y với X.
3. Một công ty muốn mở rộng việc bán sản phẩm sang 3 thị trường nước ngoài. Để đánh
giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối
thủ cạnh tranh có khác nhau hay không người ta đã thủ nghiệm thị trường bằng cách bán
thử sản phẩm cho 150 khách hàng tiềm năng tại mỗi thị trường và thu được kết quả sau:
Thị trường
A

B

C

Công ty

55

38

24

Đối thủ cạnh tranh 1

28

30

21

Đối thủ cạnh tranh 2

20

18

31

Các đối thủ khác

47

64

74

Hãy tìm P-value để kiểm định xem cơ cấu của ba thị trường trên có khác nhau hay
không.

4.Người ta tiến hành đo mực nước sông tại một số địa điểm thuộc tỉnh X trong cùng một
ngày (số lần đo không giống nhau) và thu được bảng số liệu sau đây:
Thời điểm đo

Địa điểm đo
F2
F3
4,9
4,6
5,1
4,8
6,5
5,8
5,4
5,1
6,1
6,2
7,1

F1
F4
1
5,5
4,5
2
5,6
6,2
3
5,8
4,8
4
5,9
4,8
5
6,0
6,5
6
6,7
6,8
7
7,2
Với mức ý nghĩa  = 2%.Mực nước sông trung bình/ngày của các điểm nói trên có
thực sự khác nhau không?
5. Với mức ý nghĩa  = 5%. So sánh chi phí cho ba loại dịch vụ ở ba thành phố khác
nhau bằng phương phương phân tích phương sai trên cơ sở bảng số liệu sau đây:
Thành phố
I
II
III

I
61
58
68

Loại dịch vụ
II
52
51
64

III
69
61
79

Các con số trong ô là chi phí trung bình cho 1 lần dịch vụ (đơn vị: 1000đ)

BÀI 1: Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Giáo Trình XSTK
216.
Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo
3 yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố
A
A1
A2
A3
A4

Yếu tố B
B1
C1
C2
C3
C4

B2
9
12
13
10

C2
C3
C4
C1

B3
14
15
14
11

C3
C4
C1
C2

B4
16
12
11
13

C4
C1
C2
C3

12
10
14
13

Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phẩn ứng ?
BÀI LÀM
1/ Cơ sở lí thuyết:
Phân tích phương sai ba yếu tố:
- Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các
giá trị quan sát G (yếu tố A:i=1..r, yếu tố B: j=1..r, yếu tố C: k=1..r)
- Mô hình: khi nghiên cứu ảnh hưởng của 2 yếu tố, mỗi yếu tố có n mức thì người
ta dùng mô hình hình vuông la tinh n  n. Ví dụ:
B
C
D
A

C
D
A
B

D
A
B
C

A
B
C
D

- Mô hình vuông la tinh 3 yếu tố được trình bày như sau:
yếu tố C (T..k : vd T..1 = Y111+Y421+Y331+Y241)
Yếu tố B
Yếu tố
A
B1
B2
B3
B4
A1
C1
Y111
C2
Y122
C3
Y133
C4
A2
C2
Y212
C3
Y223
C4
Y234
C1
A3
C3
Y313
C4
Y324
C1
Y331
C2
A4
C4
Y414
C1
Y421
C2
Y412
C3
T.j.
T.1.
T.2.
T.3.

Y144
Y241
Y342
Y443
T.4.

Ti…
T1..
T2..
T3..
T4..

- Bảng Anova
Nguồn sai
số
Yếu tố A
(hàng)
Yếu tố B
(cột)

Bậc tự do

SSR=  T

2

2

i ..

...
2

T
r
r
T T
SSC= 
r
r
SSF=  T  T
r
r
r

r-1

i 1
r

r-1

2

2

. j.

...
2

i 1

r

Yếu tố C

r-1

2

2

..k

...
2

i 1

Sai số
Tổng cộng

Bình phương trung
bình

Tổng số bình phươg

SSE=SST(SSF+SSR+SSC)

(r-1)(r-2)

SST=  Y  T
r
2

2

(r -1)

ijk

Giá trị thống kê

MSR=

SSR
r 1

FR=

MSR
MSE

MSC=

SSC
r 1

FC=

MSC
MSE

MSF=

SSF
r 1

F=

MSF
MSE

MSE=

SSE
(r  1)( r  2)

2
...
2

Trắc nghiệm:
Giả thiết H0: μ1 = μ2= …μk  “Các giá trị trung bình bằng nhau”
H1 : μ i ≠ μ j
 “Có ít nhất 2 giá trị trung bình khác nhau”
.

.

Giá trị thống kê: G và G
.

Biện luận: Nếu G (chấp nhận H0 (yếu tố A) )
.

Nếu G (chấp nhận H0 (yếu tố B) )
.

Nếu G (chấp nhận H0 (yếu tố C) )
2/ Áp dụng Excel:
Nhập dữ liệu vào bảng :
Thiết lập các biểu thức và tính các giá trị thống kê
Tính Ti: Chọn ô B7 và nhập biểu thức = SUM(B2:E2)
Chọn ô C7 và nhập biểu thức = SUM(B3:E3)
Chọn ô D7 và nhập biểu thức = SUM(B4:E4)
Chọn ô E7 và nhập biểu thức = SUM(B5:E5)
Tính Tj: Chọn ô b8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí hiệu từ điền từ ô B8 đến ô E8
Tính Tk: Chọn ô B9 và nhập biểu thức = SUM(B2, C5,D4,E3)
Chọn ô C9 và nhập biểu thức = SUM(B3, C2,D5,E4)
Chọn ô D9 và nhập biểu thức = SUM(B4, C3,D2,E5)
Chọn ô E9 và nhập biểu thức = SUM(B5, C4,D3,E2)
Tính T: Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
Tính các giá trị của ô G: Chọn ô G và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9

Chọn ô G10 và nhập biểu thức =POWER(B10,2)
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
Tính các giá trị SSR, SSC,SST, SSE
Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu tự điền từ ô I7 đến I9
 Giá trị SSE
Chọn ô I10 và nhập biểu thức =I1 SUM(I7:I9)
 Tính các giá trị MSR, MSC, MSF và MSE
 Các giá trị MSR, MSC, MSF
Chọn ô K7 cà nhập biểu thức I7/(4-1)
Dùng con trỏ kéo kí hiệu tự điền tứ ô K7 đến ô K9
 Giá trị MSE
Chọn ô K10 và nhập biểu thức =I10/(4-1)*(4-2)
 Tính các giá trị và F
Chọn ô M7 và nhập biểu thức =K7/0.3958
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến M9
Kết quả và biện luận: FR=3.106< F0.05(3.6)= 4.76, nên chấp nhận H0 (pH)
FC=11.95> F0.05(3.6)= 4.76 ,nên bác bỏ H0 (nhiệt độ)
F=30.05> F0.05(3.6)= 4.76, nên bác bỏ H0 (chất xúc tác)
 Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng tới hiệu suất

Ví dụ 4.2: Người ta dùng ba mức nhiệt độ gồm 105, 120, 135oC kết hợp với ba
khoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu
suất của các phản ứng (%) được trình bày trong bảng sau :
Thời gian
Nhiệt độ
Hiệu suất (%)
(phút)
(oC)
X1
X2
Y
15
105
1,87
30
105
2,02
60
105
3,28
15
120
3,05
30
120
4,07
60
120
5,54
15
135
5,03
30
135
6,45
60
135
7,26
Hãy cho biết yếu tố nhiệt độ và/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu
suất của phản ứng tổng hợp? Nếu có thì với điều kiện nhiệt độ 115oC trong vòng 50
phút, hiệu suất phản ứng sẽ là bao nhiêu?
BÀI LÀM

1/ Cơ sở lý thuyết:
Đây là một bài toán hồi quy tuyến tính đa tham số, trong đó, Y (hiệu suất) liên quan đến
hai biến số X1 (thời gian), X2 ( nhiệt độ).
Sau khi tìm các giá trị thống kê, ta sẽ có hai phần trắc nghiệm hồi quy gồm :
- Trắc nghiệm t: so sánh giá trị t với giá trị t0,05, bậc tự do là γ = N-k-1 (k là số biến) (tra
bảng Student)
Kiểm định các giả thuyết: H0: “ Các hệ số hồi quy không có ý nghĩa”
H1:”Có ít nhất vài hệ số hồi quy có ý nghĩa”
- Trắc nghiệm F: so sánh giá trị F với giá trị F0,05, bậc tự do là n1=1, n2=N-k-1 (tra bảng
Fisher)
Kiểm định các giả thuyết: H0: “Phương trình hồi quy không thích hợp”
H1: “Phương trình hồi quy thích hợp”
2/ Áp dụng Excel:
Nhập bảng dữ liệu:
Dữ liệu bắt buộc phải được nhập theo cột.

Sử dụng công cụ Regression:
Vào Data > Data Analysis. Chọn mục Regression

Trong cửa sổ Regression, nhập vào các dữ liệu sau: Input Y range (phạm vi biến số Y)
Input X range (phạm vi biến số X)
Labels (nhãn dữ liệu)
Confidence Level (mức tin cậy)
Ouput Range (tọa độ đầu ra)
Một vài tùy chọn khác: Line Fit Plots
( đường hồi quy), Residual Plots ( biểu thức sai số)
1. Phương trình hồi quy của Y theo X1

Phương trình hồi quy : Y = 2.7367 +0.04454X1 (R2=0.2139, S=1.8112); N=9; k=1;
t0=t Stat(Intercept)=2.129 < t0,05(7)=2.365 (hay P value=0.0708 > α=0.05)

=>Chấp nhận giả thiết H0.
t1=t Stat(X1)=1.3802< t0,05(7)=2.365 (hay P value=0.2099>α=0.05)
=>Chấp nhận giả thiết H0.

F=1.9049α=0.05)
=>Chấp nhận giả thiết H0
Vậy các hệ số của phương trình hồi quy Y = 2.7367 +0.04454X1 đều không có ý nghĩa
thống kê. Nói cách khác, phương trình hồi quy này không thích hợp.
Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất phản ứng tổng hợp
2. Phương trình hồi quy của Y theo X2

Phương trình hồi quy: Y = -11.1411 +0.12856X2 (R2=0.7638; S=0.9929);N=9; k=1;
t0= t Stat(Intercept) =3.4178 > t0,05(7)=2.365 (hay P value=0.0112 < α=0.05)
=>Bác bỏ giả thiết H0.
t1= t Stat(X1) =4.7572 > t0,05(7)=2.365 (hay P value=0.0021 < α=0.05)
=> Bác bỏ giả thiết H0.
F=22.6309 > F0,05(1.7)=5.59 (hay FS=Significance F=0.0021 < α=0.05)
=>Bác bỏ giả thiết H0
Vậy các hệ số của phương trình hồi quy Y = -11.1411 +0.12856X2 đều có ý nghĩa thống
kê. Nói cách khác, phương trình hồi quy này thích hợp.
Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng tổng hợp
3. Phương trình hồi quy của Y theo X1 và X2

Phương trình hồi quy : Y = -12.7 + 0.0445X1 + 0.1286X2 (R2=0.9777; S=0.3297); N=9;
k=2;
t0= t Stat(Intercept) =1.1016 > t0,05(6)=2.447 (hay P value=0.000026 < α=0.05)
=>Bác bỏ giả thiết H0.
t1= t Stat(X1) = 7.5827 > t0,05(6)=2.447 (hay P value=0.0002736 < α=0.05)
=> Bác bỏ giả thiết H0.
t2= t Stat(X2) = 14.3278 > t0,05(6)=2.447 (hay P value=0.000007 < α=0.05)
=> Bác bỏ giả thiết H0.
F=131.3921> F0,05(1.6)=5.99 (hay FS=Significance F=0.0021 < α=0.05)
=>Bác bỏ giả thiết H0
Vậy các hệ số của phương trình hồi quy Y = -12.7 + 0.0445X1 + 0.1286X2 đều có ý
nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp.
Kết luận: Cả hai yếu tố nhiệt độ và thời gian cùng đồng thời liên quan tuyến tính với hiệu
suất phản ứng tổng hợp
 Để dự đoán hiệu suất của phản ứng bằng phương pháp hồi quy
Y = -12.7 + 0.0445X1 + 0.1286X2 , ta thay các giá trị X1, X2, thì sẽ được kết quả
X1=50, X2=115 :
Vậy với X1=50, X2=115, Y= 4.310873016

Bài 2
Đo đường kính X và chiều cao Y của 20 cây ta thu được số liệu:
X
Y
X
Y

2,3
7

2,5
8

2,6
4

3,1
4

3,4
6

3,7
6

7,3
14

3,9
12

4
8

4,1
5

4,1
4,2
4,4
4,7
5,1
5,5
5,8
6,2
6,9
6,9
7
8
7
9
10
13
7
11
11
16
a) Tìm đường hồi quy của Y đối với X.
b) Tính sai số tiêu chuẩn của đường hồi quy.
c) Tính tỷ số F để kiểm định giả thiết có hồi quy tuyến tính giữa Y với X.
Bài làm
 Nhận xét : Đây là bài toán phân tích hồi quy tuyến tính

 Trắc nghiệm thống kê:
Đối với một phương trình hồi quy, YX = B0 + BX, ý nghĩa thống kê của các số Bi (B0 hay
B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất thích hợp
của phương trình Yx = f(x) được đánh giá bằng trắc nghiệm F (phân bố Fischer). Ta chỉ
tính F theo yêu cầu đề bài.
.
Giả thiết Ho : X và Y hồi quy tuyến tính.
 Trắc nghiệm F
Giả thiết: H0: B i=0 “Phương trình hồi quy không thích hợp”
H0: Bi ≠ 0 “Phương trình hồi quy thích hợp”

Giá trị thống kê:
F=
Phân bố Fischer v1=1, v2=N-2
 Kết luận:
Nếu F chấp nhận giả thiết H0.
Thực hiện bằng Excel
-

Thiết lập bảng tính Regression:

-

Nhập dữ liệu vô bảng tính :

-

Sau đó vào Data /Data analysis, chọn Regression.

-

Trong hộp thoại Regression lần lượt ấn định:
 Phạm vi đầu vào: Input Y Range, quét vùng (C3:C23).
Input X Range, quét vùng (B3:B23).
 Chọn Labels (nhãn dữ liệu).
 Phạm vi đầu ra: Output Range (chọn ô E3)
 Chọn Line Fit Plots trong Residuals để vẽ đường hồi quy.

-

Sau đó nhấn OK ta có kết quả :

-

Kết luận :
Đường hồi quy của Y đối với X l : Y=1.67689X+1.045276
Sai số tiêu chuẩn của đường hồi quy : 2,22
Ta thấy:
F = 24,3 > c = 4,41
(tra bảng phân bố Fischer với bậc tự do (cột 1, hàng 18) ở mức 0,05)

Vậy: có hồi quy tuyến tính giữa Y với X.

Bài 3
Một công ty muốn mở rộng việc bán sản phẩm sang 3 thị trường nước ngoài. Để đánh giá
xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối thủ
cạnh tranh có khác nhau hay không người ta đã thủ nghiệm thị trường bằng cách bán thử
sản phẩm cho 150 khách hàng tiềm năng tại mỗi thị trường và thu được kết quả sau:
Thị trường
A

B

C

Công ty

55

38

24

Đối thủ cạnh tranh 1

28

30

21

Đối thủ cạnh tranh 2

20

18

31

Các đối thủ khác

47

64

74

Hãy tìm P-value để kiểm định xem cơ cấu của ba thị trường trên có khác nhau hay
không.
Bài làm
 Nhận xét: Đây là bài toán phân tích phương sai hai yếu tố không lặp

Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát
Yij(i=1, 2…r:yếu tố A;j= 1 ,2…c:yếu tố B).
 Giả thiết:
- H0: µ1= µ2=…µk <=> “Các giá trị trung bình bằng nhau”
- H1: µ1≠ µ2 <=> “Ít nhất có hai giá trị trung bình khác nhau”
Nhập giá trị vào bảng tính

a)
b)
c)
tiết

Áp dụng “Anova: Two-Factor Without Replication”
Vào mục Data chọn Data Analysis
Chọn chương trình Anova: Two-Factor Without Replication trong hộp thoại Data
nalysis rồi nhấn nút ok
Trong hộp thoại Anova: Two-Factor Without Replication, lần lượt ấn định các chi
- Phạm vi đầu vào(Input Range) (quét A1:D5)
- Chọn Labels
- Ngưỡng tin cậy(Alpha)
- Phạm vi đầu ra(Output Range) (chọn A7)

Chọn Anova: Two_Anova: Two-Factor Without Replication

Quét Input Range, Ouput Range và chọn Labels

Ta thu được kết quả sau

Biện luận:
P-value=1> 0,05 => Chấp nhận H0. Cơ cấu ba thị trường trên không khác nhau

Bài 4

Ngöôøi ta tieán haønh ño möïc nöôùc soâng taïi moät soá ñòa ñieåm thuoäc
tænh X trong cuøng moät ngaøy (soá laàn ño khoâng gioáng nhau) vaø thu
ñöôïc baûng soá lieäu sau ñaây:
Thôøi
ñieåm ño

Ñòa ñieåm ño
F1

F2

F3

F4

1

5,5

4,9

4,6

4,5

2

5,6

5,1

4,8

6,2

3

5,8

6,5

5,8

4,8

4

5,9

5,4

5,1

4,8

5

6,0

6,1

6,2

6,5

6

6,7

7,1

6,8

7

7,2

Vôùi möùc yù nghóa  = 2%. Möïc nöôùc soâng trung bình/ngaøy cuûa
caùc ñieåm noùi treân coù thöïc söï khaùc nhau khoâng?
Giải
 Nhận xét: phân tích phương sai một yếu tố
Khái niệm thống kê:
+Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung
bình của hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở
rộng của trắc nghiệm t hay z (so sánh hai giá trị trung bình).
+Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu
tố nào đó đến các giá trị quan sát,Yi,(i=1,2,…..,k).
Mô hình
Yếu tố thí nghiệm
1

2



K

Y11

Y21



Yk1

Y12

Y22



Yk2









Y1n

Y2n



Ykn