ANALYSIS, HẠT
NHÂN CỦA EPI 6.04
(PHẦN 3)
Lê Ðình Phương*
TƯƠNG QUAN VÀ HỒI QUY
Khái niệm về tương quan
(correlation) có từ giữa thế kỷ 19, huân tước Francis Galton (1886), anh em họ
của Darwin, một nhà toán học và đồng thời là một bác sĩ, đã đưa ra những khái
niệm đầu tiên về tương quan khi nghiên cứu những tập tính về chiều cao giữa hai
thế hệ. Ông cũng là cha đẻ của thuật ngữ "hồi qui" (regress). Về sau, những khái
niệm về tương quan và hồi qui mà Galton đưa ra đã được nhà toán học Karl Pearson
phát triển mà đỉnh cao của nó là sự ra đời của hệ số tương quan mang tên ông.
Một điều khá lạ là trong
phần hướng dẫn trực tuyến của EPI trong ANALYSIS về lệnh khó nhất này lại vỏn
vẹn chỉ 5 dòng. CDC hướng dẫn bạn tìm đọc một cuốn sách khác, chắc cũng "khó
nhai" không kém cuốn Guide book của EPI Info. Ðây cũng là test thống kê có kết
quả sơ lược nhất trong tất cả những lệnh của ANALYSIS. Vì vậy, trong tầm hiểu
biết khiêm tốn, người viết xin tóm lược một số điểm cần nhớ và cần tránh khi sử
dụng phép tương quan và hồi qui:
Có hai khái niệm thường bị
lẫn lộn là liên hệ (relation) và tương quan (correlation). Liên hệ, nói một cách
giản lược, là xem xét mối quan hệ giữa hai biến số theo một cách đơn giản nhất,
nghĩa là chỉ so sánh sự khác biệt, lớn hơn hay nhỏ hơn...Các ví dụ trong bài
trước về phép so sánh phương sai anova giữa hai trung bình, tính toán OR,
RR...thực chất chỉ là đi tìm mối liên hệ giữa hai biến định tính, hay giữa một
biến định tính với một biến định lượng. Trong khi đó, tương quan cũng đi tìm mối
liên hệ nhưng ở mức cao hơn, nghĩa là từ một giá trị đã biết của một biến, ta có
thể tiên đoán được giá trị tương ứng của biến kia qua một biểu đồ, hay qua một
phương trình hồi qui.
Về bản chất, tương quan có
hai loại: tương quan tuyến tính (linear-hình 1) và tương quan phi tuyến
(non-linear-hình 2). Nếu hai biến số định tính có tương quan tuyến tính, mối
liên hệ giữa chúng sẽ được biểu diễn bằng một phương trình y=ax+b, hay một đường
hồi qui thẳng. Ví dụ: tương quan giữa chiều cao và cân nặng, tương quan giữa
FEV1 và chiều cao, tương quan giữa tuổi và lượng sữa mẹ...Ngược lại, khi hai
biến số này có tương quan phi tuyến, mối liên hệ giữa chúng sẽ không thể được
biểu diễn bằng một phương trình y=ax+b, hay một đường hồi qui thẳng như trên.
Trong EPI 6.04, phép tính
hồi qui là hồi qui tuyến tính bội (linear multiple regression) giữa các biến
kiểu số mà thôi (tương quan Pearson). Số lượng các biến số sau lệnh REGRESS tối
đa là 15. EPI không thể dùng để tính tương quan giữa một biến kiểu số và một
biến thứ hạng (ordinal). Ví dụ như tính tương quan giữa độ hôn mê (I, II, III)
và đường huyết chẳng hạn. Muốn làm điều này, bạn phải dùng phép xếp thứ hạng
(rank test) cho biến thứ hạng và sử-dụng phép tương quan của Spearman hay
Kendall. Nhưng những phép tính tương quan và xếp thứ hạng này thì nằm ngoài khả
năng xứ lý của EPI 6.04. Nếu hai biến kiểu số có tương quan phi tuyến, EPI sẽ
đưa ra hệ số tương quan Pearson rất thấp. Vậy thì làm sao để biết hai biến số là
có tương quan tuyến tính hay không- Xin bạn xem ở phần lệnh SCATTER.
Cú pháp:
REGRESS biến độc lập =
<biến phụ thuộc 1> <biến phụ thuộc 2>...
Ví dụ: lệnh sau đây sẽ tính
tương quan giữa cân nặng và chiều cao với kết quả bảng 1:
REGRESS WEIGHT HEIGHT
Những thông số sau cần chú
ý:
-Giá trị và dấu của hệ số
tương quan:
r dương chứng tỏ hai biến
số có tương quan thuận (hay tỷ lệ thuận).
Bảng 1
Correlation
coefficient: r- = 0.64- r^2 = 0.41
95%
confidence limits:- 0.29 < r^2 < 0.52
source------
----------------------- df- ----- sum of squares- ------- mean square- f-statistic
REGRESSion---- ----- 1--- ----- 3729.0641--- ------------- 3729.0641--- - 141.90
residuals---- ------- 204-- -- 5361.1134--- ------------- 26.2800
total-------- ----------------------- 205-- -- 9090.1775
B
coefficients
------------------- ---------------------- beta------- ------------------- 95%
confidence--------------- ---------------- partial
variable--
----------- mean -- coefficient-- lower-- --------------------- upper
------------ std- error--- - f-test
height
161.1117- 0.7107227--- - 0.593083- ----- 0.828362- ----- 0.059664--- ---
141.8976
y-intercept---- -----66.0649328
r âm chứng tỏ hai biến số
có tương quan nghịch (hay tỷ lệ nghịch).
Theo qui ước của khoa thống
kê, người ta chia tương quan thành 4 mức độ:
r > 0.7: tương quan rất
chặt.
r = 0.5-0.7: tương quan khá
chặt
r = 0.3-0.5: tương quan vừa
r < 0.3: tương quan rất ít.
Ở-đây, với r=0.64, có thể
kết luận có tương quan khá chặt giữa cân nặng và chiều cao.
-Hệ số beta: nói lên độ dốc
của đường hồi qui. Nghĩa là nếu chiều cao tăng 1 cm, cân nặng sẽ tăng 0.71 kg.
-Chặn y (y intercept): là
trị số của cân nặng khi chiều cao bằng 0. Ðiều này có vẻ khó hình dung trong
thực tế nhưng sẽ dễ dàng biểu diễn qua phương trình sau:
WEIGHT= (0.71 X HEIGHT) -
66.06
Cũng như các phép tính thống kê khác, khi mô tả những mối quan hệ trong
mẫu, nếu muốn rút ra những kết luận cho tổng thể, cần phải kiểm định ý nghĩa
thống kê. EPI cung cấp hai kiểm định: một cho hệ số tương quan r và một cho hệ
số. Vì một lý do nào đó, các tác giả EPI không cung cấp ngay cho hai trị số p
tương ứng mà chỉ cho biết giá trị của F test và độ tự do. Trong ví dụ trên, có F
test là 141.9 với độ tự do 1. Tra bảng F, ta có p value là 0.0001. Như vậy, có
thể nói: "giữa cân nặng và chiều cao có tương quan tuyến tính thuận và chặt một
cách ý nghĩa với r=0.64, n=205, p<0.0005". Khi trình bày một tương quan, phải
thông báo cả ba yếu tố: hệ số tương quan, cỡ mẫu và kiểm định p mới có ý nghĩa
thuyết phục.
Cũng cần nhớ hệ số tương
quan không chỉ ra được mối quan hệ nhân qua- Nghĩa là trong ví dụ trên,
việc cao hay thấp không nhất thiết phải là nguyên nhân trực tiếp của chuyện mập
hay ốm. Chúng chỉ có tương quan với nhau một cách chặt chẽ thôi.
Các
lệnh về đồ thị
Các lệnh về đồ thị của EPI
thì không được hay đẹp vì nó không cung cấp các tùy biến (customize) các tiêu
đề, màu sắc, kiểu dáng, font chữ tiếng Việt...Nói tóm lại là trong thực đơn của
ANALYSIS, không hề có mục "chart option" như những phần mềm đồ họa chuyên dùng
khác. Bạn cũng khó mà chia sẻ khả năng đồ họa của EPI cho những phần mềm xứ lý
văn bản khác chạy trên Windows 3.11 hay Windows 95. Ðối với người dùng Việt Nam,
đồ họa trong EPI chỉ để "coi chơi" vì những hạn chế trên, nhất là trong việc sử
dụng các font chữ tiếng Việt. Không phải vì khả năng lập trình của
cdc quá kém cỏi đâu, mà ở đây, tính cầu kỳ phải nhường chỗ cho tính
hiệu qua- Trong loạt bài đầu tiên, bạn đã biết rằng có thể chạy ENTER, EPED,
ANALYSIS từ một đĩa mềm, trên máy AT 386 chỉ có 640Kb bộ nhớ qui ước. Vì vậy,
khi có "bệnh lạ" ở địa phương nào đó, bạn chỉ cần "quảy gánh" một chiếc laptop
xinh xắn với cấu hình tối thiểu (thậm chí không cần có đĩa cứng) để lên đường là
đủ. Làm sao ANALYSIS có thể chứa trong nó những module đồ họa nặng nề mà vẫn giữ
nguyên tính cơ động, như đã thiết kế cho các đội đặc nhiệm của CDC được-
Tuy vậy, không phải bộ lệnh
đồ thị của EPI là đồ bỏ đâu nhé. Mặc dù không thể dùng nó để minh họa cho báo
cáo của mình, đây là những công cụ giúp cho bạn có một cái nhìn trực quan và cụ
thể về file dữ liệu của mình ngay trong ANALYSIS trước khi xử lý.
1)Lệnh
SCATTER:
Ðây có lẽ là lệnh đáng giá
nhất trong 5 lệnh đồ họa của EPI. Trước khi tính tương quan, nên dùng
lệnh SCATTER để xem một cách trực quan mối quan hệ giữa hai biến số.
Ví dụ: lệnh SCATTER RR QT /r vẽ biểu đồ phân tán cùng với đường hồi qui thẳng
như hình1.
Qui ước ngầm định của EPI
cho lệnh SCATTER là <biến 1> <biến 2>. Do đó, ở biểu đồ bên dưới, bạn
thấy khoảng RR là biến phụ thuộc sẽ được biểu diễn ở trục hoành, khoảng QT là
biến độc lập sẽ được biểu diễn ở trục tung. Ðây là một qui ước bất thành văn khi
vẽ đồ thị tương quan trong khoa thống kê. Ngoài ra, tùy chọn /r vẽ thêm
một đường hồi qui thẳng như đã thấy.
Hình 1
Hình 2
Quan sát sự phân bố của các điểm, bạn dễ dàng thấy giữa
khoảng RR và khoảng QT có mối tương quan tuyến tính khá chặt (hình 1). Trong khi
đó, ở hình 2 không có tương quan tuyến tính giữa tuổi (age) và nhịp tim (rate).
2)Lệnh
HISTOGRAM
Histogram vẽ một biểu đồ thanh (bar graph) cho mỗi biến số.
Dùng histogram để ước lượng bằng mắt xem phân bố của từng biến số có chuẩn hay
không, đối xứng hay không đối xứng, tần số cao nhất (mode) rơi vào trị số
nào...Ðây thực sự là những thông tin giàu tính thống kê và cần thiết cho bất kỳ
nghiên cứu nào.
Cú pháp:
HISTOGRAM <tên biến> {/y=<min>-<max>} {/sum = <tên trường>}{/label=<văn bản>} (phải
trên cùng một dòng hoặc dùng ký hiệu dòng tiếp\)
_files/image004.gif)
Hình 3
Ví dụ: HISTOGRAM AGE (Hình
3)
Thông thường các cột đứng
của đồ thị biểu diễn số bản ghi ứng với từng giá trị khác nhau của biến. Nếu
thông số sum được đưa vào, các cột
sẽ thể hiện tổng của biến đó.
Ðồ thị Histogram thường
dùng để thể hiện số trường hợp mắc (prevalence) theo khoảng thời gian nên còn
được gọi là đường cong dịch tễ. Trục thời gian có thể giá trị đơn hoặc ghép gộp,
nhưng nếu ghép thì các nhóm phải có cùng số năm, ngày, tháng v.v...
Có thể tăng giá trị lớn
nhất của trục tung bằng cách thêm thông số sau /y=<min>-<max>,
trong đó "cực tiểu" bằng không và "cực đại" là bất cứ con số nào lớn hơn con
số mà chương trình tự gán. Sự điều chỉnh này rất tiện lợi khi xây dựng một loạt
đồ thị và muốn chúng có cùng trục tung để có thể so sánh được.
Tên của trục tung thường là
"đếm"hay "count".
Nếu thông số /label=<văn
bản> đưa vào thì chúng sẽ được sứ dụng làm tên của trục đó. Có thể thêm các tiêu
đề vào tất cả các đồ thị trong EPI 6.04 bằng cách sử dụng lệnh
title. Nếu lệnh
route printer xuất hiện trước đó,
đồ thị sẽ được in ra.
3)Lệnh
BAR
_files/image005.gif)
Hình 4
Cú pháp:
-BAR <tên biến> {/y=<min>-<max>} {/sum = <tên trường>} {/label=<đoạn văn bản>}
Như
histogram, dáng vẻ của bar
cũng chẳng mỹ miều gì hơn. Nó hiển thị đồ thị cột của biến được chỉ định. Ðồ thị
cột thường được sử dụng khi thể hiện số lượng trong cả hai loại biến định tính
có thứ tự và không có thứ tự (categorical, ordinal variables). Các cột đứng thể
hiện tần số các bản ghi cho các giá trị khác nhau của biến. Nhưng nếu thêm thông
số sum thì các cột lại thể hiện các tổng của tham số biến chỉ
định.
Ðồ thị cột khác với đồ thị
histogram ở chỗ các cột cách nhau bằng một khoảng trống và bỏ qua không thể hiện
các cột khi tần suất có giá trị bằng không.
Giá trị cực đại của trục
tung có thể tăng lên qua thông số y=<min>-<max>,
mà trong đó "cực tiểu" bằng 0, còn "cực đại" có thể là con số nào lớn hơn có số
được chương trình tự động gán vào. Ðiều chỉnh này có thể có ích nếu bạn vẽ một
loạt các đồ thị và muốn so sánh chúng với nhau.
Nhãn trên trục tung thường
là "đếm" hay "count". Nếu thêm vào thông số /label=<văn bản> thì tên nhãn sẽ chấp
nhận thông số văn bản đưa vào. Ví dụ: BAR AGE (Hình 4)
4)Lệnh PIE
_files/image006.gif)
Hình 5
PIE vẽ một biểu đồ hình
quạt với tên biến được chỉ định.
Cú-pháp:
PIE <tên biến > {sum =
<tên trường>}
Các dẻ quạt (slice) thể
hiện tỷ lệ các bản ghi của các giá trị khác nhau của biến. Nếu có thông số sum đưa vào, các dẻ quạt sẽ thể hiện các
tỷ lệ theo tổng giá trị của biến.
Ðồ thị hình quạt thường
được sứ dụng để nêu các thành phần tính bằng tỉ lệ %, trong trường hợp số liệu
không sắp xếp theo thứ tự như giới tính.
Ví dụ: PIE SEX (Hình 5)
5)Lệnh LINE
Cú pháp:
LINE <tên biến > {<tên
biến >}{sum = <tên trường>}{/label=<văn
bản>}
Lệnh LINE dùng để vẽ đồ thị
đường của biến đầu tiên được chỉ định. Thường các điểm trên đồ thị thể hiện số
các bản ghi cho từng giá trị khác nhau của biến. Nếu có thông số
sum đưa vào, các điểm đó sẽ thể
hiện tổng của biến có thông số sum đi kèm.
Ðồ thị đường (line) thường áp dụng cho các biến sắp xếp thứ tự như nhóm
tuổi, huyết áp, ngày tháng. Việc nhóm các số liệu lại thường giúp cho đường đồ
thị trở nên sáng sủa và trực quan hơn.
Có thể vẽ nhiều đường bằng
cách vào thêm tên biến phân lớp. Lệnh LINE NHÓMTUỔI BỆNHKÈM sẽ vẽ một đường
NHÓMTUỔI cho các trường hợp có BỆNHKÈM và một đường khác cho
Hình 6
các trường hợp không có BỆNHKÈM nếu biến BỆNHKÈM là biến
lôgic "Y/N".
Thường thì tên của trục
tung là "count". Nếu đưa vào thông số /label=<văn bản> thì <văn bản> đó được sứ
dụng làm tên của trục tung.
Ví dụ: LINE NHÓMTUỔI
BỆNHKÈM
(Hình 6)
Tóm lại, vẽ đồ thị là một
chuyện gây nhiều thú vị cho những người dùng máy tính không chuyên. Vì vậy,
thường lạm dụng đồ thị cho các báo cáo khoa học của mình. Một qui ước trong giới
tin học văn phòng là trong một trang A4, bạn không nên "cấy" vào quá 3 biểu đồ,
sẽ dễ làm rối mắt người đọc. Ngoài ra, đồ thị có thể tạo ra nhiều ảo giác giả
tạo và gây nhiễu. Bạn có thể đọc tài liệu tham khảo số 3 để biết thêm về vấn đề
này.
Dù sao đi nữa, một đồ thị thống kê tốt phải là- một đồ
thị giàu thông tin, không nhất thiết phải là một đồ thị màu mè kiểu cọ như kiểu
Powerpoint hay Harvard Graphics. Bạn thử so sánh những biểu đồ trắng đen nhưng
rất cô đọng và xúc tích trong Lancet hay JAMA mà xem, có lẽ chúng thua
xa những biểu đồ của những tay mới dùng bộ Microsoft Office về tính diêm dúa và
sặc sỡ hoa lá cành, nhưng thống kê không phải là thời trang, không phải nhiều
màu là đẹp.
Thay
cho lời kết:
EPI 6.04 chứa những phép
xử-lý thống kê cơ bản, đủ dùng cho một nghiên cứu ở qui mô nhỏ hoặc vừa (các
luận án tốt nghiệp chẳng hạn). Chúng ta không thể đòi hỏi hơn ở một phần mềm nhỏ
gọn như vậy. Tuy vậy, các thông tin thống kê mà EPI 6.04 đưa ra cũng đủ sức vượt
xa những bảng tính điện tử chuyên nghiệp như Excel hay Lotus, Quattro pro...Ðó
là chưa nói đến tính dễ sử-dụng, điều rất có ý nghĩa cho những người dùng không
chuyên trong y giới.
Do đó, với phiên bản 6.04,
EPI thật sự là một bước khởi đầu tốt và dễ chịu cho những bạn muốn làm quen với
thống kê y học, trước khi tiến tới những phần mềm thống kê chuyên nghiệp khác
như- SPSS, STATISTICA...
Tài liệu tham khảo
1. Beth
Dawson-Saunders, R. B. Trapp, Basic and clinical biostatistics, Prentice-Hall,
2nd edition, 1994.
2. Dean Ad,
Dean Ja, Burton Jh, Dicker Rc, EPI info 5.0, A word processing, database, and
statistics programme on micro computer, CDC, Atlanta, 1990.
3. Mantin
Bland. An Introduction To Medical Statistics. Oxford University Press, 1995
4. Võ Văn
Huy và cộng sự, Ứ-g dụng SPSSs for Windows để xử-lý và phân tích dữ kiện nghiên
cứu . NXB KHKT, 1997.
5. Marija. J. Norusis, SPSS For Windows, Base System
User's Guide, Spss Inc. 1992.
*Bác Sĩ, Khoa 22B, Bệnh Viện Chợ Rẫy |