WHO definition of HEALTH:
Health is a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity.


Thời sự y dược học

Tháng 12/2001
Tháng 10/2001
Tháng 08/2001
Tháng 06/2001
Tháng 04/2001

Tháng 02/2001
Tháng 12/2000
Tháng 10/2000
Tháng 08/2000
Tháng 06/2000
Tháng 04/2000
Tháng 02/2000
Tháng 12/1999
Tháng 10/1999
Tháng 08/1999
Tháng 06/1999
Tháng 04/1999
Tháng 02/1999
Tháng 12/1998
Tháng 10/1998
Tháng 08/1998
Tháng 06/1998
Tháng 04/1998
Tháng 02/1998

 

 



www YKHOANET

TRANG MỤC

Bình luận y khoa

Tin thời sự y tế

Tin Y khoa Thế giới

Địa chỉ y khoa

Hộp thư bạn đọc

Tạp chí y khoa

Forum

 

ĐẠI HỌC  Y KHOA

ĐH Y Khoa Hà Nội

ĐH Y Dược TPHCM

ĐH Y Khoa Thái Nguyên

ĐH Y Khoa Huế

ĐH Y Khoa Thái Bình

ĐH Y Tế Công Cộng

 

 ANALYSIS, HẠT NHÂN CỦA EPI 6.04

(PHẦN 3)

 

Lê Ðình Phương*

 

 


TƯƠNG QUAN VÀ HỒI QUY

Khái niệm về tương quan (correlation) có từ giữa thế kỷ 19, huân tước Francis Galton (1886), anh em họ của Darwin, một nhà toán học và đồng thời là một bác sĩ, đã đưa ra những khái niệm đầu tiên về tương quan khi nghiên cứu những tập tính về chiều cao giữa hai thế hệ. Ông cũng là cha đẻ của thuật ngữ "hồi qui" (regress). Về sau, những khái niệm về tương quan và hồi qui mà Galton đưa ra đã được nhà toán học Karl Pearson phát triển mà đỉnh cao của nó là sự ra đời của hệ số tương quan mang tên ông.

Một điều khá lạ là trong phần hướng dẫn trực tuyến của EPI trong ANALYSIS về lệnh khó nhất này lại vỏn vẹn chỉ 5 dòng. CDC hướng dẫn bạn tìm đọc một cuốn sách khác, chắc cũng "khó nhai" không kém cuốn Guide book của EPI Info. Ðây cũng là test thống kê có kết quả sơ lược nhất trong tất cả những lệnh của ANALYSIS. Vì vậy, trong tầm hiểu biết khiêm tốn, người viết xin tóm lược một số điểm cần nhớ và cần tránh khi sử dụng phép tương quan và hồi qui:

Có hai khái niệm thường bị lẫn lộn là liên hệ (relation) và tương quan (correlation). Liên hệ, nói một cách giản lược, là xem xét mối quan hệ giữa hai biến số theo một cách đơn giản nhất, nghĩa là chỉ so sánh sự khác biệt, lớn hơn hay nhỏ hơn...Các ví dụ trong bài trước về phép so sánh phương sai anova giữa hai trung bình, tính toán OR, RR...thực chất chỉ là đi tìm mối liên hệ giữa hai biến định tính, hay giữa một biến định tính với một biến định lượng. Trong khi đó, tương quan cũng đi tìm mối liên hệ nhưng ở mức cao hơn, nghĩa là từ một giá trị đã biết của một biến, ta có thể tiên đoán được giá trị tương ứng của biến kia qua một biểu đồ, hay qua một phương trình hồi qui.

 

 

 

Về bản chất, tương quan có hai loại: tương quan tuyến tính (linear-hình 1) và tương quan phi tuyến (non-linear-hình 2). Nếu hai biến số định tính có tương quan tuyến tính, mối liên hệ giữa chúng sẽ được biểu diễn bằng một phương trình y=ax+b, hay một đường hồi qui thẳng. Ví dụ: tương quan giữa chiều cao và cân nặng, tương quan giữa FEV1 và chiều cao, tương quan giữa tuổi và lượng sữa mẹ...Ngược lại, khi hai biến số này có tương quan phi tuyến, mối liên hệ giữa chúng sẽ không thể được biểu diễn bằng một phương trình y=ax+b, hay một đường hồi qui thẳng như trên.

Trong EPI 6.04, phép tính hồi qui là hồi qui tuyến tính bội (linear multiple regression) giữa các biến kiểu số mà thôi (tương quan Pearson). Số lượng các biến số sau lệnh REGRESS tối đa là 15. EPI không thể dùng để tính tương quan giữa một biến kiểu số và một biến thứ hạng (ordinal). Ví dụ như tính tương quan giữa độ hôn mê (I, II, III) và đường huyết chẳng hạn. Muốn làm điều này, bạn phải dùng phép xếp thứ hạng (rank test) cho biến thứ hạng và sử-dụng phép tương quan của Spearman hay Kendall. Nhưng những phép tính tương quan và xếp thứ hạng này thì nằm ngoài khả năng xứ lý của EPI 6.04. Nếu hai biến kiểu số có tương quan phi tuyến, EPI sẽ đưa ra hệ số tương quan Pearson rất thấp. Vậy thì làm sao để biết hai biến số là có tương quan tuyến tính hay không- Xin bạn xem ở phần lệnh SCATTER.

Cú pháp:

REGRESS biến độc lập = <biến phụ thuộc 1> <biến phụ thuộc 2>...

Ví dụ: lệnh sau đây sẽ tính tương quan giữa cân nặng và chiều cao với kết quả bảng 1:

REGRESS WEIGHT HEIGHT

Những thông số sau cần chú ý:

-Giá trị và dấu của hệ số tương quan:

r dương chứng tỏ hai biến số có tương quan thuận (hay tỷ lệ thuận).


Bảng 1

 

Correlation coefficient: r- = 0.64- r^2 = 0.41

95% confidence limits:- 0.29 < r^2 < 0.52

 

source------ ----------------------- df- ----- sum of squares- ------- mean square- f-statistic

REGRESSion---- ----- 1--- ----- 3729.0641--- ------------- 3729.0641--- - 141.90

residuals---- ------- 204-- -- 5361.1134--- ------------- 26.2800

total-------- ----------------------- 205-- -- 9090.1775

 

B coefficients

------------------- ---------------------- beta------- ------------------- 95% confidence--------------- ---------------- partial

variable-- ----------- mean -- coefficient-- lower-- --------------------- upper ------------ std- error--- - f-test

 

height 161.1117- 0.7107227--- - 0.593083- ----- 0.828362- ----- 0.059664--- --- 141.8976

y-intercept---- -----66.0649328


 


r âm chứng tỏ hai biến số có tương quan nghịch (hay tỷ lệ nghịch).

Theo qui ước của khoa thống kê, người ta chia tương quan thành 4 mức độ:

r > 0.7: tương quan rất chặt.

r = 0.5-0.7: tương quan khá chặt

r = 0.3-0.5: tương quan vừa

r < 0.3: tương quan rất ít.

Ở-đây, với r=0.64, có thể kết luận có tương quan khá chặt giữa cân nặng và chiều cao.

-Hệ số beta: nói lên độ dốc của đường hồi qui. Nghĩa là nếu chiều cao tăng 1 cm, cân nặng sẽ tăng 0.71 kg.

-Chặn y (y intercept): là trị số của cân nặng khi chiều cao bằng 0. Ðiều này có vẻ khó hình dung trong thực tế nhưng sẽ dễ dàng biểu diễn qua phương trình sau:

WEIGHT= (0.71 X HEIGHT) - 66.06

Cũng như các phép tính thống kê khác, khi mô tả những mối quan hệ trong mẫu, nếu muốn rút ra những kết luận cho tổng thể, cần phải kiểm định ý nghĩa thống kê. EPI cung cấp hai kiểm định: một cho hệ số tương quan r và một cho hệ số. Vì một lý do nào đó, các tác giả EPI không cung cấp ngay cho hai trị số p tương ứng mà chỉ cho biết giá trị của F test và độ tự do. Trong ví dụ trên, có F test là 141.9 với độ tự do 1. Tra bảng F, ta có p value là 0.0001. Như vậy, có thể nói: "giữa cân nặng và chiều cao có tương quan tuyến tính thuận và chặt một cách ý nghĩa với r=0.64, n=205, p<0.0005". Khi trình bày một tương quan, phải thông báo cả ba yếu tố: hệ số tương quan, cỡ mẫu và kiểm định p mới có ý nghĩa thuyết phục.

Cũng cần nhớ hệ số tương quan không chỉ ra được mối quan hệ nhân qua- Nghĩa là trong ví dụ trên, việc cao hay thấp không nhất thiết phải là nguyên nhân trực tiếp của chuyện mập hay ốm. Chúng chỉ có tương quan với nhau một cách chặt chẽ thôi.

Các lệnh về đồ thị

Các lệnh về đồ thị của EPI thì không được hay đẹp vì nó không cung cấp các tùy biến (customize) các tiêu đề, màu sắc, kiểu dáng, font chữ tiếng Việt...Nói tóm lại là trong thực đơn của ANALYSIS, không hề có mục "chart option" như những phần mềm đồ họa chuyên dùng khác. Bạn cũng khó mà chia sẻ khả năng đồ họa của EPI cho những phần mềm xứ lý văn bản khác chạy trên Windows 3.11 hay Windows 95. Ðối với người dùng Việt Nam, đồ họa trong EPI chỉ để "coi chơi" vì những hạn chế trên, nhất là trong việc sử dụng các font chữ tiếng Việt. Không phải vì khả năng lập trình của cdc quá kém cỏi đâu, mà ở đây, tính cầu kỳ phải nhường chỗ cho tính hiệu qua- Trong loạt bài đầu tiên, bạn đã biết rằng có thể chạy ENTER, EPED, ANALYSIS từ một đĩa mềm, trên máy AT 386 chỉ có 640Kb bộ nhớ qui ước. Vì vậy, khi có "bệnh lạ" ở địa phương nào đó, bạn chỉ cần "quảy gánh" một chiếc laptop xinh xắn với cấu hình tối thiểu (thậm chí không cần có đĩa cứng) để lên đường là đủ. Làm sao ANALYSIS có thể chứa trong nó những module đồ họa nặng nề mà vẫn giữ nguyên tính cơ động, như đã thiết kế cho các đội đặc nhiệm của CDC được-

Tuy vậy, không phải bộ lệnh đồ thị của EPI là đồ bỏ đâu nhé. Mặc dù không thể dùng nó để minh họa cho báo cáo của mình, đây là những công cụ giúp cho bạn có một cái nhìn trực quan và cụ thể về file dữ liệu của mình ngay trong ANALYSIS trước khi xử lý.

1)Lệnh SCATTER:

Ðây có lẽ là lệnh đáng giá nhất trong 5 lệnh đồ họa của EPI. Trước khi tính tương quan, nên dùng lệnh SCATTER để xem một cách trực quan mối quan hệ giữa hai biến số.


Ví dụ: lệnh SCATTER RR QT /r vẽ biểu đồ phân tán cùng với đường hồi qui thẳng như hình1.

Qui ước ngầm định của EPI cho lệnh SCATTER là <biến 1> <biến 2>. Do đó, ở biểu đồ bên dưới, bạn thấy khoảng RR là biến phụ thuộc sẽ được biểu diễn ở trục hoành, khoảng QT là biến độc lập sẽ được biểu diễn ở trục tung. Ðây là một qui ước bất thành văn khi vẽ đồ thị tương quan trong khoa thống kê. Ngoài ra, tùy chọn /r vẽ thêm một đường hồi qui thẳng như đã thấy.

Hình 1


Hình 2

Quan sát sự phân bố của các điểm, bạn dễ dàng thấy giữa khoảng RR và khoảng QT có mối tương quan tuyến tính khá chặt (hình 1). Trong khi đó, ở hình 2 không có tương quan tuyến tính giữa tuổi (age) và nhịp tim (rate).

 

2)Lệnh HISTOGRAM

Histogram vẽ một biểu đồ thanh (bar graph) cho mỗi biến số. Dùng histogram để ước lượng bằng mắt xem phân bố của từng biến số có chuẩn hay không, đối xứng hay không đối xứng, tần số cao nhất (mode) rơi vào trị số nào...Ðây thực sự là những thông tin giàu tính thống kê và cần thiết cho bất kỳ nghiên cứu nào.

Cú pháp:

HISTOGRAM <tên biến> {/y=<min>-<max>} {/sum = <tên trường>}{/label=<văn bản>} (phải trên cùng một dòng hoặc dùng ký hiệu dòng tiếp\)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Hình 3

 

Ví dụ: HISTOGRAM AGE (Hình 3)

Thông thường các cột đứng của đồ thị biểu diễn số bản ghi ứng với từng giá trị khác nhau của biến. Nếu thông số sum được đưa vào, các cột sẽ thể hiện tổng của biến đó.

Ðồ thị Histogram thường dùng để thể hiện số trường hợp mắc (prevalence) theo khoảng thời gian nên còn được gọi là đường cong dịch tễ. Trục thời gian có thể giá trị đơn hoặc ghép gộp, nhưng nếu ghép thì các nhóm phải có cùng số năm, ngày, tháng v.v...

Có thể tăng giá trị lớn nhất của trục tung bằng cách thêm thông số sau /y=<min>-<max>, trong đó "cực tiểu" bằng không và "cực đại" là bất cứ con số nào lớn hơn con số mà chương trình tự gán. Sự điều chỉnh này rất tiện lợi khi xây dựng một loạt đồ thị và muốn chúng có cùng trục tung để có thể so sánh được.


Tên của trục tung thường là "đếm"hay "count".

Nếu thông số /label=<văn bản> đưa vào thì chúng sẽ được sứ dụng làm tên của trục đó. Có thể thêm các tiêu đề vào tất cả các đồ thị trong EPI 6.04 bằng cách sử dụng lệnh title. Nếu lệnh route printer xuất hiện trước đó, đồ thị sẽ được in ra.

 

3)Lệnh BAR

 

 

 

 

 

 

 

 

 

 

 

 

 

Hình 4

Cú pháp:

-BAR <tên biến> {/y=<min>-<max>} {/sum = <tên trường>} {/label=<đoạn văn bản>}

Như histogram, dáng vẻ của bar cũng chẳng mỹ miều gì hơn. Nó hiển thị đồ thị cột của biến được chỉ định. Ðồ thị cột thường được sử dụng khi thể hiện số lượng trong cả hai loại biến định tính có thứ tự và không có thứ tự (categorical, ordinal variables). Các cột đứng thể hiện tần số các bản ghi cho các giá trị khác nhau của biến. Nhưng nếu thêm thông số sum thì các cột lại thể hiện các tổng của tham số biến chỉ định.

Ðồ thị cột khác với đồ thị histogram ở chỗ các cột cách nhau bằng một khoảng trống và bỏ qua không thể hiện các cột khi tần suất có giá trị bằng không.

Giá trị cực đại của trục tung có thể tăng lên qua thông số y=<min>-<max>, mà trong đó "cực tiểu" bằng 0, còn "cực đại" có thể là con số nào lớn hơn có số được chương trình tự động gán vào. Ðiều chỉnh này có thể có ích nếu bạn vẽ một loạt các đồ thị và muốn so sánh chúng với nhau.

Nhãn trên trục tung thường là "đếm" hay "count". Nếu thêm vào thông số /label=<văn bản> thì tên nhãn sẽ chấp nhận thông số văn bản đưa vào. Ví dụ: BAR AGE (Hình 4)

 

4)Lệnh PIE

 

 

 

 

 

 

 

 

 

 

 

 

Hình 5

PIE vẽ một biểu đồ hình quạt với tên biến được chỉ định.

Cú-pháp:

PIE <tên biến > {sum = <tên trường>}

Các dẻ quạt (slice) thể hiện tỷ lệ các bản ghi của các giá trị khác nhau của biến. Nếu có thông số sum đưa vào, các dẻ quạt sẽ thể hiện các tỷ lệ theo tổng giá trị của biến.

Ðồ thị hình quạt thường được sứ dụng để nêu các thành phần tính bằng tỉ lệ %, trong trường hợp số liệu không sắp xếp theo thứ tự như giới tính.

Ví dụ: PIE SEX (Hình 5)

 

5)Lệnh LINE

Cú pháp:

LINE <tên biến > {<tên biến >}{sum = <tên trường>}{/label=<văn bản>}

Lệnh LINE dùng để vẽ đồ thị đường của biến đầu tiên được chỉ định. Thường các điểm trên đồ thị thể hiện số các bản ghi cho từng giá trị khác nhau của biến. Nếu có thông số sum đưa vào, các điểm đó sẽ thể hiện tổng của biến có thông số sum đi kèm.

Ðồ thị đường (line) thường áp dụng cho các biến sắp xếp thứ tự như nhóm tuổi, huyết áp, ngày tháng. Việc nhóm các số liệu lại thường giúp cho đường đồ thị trở nên sáng sủa và trực quan hơn.

Có thể vẽ nhiều đường bằng cách vào thêm tên biến phân lớp. Lệnh LINE NHÓMTUỔI BỆNHKÈM sẽ vẽ một đường NHÓMTUỔI cho các trường hợp có BỆNHKÈM và một đường khác cho

 

Hình 6

các trường hợp không có BỆNHKÈM nếu biến BỆNHKÈM là biến lôgic "Y/N".

Thường thì tên của trục tung là "count". Nếu đưa vào thông số /label=<văn bản> thì <văn bản> đó được sứ dụng làm tên của trục tung.

Ví dụ: LINE NHÓMTUỔI BỆNHKÈM

(Hình 6)

Tóm lại, vẽ đồ thị là một chuyện gây nhiều thú vị cho những người dùng máy tính không chuyên. Vì vậy, thường lạm dụng đồ thị cho các báo cáo khoa học của mình. Một qui ước trong giới tin học văn phòng là trong một trang A4, bạn không nên "cấy" vào quá 3 biểu đồ, sẽ dễ làm rối mắt người đọc. Ngoài ra, đồ thị có thể tạo ra nhiều ảo giác giả tạo và gây nhiễu. Bạn có thể đọc tài liệu tham khảo số 3 để biết thêm về vấn đề này.


Dù sao đi nữa, một đồ thị thống kê tốt phải là- một đồ thị giàu thông tin, không nhất thiết phải là một đồ thị màu mè kiểu cọ như kiểu Powerpoint hay Harvard Graphics. Bạn thử so sánh những biểu đồ trắng đen nhưng rất cô đọng và xúc tích trong Lancet hay JAMA mà xem, có lẽ chúng thua xa những biểu đồ của những tay mới dùng bộ Microsoft Office về tính diêm dúa và sặc sỡ hoa lá cành, nhưng thống kê không phải là thời trang, không phải nhiều màu là đẹp.

Thay cho lời kết:

EPI 6.04 chứa những phép xử-lý thống kê cơ bản, đủ dùng cho một nghiên cứu ở qui mô nhỏ hoặc vừa (các luận án tốt nghiệp chẳng hạn). Chúng ta không thể đòi hỏi hơn ở một phần mềm nhỏ gọn như vậy. Tuy vậy, các thông tin thống kê mà EPI 6.04 đưa ra cũng đủ sức vượt xa những bảng tính điện tử chuyên nghiệp như Excel hay Lotus, Quattro pro...Ðó là chưa nói đến tính dễ sử-dụng, điều rất có ý nghĩa cho những người dùng không chuyên trong y giới.

Do đó, với phiên bản 6.04, EPI thật sự là một bước khởi đầu tốt và dễ chịu cho những bạn muốn làm quen với thống kê y học, trước khi tiến tới những phần mềm thống kê chuyên nghiệp khác như- SPSS, STATISTICA...

Tài liệu tham khảo

1. Beth Dawson-Saunders, R. B. Trapp, Basic and clinical biostatistics, Prentice-Hall, 2nd edition, 1994.

2. Dean Ad, Dean Ja, Burton Jh, Dicker Rc, EPI info 5.0, A word processing, database, and statistics programme on micro computer, CDC, Atlanta, 1990.

3. Mantin Bland. An Introduction To Medical Statistics. Oxford University Press, 1995

4. Võ Văn Huy và cộng sự, Ứ-g dụng SPSSs for Windows để xử-lý và phân tích dữ kiện nghiên cứu . NXB KHKT, 1997.

5. Marija. J. Norusis, SPSS For Windows, Base System User's Guide, Spss Inc. 1992.


*Bác Sĩ, Khoa 22B, Bệnh Viện Chợ Rẫy
[include/content.htm]
 

 

Website YKHOANET.COM khai trương ngày 24/12/2000

Website YKHOANET - Y KHOA VIỆT NAM www.ykhoanet.com www.ykhoa.net 

In trang này     ►Phản hồi

Web Master: Dr PHAN XUAN TRUNG - drxuantrung@ykhoa.net