ngothebinh's blog: 20170102. BÀN VỀ PHÂN TÍCH TƯƠNG QUAN

ĐIỂM BÁO MẠNG

Quốc tế: Biển Đông trong thông điệp năm mới, năm cũ của ông Tập Cận Bình (GD 2/1/2017)-Biển Đông: những biến động lớn năm 2016, cơ hội và thách thức năm 2017 (GD 1/1/2017)-Dù ông Trump có kịch bản nào, lựa chọn của Việt Nam không đổi (TVN 2/1/2017)-Năm 2017 - Các 'ông lớn' tự dựng rào quanh mình? (VNN 2/1/2017)-Các tổ chức xã hội [Đài Loan] đòi Đài Loan trả lời về thảm họa do Formosa gây ra ở Việt Nam (BVN 2/1/2017)-Huy Lam/SBTN-Có kỳ vọng dân chủ với luật Magnitsky? (BVN 2/1/2017)-Cát Linh/RFA-
Trong nước: Tròn 20 tuổi, Đà Nẵng đẹp ngỡ ngàng (GD 2/1/2016)-Cấm quà Tết lãnh đạo: Trên đã quyết, dưới có làm được không? (GD 2/1/2016)-Xây dựng Chính phủ kiến tạo và liêm chính, bắt đầu từ đâu? (KTSG 2/1/2016)-'Ông bộ trưởng tôi cũng bộ trưởng, sao phê bình tôi' (VNN 2/1/2016)-Sabeco đại hội bất thường miễn nhiệm ông Vũ Quang Hải (VNN 2/1/2017)-
Kinh tế: Năm 2016 - Mốc son trong lịch sử phát triển của Vinamilk (GD 2/1/2016)-Nhìn lại một năm thành công của Vietjet (GD 2/1/2017)-Kiểm điểm cá nhân, đơn vị làm chậm trễ giải ngân vốn đầu tư công (GD 1/1/2016)-Không để dự án nhà ga sân bay lưỡng dụng làm hại cả ngành hàng không (GD 2/1/2017)-Du lịch đón năm mới với niềm vui và nỗi ưu tư (KTSG 2/1/2017)-Thị trường địa ốc 2016 dưới tác động của các chính sách lớn (KTSG 1/1/2017)-Ứng phó với cơn bão khoa học - công nghệ (1/1/2017)-Chính thức tăng lương tối thiểu từ 1/1/2017 (VNN 2/1/2017)-Dồn dập tỷ phú USD mới: Bùng cháy giấc mơ người Việt giàu có (Vef 2/1/2017)-
Giáo dục: Bỏ điểm sàn tuyển sinh, xu thế và những hệ lụy (GD 2/1/2016)-Xuân Dương-“Bỏ tiền ra là phải tính đến hiệu quả” (GD 2/1/2017)-Cơ cấu hệ thống giáo dục quốc dân mới và những vấn đề cần làm rõ, điều chỉnh (GD 2/1/2016)-Lâm Quang Thiệp-Biếu Tết cấp trên chỉ lợi lộc cho Hiệu trưởng, giáo viên và trường không được gì (GD 2/1/2016)-Trò chuyện cùng nhóm Cánh Buồm: Cải cách nhà cải cách - ưu tiên của mọi ưu tiên (GD 1/1/2017)-
Phản biện: Chuyện “công bộc” lãng mạn và những quy định trên trời (GD 2/1/2016)-Trương Khắc Trà-“Ông thày ăn một, bà cốt ăn hai”, rồi thất thoát sẽ rất lớn! (TVN 2/1/2017)- pv Trần Đăng Khoa-‘Xe của tôi, ai cho phép anh mang phục vụ người khác?’ (TVN 2/1/2017)-Vũ Lân-Nhìn về phía trước (Mênh mông thế sự 51) (BVN 2/1/2017)-Tương Lai-Tân Sơn Nhất: Sao không dám nói thẳng là do quân đội chiếm dụng đất? (BVN 2/1/2017)-Lê Dung/SBTN-Lược sử blog Việt năm 2016 (phần 2) (BVN 2/1/2016)-Phạm Đoan Trang-Mười phát ngôn ấn tượng nhất Việt Nam trong năm 2016 do Bauxite Việt Nam chọn (BVN 2/1/2017)-Cần cách chức chứ không thể đợi Bộ trưởng Trần Tuấn Anh từ chức (BVN 1/1/2017)- Nguyễn Hồng Lam-Quyền lực nhất thiết phải được kiểm soát (BVB 1/1/2017)-Vũ ngọc Hoàng/ TCCSĐT / ĐCV
Thư giãn: Tài xế xe ôm là cháu nội vua Thành Thái giờ ra sao? (VNN 2/1/2017)-Những kiểu thưởng Tết 'cười ra nước mắt' ở Việt Nam (VNN 2/1/2017)-Những không gian sân vườn đẹp nhờ khéo trồng tre (BĐS 2/1/2017)-Phương pháp suy luận giải bài toán nói dối - nói thật (GD 2/1/2017)-

BÀN VỀ PHÂN TÍCH TƯƠNG QUAN

NGÔ THẾ BÍNH/ ngothebinh’s blog 2-01-2017

Ảnh minh họa (từ internet)

Phân tích tương quan (Correlation Analysise) là công việc nghiên cứu mối quan hệ lẫn nhau giữa các hiện tượng hay sự vật và phản ánh mối quan hệ đó dưới dạng một biểu thức toán sau:

y* = f (x₁, x₂, x₃,…, x_i,…,x_n); (1)

Trong đó:

x_i với i=1,2,3…n - là các chỉ tiêu đặc trưng cho các hiện tượng sự vật biến đổi độc lập (biến độc lập);

y* - là giá trị kỳ vọng của chỉ tiêu đặc trưng cho hiện tượng hay sự vật biến đổi phụ thuộc (biến phụ thuộc).

Phân tích tương quan được thực hiện trong nhiều lĩnh vực nghiên cứu khoa học nhằm phát hiện ra tính quy luật thống kê của mối quan hệ giữa các hiện tượng/sự vật, nhằm đưa ra các giải pháp tác động, điều khiển các hiện tượng/sự vật phát triển theo hướng có lợi nhất cho con người. Đây cũng chính là một phương pháp có tính hiện đại của các công trình nghiên cứu khoa học. Trong bài này tôi có một số ý kiến cần trao đổi với NCS ngành Quản lý kinh tế như sau:

1- Nên thống nhất dùng thuật ngữ ‘phân tích tương quan’ (Correlation Analysis) thay cho thuật ngữ ‘phân tích hồi quy’ (Regression Analysis). “Regression”(được dịch là “hồi quy” hay “quay về”) là cách gọi của Fransis Galton (1822-1911)- nhà thống kê Anh đặt cho công trình nghiên cứu đầu tiên (1886) khi tìm ra sự tương quan theo kiểu ‘quay về’ các thông số kích thước cơ thể của thế hệ con cái so với các thông số kích thước cơ thể hệ bố mẹ [1]. Rõ ràng thuật ngữ ‘phân tích hồi quy’ không khái quát được bản chất của ‘phân tích tương quan” đã được nêu trên. Trong luận án càng tránh sử dụng lẫn lộn, ví dụ: ‘phân tích hồi quy tương quan’. Tuy nhiên trong các tài liệu tiếng Anh, kể cả trong phần mềm máy tính thuật ngữ ‘regession’ vẫn còn hay sử dụng. NCS cần có chú thích rõ ràng hay tránh sử dụng lẫn lộn.

2- Biểu thức tương quan là biểu thức thống kê. Cách viết biểu thức (1) nhắc nhở chúng ta không nên nhầm lẫn liên hệ tương quan với liên hệ ‘hàm’ hay ‘phương trình’ để gọi nó là ‘hàm tương quan’ hay ‘phương trình tương quan’. Càng không thể biến đổi biểu thức tương quan theo những quy tắc toán học thông thường! Tạp chí Cộng sản trong một bài nghiên cứu [2] có nhắc tới công thức nổi tiếng của V.I Lê Nin: ‘Chủ nghĩa cộng sản = Chính quyền Xô-Viêt + Điện khí hóa toàn quốc’[2] nhằm nhấn mạnh vai trò của điện khí hóa trong xây dựng Chủ nghĩa cộng sản. Công thức mang tính ẩn dụ và cũng có sắc thái phân tích tương quan. Nhưng nếu ai đó biến đổi công thức: Điện khí hóa = Chủ nghĩa Cộng sản – Chính quyền Xô-Viết thì thật là không hiểu lý thuyết tương quan và rất có thể bị coi là … ‘thế lực thù địch’ ! Theo tôi, cái tên thích hợp cho biểu thức(1) là ‘mô hình tương quan’

3- Cần thực hiện đầy đủ, thận trọng các bước của phân tích tương quan. Phân tich tương quan chỉ có giá trị khoa học khi đảm bảo thực hiện tốt các bước sau:

- Giả thiết biến phụ thuộc và các biến độc lập: Đó là nêu danh sách các chỉ tiêu được dùng làm biến độc lập và biến phụ thuộc. Căn cứ để lập danh sách là: kiến thức về lĩnh vực nghiên cứu, kinh nghiệm của các chuyên gia, các số liệu đã được công bố. Danh sách các biến phải bảo đảm tính độc lập, tính đặc trưng cho khái niệm chỉ tiêu, tính chính xác thuận lợi của thang đo giá trị chỉ tiêu. Thang đo giá trị chỉ tiêu có thể chọn nhiều cách: thang số tuyệt đối, thang số tương đối, thang số dao độ, thang số thứ bậc, thang số định danh …Trong thực tiễn NCS hay sử dụng thang số kiểu ‘thứ bậc’ với 5 bậc (thang đo Likert), được cho là rất thuận lợi vì đỡ tốn kém thời gian và chi phí, song theo tôi mang nặng yếu tố chủ quan không chính xác và nó chỉ thích hợp với các nghiên cứu mà biến độc lập là các yếu tố liên quan tới tâm lý của người được phỏng vấn! Trong trường hợp buộc phải sử dụng số đo thứ bậc thì phải có bảng mô tả rõ ràng cụ thể đặc điểm từng bậc để hạn chế yếu tố chủ quan của người được phỏng vấn.

- Thu thập dữ liệu để tạo ra ma trận xuất phát:

M = { Y, X} : (2)

Trong đó:

Y= (y₁, y₂, …,y_j,…,y_m) : ma trận dữ liệu biến phụ thuộc;

X= (x_j1, x_j2, …, x_ji, …, x_jn ) : ma trận dữ liệu biến độc lập;

Chú ý rằng: Ma trận M cần phải đủ kích thước tối thiểu. Theo kinh nghiệm [3] kích thước đó phải sao cho m-n-1> 30 nhưng không được khuyết dữ liệu. Mỗi phần tử của ma trận đều là những giái trị kỳ vọng, tức là kết quả trung bình của nhiều quan sát có phân phối chuẩn.

- Xử lý dữ liệu trên máy tính. Hiện nay có nhiều phiên bản phần mềm xử lý nhưng đều của nước ngoài, theo tôi sự khác nhau giữa chúng chủ yếu là ở giao diện và tính thuận lợi. Phần mềm SPSS (Statistical Package for the Social Sciences ) như được quảng cáo [4] thì ‘lệnh’ chủ yếu thực hiện bằng chuột. Nội dung xử lý và cũng là khả năng của phần mềm là cung cấp cho ta 2 vấn đề: mô hình tương quan cụ thể và các thông số ANOVA của mô hinh tương quan.

+ mô hình tương quan cụ thể. Mô hình tương quan thông dụng và hữu ích trong nghiên cứu kinh tế là mô hình tương quan tuyến tính, nhiều biến, có dạng:

y*= a + b₁x₁ + b₂x₂ + …+ b_ix_i +…+ b_nx_n;₍₃₎

Trong đó: a- hằng số (phản ánh tác động của những biến số độc lập chưa xét, được giả định không đổi);

b₁, b₂, …, b_i ,…, b_n – các hệ số (giúp ích đánh giá vai trò và xu hướng tương quan của các biến độc lập với biến phụ thuộc).

+ Các thông số ANOVA của mô hình tương quan. ANOVA là viết tắt của Analysis of Variance, tôi tạm dịch là Phân tích Sai lệch (không dịch là phân tích phương sai như các thông tin trên mạng). Có khá nhiều thông số ANOVA rút ra từ thống kê toán, cho biết những khía cạnh khác nhau về ‘sai lệch’ của mô hình tương quan như tính chặt chẽ, tính tản mạn, tính tin cậy…không thể nhắc lại tronng bài viết này. Điểm chung của các tham số trong ANOVA theo tôi hiểu là phản ánh sự ‘sai lệch’ so với chính tập dữ liệu sử dụng chứ không phải so với sự thật khách quan mà nó vốn có. Các thông số không hề trả lời mô hình tương quan đã lập có ý nghĩa sử dụng hay không. Ví dụ: Gần đây khi bảo vệ luận án cấp cơ sở, có NCS đã lập ra mô hình tương quan giữa năng lực cạnh tranh của các doanh nghiệp nhỏ và vừa trên địa bàn Hà Nội với các biến phụ thuộc: năng lực tổ chức quản lý doanh nghiệp, năng lực marketing, năng lực tài chính, năng lực tiếp cận và đổi mới công nghệ, năng lực tổ chức dịch vụ, năng lực tạo lập các mối quan hệ.

Canh tranh vốn dĩ là sự quan tâm của mỗi doanh nghiệp cụ thể (với thế mạnh / yếu riêng, mục tiêu riêng) trên thị trường nhất định với những đặc điểm riêng về mặt hàng, khách hàng và đối thủ cạnh tranh. Khi xem mô hình tương quan được NCS công bố, mặc dù những thông số ANOVA tỏ ra rất ‘chỉn chu”, nhưng ai cũng thấy không hiểu nổi: mô hình ấy sẽ được sử dụng cho doanh nghiệp nào và sử dụng ra sao? Tôi nghĩ tác giả của mô hình tương quan đã sai về ý tưởng ngay khi đặt ra bài toán!

- Lý giải mô hình: Đó là khẳng định được tính hợp lý của mô hình thông qua nhận xét vai trò từng biến độc lập và xu hướng tương quan thuận/nghịch với biến phụ thuộc. Công việc này ngoài ‘trách nhiệm’ của máy tính mà của NCS. Giả sử có mô hình tương quan nhận được mà giá thành 1T than của các mỏ khai thác hầm lò biến đổi tỷ lệ nghịch với chiều sâu khai thác và suất đào lò thì rõ ràng không hợp lý! Nguyên nhân có thể không chính xác trong thu thập số liệu, nhập số liệu vào máy tính và không loại trừ khả năng phần mềm bị lỗi. Đừng quá mê tín vào máy tính, hãy nghiêm túc ngay từ ý tưởng cho đến dữ liệu! Trong gới khoa học nước ngoài có câu: “garbage in, garbage out” (số liệu đầu vào là rác, thì kết quả đầu ra cũng chỉ là rác)[5].

Lời kết:

Phân tích tương quan là một phần của phân tích định lượng, rất cần và rất đáng khuyến khích các NCS áp dụng trong luận án TS. Ngày nay máy tính đã giúp chúng ta giải quyết rất nhiều nhiệm vụ phức tạp của phân tích tương quan mà thế kỷ trước chưa đạt được. Song vẫn còn nguyên những nhiệm vụ chưa thể thay thế vai trò của người nghiên cứu. “Trò chơi với những con số” [1] là những từ mà V.I. Lê Nin đã dùng để chỉ trích các nhà kinh tế quá máy móc khi sử dụng các phép tính thống kê, có lẽ vẫn là lời nhắc nhở cần thiết cho tất cả những ai làm phân tích tương quan tránh các sai lầm hôm nay.

TÀI LIỆU THAM KHẢO

[1]- I.G. Veneski, V.I. Veneskaia (1979)-Những khái niệm và công thức thống kê-toán chủ yếu.(tiếng Nga)-NXB “Statistika”, Moskva.

[2]- TCCS ĐT (18/6/2015)- V.I. Lênin phát triển lý luận mácxít về hình thái kinh tế xã hội cộng sản chủ nghĩa Ý nghĩa đối với Việt Nam hiện nay*

http://www.tapchicongsan.org.vn/Home/PrintStory.aspx?distribution=33875&print=true

[3]- Ngô Thế Bính (2000)- Định mức lao động. (Bài giảng dùng cho sinh viên đại học chuyên ngành kinh tế và quản trị doanh nghiệp mỏ)- XB Trường Đại học Mỏ Địa Chất.

[4]- Đào Trung Kiên (2016)- Giới thiệu về spss/

Thứ Hai, 2 tháng 1, 2017

20170102. BÀN VỀ PHÂN TÍCH TƯƠNG QUAN

[5]- Nguyễn Văn Tuấn (tuan’s blog 18/12/2016)-Kết quả PISA 2015: một cách hiểu khác

Không có nhận xét nào:

Đăng nhận xét