Thứ Hai, 2 tháng 1, 2017

20170102. BÀN VỀ PHÂN TÍCH TƯƠNG QUAN

ĐIỂM BÁO MẠNG
BÀN VỀ PHÂN TÍCH TƯƠNG QUAN
NGÔ THẾ BÍNH/ ngothebinh’s blog 2-01-2017
Kết quả hình ảnh cho Galton
Ảnh minh họa (từ internet)
     Phân tích tương quan (Correlation Analysise) là công việc nghiên cứu mối  quan hệ lẫn nhau  giữa các hiện tượng hay sự vật và phản ánh mối quan hệ đó dưới dạng một biểu thức toán sau:
                       y* = f (x1, x2, x3,…, xi,…,xn);      (1)                                          
    Trong đó:
xi với i=1,2,3…n - là các chỉ tiêu đặc trưng cho các hiện tượng sự vật biến đổi độc lập (biến độc lập);
y* - là giá trị kỳ vọng của chỉ tiêu đặc trưng cho hiện tượng hay sự vật biến đổi phụ thuộc (biến phụ thuộc). 
    Phân tích tương quan được thực hiện trong nhiều lĩnh vực nghiên cứu khoa học nhằm phát hiện ra  tính quy luật thống kê của mối quan hệ giữa các hiện tượng/sự vật, nhằm đưa ra các giải pháp tác động, điều khiển các hiện tượng/sự vật phát triển theo hướng có lợi nhất cho con người. Đây cũng chính là một phương pháp có tính hiện đại của các công trình nghiên cứu khoa học. Trong bài này tôi có một số ý kiến cần trao đổi với NCS ngành Quản lý kinh tế như sau:
1- Nên thống nhất dùng thuật ngữ ‘phân tích tương quan’ (Correlation Analysis) thay cho thuật ngữ ‘phân tích hồi quy’ (Regression Analysis). “Regression”(được dịch là “hồi quy” hay “quay về”) là cách gọi của Fransis Galton (1822-1911)- nhà thống kê Anh đặt cho công trình nghiên cứu đầu tiên (1886) khi tìm ra sự tương quan theo kiểu ‘quay về’ các thông số kích thước cơ thể của thế hệ con cái so với các thông số kích thước cơ thể hệ bố mẹ [1]. Rõ ràng thuật ngữ ‘phân tích hồi quy’ không khái quát được bản chất của ‘phân tích tương quan” đã được nêu trên. Trong luận án càng tránh sử dụng lẫn lộn, ví dụ: ‘phân tích hồi quy tương quan’. Tuy nhiên trong các tài liệu tiếng Anh, kể cả trong phần mềm máy tính thuật ngữ ‘regession’ vẫn còn hay sử dụng. NCS cần có chú thích rõ ràng hay tránh sử dụng lẫn lộn.
2- Biểu thức tương quan là biểu thức thống kê. Cách viết biểu thức (1) nhắc nhở chúng ta không nên nhầm lẫn liên hệ tương quan với liên hệ ‘hàm’ hay ‘phương trình’ để gọi nó là ‘hàm tương quan’ hay ‘phương trình tương quan’. Càng không thể biến đổi biểu thức tương quan theo những quy tắc toán học thông thường! Tạp chí Cộng sản  trong một bài nghiên cứu [2] có nhắc tới công thức nổi tiếng của V.I Lê Nin: ‘Chủ nghĩa cộng sản = Chính quyền Xô-Viêt + Điện khí hóa toàn quốc’[2] nhằm nhấn mạnh vai trò của điện khí hóa trong xây dựng Chủ nghĩa cộng sản. Công thức mang tính ẩn dụ và cũng có sắc thái phân tích tương quan. Nhưng nếu ai đó biến đổi công thức:  Điện khí hóa = Chủ nghĩa Cộng sản – Chính quyền Xô-Viết thì thật là không hiểu lý thuyết tương quan và rất có thể bị coi là … ‘thế lực thù địch’ ! Theo tôi, cái tên thích hợp cho biểu thức(1) là ‘mô hình tương quan’
3- Cần thực hiện đầy đủ, thận trọng các bước của phân tích tương quan. Phân tich tương quan chỉ có giá trị khoa học khi đảm bảo thực hiện tốt các bước sau:
Giả thiết biến phụ thuộc và các biến độc lập: Đó là nêu danh sách các chỉ tiêu được dùng làm biến độc lập và biến phụ thuộc. Căn cứ để lập danh sách là: kiến thức về lĩnh vực nghiên cứu, kinh nghiệm của các chuyên gia, các số liệu đã được công bố. Danh sách các biến phải bảo đảm tính độc lập, tính đặc trưng cho khái niệm chỉ tiêu, tính chính xác thuận lợi của thang đo giá trị chỉ tiêu. Thang đo giá trị chỉ tiêu có thể chọn nhiều cách: thang  số tuyệt đối, thang số tương đối, thang số dao độ, thang số thứ bậc, thang số định danh …Trong thực tiễn NCS hay sử dụng thang số kiểu ‘thứ bậc’ với  5 bậc (thang đo Likert), được cho là rất thuận lợi vì đỡ tốn kém thời gian và chi phí, song  theo tôi mang nặng yếu tố  chủ quan không chính xác và nó chỉ thích hợp với các nghiên cứu mà biến độc lập là các yếu tố liên quan tới tâm lý của người được phỏng vấn! Trong  trường hợp buộc phải sử dụng số đo thứ bậc thì phải có bảng mô tả rõ ràng cụ thể đặc điểm từng bậc để hạn chế yếu tố chủ quan của người được phỏng vấn.
Thu thập dữ liệu để tạo ra ma trận xuất phát:
                                         M = { Y, X} :          (2)                                                  
Trong đó:
    Y= (y1, y2, …,yj,…,ym) : ma trận dữ liệu biến phụ thuộc;
    X= (xj1, xj2, …, xji, …, xjn ) : ma trận dữ liệu biến độc lập;
      Chú ý rằng:  Ma trận  M cần phải đủ kích thước tối thiểu. Theo kinh nghiệm [3] kích thước đó phải sao cho m-n-1> 30 nhưng không được khuyết dữ liệu. Mỗi phần tử của ma trận đều là những giái trị kỳ vọng, tức là kết quả trung bình của nhiều quan sát có phân phối chuẩn.
-  Xử lý dữ liệu trên máy tính. Hiện nay có nhiều phiên bản phần mềm xử lý nhưng đều của nước ngoài, theo tôi sự khác nhau giữa chúng chủ yếu là ở giao diện và tính thuận lợi. Phần mềm SPSS (Statistical Package for the Social Sciences ) như được quảng cáo [4] thì ‘lệnh’ chủ yếu thực hiện bằng chuột. Nội dung xử lý và cũng là khả năng của phần mềm là cung cấp cho ta 2 vấn đề: mô hình  tương quan cụ thể và các thông số ANOVA của mô hinh tương quan.
mô hình tương quan cụ thể. Mô hình tương quan thông dụng và hữu ích trong nghiên cứu kinh tế là mô hình tương quan tuyến tính, nhiều biến, có dạng:  
     y*= a + b1x1 + b2x2 + …+ bixi +…+ bnxn  ;                   (3)                                           
  Trong đó: a- hằng số (phản ánh tác động của những biến số độc lập chưa xét, được giả định không đổi); 
     b1, b2, …, bi ,…, bn – các hệ số (giúp ích đánh giá vai trò và xu hướng tương quan của các biến độc lập với biến phụ thuộc).
Các thông số ANOVA của mô hình tương quan. ANOVA là viết tắt của Analysis of Variance, tôi tạm dịch là Phân tích Sai lệch (không dịch là phân tích phương sai như các thông tin trên mạng). Có khá nhiều thông số ANOVA rút ra từ thống kê toán, cho biết những khía cạnh khác nhau về ‘sai lệch’ của mô hình tương quan như tính chặt chẽ, tính tản mạn, tính tin cậy…không thể nhắc lại tronng bài viết này.  Điểm chung của các tham số trong ANOVA  theo tôi  hiểu  là phản ánh sự ‘sai lệch’ so với chính tập dữ liệu sử dụng chứ không phải so với sự thật khách quan mà nó vốn có. Các thông số không hề trả lời mô hình tương quan đã lập có ý nghĩa sử dụng hay không. Ví dụ: Gần đây khi bảo vệ luận án cấp cơ sở, có NCS đã lập ra mô hình tương quan giữa  năng lực cạnh tranh của các doanh nghiệp nhỏ và vừa trên địa bàn Hà Nội với các biến phụ thuộc: năng lực tổ chức quản lý doanh nghiệp, năng lực marketing, năng lực tài chính, năng lực tiếp cận và đổi mới công nghệ, năng lực tổ chức dịch vụ, năng lực tạo lập các mối quan hệ.
    Canh tranh vốn dĩ  là sự quan tâm của mỗi doanh nghiệp cụ thể (với thế mạnh / yếu riêng, mục tiêu riêng) trên thị trường  nhất định với những đặc điểm riêng về mặt hàng, khách hàng và đối thủ cạnh tranh. Khi xem mô hình tương quan được NCS công bố, mặc dù những thông số ANOVA  tỏ ra rất ‘chỉn chu”, nhưng  ai cũng thấy không hiểu nổi:  mô hình ấy sẽ được sử dụng cho doanh nghiệp nào và sử dụng ra sao? Tôi nghĩ tác giả của mô hình tương quan đã sai về ý tưởng ngay khi đặt ra bài toán!
Lý giải mô hình: Đó là khẳng định được tính hợp lý của mô hình  thông qua nhận xét vai trò từng biến độc lập và xu hướng  tương quan  thuận/nghịch với biến phụ thuộc. Công việc này ngoài ‘trách nhiệm’ của máy tính mà của NCS. Giả sử có mô hình tương quan nhận được mà giá thành 1T than của  các mỏ khai thác hầm lò biến đổi tỷ lệ nghịch với chiều sâu khai thác và suất đào lò thì rõ ràng không hợp lý! Nguyên nhân có thể không chính xác trong thu thập số liệu, nhập số liệu vào máy tính và không loại trừ khả năng phần mềm bị lỗi. Đừng quá mê tín vào máy tính, hãy nghiêm túc ngay từ ý tưởng cho đến dữ liệu! Trong gới khoa học nước ngoài có câu: “garbage in, garbage out” (số liệu đầu vào là rác, thì kết quả đầu ra cũng chỉ là rác)[5].
   Lời kết:
   Phân tích tương quan là một phần của phân tích định lượng, rất cần và rất đáng khuyến khích các NCS áp dụng trong luận án TS. Ngày nay máy tính đã giúp chúng ta giải quyết rất nhiều  nhiệm vụ phức tạp của phân tích tương quan mà thế kỷ trước chưa đạt được. Song vẫn còn nguyên những nhiệm vụ chưa thể thay thế vai trò của người nghiên cứu. “Trò chơi với những con số” [1] là những từ mà V.I. Lê Nin đã dùng để chỉ trích các nhà kinh tế quá máy móc khi sử dụng các phép tính thống kê, có lẽ vẫn là lời nhắc nhở cần thiết cho tất cả những ai làm phân tích tương quan tránh các sai lầm hôm nay.
  TÀI LIỆU THAM KHẢO
[1]- I.G. Veneski, V.I. Veneskaia (1979)-Những khái niệm và công thức thống kê-toán chủ yếu.(tiếng Nga)-NXB “Statistika”, Moskva.
[2]- TCCS ĐT (18/6/2015)- V.I. Lê­nin phát triển lý luận mác­xít về hình thái kinh tế ­ xã hội cộng sản chủ nghĩa ­ Ý nghĩa đối với Việt Nam hiện nay*
[3]- Ngô Thế Bính (2000)- Định mức lao động. (Bài giảng dùng cho sinh viên đại học chuyên ngành kinh tế và quản trị doanh nghiệp mỏ)- XB Trường Đại học Mỏ Địa Chất.
[4]- Đào Trung Kiên (2016)- Giới thiệu về spss/

[5]- Nguyễn Văn Tuấn (tuan’s blog 18/12/2016)-Kết quả PISA 2015: một cách hiểu khác


Không có nhận xét nào:

Đăng nhận xét