Phần mềm thống kê SPSS là một trong những phần mềm phân tích dữ liệu phổ biến nhất hiện nay. Lý do mọi người thường chọn SPSS thay vì các phần mềm khác nằm ở tính đơn giản. Chúng ta có thể cực kỳ dễ dàng thực hiện các phân tích thống kê cơ bản và phức tạp vì giao diện đồ họa của chúng rất đơn giản.
SPSS được sử dụng rất phổ biến trong học thuật, kinh doanh và trong nhiều tổ chức phát triển trên toàn thế giới, vì vậy không cần phải nói rằng đầu tư thời gian của bạn vào việc học nó là một trong những quyết định tốt nhất mà bạn có thể đưa ra khi có liên quan đến sự phát triển chuyên môn của mình.
Ở bài viết này, Proskills.vn sẽ hướng dẫn bạn cách sử dụng phần mềm SPSS cơ bản dành cho người mới bắt đầu chỉ với 3 bước đơn giản. Bao gồm: kiến thức cơ bản về SPSS từ nhập dữ liệu đến phân tích dữ liệu cơ bản. Cụ thể, chúng ta sẽ giải quyết vấn đề:
- Tạo biến
- Nhập dữ liệu
- Phân tích dữ liệu bằng cách sử dụng thống kê cơ bản
- Tạo dựng một số biểu đồ cơ bản.
Làm quen với giao diện phần mềm SPSS
Giao diện chính của SPSS được gọi là cửa sổ Data Editor . Đây là nơi diễn ra hầu hết các hoạt động trong SPSS – từ việc tạo các biến đến chuyển đổi dữ liệu và lựa chọn phân tích.
Cửa sổ biên tập dữ liệu này cũng giống như bảng tính của Microsoft Excel – một bảng khổng lồ với các hàng và cột.
Trong SPSS, các cột là các biến . Hãy nghĩ về các biến số như các mẩu thông tin bạn đang thu thập hoặc các câu hỏi riêng lẻ trên biểu mẫu khảo sát.
Các hàng được gọi là trường hợp – hoặc người trả lời riêng lẻ trong một cuộc khảo sát. Đây có thể là một hộ gia đình trong một cuộc khảo sát các hộ gia đình, hoặc một bệnh nhân trong một nghiên cứu lâm sàng nào đó.
Cửa sổ trình chỉnh sửa dữ liệu bao gồm 2 tab – chế độ xem dữ liệu và chế độ xem biến đổi. Các tab được sử dụng để chuyển đổi giữa các chế độ xem này nằm ở dưới cùng bên trái của cửa sổ là: Data View và Variable View:
- Data View: là nơi bạn có thể xem và chỉnh sửa dữ liệu.
- Variable View: là nơi bạn có thể xác định và chỉnh sửa các biến.
Đưa dữ liệu vào SPSS
Có vô số cách mà Bạn có thể đưa vào SPSS. Trong bài viết này, tôi sẽ trình bày cách xác định các biến và nhập dữ liệu theo cách thủ công, như một cách đưa dữ liệu vào SPSS.
Định nghĩa các biến trong SPSS
Để xác định các biến, trước tiên chúng ta cần chuyển sang dạng xem biến trên cửa sổ biên tập dữ liệu. Làm như vậy bằng cách nhấp vào tab Variable View ở dưới cùng bên trái của cửa sổ.
Ở đây, chúng ta sẽ phải xác định các đặc điểm của từng biến như: tên biến, kiểu, độ rộng, v.v
Tên biến (Variable name) – đây là tên sẽ được chương trình SPSS sử dụng để xác định duy nhất biến. Khi xác định tên biến, Bạn phải tuân theo các quy tắc nhất định sau:
- Tên biến không được chứa khoảng trắng
- Ký tự đầu tiên của tên biến không được là số
- Tên chỉ có thể chứa các chữ cái trong bảng chữ cái, số và dấu gạch dưới (_)
Kiểu biến (Variable type) – kiểu dữ liệu của biến. Chúng bao gồm những điều sau:
- Biến số (Numeric)- tất nhiên kiểu này dành cho các biến có giá trị sẽ được lưu trữ dưới dạng số. Loại biến này chiếm phần lớn cho hầu hết các cuộc khảo sát. Biến số bao gồm các biến: 1_ Liên tục: , ví dụ: Quy mô hộ gia đình hoặc thu nhập hộ gia đình. 2_ Các biến phân loại như Giới tính hoặc Tình trạng hôn nhân. Giá trị văn bản của các biến này được lưu trữ dưới dạng số được mã hóa trong đó mỗi số đại diện cho một danh mục trong biến. Ví dụ đối với giới tính, chúng ta có thể chỉ định 1 cho Nam và 2 cho Nữ.
- Dấu phẩy (Comma) – Một biến số được hiển thị bằng dấu phẩy phân cách ba vị trí một lần và được hiển thị với dấu chấm dưới dạng dấu phân cách thập phân. Diễn giải hơi khó hiểu, bạn chỉ cần nghĩ đơn giản biến đó nó sẽ hiển thị dưới dạng: xxx,xxx.xx
- Dấu chấm – Cũng giống như Dấu phẩy nhưng sử dụng dấu chấm thay vì dấu phẩy để phân định ba vị trí. Cũng như trên, nó sẽ hiển thị dưới dạng: xxx.xxx,xx
- Kí hiệu khoa học (Scientific notation)- Một biến số có các giá trị được hiển thị bằng chữ E được nhúng và lũy thừa có dấu của 10. Ví dụ. 5.634E-5 có nghĩa là 0,00005634
- Ngày (Date)- Một biến số có các giá trị được hiển thị ở một trong một số định dạng lịch-ngày hoặc giờ-đồng hồ. Một ví dụ là ngày sinh.
- Đồng đô-la Mỹ (Dollar) – Một biến số được hiển thị với ký hiệu đô la đứng đầu ($), dấu phẩy phân cách ba vị trí một lần và dấu chấm làm dấu phân cách thập phân. Bạn có thể nhập các giá trị dữ liệu có hoặc không có ký hiệu đô la đứng đầu.
- Đơn vị tiền tệ tùy chỉnh (Custom currency) – Một biến số có giá trị được hiển thị ở một trong các định dạng tiền tệ tùy chỉnh mà bạn có thể xác định trên tab Đơn vị tiền tệ của hộp thoại Tùy chọn. Đi tới Edit -> Options -> Currency để xác định đơn vị tiền tệ tùy chỉnh.
- Chuỗi (văn bản hoặc chữ và số – String) – Một biến có giá trị không phải là số và do đó không được sử dụng trong tính toán. Các giá trị có thể chứa bất kỳ ký tự nào có độ dài đã xác định.
- Biến Số bị hạn chế (Restricted numeric)- Một biến có giá trị bị giới hạn là các số nguyên không âm. Các giá trị được hiển thị với các số không ở đầu được đệm vào chiều rộng tối đa của biến. Ví dụ. nếu độ rộng của biến là 4, giá trị 20 sẽ xuất hiện dưới dạng 0020.
Chiều rộng (Width) – Tổng số ký tự cho phản hồi dài nhất
Số thập phân (Decimals) – Số vị trí thập phân của biến
Nhãn (Label)- Tên hiển thị cho biến
Giá trị (Values)- Đây là nơi bạn đặt danh sách các giá trị cho các phân loại biến. Ví dụ: nếu bạn đặt biến giới tính là số, bạn phải đặt mã và giá trị tương ứng của chúng trong hộp thoại giá trị mà bạn có thể mở bằng cách nhấp vào nút 3 chấm
Thiếu (Missing)- Bạn có thể xác định các giá trị là các giá trị bị thiếu đặc biệt, ví dụ: để phân biệt giữa dữ liệu bị thiếu do người trả lời từ chối trả lời (88: từ chối trả lời) và dữ liệu bị thiếu do câu hỏi không áp dụng cho người trả lời đó (99: không áp dụng). Các giá trị dữ liệu được chỉ định là do người dùng thiếu được gắn cờ để xử lý đặc biệt và bị loại trừ khỏi hầu hết các phép tính
Cột (Columns) – Chiều rộng của cột dữ liệu cho biến được đo bằng số ký tự
Căn chỉnh (Align) – Căn chỉnh dữ liệu trong ô cho biến đó. Căn chỉnh mặc định là bên phải cho các biến số và bên trái cho các biến chuỗi
Đo lường (Measure)- Mức đo lường cho biến. Bạn có thể chỉ định mức độ đo lường dưới dạng thang đo (dữ liệu số trên thang đo khoảng cách hoặc tỷ lệ), thứ tự hoặc danh nghĩa. Dữ liệu danh nghĩa và thứ tự có thể là chuỗi (chữ và số) hoặc số.
- Nominal . Một biến có thể được coi là danh nghĩa khi các giá trị của nó đại diện cho các danh mục không có (ví dụ: bộ phận của công ty mà một nhân viên làm việc). Ví dụ về các biến số Nominal bao gồm khu vực, mã bưu điện và tôn giáo.
- Ordinal. Một biến có thể được coi là Ordinal khi các giá trị của nó đại diện cho các danh mục với một số xếp hạng có sẵn (ví dụ: mức độ hài lòng về dịch vụ từ không hài lòng cao đến hài lòng cao). Ví dụ về các biến số Ordinal bao gồm điểm thái độ thể hiện mức độ hài lòng hoặc độ tin cậy và điểm đánh giá mức độ ưa thích.
- Scale. Một biến có thể được coi là scale (liên tục) khi các giá trị của nó đại diện cho các danh mục có thứ tự với một chỉ số có ý nghĩa, để so sánh khoảng cách giữa các giá trị là phù hợp. Ví dụ về các biến quy mô bao gồm tuổi tính bằng năm và thu nhập tính bằng nghìn đô la.
Cùng làm 1 ví dụ trên phầm mềm về biến phỏng vấn (mình sẽ gọi nó là InterviewID ) theo các thao tác như sau để làm quen nhé:
- Ở hàng đầu tiên của cột Name (Tên), nhập InterviewID
- Nhấn phím Tab để chuyển đến cột Type (loại). Tại đây, hãy nhấp vào nút 3 chấm để mở hộp thoại Variable Type (Loại biến). Chọn Numeric (dạng số) và bấm OK.
- Nhấn phím tab để chuyển sang cột width (chiều rộng). Ở đây chúng ta sẽ để mặc định như mặc định trong hình.
- Nhấn TAB một lần nữa để chuyển đến Decimals (Số thập phân). Nhập 0 cho số vị trí thập phân.
- Nhấn tab để chuyển đến Label (Nhãn). Ở đây, chúng ta sẽ nhập tên của biến đầy đủ theo cách chúng ta muốn nó hiển thị trong kết quả phân tích. Vì vậy, hãy nhập ID phỏng vấn.
- Nhấn TAB. Biến InterviewID sẽ không có bất kỳ giá trị nào được chỉ định. Chúng ta cũng sẽ không tìm thấy các giá trị bị thiếu và chúng ta sẽ để chiều rộng và căn chỉnh của cột ở chế độ mặc định.
- Ấn Tab lên đến cột Measure (Đo lường). Chúng ta sẽ chọn Nominal
Tiếp theo, Hãy nhập một vài biến nữa như bảng bên dưới:
Sau đó, Chế độ xem Biến sẽ giống như sau:
Nhập dữ liệu
Nhập dữ liệu trong SPSS rất đơn giản. Nếu bạn đã nhập dữ liệu trong Excel trước đây, bạn sẽ quen với giao diện SPSS và dễ dàng nhập dữ liệu. Trước tiên, hãy chuyển sang chế độ xem dữ liệu bằng cách sử dụng các tab ở góc dưới bên phải của màn hình trình chỉnh sửa dữ liệu.
Theo mặc định, chúng ta sẽ thấy các giá trị thực mà chúng ta đang nhập trong trình chỉnh sửa dữ liệu. Ví dụ, bên dưới cột Giới tính, khi chúng ta nhập 1, chúng ta cũng sẽ thấy 1. Tuy nhiên, trong hầu hết các trường hợp khi bạn có các biến có tập giá trị, sẽ rất tuyệt khi thấy các nhãn thay thế. Vì vậy, khi chúng ta gõ 1, nó sẽ hiển thị cho chúng ta Nam. Để điều này xảy ra, hãy bật nút Nhãn giá trị trên thanh công cụ ở đầu màn hình.
Bây giờ nhập dữ liệu sau:
Dữ liệu của bạn sẽ trông như thế này:
Phân tích dữ liệu
Có rất nhiều loại phân tích dữ liệu có sẵn trong SPSS và tất cả chúng đều được tìm thấy trong tùy chọn Analyze (Phân tích) trên menu.
Trong hướng dẫn này, chúng ta sẽ xem xét các thống kê mô tả cơ bản.
Phân tích biến phân loại
Các biến đã được chỉ định là ordinal (theo thứ tự) hoặc nominal (theo danh nghĩa) được phân tích tốt nhất bằng cách sử dụng tần số. Tần suất chỉ đơn giản là số lần một giá trị đó xuất hiện trong tập dữ liệu. Ví dụ, chúng ta có thể muốn biết bao nhiêu người là nam và bao nhiêu người là nữ.
Nhấp vào mục Analyze (Phân tích) trên menu, trỏ chuột vào Descriptive statistics (Thống kê mô tả) và nhấp vào Frequencies (Tần suất).
Trên hộp thoại hiện lên, bấm và kéo biến Giới tính (Gender) vào hộp bên phải
- Làm tương tự với câu “Did you eat Rice in the past 7 days? – Bạn có ăn cơm trong 7 ngày qua không?”
- Nhấp vào nút Biểu đồ ở bên phải hộp thoại
- Chọn Charts (biểu đồ thanh) và nhấp vào Tiếp tục
Click OK
Một cửa sổ mới có tên là Viewer sẽ xuất hiện với kết quả phân tích của bạn
Bảng đầu tiên trong đầu ra là Statistics (Thống kê). Vì chúng ta không chọn bất kỳ thống kê nào nên chúng ta chỉ có 2 giá trị: Valid and Missing (Hợp lệ và Thiếu).
- Số hợp lệ đại diện cho số trường hợp có phản hồi hợp lệ trên biến.
- Số Thiếu biểu thị số trường hợp không cung cấp phản hồi hợp lệ cho biến – bằng cách để trống hoặc bằng cách cung cấp giá trị mà chúng ta đã xác định là Thiếu trong chế độ xem biến.
Bảng thứ hai là Bảng tần suất (Frequencies):
- Frequency là viết tắt của số lần giá trị xuất hiện trong tập dữ liệu.
- Percent là tần suất / số lượng được biểu thị bằng phần trăm trên tổng số trường hợp trong tập dữ liệu
- Valid percent (phần trăm hợp lệ) là tần suất / số lượng được biểu thị dưới dạng phần trăm trong số các trường hợp Hợp lệ (Valid cases) – số người thực sự đã đưa ra phản hồi về biến. Trong hầu hết các trường hợp, đây là giá trị được báo cáo.
- Cumulative percent (Phần trăm tích lũy) là tổng phần trăm của mẫu đã được tính đến hàng đó; nó có thể được tính bằng cách thêm tất cả các số trong cột Phần trăm Hợp lệ phía trên hàng hiện tại.
Có tổng cộng 20 người trả lời trong cuộc khảo sát. Trong số này, 10 người là Nam và 10 người khác là Nữ – mỗi người đại diện cho 50% mẫu tương ứng.
Để báo cáo kết quả từ bảng, bạn có thể nói rằng
Để xuất sang Microsoft Word cho báo cáo của bạn, chỉ cần nhấp chuột phải vào đầu ra, ví dụ: một biểu đồ hoặc một bảng và chọn bản sao. Trong Microsoft Word, bấm chuột phải vào nơi bạn muốn biểu đồ hoặc bảng và chọn dán.
Phân tích các biến liên tục (biến tỷ lệ – scale)
Bảng tần suất mà chúng ta tạo ra trong lần phân tích trước sẽ không hoạt động tốt với các biến có nhiều giá trị dữ liệu khác nhau, ví dụ như tuổi. Kết quả sẽ chỉ đơn giản là một bảng dài các tần số không có ý nghĩa gì.
Khi chúng ta sắp xếp các giá trị của một biến theo thứ tự từ thấp nhất đến cao nhất, chúng ta gọi đây là phân bố tần số (frequency distribution).
Để phân tích các biến tỷ lệ, trước hết chúng ta cần tìm điểm trung tâm hoặc điểm trung bình của phân bố tần số. Chúng ta sử dụng các giá trị mean, median hoặc mode . 3 biện pháp này được gọi là measures of central tendency (các biện pháp của xu hướng trung tâm).
Chỉ số của khuynh hướng trung tâm sẽ không vẽ nên bức tranh đầy đủ về những gì đang diễn ra với biến số. Ngoài việc quan sát điểm trung tâm, chúng ta cũng cần biết các giá trị thay đổi như thế nào trong biến. Chúng ta thực hiện điều này bằng cách sử dụng thước đo độ biến thiên (measure of variability) hay còn được gọi là thước đo độ phân tán (measures of dispersion). Chúng bao gồm phạm vi (range), phương sai (variance) và độ lệch chuẩn (standard deviation).
- Quay lại cửa sổ trình chỉnh sửa dữ liệu SPSS, nhấp vào Analyze -> Descriptive Statistics -> Frequencies
- Nhấp vào nút Reset ở cuối hộp thoại
- Di chuyển biến Độ tuổi (Age) sang hộp bên phải bằng cách kéo và thả
- Nhấp vào nút Statistics
- Đặt các dấu kiểm trên Trung bình, Trung vị, Độ lệch Std, Phạm vi, Tối thiểu, Tối đa và Phần tư
- Click Continue
- Click nút Charts
- Chọn Biểu đồ và bật “Show normal curve on histogram – Hiển thị đường cong bình thường trên biểu đồ”
- Click Continue
- Tắt tùy chọn “Display Frequency Table – Bảng tần suất hiển thị” ở dưới cùng bên trái của hộp thoại Tần suất
Click OK
Một lần nữa, bạn sẽ thấy giá trị đầu ra của mình xuất hiện trong cửa sổ Viewer window.
Một lần nữa chúng ta có Bảng thống kê như hình trên. Lần này với nhiều số liệu thống kê hơn – những số liệu chúng ta đã chọn trong hộp thoại Tùy chọn thống kê (Statistics options)
- Mean – Trung bình – Giá trị trung bình được tìm thấy bằng cách cộng tất cả các số lại với nhau và chia cho số giá trị có trong phân phối.
- Median – Trung vị – Giá trị được tìm thấy bằng cách lấy số chính xác ở giữa phân phối. trong trường hợp số giá trị chia hết cho 2 như trường hợp với tập dữ liệu (Hợp lệ Valid= 20), giá trị trung bình của 2 số ở giữa được sử dụng.
- The standard deviation – Độ lệch chuẩn là giá trị trung bình của tất cả các khác biệt giữa mỗi giá trị trong phân phối và giá trị trung bình. Nếu giá trị trung bình là trung tâm thực sự của phân phối, thì độ lệch chuẩn cho biết trung bình mỗi giá trị khác nhau như thế nào so với giá trị đó. Nếu sự khác biệt bằng 0, thì không có sự khác biệt giữa mỗi giá trị (về bản chất, điều đó có nghĩa là tất cả các trường hợp đều có cùng độ tuổi). Độ lệch chuẩn lớn hơn 0 có nghĩa là có nhiều biến thể hơn trong tập dữ liệu.
- The range – Phạm vi chỉ đơn giản là sự khác biệt giữa giá trị lớn nhất và giá trị thấp nhất trong phân phối.
- The percentiles – Các phân vị hiển thị giá trị mà tại đó phần trăm giá trị đã nói trong phân phối nằm ở đó. Ví dụ: phân vị thứ 25 của anh ta là một giá trị mà tại đó 25% điểm ở dưới nó.
Kết luận
Phần mềm thống kê SPSS trở nên hữu ích khi chúng dễ sử dụng và thực hiện phân tích dữ liệu. Với giao diện người dùng thân thiện và đồ họa tuyệt vời, IBM SPSS dễ dàng là lựa chọn tốt nhất để quản lý và phân tích dữ liệu hàng ngày.