Cách lọc dữ liệu trong spss kèm ví dụ hướng dẫn chi tiết!

3/5 - (4 bình chọn)

Trong quá trình thao tác với phần mềm SPSS, tệp dữ liệu sau khi đã được nhập lên hoàn chỉnh còn xuất hiện nhiều lỗi. Vì vậy bạn chưa thể xử lý ngay mà cần trải qua một bước là lọc dữ liệu. Vậy cách lọc dữ liệu trong SPSS (Select Case trong SPSS) như thế nào và cách tiến hành ra sao mới chuẩn? Câu trả lời sẽ được Luận Văn 24 bật mí ngay sau đây.

Lọc dữ liệu SPSS là việc làm cần thiết để loại bỏ hết các lỗi nhập liệu đến từ những nguyên nhân khách quan và chủ quan từ người nghiên cứu. Nếu tệp dữ liệu xuất hiện quá nhiều lỗi thì kết quả phân tích sẽ không đảm bảo độ chính xác. Quy trình chung của cách lọc dữ liệu trong SPSS được thực hiện qua 4 bước:

  • Bước 1: Tạo một biến bộ lọc
  • Bước 2: Kích hoạt biến bộ lọc
  • Bước 3: Chạy một hoặc nhiều phân tích – với biến bộ lọc có hiệu lực (chẳng hạn như tương quan, ANOVA hoặc kiểm tra chi bình phương)
  • Bước 4: Hủy kích hoạt biến bộ lọc

Chú ý: Về lý thuyết, với cách lọc dữ liệu trong SPSS bất kỳ biến nào cũng có thể được sử dụng làm biến bộ lọc. Sau khi kích hoạt nó, các trường hợp bị loại trừ khỏi tất cả các phân tích cho đến khi bạn hủy kích hoạt bộ lọc bao gồm:

  • Số 0
  • Người dùng thiếu giá trị 
  • Hệ thống thiếu giá trị

Lúc này, đối với cách lọc dữ liệu trong SPSS bạn chỉ nên sử dụng các biến bộ lọc có chứa 0 hoặc 1 cho mỗi trường hợp.

1. Ví dụ chi tiết về lọc dữ liệu trong SPSS

Để giúp bạn đọc hiểu rõ hơn về cách lọc dữ liệu trong SPSS, chúng tôi sẽ phân tích chi tiết 4 ví dụ cụ thể kèm ảnh minh họa sinh động cho từng trường hợp:

a) Ví dụ 1: Loại trừ các trường hợp có nhiều giá trị bị thiếu

Đặt vấn đề: 

“Vào cuối dữ liệu tìm thấy 9 thang đánh giá: q1 đến q9. Người nghiên cứu muốn chạy một phân tích nhân tố về chúng hoặc sử dụng chúng làm yếu tố dự đoán trong phân tích hồi quy. Trong mọi trường hợp, người nghiên cứu có thể muốn loại trừ các trường hợp có nhiều giá trị bị thiếu trên các biến này.”

Cách lọc dữ liệu trong SPSS:

Bước 1: Đầu tiên chúng ta sẽ đếm chúng bằng cách chạy cú pháp bên dưới:

  • Tạo biến mới nắm giữ số lượng thiếu sót trên q1 đến q9:

compute mis_1 = nmiss(q1 to q9).

  • Áp dụng nhãn biến:

variable labels mis_1 ‘Number of missings on q1 to q9’.

  • Kiểm tra tần số:

frequencies mis_1.

=> Kết quả: Sau khi chạy cách lọc dữ liệu trong SPSS, dựa theo phân bố tần suất bên dưới quyết định loại trừ 8 trường hợp có 3 giá trị bị thiếu trở lên trên q1 đến q9.

Bước 1 - Loại trừ các trường hợp có nhiều giá trị bị thiếu
Bước 1 – Loại trừ các trường hợp có nhiều giá trị bị thiếu

Bước 2: Tạo biến bộ lọc với một RECODE đơn giản như được hiển thị bên dưới:

  • Mã hóa mis_1 thành biến bộ lọc:

recode mis_1 (lo thru 2 = 1)(else = 0) into filt_1.

  • Áp dụng nhãn biến:

variable labels filt_1 ‘Filter out cases with 3 or more missings on q1 to q9’.

  • Kích hoạt biến bộ lọc:

filter by filt_1.

  • Đánh giá lại số lượng thiếu sót trong q1 đến q9:

frequencies mis_1.

=> Kết quả: Chạy cách lọc dữ liệu trong SPSS hiện báo cáo 456 thay vì 464 trường hợp. 8 trường hợp có 3 giá trị bị thiếu trở lên vẫn còn trong dữ liệu nhưng chúng bị loại khỏi tất cả các phân tích.

Bước 2 - Loại trừ các trường hợp có nhiều giá trị bị thiếu
Bước 2 – Loại trừ các trường hợp có nhiều giá trị bị thiếu

Bước 3: Chạy phân tích cách lọc dữ liệu trong SPSS

Bước 3 - Loại trừ các trường hợp có nhiều giá trị bị thiếu
Bước 3 – Loại trừ các trường hợp có nhiều giá trị bị thiếu
  • Số 1: Trường hợp 21 có 8 giá trị bị thiếu trên q1 đến q9 và người nghiên cứu đã giải mã điều này thành 0 trên biến bộ lọc của chúng tôi.
  • Số 2: Đường gạch ngang $ casenum của nó cho thấy rằng trường hợp 21 hiện đang được lọc ra.
  • Số 3: Thanh trạng thái xác nhận rằng một biến bộ lọc đang có hiệu lực.

Bước 4: Hủy kích hoạt bộ lọc trong SPSS bằng cách chỉ cần chạy: 

FILTER OFF.

b) Ví dụ 2: Lọc trên 2 biến

Đặt vấn đề: 

“Đối với một số phân tích khác, người nghiên cứu chỉ muốn sử dụng những người trả lời là nữ làm việc trong lĩnh vực bán hàng hoặc tiếp thị. Sử dụng cách lọc dữ liệu trong SPSS để lọc trên 2 biến theo yêu cầu”

Cách lọc dữ liệu trùng trong SPSS:

Bước 1: Một điểm khởi đầu tốt là chạy một bảng dự phòng rất đơn giản như hình dưới đây:

  • Hiển thị các giá trị và nhãn giá trị trong các bảng đầu ra tiếp theo:

set tnumbers both.

  • Hiển thị tần suất cho loại công việc theo giới tính:

crosstabs gender by jtype.

=> Kết quả: Bảng bên dưới cho thấy có 181 nữ trả lời làm việc trong lĩnh vực bán hàng hoặc tiếp thị.

Bước 1 - Lọc trên 2 biến
Bước 1 – Lọc trên 2 biến

Bước 2: Với cách lọc dữ liệu trùng trong SPSS ở bước này bạn tạo một biến bộ lọc mới chỉ chứa các số 0. Sau đó đặt nó thành 1 cho lựa chọn trường hợp bằng một lệnh IF đơn giản .

  • Tạo biến bộ lọc chỉ giữ các số 0:

compute filt_2 = 0.

  • Đặt bộ lọc thành 1 cho nữ trong loại công việc 1 và 2:

if(gender = 0 & jtype <= 2) filt_2 = 1.

  • Áp dụng nhãn biến:

variable labels filt_2 ‘Filter in females working in sales and marketing’.

  • Kích hoạt bộ lọc:

filter by filt_2.

  • Xác nhận bộ lọc hoạt động bình thường:

crosstabs gender by jtype.

Bước 3: Chạy phân tích kiểm tra

  • Kiểm tra lại bảng dự phòng xác nhận rằng SPSS hiện chỉ báo cáo 181 trường hợp nữ làm việc trong lĩnh vực tiếp thị hoặc bán hàng.
  • Lưu ý: Bây giờ có 2 biến bộ lọc trong dữ liệu và điều đó thực sự tốt nhưng chỉ có 1 biến bộ lọc có thể hoạt động bất kỳ lúc nào.

Bước 4: Hủy kích hoạt bộ lọc bằng cú pháp: 

FILTER OFF.

c) Ví dụ 3: Bộ lọc không có Biến bộ lọc

Đặt vấn đề: 

“ Với cách lọc trong spss, người dùng nhiều kinh nghiệm có thể biết rằng:

  • TEMPORARY có thể “hoàn tác” một số chỉnh sửa dữ liệu sau đó và
  • SELECT IF xóa vĩnh viễn các trường hợp khỏi dữ liệu của bạn.

Bằng cách kết hợp chúng, bạn có thể tránh được nhu cầu tạo biến bộ lọc nhưng chỉ dành cho 1 phân tích tại thời điểm đó. ”

Cách lọc dữ liệu trong SPSS:

  • Thực hiện (các) chuyển đổi sau đây là tạm thời:

temporary.

  • Xóa các trường hợp trừ khi giới tính = 1 & jtype = 3:

select if (gender = 1 & jtype = 3).

  • Crosstabs chỉ bao gồm nam giới trong CNTT và cuộn lại lựa chọn trường hợp:

crosstabs gender by jtype.

  • Crosstabs bao gồm tất cả các trường hợp một lần nữa:

crosstabs gender by jtype.

=> Kết quả: Ví dụ cách lọc trong spss bên trên chỉ ra rằng: 

  • CROSSTABS đầu tiên được giới hạn trong một số trường hợp lựa chọn nhưng cũng quay trở lại việc xóa trường hợp của người nghiên cứu. 
  • CROSSTABS thứ hai bao gồm tất cả các trường hợp một lần nữa.

d) Ví dụ 4: Lọc bằng Select Case trong SPSS

Đặt vấn đề: 

“Sử dụng tập dữ liệu cho trong bảng dưới đây:

Lọc bằng Select Case trong SPSS
Lọc bằng Select Case trong SPSS

Giả sử bạn có file spss có 1.517 người trả lời, giờ bạn cần lọc ra một số ít người trong 1.517 người đó thỏa một điều kiện cho trước nào đó, thì sẽ làm như thế nào? Giải pháp là sử dụng cách lọc dữ liệu trong SPSS thông qua chức năng Select Cases.”

Cách lọc dữ liệu trong SPSS:

  • Bước 1: Nhấp chuột vào Data và chọn Select Cases.
Bước 1 - Lọc bằng Select Case trong SPSS
Bước 1 – Lọc bằng Select Case trong SPSS
  • Bước 2: Nhấp vào If condition, đảm bảo rằng Filtered được chọn chứ không phải bị xóa, sau đó nhấp vào If.
Bước 2 - Lọc bằng Select Case trong SPSS
Bước 2 – Lọc bằng Select Case trong SPSS
  • Bước 3: Đặt các điều kiện bạn muốn thiết lập vào cửa sổ được khoanh đỏ bên dưới và nhấp vào Continue.
Bước 3 - Lọc bằng Select Case trong SPSS
Bước 3 – Lọc bằng Select Case trong SPSS
  • Bước 4: Menu sau sẽ xuất hiện trở lại. Đối với cách lọc trong SPSS. bạn  nhấp vào Paste và cú pháp sẽ được dán vào cửa sổ cú pháp của bạn. Chạy cú pháp và bộ lọc của bạn sẽ được áp dụng.
Bước 4 - Lọc bằng Select Case trong SPSS
Bước 4 – Lọc bằng Select Case trong SPSS

Lọc dữ liệu SPSS chỉ là một trong những bước nhỏ để chạy phân tích trên phần mềm. Để có được kết quả xử lý chuẩn xác nhất đòi hỏi người nghiên cứu phải trải qua một loạt các công đoạn khó nhằn. Nếu bạn gặp khó khăn với vấn đề này thì có thể tìm đến dịch vụ hỗ trợ spss của Luận Văn 24. Đội ngũ chuyên gia vững chuyên môn, giàu kinh nghiệm của đơn vị sẽ giúp bạn giải quyết nỗi lo trên.

2. Mẹo hay về bộ lọc tích hợp có thể bạn chưa biết

Trong quy trình cách lọc dữ liệu trong SPSS, có một số mẹo hay về các câu lệnh của bộ lọc tích hợp mà bạn có thể ghi nhớ để áp dụng. 4 lệnh có bộ lọc tích hợp bao gồm: 

  • REGRESSION (Hồi quy)
  • LOGISTIC REGRESSION (Vị trí nhật ký)
  • FACTOR (Yếu tố)
  • DISCRIMINANT (Phân biệt)
Mẹo hay về bộ lọc tích hợp
Mẹo hay về bộ lọc tích hợp
  • Hộp thoại gợi ý bạn có thể lọc các trường hợp – chỉ cho lệnh này – chỉ dựa trên 1 biến. Bạn cũng có thể nhập các điều kiện phức tạp hơn trên lệnh con kết quả / SELECT. 
  • Đối với mọi trường hợp của cách lọc dữ liệu trong SPSS, những bộ lọc tích hợp này có thể rất tiện dụng và nó khiến tôi khó hiểu là chúng chỉ giới hạn trong 4 lệnh nói trên.

Trong quá trình phân tích kết quả nghiên cứu, bạn cần làm sạch tệp dữ liệu bằng cách lọc bỏ chúng. Vậy cách lọc biến trong spss ra sao, làm sạch dữ liệu spss thế nào để đạt được hiệu quả cao nhất khi chạy phân tích trên phần mềm. Cùng tìm hiểu câu trả lời chi tiết trong bài viết chia sẻ các bước loại bỏ dữ liệu bẩn từ Luận Văn 24. Xem ngay kẻo lỡ!

3. Lưu ý khi chỉnh sửa dữ liệu bằng bộ lọc

Khi chỉnh sửa dữ liệu bằng bộ lọc bạn cần chú ý hầu hết việc chỉnh sửa dữ liệu trong SPSS không bị ảnh hưởng bởi quá trình lọc: 

Ví dụ: tính toán có nghĩa là trên các biến – như được hiển thị bên dưới – ảnh hưởng đến tất cả các trường hợp, bất kể bộ lọc nào đang hoạt động. Do đó, chúng ta cần DO IF hoặc IF để hạn chế việc chuyển đổi này trong một số trường hợp lựa chọn. 

Tuy nhiên, một bộ lọc hoạt động không ảnh hưởng đến các chức năng trong các trường hợp

Một số ví dụ về chỉnh sửa dữ liệu bằng bộ lọc sẽ chứng minh bên dưới:

  • Thêm số lượng trường hợp với AGGREGATE
  • Tính toán điểm số z cho một hoặc nhiều biến
  • Thêm cấp bậc hoặc phân vị bằng RANK

Việc chỉnh sửa dữ liệu SPSS bị ảnh hưởng bởi các ví dụ về bộ lọc:

  • Kích hoạt lại bộ lọc bán hàng nữ:

filter by filt_2.

  • Không bị ảnh hưởng bởi bộ lọc: thêm giá trị trung bình qua q1 đến q9 vào dữ liệu:

compute mean_1 = mean(q1 to q9).

execute.

  • Bị ảnh hưởng bởi bộ lọc: thêm số trường hợp vào dữ liệu:

aggregate outfile * mode addvariables

/ofreq = n.

  • Bị ảnh hưởng bởi bộ lọc: thêm điểm số lương z vào dữ liệu:

descriptives salary

/save.

  • Bị ảnh hưởng bởi bộ lọc: thêm lương nhóm trung bình vào dữ liệu:

rank salary

/ntiles(2) into med_salary.

=> Kết quả:

Lưu ý khi chỉnh sửa dữ liệu bằng bộ lọc
Lưu ý khi chỉnh sửa dữ liệu bằng bộ lọc

Thống kê mô tả đóng vai trò cực quan trọng trong quá trình phân tích, mô tả và tóm tắt dữ liệu. Tuy nhiên không phải ai cũng nắm vững các bước chạy phương pháp này trên phần mềm SPSS. Cùng tham khảo ngay bài viết chia sẻ cách chạy thống kê mô tả trong spss cực chi tiết kèm ví dụ minh họa sống động của Luận Văn 24 để vận dụng thành thạo cho bản thân mình.

Trên đây, Luận Văn 24 đã hướng dẫn bạn đọc cách lọc dữ liệu trong SPSS chi tiết nhất qua 4 bước cùng các ví dụ minh họa sinh động. Bên cạnh đó là một số lưu ý và  mẹo hay khi chạy cách lọc biến trong SPSS. Hy vọng rằng qua đây bạn sẽ nắm vững các bước thực hiện và áp dụng thành công.

0/5 (0 Reviews)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Bài viết liên quan