- by Đạt Vũ
- 29/12/22
Loading
Việc nghiên cứu thống kê liên quan trực tiếp đến các tập dữ liệu (dataset). Bài học này mô tả 2 kiểu tập dữ liệu quan trọng là Tổng thể (populations) và Mẫu (Samples). Cuối bài học sẽ là một ví dụ về cách lấy mẫu ngẫu nhiên bằng Excel.
Sự khác biệt chính giữa một tổng thể và mẫu là cách các quan sát (observation) được gán vào tập dữ liệu như thế nào
Tùy thuộc vào phương pháp lấy mẫu, một mẫu có thể có ít, bằng, hoặc nhiều quan sát hơn tổng thể. Từ một tổng thể, ta có thể lấy ra nhiều mẫu khác nhau.
Ngoài ra, còn có thể kể đến những sự khác biệt giữa Tổng thể và Mẫu như sau:
Lấy mẫu là quá trình chọn lọc các thành phần của mẫu từ một tổng thể. Lấy mẫu ngẫu nhiên là phương pháp lấy mẫu có những đặc tính sau đây:
Một lợi ích quan trọng của việc lấy mẫu ngẫu nhiên là nó cho phép các nhà nghiên cứu sử dụng các phương pháp thống kê để phân tích kết quả mẫu. Ví dụ, cho một mẫu ngẫu nhiên, các nhà nghiên cứu có thể sử dụng các phương pháp thống kê để xác định khoảng tin cậy xung quanh trung bình cộng của mẫu. Các phương pháp thống thê phân tích sẽ không phù hợp để sử dụng cho các mẫu không ngẫu nhiên.
Có nhiều cách để lấy mẫu ngẫu nhiên. Một trong số đó là sử dụng phương pháp xổ số. Mỗi phần tử của Tổng thể N được gán cho một con số duy nhất. Các con số được đặt trong một cái rổ và được trộn kĩ. Sau đó, một người được bịt mắt kín lần lượt chọn ra n con số. Các phần tử của Tổng thể có số được trọn sẽ được dùng ở trong mẫu.
Giả sử ta có một tập dữ liệu về việc bán nước mía của Thảo trong năm 2017. Download ở đây.
Bây giờ, muốn chọn ngẫu nhiên một mẫu trong tổng thể này, ta cần làm thế nào.
Ta có được một tập dữ liệu bị trộn lẫn một cách ngẫu nhiên. Giờ đây, ta chỉ cần chọn lấy một lượng thành phần mà chúng ta cần để đưa vào mẫu: