Giá trị bootstrap là gì

Giá trị bootstrap là gì

Bootstrapping là một kỹ thuật thống kê nằm trong tiêu đề rộng hơn là lấy mẫu lại. Kỹ thuật này bao gồm một thủ tục tương đối đơn giản nhưng lặp đi lặp lại rất nhiều lần nên nó phụ thuộc nhiều vào tính toán của máy tính. Bootstrapping cung cấp một phương pháp khác với khoảng tin cậy để ước tính một tham số tổng thể. Bootstrapping dường như hoạt động như một phép thuật. Đọc tiếp để xem nó có được cái tên thú vị như thế nào.

Giải thích về Bootstrapping

Một mục tiêu của thống kê suy luận là xác định giá trị của một tham số của một tập hợp. Nó thường quá đắt hoặc thậm chí không thể đo trực tiếp được. Vì vậy, chúng tôi sử dụng lấy mẫu thống kê . Chúng tôi lấy mẫu dân số, đo lường thống kê của mẫu này, sau đó sử dụng thống kê này để nói điều gì đó về tham số tương ứng của dân số.

Ví dụ, trong một nhà máy sản xuất sô cô la, chúng tôi có thể muốn đảm bảo rằng các thanh kẹo có trọng lượng trung bình cụ thể . Không khả thi khi cân mọi thanh kẹo được sản xuất, vì vậy chúng tôi sử dụng kỹ thuật lấy mẫu để chọn ngẫu nhiên 100 thanh kẹo. Chúng tôi tính giá trị trung bình của 100 thanh kẹo này và nói rằng trung bình dân số nằm trong một sai số so với giá trị trung bình của mẫu của chúng tôi.

Giả sử rằng một vài tháng sau, chúng tôi muốn biết với độ chính xác cao hơn - hoặc ít sai số hơn - trọng lượng thanh kẹo trung bình là bao nhiêu vào ngày chúng tôi lấy mẫu dây chuyền sản xuất. Chúng ta không thể sử dụng các thanh kẹo ngày nay, vì có quá nhiều biến thể đã đi vào bức tranh (các lô sữa, đường và hạt ca cao khác nhau, điều kiện khí quyển khác nhau, nhân viên khác nhau trên dây chuyền, v.v.). Tất cả những gì chúng ta có từ ngày mà chúng ta tò mò về là 100 quả cân. Nếu không có cỗ máy thời gian quay lại ngày đó, có vẻ như mức sai số ban đầu là tốt nhất mà chúng ta có thể hy vọng.

May mắn thay, chúng ta có thể sử dụng kỹ thuật bootstrapping . Trong tình huống này, chúng tôi lấy mẫu ngẫu nhiên với sự thay thế từ 100 trọng lượng đã biết. Sau đó, chúng tôi gọi đây là một mẫu bootstrap. Vì chúng tôi cho phép thay thế, mẫu bootstrap này rất có thể không giống với mẫu ban đầu của chúng tôi. Một số điểm dữ liệu có thể bị trùng lặp và các điểm dữ liệu khác từ 100 điểm ban đầu có thể bị bỏ qua trong mẫu bootstrap. Với sự trợ giúp của máy tính, hàng nghìn mẫu bootstrap có thể được xây dựng trong một thời gian tương đối ngắn.

Một ví dụ

Như đã đề cập, để thực sự sử dụng kỹ thuật bootstrap, chúng ta cần sử dụng máy tính. Ví dụ số sau đây sẽ giúp chứng minh quy trình hoạt động như thế nào. Nếu chúng ta bắt đầu với mẫu 2, 4, 5, 6, 6, thì tất cả các mẫu sau đây đều có thể là mẫu bootstrap:

  • 2, 5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Lịch sử của kỹ thuật

Kỹ thuật Bootstrap tương đối mới đối với lĩnh vực thống kê. Việc sử dụng đầu tiên được xuất bản trong một bài báo năm 1979 bởi Bradley Efron. Khi sức mạnh tính toán ngày càng tăng và trở nên ít tốn kém hơn, các kỹ thuật bootstrap đã trở nên phổ biến hơn.

Tại sao tên Bootstrapping?

Cái tên bootstrapping bắt nguồn từ cụm từ, Để nâng mình lên bằng những chiếc bootstraps của mình. Điều này ám chỉ điều gì đó phi lý và không thể. Cố gắng hết sức, bạn không thể nâng mình lên không trung bằng cách giật mạnh miếng da trên ủng.

Có một số lý thuyết toán học biện minh cho các kỹ thuật khởi động. Tuy nhiên, việc sử dụng bootstrapping có cảm giác như bạn đang làm điều không thể. Mặc dù có vẻ như bạn không thể cải thiện ước tính của thống kê dân số bằng cách sử dụng lại nhiều lần cùng một mẫu, nhưng trên thực tế, bootstrapping có thể làm được điều này.