Cách xử lý outlier trong excel

Khi phân tích dữ liệu, chúng tôi thường cho rằng các giá trị dữ liệu rơi ở đâu đó gần trung bình hoặc trung bình, hoặc ít nhất là gần.

Nội dung chính Show

  • Tìm các ngoại lệ trong Excel bằng cách sử dụng phạm vi liên quan
  • Tìm các ngoại lệ trong Excel bằng cách sử dụng độ lệch trung bình và tiêu chuẩn
  • Tìm ngoại lệ trong Excel bằng điểm số Z
  • Làm thế nào để bạn tìm thấy các ngoại lệ với điểm Z?
  • Điểm Z có thể được sử dụng cho các ngoại lệ không?
  • Bạn có thể tìm thấy ngoại lệ trong Excel không?
  • Làm thế nào để tôi tìm thấy ngoại lệ trong biểu đồ Excel?

Tuy nhiên, có thể có một số giá trị từ giá trị trung bình/ trung bình.

Những giá trị này, còn được gọi là ngoại lệ, có thể làm lệch phân tích của bạn và cuối cùng đưa ra kết quả sai lệch.

Trong hướng dẫn này, chúng tôi sẽ thấy ba cách mà bạn có thể tìm thấy các ngoại lệ trong dữ liệu Excel của mình:find outliers in your Excel data:

  • Tìm các ngoại lệ trong Excel bằng cách sử dụng phạm vi liên quan
  • Tìm các ngoại lệ trong Excel bằng cách sử dụng độ lệch trung bình và tiêu chuẩn
  • Tìm ngoại lệ trong Excel bằng điểm số Z

Tìm các ngoại lệ trong Excel bằng cách sử dụng phạm vi liên quan

Tìm các ngoại lệ trong Excel bằng cách sử dụng độ lệch trung bình và tiêu chuẩn

Tìm ngoại lệ trong Excel bằng điểm số Z

Phạm vi liên quan (IQR) là thước đo nơi bắt đầu và kết thúc phần lớn dữ liệu của bạn nằm.

Vì vậy, bất kỳ giá trị nào cách xa cụm dữ liệu này có lẽ là một ngoại lệ.

IQR = Q3 - Q1

Where,

  • Trước tiên chúng ta hãy hiểu cách tính phạm vi liên quan.
  • Để tính toán IQR, chúng ta cần biết các phần tư thứ nhất và thứ ba của dữ liệu, vì công thức tính toán IQR là:

Q1 là bộ tứ đầu tiên của dữ liệu

Q3 là bộ tứ thứ ba của dữ liệu

Một phần tư bao gồm một phần tư các giá trị trong dữ liệu, khi dữ liệu được sắp xếp từ các giá trị nhỏ nhất đến lớn nhất.

Bộ tứ đầu tiên (Q1) bao gồm 25% dữ liệu thấp nhất.

QUARTILE.INC(array, quart)

Here,

  • Tương tự, Bộ tứ thứ ba (Q3) bao gồm các giá trị chỉ trên mức trung bình (giá trị từ 50% đến 75% dữ liệu). & NBSP;
  • Các giá trị nhóm này có thể dễ dàng được tính toán bằng hàm tứ phân tứ phân trong Excel. Cú pháp cho chức năng như sau:

Mảng là phạm vi của các ô chứa dữ liệu của bạn

Quart là một con số chỉ ra bộ tứ nào bạn muốn tính toán.

Nếu bạn muốn tính toán bộ tứ đầu tiên, bạn cần chỉ định tham số Quart là 1. Tương tự, nếu bạn muốn tính toán bộ tứ thứ ba, bạn cần chỉ định tham số Quart là 3.

Khi bạn có các giá trị Q1, Q3 và IQR, bạn có thể sử dụng ba giá trị này để tính toán các giá trị nhỏ nhất và lớn nhất của phạm vi dữ liệu chấp nhận được (còn được gọi là giới hạn dưới và giới hạn trên tương ứng).

Lower Bound = Q1-(1.5 * IQR)

Vì vậy, bất kỳ giá trị nào nhỏ hơn giới hạn dưới hoặc lớn hơn giới hạn trên là các ngoại lệ. Tại đây, cách bạn có thể tính toán các giá trị giới hạn dưới và trên:

Upper Bound = Q3+(1.5 * IQR)

Chúng ta có thể tính toán giới hạn giới hạn dưới bằng cách nhân giá trị IQR với 1,5 và sau đó trừ nó khỏi giá trị Q1:

Tương tự, chúng ta có thể tính toán giới hạn giới hạn trên bằng cách nhân giá trị IQR với 1.5 và sau đó thêm nó vào giá trị Q3:

  1. Tóm lại, chuỗi tính toán để tìm các ngoại lệ trong dữ liệu của bạn là:
  2. Chọn dữ liệu của bạn
  3. Tính toán Q1 và Q3 bằng cách sử dụng chức năng tứ tấu cho dữ liệu của bạn.
  4. Tính IQR bằng cách trừ Q1 từ Q3.
  5. Tính giới hạn dưới bằng cách nhân IQR với 1,5 và trừ nó từ Q1.

Tính giới hạn trên bằng cách nhân IQR với 1.5 và thêm nó vào Q3.

Cách xử lý outlier trong excel

Tìm các điểm nhỏ hơn giới hạn dưới hoặc lớn hơn giới hạn trên. Những điểm này là các ngoại lệ.

  1. Hãy để chúng tôi lấy một ví dụ để xem cách áp dụng phương thức trên trong Excel. Xem xét danh sách các giá trị dữ liệu sau:

  1. Để tính toán và tìm các ngoại lệ trong danh sách này, hãy làm theo các bước dưới đây:

  1. Tạo một bảng nhỏ bên cạnh danh sách dữ liệu như được hiển thị bên dưới:

  1. Trong ô E2, nhập công thức để tính giá trị Q1: = Quartile.inc (A2: A14,1).

  1. Trong ô E3, nhập công thức để tính giá trị Q3: = Quartile.inc (A2: A14,3).

  1. Trong ô E4, nhập công thức để tính giá trị IQR: = E3-E2.

  1. Trong ô E5, nhập công thức để tính giá trị giới hạn dưới: = E2- (1.5*E4).

  1. Trong ô E6, nhập công thức để tính giá trị giới hạn trên: = E3+(1.5*E4).

Bây giờ đối với mỗi giá trị dữ liệu, bạn có thể tìm hiểu xem đó có phải là một ngoại lệ không. Nhập công thức sau trong ô B2: = hoặc (A2 $ E $ 6)). Điều này sẽ trả về một giá trị thực nếu giá trị dữ liệu là một ngoại lệ và sai nếu không.

Sao chép công thức này vào phần còn lại của các ô trong cột B bằng cách nhấp đúp vào tay cầm điền của ô.: Alternatively you can also use conditional formatting to highlight the outliers in your data. You can use the formula of Step 7 as the condition for formatting the cells.

Tìm các ngoại lệ trong Excel bằng cách sử dụng độ lệch trung bình và tiêu chuẩn

Tìm ngoại lệ trong Excel bằng điểm số Z

Phạm vi liên quan (IQR) là thước đo nơi bắt đầu và kết thúc phần lớn dữ liệu của bạn nằm.

Vì vậy, bất kỳ giá trị nào cách xa cụm dữ liệu này có lẽ là một ngoại lệ.

Để tính độ lệch chuẩn của dữ liệu trong Excel, chúng ta có thể sử dụng hàm Stdev.S.

Hàm này hoạt động trên một mẫu dữ liệu (không phải dân số) và trả về độ lệch chuẩn của phân phối dữ liệu.

Cú pháp cho chức năng là:

=STDEV.S(number1,[number2],…)

Ở đây, số 1, số 2, v.v. là các tham chiếu đến các ô riêng lẻ trong một phạm vi. Bạn cũng chỉ có thể chỉ định tham chiếu đến phạm vi của các ô chứa dữ liệu của bạn thay thế.

Bên cạnh độ lệch chuẩn, bạn cũng sẽ cần biết giá trị trung bình của phân phối. Để tính giá trị trung bình, bạn có thể sử dụng hàm trung bình. Cú pháp cho chức năng là:

=AVERAGE(number1,[number2],…)

Một lần nữa, Number1, Number2, v.v. là các tham chiếu đến các ô riêng lẻ trong một phạm vi. Bạn cũng chỉ có thể chỉ định tham chiếu đến phạm vi của các ô chứa dữ liệu của bạn thay thế.

Các giá trị là 2 độ lệch chuẩn so với giá trị trung bình là các ngoại lệ.

Điều này có nghĩa là bất kỳ giá trị nào nhỏ hơn giá trị trung bình (độ lệch chuẩn 2*) hoặc nhiều hơn giá trị trung bình+(độ lệch chuẩn 2*) là các ngoại lệ.

Hãy xem xét cùng một bộ dữ liệu:

Chúng ta hãy sử dụng độ lệch trung bình và độ lệch chuẩn của dữ liệu để tìm các ngoại lệ:

  1. Tạo một bảng nhỏ bên cạnh danh sách dữ liệu như được hiển thị bên dưới:

  1. Trong ô E2, nhập công thức để tính giá trị trung bình: = trung bình (A2: A14).

  1. Trong ô E3, nhập công thức để tính độ lệch chuẩn: = stdev.s (A2: A14).

  1. Trong ô E4, nhập công thức để tính giới hạn dưới: = E2- (2*E3).

  1. Trong ô E5, nhập công thức để tính toán giới hạn trên: = E2+(2*E3).

  1. Bây giờ đối với mỗi giá trị dữ liệu, bạn có thể tìm hiểu xem đó có phải là một ngoại lệ không. Nhập công thức sau trong ô B2: = hoặc (A2 $ E $ 5)). Điều này sẽ trả về một giá trị thực nếu giá trị dữ liệu là một ngoại lệ và sai nếu không.

  1. Sao chép công thức này vào phần còn lại của các ô trong cột B bằng cách nhấp đúp vào tay cầm điền của ô.

Bây giờ bạn sẽ thấy một giá trị thực sự bên cạnh tất cả các ngoại lệ trong dữ liệu của bạn.

Tìm ngoại lệ trong Excel bằng điểm số Z

Một cách khác để tìm kiếm các ngoại lệ là bằng cách sử dụng giá trị điểm Z. Giá trị điểm Z cho ý tưởng về điểm dữ liệu từ giá trị trung bình bao xa. Nó còn được gọi là điểm tiêu chuẩn.

Để tính toán điểm Z, chúng ta cần biết độ lệch trung bình và độ lệch chuẩn của phân phối dữ liệu. Công thức cho điểm Z là:

Z = (X - mean) / Standard Deviation

Ở đây, x là một giá trị dữ liệu riêng lẻ trong phân phối.

Càng đi xa một điểm số giá trị dữ liệu Z-Score là từ 0, nó càng bất thường.

Một giá trị giới hạn tiêu chuẩn để tìm các ngoại lệ là điểm Z là +/- 3 hoặc xa hơn từ 0. Vì vậy, bất kỳ giá trị nào có điểm Z nhỏ hơn -3 và hơn +3 đều có thể được coi là một ngoại lệ.

Một lần nữa, hãy để xem xét cùng một bộ dữ liệu:

Tại đây, cách bạn có thể sử dụng phương thức điểm Z để tìm các ngoại lệ trong dữ liệu:

  1. Tạo một bảng nhỏ bên cạnh danh sách này như được hiển thị bên dưới:

  1. Trong ô F2, nhập công thức để tính giá trị trung bình: = trung bình (A2: A14).

  1. Trong ô F3, nhập công thức để tính độ lệch chuẩn: = stdev.s (A2: A14).

  1. Bây giờ đối với mỗi giá trị dữ liệu, hãy tính điểm Z. Nhập công thức sau trong ô B2 và sao chép nó vào phần còn lại của các ô trong cột B: = (A2- $ F $ 2)/$ F $ 3.

  1. Bạn sẽ nhận thấy không có giá trị nào trong bộ dữ liệu của chúng tôi đã vượt qua mốc -3 hoặc +3. Điều này là do những điểm này có lẽ không xa trung bình. Tuy nhiên, ngay cả điểm Z ranh giới là +2 và -2 cũng có thể được coi là khá xa trung bình. Vì vậy, chúng ta hãy xem xét các giá trị có điểm Z nhỏ hơn -2 hoặc nhiều hơn +2 dưới dạng ngoại lệ.
  2. Nhập công thức sau trong ô C2: = hoặc ((B22)). Điều này sẽ trả về một giá trị thực nếu giá trị dữ liệu là một ngoại lệ và sai nếu không.

  1. Sao chép công thức này vào phần còn lại của các ô trong cột C bằng cách nhấp đúp vào tay cầm điền của ô.

Bây giờ bạn sẽ thấy một giá trị thực sự bên cạnh tất cả các ngoại lệ trong dữ liệu của bạn.

Tìm ngoại lệ trong Excel bằng điểm số Zfind outliers in your data in Excel. In this tutorial, we took a look at three such ways.

Một cách khác để tìm kiếm các ngoại lệ là bằng cách sử dụng giá trị điểm Z. Giá trị điểm Z cho ý tưởng về điểm dữ liệu từ giá trị trung bình bao xa. Nó còn được gọi là điểm tiêu chuẩn.

Để tính toán điểm Z, chúng ta cần biết độ lệch trung bình và độ lệch chuẩn của phân phối dữ liệu. Công thức cho điểm Z là:

  • Ở đây, x là một giá trị dữ liệu riêng lẻ trong phân phối.
  • Càng đi xa một điểm số giá trị dữ liệu Z-Score là từ 0, nó càng bất thường.
  • Một giá trị giới hạn tiêu chuẩn để tìm các ngoại lệ là điểm Z là +/- 3 hoặc xa hơn từ 0. Vì vậy, bất kỳ giá trị nào có điểm Z nhỏ hơn -3 và hơn +3 đều có thể được coi là một ngoại lệ.
  • Một lần nữa, hãy để xem xét cùng một bộ dữ liệu:
  • Tại đây, cách bạn có thể sử dụng phương thức điểm Z để tìm các ngoại lệ trong dữ liệu:
  • Tạo một bảng nhỏ bên cạnh danh sách này như được hiển thị bên dưới:
  • Trong ô F2, nhập công thức để tính giá trị trung bình: = trung bình (A2: A14).
  • Trong ô F3, nhập công thức để tính độ lệch chuẩn: = stdev.s (A2: A14).
  • Bây giờ đối với mỗi giá trị dữ liệu, hãy tính điểm Z. Nhập công thức sau trong ô B2 và sao chép nó vào phần còn lại của các ô trong cột B: = (A2- $ F $ 2)/$ F $ 3.
  • Bạn sẽ nhận thấy không có giá trị nào trong bộ dữ liệu của chúng tôi đã vượt qua mốc -3 hoặc +3. Điều này là do những điểm này có lẽ không xa trung bình. Tuy nhiên, ngay cả điểm Z ranh giới là +2 và -2 cũng có thể được coi là khá xa trung bình. Vì vậy, chúng ta hãy xem xét các giá trị có điểm Z nhỏ hơn -2 hoặc nhiều hơn +2 dưới dạng ngoại lệ.

Làm thế nào để bạn tìm thấy các ngoại lệ với điểm Z?

Ví dụ, điểm Z là 2,5 chỉ ra rằng điểm dữ liệu là độ lệch chuẩn 2,5 so với giá trị trung bình. Thông thường z-score = 3 được coi là giá trị giới hạn để đặt giới hạn. Do đó, bất kỳ điểm Z nào lớn hơn +3 hoặc nhỏ hơn -3 đều được coi là ngoại lệ khá giống với phương pháp độ lệch chuẩn.any z-score greater than +3 or less than -3 is considered as outlier which is pretty much similar to standard deviation method.

Điểm Z có thể được sử dụng cho các ngoại lệ không?

Có nhiều kỹ thuật để xác định các ngoại lệ.Điểm Z là một trong những kỹ thuật đơn giản nhất và là một trong những kỹ thuật phổ biến nhất để phát hiện ngoại lệ hoạt động tốt cho một số Usecase.the Z-score is one of the simplest and one of the most popular techniques for outlier detection that works well for several usecases.

Bạn có thể tìm thấy ngoại lệ trong Excel không?

Để tính toán các ngoại lệ trong tập dữ liệu của bạn, hãy tính toán các bộ tứ của bạn bằng công thức tứ tấu tự động của Excel bắt đầu bằng "= tứ phân (" trong một ô trống.bởi một dấu phẩy và bộ tứ bạn muốn xác định.