Vai trò và thách thức của Luật Benford trong phân tích dữ liệu

TS. Đặng Anh Tuấn
Trường Đại học Công nghiệp TP. Hồ Chí Minh

(Quanlynhanuoc.vn) – Luật Benford mô tả quy luật phân bố chữ số đầu tiên của hầu hết dữ liệu trong tự nhiên. Nó là một công cụ hiệu quả để kiểm tra chất lượng dữ liệu và ứng dụng sáng tạo trong các lĩnh vực tự nhiên, khoa học xã hội và các lĩnh vực khác. Dựa trên phân bố Luật Benford, nhà phân tích dữ liệu có thể hiểu và giải thích được sự hình thành của các loại dữ liệu khác nhau. Quan trọng hơn, với các tệp dữ liệu phù hợp với Luật Benford, có thể giúp phát hiện các dữ liệu bất thường do sai sót và gian lận và sử dụng kết hợp với các kỹ thuật khác để tăng khả năng dự báo. Do đó, đây là một công cụ hữu ích cho các kiểm toán viên, kiểm tra viên thuế để xác định gian lận tài chính và thuế.  

Từ khóa: Luật Benford; phân tích dữ liệu; quy luật; công cụ hiệu quả.

1. Giới thiệu

Trong thời đại số, dữ liệu ngày càng đa dạng và phát triển bùng nổ. Kiểm soát chất lượng dữ liệu đã trở thành một nhiệm vụ trọng tâm của các tổ chức nhằm tối đa hóa giá trị dữ liệu. Theo đó, xây dựng phương pháp phát hiện chất lượng dữ liệu một cách khoa học trở nên cấp thiết hơn hết. Luật Benford được xem là một công cụ hữu hiệu để phát hiện chất lượng dữ liệu và xác định dữ liệu bất thường trong nhiều lĩnh vực khác nhau và được nhiều nhà khoa học trên thế giới vận dụng như một công cụ hiệu quả để phân tích và kiểm tra sự trung thực và hợp lý các tập số liệu trong đời sống. Đặc biệt, các tập dữ liệu kế toán như doanh thu, chi phí, thuế,… đều có thể áp dụng kỹ thuật phân tích Benford.

Năm 1881, Simon Newcomb, một nhà thiên văn học và toán học, đã xuất bản bài báo đầu tiên mô tả ý tưởng liên quan đến Luật Benford trên Tạp chí Toán học Hoa Kỳ. Ông quan sát thấy rằng các bản sao của thư viện sách Logarit bị mòn nhiều hơn đáng kể ở những trang đầu có chữ số thấp và dần dần ít bị mòn hơn trên những trang có chữ số cao hơn (Durtschi và cộng sự, 2004). Ông suy luận rằng, độc giả đã sử dụng những bảng đó để tra cứu các số bắt đầu bằng chữ số một thường xuyên hơn những chữ cái bắt đầu bằng số hai, ba… Kết luận hiển nhiên là có nhiều số bắt đầu bằng chữ số một hơn các số khác lớn hơn. Newcomb đã tính toán rằng xác suất để một số có chữ số đầu tiên khác 0 là:

P(d)= Log10(1+1/d)

Trong đó:

+ d là chữ đầu tiên (d có thể nhận một trong các chữ số là 1,2,3,…,9).

+ P là xác suất

Sử dụng công thức trên, xác suất để chữ số đầu tiên là số 1 (một) khoảng 30% trong khi xác suất để chữ số đầu tiên là số 9 (chín) là 4,6%. Bảng 1 chỉ ra tần số mong đợi của tất cả các chữ số từ 0 đến 9 ở mỗi vị trí trong số bốn vị trí đầu tiên của bất kỳ số nào.

Bảng 1: Tần số kỳ vọng dựa trên Luật Benford

Số trí thứ nhất trí thứ hai trí thứ ba trí thứ
0 .11968.10178.10018
1.30103.11389.10138.10014
2.17609.19882.10097.10010
3.12494.10433.10057.10006
4.09691.10031.10018.10002
5.07918.09668.09979.09998
6.06695.09337.09940.09994
7.05799.09035.09902.09990
8.05115.08757.09864.09986
9.04576.08500.09827.09982
Source: Nigrini, 1996.

Cho đến gần 50 năm sau, độc lập với bài báo gốc của Newcomb, Frank Benford, một nhà vật lý, cũng nhận thấy rằng vài trang đầu tiên trong cuốn sách Logarit của ông đã cũ hơn những trang trước. Ông đã đi đến kết luận tương tự như Newcomb rằng mọi người thường tra cứu các số bắt đầu bằng chữ số thấp hơn nhiều hơn các số cao hơn. Ông cũng thừa nhận rằng, có nhiều con số bắt đầu bằng các chữ số thấp hơn. Benford đã thu thập hơn 20.000 quan sát từ các bộ dữ liệu đa dạng như diện tích sông, trọng lượng nguyên tử của các nguyên tố và các con số xuất hiện trong các bài báo của Reader’s Digest. Benford phát hiện ra rằng, các con số luôn rơi vào một khuôn mẫu với các chữ số thấp xuất hiện thường xuyên hơn ở vị trí đầu tiên so với các chữ số lớn hơn. Từ đó, nguyên lý toán học xác định tần số của các chữ số được gọi là Luật Benford ra đời. Trong 40 năm tiếp theo, sự phát triển nghiên cứu cơ bản về Luật Benford rất chậm (Li & cộng sự, 2019). Mặc dù các nghiên cứu liên quan đã giải thích một số tính chất của Luật Benford từ quan điểm toán học nhưng nguyên lý toán học của nó vẫn chưa được chứng minh.

Cho đến năm 1995, học giả người Mỹ là Hill đã sử dụng định lý giới hạn trung tâm số hiệu dụng trong thống kê để chứng minh Luật Benford. Lần đầu tiên, về mặt lý thuyết, ông đã chứng minh được chữ số đầu tiên tuân theo nguyên tắc Luật Benford (Hill, 1995). Ngoài ra, Hill còn khái quát hóa lý thuyết và thu được hàm phân bố của chữ số bậc cao, đồng thời rút ra hàm phân phối chung giữa chữ số thứ nhất và chữ số bậc cao hơn. Cho đến nay, các lý thuyết và phương pháp cơ bản của Luật Benford đã bước đầu được hoàn thiện.

2. Ứng dụng Luật Benford

Luật Benford là một kỹ thuật phân tích số hiệu quả, được ứng dụng trong phân tích dữ liệu theo ba mức độ gồm xác nhận dữ liệu, phát hiện dữ liệu bất thường như gian lận, và kết hợp chéo với các phương pháp khác, ví dụ như phân tích cụm hoặc hồi quy logarit (Li & cộng sự, 2019).

2.1. Khả năng áp dụng

Xác nhận khả năng áp dụng Luật Beford được thực hiện trong các lĩnh vực khác nhau như  kinh tế, xã hội, vật lý, sinh học và khoa học máy tính. Trong số đó, nghiên cứu có ảnh hưởng lớn nhất về áp dụng Luật Benford trong phân tích dữ liệu kế toán và thuế của Nigrini trong thập niên 1990, sau đó mở rộng sang dữ liệu ngân hàng, GDP quốc gia, và tâm lý học xã hội (Li & cộng sự, 2019). Khả năng hữu dụng của luật này cũng được đông đảo các nhà nghiên cứu thuộc lĩnh vực khoa học tự nhiên thừa nhận. Thông qua số liệu thống kê, các nhà khoa học phát hiện rằng, kích thước tệp máy tính, độ dài protein sinh học, phân bố sự sống, cường độ vạch quang phổ, và thậm chí cả quy luật vận hành của các vật thể ngoài hệ mặt trời cũng tuân theo Luật Benford (Li & cộng sự, 2019). Tuy nhiên, một số loại dữ liệu được kiểm tra cũng không vượt qua các tiêu chuẩn của Luật Benford, chẳng hạn, dữ liệu số căn cước công dân, chiều cao của người trưởng thành. Liu và cộng sự (2012), đã nghiên cứu dữ liệu kinh tế tại các địa phương ở Trung Quốc và phát hiện ra các số “1, 7, 8, 9” trong các hồ sơ thuế không phù hợp với phân phối Benford.

Một số nghiên cứu thực nghiệm xác nhận phân phối dữ liệu trong một số lĩnh vực phù hợp với phân phối Benford nhưng cũng có những tập dữ liệu vi phạm luật này. Chúng bao gồm hai loại (i) dữ liệu không đáp ứng điều kiện khách quan để áp dụng Luật Benford và (ii) dữ liệu bất thường. Cơ sở lý thuyết trước đây không thể xác định được tập dữ liệu hợp lý một cách tiên nghiệm và nó vẫn cần được đánh giá bằng phân tích thống kê nghiêm ngặt. Do đó, các nhà nghiên cứu hàn lâm vẫn tiếp tục phát triển Luật Benford để đánh giá chất lượng dữ liệu và phát hiện dữ liệu bất thường (Li & cộng sự, 2019).

2.2. Phát hiện dữ liệu bất thường

Luật Benford là một công cụ hữu hiệu để kiểm định chất lượng dữ liệu và khai thác dữ liệu bất thường. Về mặt nguyên tắc, một tập hợp dữ liệu nào đó phù hợp với phân bối Benford, khi đó một tập dữ liệu tương tự được phát hiện có sự khác biệt với phân phối Benford thì được coi là dữ liệu bất thường do sai sót hoặc gian lận. Ban đầu, các nhà nghiên cứu ứng dụng luật này để xác định việc giả mạo hoặc sửa đổi dữ liệu kế toán và thuế (Nigrini và Mittermaier, 1997). Kết quả thực nghiệm cho thấy Luật Benford không chỉ phát hiện gian lận kế toán, gian lận thuế và trốn thuế mà còn có thể phát hiện các vấn đề vượt ra ngoài phạm vi cân đối của số liệu kế toán và bù đắp những thiếu sót của các phương pháp kiểm toán truyền thống. Sau đó, phạm vi áp dụng luật Benford dần dần được mở rộng sang tài chính, bảo hiểm và các ngành khác (Nigrini, 1996). Nghiên cứu của Liu và cộng sự (2012) đã phát hiện khoản mục “chi phí và hoa hồng” của các công ty bảo hiểm khi sử dụng Luật Benford làm tiêu chí so sánh. Phát hiện trong nghiên cứu cho thấy, gian lận từ các khoản thanh toán hoa hồng chủ yếu tập trung đối với các dữ liệu có các số “1, 4, 5 và 9”. Hiện nay, ứng dụng Luật Benford tiếp tục mở rộng và nó cũng rất hữu ích trong việc phát hiện gian lận bầu cử và giả mạo trong thể thao.

Việc áp dụng Luật Benford để phát hiện dữ liệu bất thường chủ yếu ở từ các dữ liệu xã hội. Mọi người có xu hướng giả mạo và sửa đổi dữ liệu cho nhiều mục đích khác nhau. Quy luật tự nhiên của các chữ số bị xáo trộn nên rất khó để biến dữ liệu tuân theo Luật Benford, do đó, về mặt lý thuyết, ứng dụng luật này rất hiệu quả trong việc phát hiện các dữ liệu bất thường. Tuy nhiên, nó cũng có nhược điểm là độ chính xác thấp.

2.3. Áp dụng kết hợp với các phương pháp khác

Việc ứng dụng chéo Luật Benford với các lý thuyết và công nghệ trong lĩnh vực máy tính, y học, vật lý, thiên văn học và các ngành khoa học tự nhiên khác có thể tối ưu hóa ứng dụng trên thực tế và giải quyết nhiều vấn đề khác ngoài việc phát hiện dữ liệu bất thường với giá trị ứng dụng cao. Việc tối ưu hóa ứng dụng thực tế của Luật Benford lần đầu tiên xuất hiện trong lĩnh vực máy tính. Vào cuối những năm 1980, Barlow và Schatte đi đầu trong việc kết hợp nó với bộ nhớ máy tính và thiết kế thuật toán để cải thiện hiệu suất phần cứng, giúp giảm mức tiêu thụ bộ nhớ và cải thiện tốc độ hoạt động (Schatte, 1988). Cùng với sự phát triển nhanh chóng của công nghệ thông tin, ứng dụng chéo Luật Benford đóng một vai trò lớn hơn trong ứng dụng phần mềm, ví dụ, tối ưu hóa nhanh chóng quá trình xử lý hình ảnh, phân tích hình ảnh. Gần đây, các học giả sử dụng nó để phát hiện các điểm bất thường trên mạng và có thể xác định xem có sự xâm nhập có chủ ý hay lỗi do vô ý.

Hiện tại, có nhiều ứng dụng chéo giữa Luật Benford và khoa học máy tính, trong khi các ứng dụng trong các lĩnh vực khác như y học và vật lý còn rải rác và ít tiến bộ hơn. Nguyên nhân là do các lĩnh vực này có tính chuyên nghiệp cao và có yêu cầu đổi mới cao.

3. Những thách thức trong việc ứng dụng Luật Benford

3.1. Sự phù hợp của dữ liệu

Luật Benford được ứng dụng trong nhiều lĩnh vực những không phải tất cả các loại dữ liệu đều phù hợp với luật này. Lý thuyết trước đây không xác định điều kiện tiên nghiệm để có được dữ liệu phù hợp cũng như giải thích hợp lý khả năng ứng dụng. Tuy nhiên, năm 1997, Nigrini đã tổng kết và cung cấp các điều kiện của dữ liệu phù hợp để áp dụng Luật Benford, gồm:

– Khối lượng dữ liệu đủ lớn để đại diện cho tất cả các mẫu;

– Khối lượng dữ liệu không bị giới hạn;

– Dữ liệu được hình thành một cách tự nhiên, không bị can thiệp bởi yếu tố con người hoặc có can thiệp nhưng mức độ ảnh hưởng nhỏ;

– Dữ liệu không gắn kết hoặc có gắn kết nhưng ở mức cao.

Nhìn chung dữ liệu tạo ra từ hệ thống đơn vị đo lường phù hợp với Luật Benford, các dữ liệu có một số giới hạn và thu thập tùy ý thường không tuân theo luật này.Trong thực tế, có một số loại dữ liệu không thoả mãn tất cả bốn điều kiện trên. Nếu dữ liệu không được hình thành tự nhiên, bao gồm số nhà, xổ số, ngày, cân nặng… không áp dụng được Luật Benford.

3.2. Phát hiện có độ chính xác thấp

Luật Benford là công cụ hữu hiệu để phát hiện chất lượng của tập dữ liệu. Tuy nhiên, hạn chế chủ yếu là độ chính xác thấp do đánh giá sai dữ liệu. Theo Li & cộng sự (2019), có ba yếu tố chính: môi trường, chất lượng dữ liệu và lỗi hệ thống ảnh hưởng đến độ chính xác trong áp dụng Luật Benford.

Can thiệp vào môi trường. Môi trường bên ngoài, chẳng hạn như hành vi xã hội, chính sách, quy định hay những thay đổi tự nhiên sẽ ảnh hưởng đến việc hình thành dữ liệu bằng cách tác động đến suy nghĩ và hành động của con người và dẫn đến hậu quả là đánh giá sai dữ liệu. Ví dụ, đối với dữ liệu thị trường tài chính, các trường hợp đặc biệt (chẳng hạn, như vụ bê bối của một công ty) sẽ ảnh hưởng đến việc hình thành dữ liệu chỉ số S&P 500 hàng ngày, khiến dữ liệu vi phạm Luật Benford (Corazza và cộng sự, 2010).

Chất lượng dữ liệu. Dữ liệu là đối tượng để kiểm tra và có nhiều thuộc tính, chẳng hạn như tính đầy đủ và chính xác. Dữ liệu không đầy đủ sẽ khiến số liệu thống kê phải mở rộng. Khi có nhiều dữ liệu sai lệch hơn, chúng sẽ vi phạm Luật Benford. Khi có ít dữ liệu hơn, tác động tổng thể sẽ yếu và khó phát hiện các điểm bất thường. Ví dụ, ứng dụng Luật Benford kiểm tra các giao dịch gian lận dựa trên việc liệu các chữ số có xuất hiện ở những vị trí nhất định trong các con số theo tỷ lệ dự kiến hay không. Khi đó, sai lệch đáng kể so với kỳ vọng chỉ xảy ra với hai điều kiện người thực hiện gian lận đã thêm các quan sát hoặc loại bỏ các quan sát nhưng trên cơ sở không phù hợp với phân bố Benford. Mỗi hành động trên sẽ dẫn đến sai lệch có thể quan sát được so với kỳ vọng, miễn là số lượng liên quan đến mẫu đủ lớn để phát hiện thống kê. Do đó, khi gian lận xảy ra ngoài sổ sách (các giao dịch không bao giờ được ghi lại) như trong trường hợp hối lộ, lại quả hoặc trộm cắp tài sản thì phân tích kỹ thuật số không thể kỳ vọng phát hiện được sự vắng mặt của giao dịch (Durtschi và cộng sự, 2004).

Lỗi hệ thống. Việc phát hiện tầm quan trọng của kết quả có thể cải thiện độ chính xác của phát hiện ở một mức độ nhất định, nhưng vẫn tồn tại các lỗi hệ thống. Kiểm định ý nghĩa là một phần quan trọng trong kết quả kiểm định phân tích, bao gồm kiểm định mức độ phù hợp χ2, kiểm định khoảng cách, hệ số tương quan Pearson,… nhưng đối với kiểm định giả thuyết của mẫu lớn và mức cố định, giả thuyết không xảy ra có khả năng bị từ chối.

4. Kết luận

Luật Benford mô tả quy luật phân bố chữ số đầu tiên của hầu hết dữ liệu trong tự nhiên. Nó là một công cụ hiệu quả để kiểm tra chất lượng dữ liệu và ứng dụng sáng tạo trong các lĩnh vực tự nhiên, khoa học xã hội và các lĩnh vực khác. Nó giúp nâng cao vai trò chiến lược của dữ liệu trong kỷ nguyên dữ liệu lớn và hỗ trợ ra quyết định. Ứng dụng Luật Benford tiếp tục được mở rộng như là phương tiện giảm thiểu rủi ro thông tin. Tuy nhiên, nó cũng có một số hạn chế như tệp dữ liệu không đáp ứng điều kiện phân phối Luật Benford, mức độ chính xác chưa cao. Do đó, để nâng cao hiểu quả áp dụng luật này trong việc phát hiện dấu hiệu bất thường hoặc gian lận đòi hỏi cần làm sáng tỏ điều kiện áp dụng Luật Benford; cần tăng cường áp dụng kết hợp Luật Benford với các kỹ thuật xử lý dữ liệu khác, tùy theo loại và chất lượng dữ liệu trong từng lĩnh vực cụ thể và tăng cường giải thích kết quả dựa trên việc kết hợp lý thuyết với thực tiễn.

Tài liệu tham khảo:
1. Corazza, M., Ellero, A., & Zorzi, A. (2010). Checking financial markets via Benford’s law: the S&P 500 case. In Mathematical and statistical methods for actuarial sciences and finance (pp. 93-102). Springer Milan.
2. Durtschi, C., Hillison, W., & Pacini, C. (2004). The effective use of Benford’s law to assist in detecting fraud in accounting dataJournal of forensic accounting, 5 (1), 17-34.
3.  Hill, T. P. (1995). The significant-digit phenomenon. The American Mathematical Monthly, 102 (4), 322-327.
4. Li, F., Han, S., Zhang, H., Ding, J., Zhang, J., & Wu, J. (2019, February). Application of Benford’s law in Data Analysis. In Journal of Physics: Conference Series (Vol. 1168, No. 3, p. 032133). IOP Publishing.
5. Liu, Y. X., Wu, X. M., & Zeng, W. Y. (2012). Research on the Comprehensive Use of Benford’s law and Panel Model for Detecting the Quality of Statistical Data. Stat. Res11, 74-78.
6. Nigrini, M. J., & Mittermaier, L. J. (1997). The use of Benford’s Law as an Aid in Analytical Procedures. Auditing: A journal of practice & theory, 16 (2).
7. Nigrini, M. J. (1996). A taxpayer compliance application of Benford’s law. The Journal of the American Taxation Association, 18. (1), 72.
8. Schatte, P. (1988). On mantissa distributions in computing and Benford’s law. Journal of Information Processing and Cybernetics, 24 (9), 443-455.