Building a model to forecast the number of international tourists visiting Can Tho city
Bùi Thị Hồng Ngọc
PGS.TS Phạm Lê Thông
Trường Kinh tế, Đại học Cần Thơ
(Quanlynhanuoc.vn) – Nghiên cứu này xây dựng và so sánh hiệu quả dự báo của các mô hình dự báo chuỗi thời gian gồm: ARIMA, SARIMA, Holt–Winters và phương pháp phân rã (Decomposition method) đối với lượng khách du lịch quốc tế đến thành phố Cần Thơ. Các mô hình dự báo được xây dựng dựa trên cơ sở phân tích đặc điểm chuỗi dữ liệu về lượng khách đến hàng tháng trong giai đoạn 2022-2025. Các mô hình được lựa chọn dựa trên chỉ tiêu đánh giá độ chính xác trong dự báo RMSE nhằm bảo đảm tính nhất quán của phương pháp. Kết quả cho thấy, phương pháp phân rã đạt độ chính xác dự báo cao hơn so với mô hình ARIMA, SARIMA và Holt–Winters, qua đó cung cấp cơ sở khoa học đáng tin cậy cho công tác dự báo và hoạch định chính sách phát triển du lịch của thành phố Cần Thơ sau sáp nhập.
Từ khóa: SARIMA; dự báo; khách du lịch quốc tế; phương pháp phân rã; HOLT-WINTER.
Abstract: This study constructs and compares the forecasting performance of time-series forecasting models, including ARIMA, SARIMA, Holt–Winters, and the decomposition method for international tourist arrivals to Can Tho City. Based on an analysis of the characteristics of the monthly data during the period 2022–2025, the forecasting models are estimated and selected upon the criterion RMSE to ensure methodological consistency. The results indicate that the decomposition method achieves higher forecasting accuracy than ARIMA, SARIMA and Holt–Winters, thereby providing a reliable scientific basis for forecasting and policy planning for tourism development in Can Tho City after the administrative merger.
Keywords: SARIMA; Decomposition method; Forecasting; International tourist arrivals; HOLT-WINTER
1. Đặt vấn đề
Thành phố Cần Thơ giữ vai trò trung tâm kinh tế, dịch vụ và liên kết vùng của đồng bằng sông Cửu Long. Sau quá trình sắp xếp đơn vị hành chính năm 2025 theo Nghị quyết số 202/2025/QH15 ngày 12/6/2025 của Quốc hội về việc sắp xếp đơn vị hành chính và Nghị quyết số 76/2025/UBTVQH15 ngày 14/4/2025 của Ủy ban Thường vụ Quốc hội về việc sắp xếp đơn vị hành chính, không gian phát triển của thành phố được mở rộng, bao gồm các địa bàn trước đây thuộc Cần Thơ, Hậu Giang và Sóc Trăng. Sự thay đổi này tạo ra yêu cầu mới đối với công tác quản lý và dự báo phát triển kinh tế – xã hội, trong đó du lịch là lĩnh vực cần được quan tâm do có tính liên ngành, liên vùng và nhạy cảm với biến động thị trường.
Đại dịch Covid-19 đã làm gián đoạn dòng khách, thay đổi hành vi tiêu dùng du lịch, cấu trúc thị trường và độ tin cậy của các mô hình dự báo dựa trên dữ liệu trước đại dịch. Trong giai đoạn hậu Covid-19, hoạt động du lịch quốc tế phục hồi nhưng chưa ổn định. Đối với khu vực Hậu Giang cũ, lượng khách quốc tế giai đoạn 2022–2025 cho thấy, xu hướng tăng nhưng có sự dao động mạnh giữa các tháng và sự tồn tại của yếu tố mùa vụ. Những đặc điểm này đòi hỏi phải xây dựng mô hình dự báo phù hợp nhằm hỗ trợ quá trình ra quyết định trong bối cảnh không gian phát triển du lịch đã thay đổi.
Trên cơ sở đó, nghiên cứu hướng đến mục tiêu xây dựng và lựa chọn mô hình dự báo lượng khách du lịch quốc tế đến khu vực Hậu Giang cũ, nay thuộc không gian phát triển du lịch của thành phố Cần Thơ sau sáp nhập, nhằm cung cấp cơ sở khoa học góp phần hỗ trợ quá trình ra quyết định và định hướng phát triển du lịch bền vững cho thành phố Cần Thơ trong giai đoạn mới.
2. Cơ sở lý thuyết và phương pháp nghiên cứu
2.1. Mô hình ARIMA và SARIMA
ARIMA và SARIMA là các mô hình chuỗi thời gian truyền thống được sử dụng phổ biến trong dự báo các biến số kinh tế. Theo Box và Jenkins (1970, 1976)1, dự báo chuỗi thời gian dựa trên việc nhận diện quy luật vận động của dữ liệu trong quá khứ để ước lượng giá trị tương lai. Mô hình ARMA kết hợp thành phần tự hồi quy AR(p) và trung bình trượt MA (q), có dạng tổng quát:

Phương trình (1) cho biết giá trị của biến số kinh tế kỳ t phụ thuộc vào các độ trễ của chính nó, Yt – I, các sai số ngẫu nhiên là Ut và các độ trễ của Ut.
Các mô hình ARMA phải được xây dựng dựa trên các chuỗi dừng. Tuy nhiên, thực tế phần lớn các chuỗi số liệu kinh tế theo thời gian đều không dừng. Vì thế, chúng ta phải xử lý các tính không dừng của chuỗi dữ liệu gốc thông qua quy trình lấy sai phân, ký hiệu là I (Nguyễn Trọng Hoài và cộng sự, 2009)2. Tổng quát, nếu chuỗi dừng ở sai phân bậc d, ta có ký hiệu là I(d); mô hình được ký hiệu là ARIMA (p, d, q).
SARIMA là mở rộng của ARIMA đối với chuỗi có yếu tố mùa vụ. Mô hình SARIMA cho phép mô hình hóa đồng thời thành phần phi mùa vụ và thành phần mùa vụ. Mô hình SARIMA có dạng tổng quát: SARIMA (p, d, q) (P, D, Q) s.

Phương trình SARIMA mô tả giá trị của chuỗi thời gian tại thời điểm Ytdựa trên mối quan hệ với t các giá trị quá khứ, sai số ngẫu nhiên và yếu tố mùa vụ lặp lại theo chu kỳ.
2.2. Mô hình San mũ HOLT-WINTERS
Mô hình Holt-Winters được sử dụng khi chuỗi dữ liệu có tính xu thế và tính mùa vụ. Mô hình này gồm ba thành phần làm mịn: mức độ, xu thế và mùa vụ. Tùy thuộc vào đặc điểm biên độ dao động, Holt–Winters có thể được ước lượng theo dạng cộng hoặc dạng nhân. Dạng cộng phù hợp khi biên độ mùa vụ tương đối ổn định, còn dạng nhân phù hợp khi biên độ mùa vụ thay đổi theo quy mô của chuỗi.
Nhận dạng dữ liệu và chọn mô hình:

Ước lượng các tham số làm mịn (α, β, γ). Giá trị các tham số nằm trong khoảng từ 0 đến 1, trong đó giá trị cao của các tham số phản ánh sự nhạy cảm hơn với dữ liệu mới, còn giá trị thấp tạo ra quá trình làm mượt hơn (Winters, 1960; Hyndman & Athanasopoulos, 2018)3.
Đánh giá độ chính xác dự báo bằng chỉ số RMSE và kiểm định mô hình.
2.3. Phương pháp phân rã
Nghiên cứu này sử dụng phương pháp phân rã chuỗi thời gian cổ điển nhằm tách chuỗi dữ liệu thành các thành phần cơ bản, gồm xu thế, chu kỳ, mùa vụ và yếu tố ngẫu nhiên. Phương pháp này chủ yếu dựa trên trung bình di động và dự báo theo hàm xu thế. Tùy theo đặc điểm biến động của chuỗi, mô hình phân rã có thể được biểu diễn dưới dạng nhân tính hoặc cộng tính.

Mô hình nhân tính phù hợp với sự biến thiên của chuỗi thời gian tăng dần theo thứ tự thời gian. Mô hình cộng tính có hiệu quả khi chuỗi dữ liệu đang được phân tích có sự biến thiên xấp xỉ đều nhau suốt độ dài của chuỗi thời gian (Nguyễn Trọng Hoài và cộng sự, 2009)4.
Quy trình thực hiện gồm:
Bước 1: Nhận dạng dữ liệu và lựa chọn mô hình
Bước 2. Tách yếu tố mùa vụ
Bước 3. Ước lượng hàm xu thế và dự báo xu thế
Bước 4. Kết hợp yếu tố xu thế và mùa vụ đưa ra kết quả dự báo cuối cùng
3. Tổng quan các mô hình dự báo thực nghiệm với chuỗi dữ liệu về khách du lịch
Nhằm đánh giá sự phát triển của các phương pháp dự báo về nhu cầu du lịch, Song et al. (2019)5 đã phân tích 211 bài báo được xuất bản từ 1968 đến 2018 về dự báo nhu cầu du lịch. Kết quả nghiên cứu cho thấy, đa số các nghiên cứu đã sử dụng bốn nhóm phương pháp chính: chuỗi thời gian, kinh tế lượng, các mô hình AI, mô hình lai ghép hoặc định tính. Khi đánh giá ưu, nhược điểm của từng mô hình, tác giả đi đến kết luận rằng mô hình chuỗi thời gian truyền thống (đặc biệt là ARIMA và SARIMA) vẫn chiếm tỷ lệ lớn trong các nghiên cứu nhờ vào tính đơn giản, dễ giải thích, và hiệu quả tốt trong dự báo ngắn hạn với dữ liệu ổn định.
Bên cạnh đó, mô hình san mũ Holt-Winters cũng thường được chọn để so sánh với các mô hình dự báo như SARIMA, ARIMAX hoặc các phương pháp học máy (Hyndman & Athanasopoulos, 2018)6 và được cho là có hiệu quả tốt hơn trong dự báo lượng khách du lịch trong ngắn hạn (Lim & McAleer, 2002)7. Kodituwakku (2015)8 đã so sánh mô hình Holt-Winters với các mô hình SARIMA, hồi quy đa biến, VAR, và mạng nơ-ron để dự báo lượng khách du lịch quốc tế tới Sri Lanka. Kết quả nghiên cứu cho thấy mô hình Holt – Winters (mô hình nhân) có độ chính xác cao nhất với dữ liệu về tổng khách. Bên cạnh đó, nghiên cứu đã cung cấp điều kiện để sử dụng các mô hình Holt-Winters: dữ liệu có tính mùa vụ, và tính xu hướng rõ rệt, biên độ mùa vụ dao động mạnh.
Theodosiou (2011)9 tiếp cận phương pháp phân rã thành phần mùa vụ và xu hướng bằng phương pháp hồi quy cục bộ (Seasonal and Trend decomposition using Loess-STL) như một quy trình dự báo hoàn chỉnh. Nghiên cứu cho thấy phương pháp này đạt độ ổn định cao và cho kết quả cạnh tranh với ARIMA và Holt–Winters, đặc biệt ở các dự báo trung và dài hạn. Tiếp nối hướng tiếp cận này, Bergmeir et al. (2016)10 cho thấy, STL decomposition là một công cụ phù hợp và hiệu quả khi được sử dụng để hỗ trợ kỹ thuật tổng hợp bootstrap trong phương pháp Bagging (Bootstrap aggregating) cho các phương pháp làm mịn hàm mũ, mang lại những cải tiến đáng kể trong dự báo.
Ở góc độ so sánh hệ thống, Zhang et al. (2022)11 thực hiện một nghiên cứu so sánh đối chiếu chín phương pháp phân rã và sáu mô hình dự báo khác nhau trên dữ liệu lượng khách đến Hồng Kông từ tám thị trường nguồn chính, qua đó khẳng định rằng lựa chọn phương pháp phân rã có ảnh hưởng đáng kể đến hiệu quả dự báo và không tồn tại một phương pháp phân rã tối ưu cho mọi bối cảnh. Tuy nhiên, các mô hình này thường có độ phức tạp cao và chi phí tính toán lớn, gây hạn chế trong ứng dụng thực tiễn tại các địa phương.
Tại Việt Nam, các nghiên cứu dự báo du lịch chủ yếu tập trung vào ARIMA, SARIMA và Holt–Winters (Đỗ Quang Giám và cộng sự, 2012; Cao Tấn Bình và cộng sự, 2023)12, trong khi phương pháp phân rã phần lớn chỉ được sử dụng để phân tích cấu trúc nội tại của chuỗi dữ liệu: xu hướng và tính mùa vụ, chưa được tiếp cận như một phương pháp dự báo độc lập (Nguyễn Thị Tuyết Nhung, 2020)13.
Nghiên cứu này tiếp cận phương pháp phân rã như một phương pháp dự báo độc lập, đồng thời tiến hành so sánh độ chính xác giữa phương pháp phân rã và mô hình chuỗi thời gian truyền thống (ARIMA, SARIMA, HOLT-WINTERS) dựa trên cùng bộ dữ liệu du lịch trong bối cảnh hậu Covid-19. Qua đó, nghiên cứu góp phần làm rõ cơ sở khoa học cho việc xây dựng mô hình dự báo phù hợp trong phân tích và hoạch định chính sách phát triển du lịch ở cấp địa phương.
4. Dữ liệu nghiên cứu
Nghiên cứu sử dụng dữ liệu thứ cấp về lượng khách du lịch quốc tế đến khu vực Hậu Giang (cũ) trong giai đoạn 4/2022-6/2025, được tổng hợp từ báo cáo tháng của Sở Văn hóa, Thể thao và Du lịch tỉnh Hậu Giang (cũ). Dữ liệu được xử lý bằng Excel và Stata 17; giai đoạn dự báo được xác định từ 7/2025 đến 12/2026, tương ứng với bối cảnh khu vực Hậu Giang cũ đã được đặt trong không gian phát triển du lịch của thành phố Cần Thơ sau sáp nhập.
Bảng 1. Lượng khách quốc tế giai đoạn 2022-2025
Đơn vị tính: Lượt
| Tháng | Năm | |||
| 2022 | 2023 | 2024 | 2025 | |
| 1 | 2.250 | 2.800 | 2.790 | |
| 2 | 2.800 | 3.200 | 4.652 | |
| 3 | 1.540 | 2.570 | 2.460 | |
| 4 | 525 | 2.050 | 2.050 | 2.250 |
| 5 | 860 | 2.290 | 2.490 | 2.880 |
| 6 | 850 | 440 | 1.590 | 2.468 |
| 7 | 1.050 | 1.450 | 3.320 | |
| 8 | 2.570 | 2.120 | 3.375 | |
| 9 | 1.880 | 1.830 | 2.100 | |
| 10 | 750 | 1.750 | 2.450 | |
| 11 | 885 | 1.020 | 2.620 | |
| 12 | 1.630 | 5.780 | 4.435 | |

Lượng khách quốc tế hàng tháng được trình bày trong Bảng 1 và Hình 1 phản ánh đồng thời ba vấn đề: thứ nhất, thị trường khách quốc tế đang phục hồi sau Covid-19; thứ hai, chuỗi dữ liệu có yếu tố mùa vụ; thứ ba, mức độ nhiễu và biến động ngắn hạn còn lớn. Vì vậy, việc lựa chọn mô hình dự báo cần dựa trên khả năng nắm bắt xu hướng, xử lý mùa vụ và hạn chế sai số trong điều kiện mẫu ngắn.
5. Kết quả nghiên cứu
Kết quả kiểm định Dickey-Fuller (ADF) cho thấy, chuỗi lượng khách du lịch quốc tế không dừng ở dạng gốc (Bảng 2). Sau khi lấy sai phân bậc một, chuỗi đạt trạng thái dừng (Bảng 3).
Bảng 2. Kết quả kiểm tra tính dừng của chuỗi dữ liệu lượng khách quốc tế
| T-Statistic | p-value | ||
| Augmented Dickey–Fuller | -0,461 | 0,8994 | |
| Giá trị tới hạn | 1% level | -3,743 | |
| 5% level | -2,997 | ||
| 10% level | -2,629 |
Bảng 3. Kết quả kiểm tra tính dừng của chuỗi sai phân lượng khách quốc tế
| T-Statistic | p-value | ||
| Augmented Dickey–Fuller | -10,349 | 0,0000 | |
| Giá trị tới hạn | 1% level | -3,668 | |
| 5% level | -2,966 | ||
| 10% level | -2,616 |
Các tham số p và q của mô hình ARIMA được xác định thông qua giãn đồ tự tương quan (ACF) và hàm tự tương quan riêng (PACF) của chuỗi sai phân.

Kết quả quan sát cho thấy có thể xem xét ước lượng một số mô hình ARIMA và so sánh bằng AIC, BIC trước khi lựa chọn mô hình tối ưu.
Bảng 4. Kết quả so sánh các mô hình ARIMA
| ARIMA(1,1,0) | ARIMA(3,1,0) | ARIMA(3,1,1) | ARIMA(4,1,1) | ARIMA(5,1,1) | |
| Cons | 52,73 [0,35] | 50,45 [0,48] | 56,89*** [3,93] | 57,66*** [4.72] | 57,69*** [04,65] |
| L1.ar | -0,496** [-2,82] | -0,676* [-2,28] | -0,027 [-0,09] | -0,076 [-0,27] | -0,078 [-0,28] |
| L2.ar | -0,371 [-1,15] | -0,015 [-0,08] | -0,041 [-0,18] | -0,042 [-0,19] | |
| L3.ar | -0,194 [-1,03] | -0,143 [-0,52] | -0,175 [-6,62] | -0,176 [-0,61] | |
| L4.ar | -0,197 [-0,74] | -0,198 [-0,73] | |||
| L5.ar | -0,007 [-0,03] | ||||
| L1.ma | -1,000*** [-4,06] | -1.000*** [-3,76] | -1.000*** [-3,69] | ||
| AIC | 648,7 | 648,6 | 639,5 | 640,1 | 642,1 |
| BIC | 653,6 | 656,8 | 647,7 | 649,9 | 653,5 |
| Loglikelihood | -321,3 | -319,3 | -314,7 | -314 | -314 |
| N | 38 | 38 | 38 | 38 | 38 |
Kết quả so sánh cho thấy mô hình ARIMA(3,1,1) có AIC và BIC thấp nhất và bảo đảm có ý nghĩa thống kê tổng thể (Wald chi2 (4) = 40,26 với p = 0,0000 < 0,005) (Hamilton,1994)14. Vì vậy, mô hình này được lựa chọn đại diện cho nhóm ARIMA để so sánh với các mô hình dự báo khác
Trên cơ sở kế thừa mô hình ARIMA(3,1,1) và phân tích giãn đồ tự tương quan tại Hình 2, nghiên cứu đề xuất một số mô hình SARIMA với các độ trễ khác nhau được ước lượng. Kết quả so sánh cho thấy, mô hình SARIMA(3,1,1)(0,1,1)12 có giá trị AIC=438,4 và BIC = 444,7 nhỏ hơn các mô hình còn lại và bảo đảm mô hình có ý nghĩa thống kê tổng thể Wald chi2 (4) = 40,26 với p = 0,0000 < 0,00515, nên mô hình SARIMA(3,1,1)(0,1,1)12 được lựa chọn là phù hợp nhất trong số các mô hình SARIMA được thực hiện.
Bảng 5. Kết quả so sánh các mô hình SARIMA
| SARIMA(3,1,1)(1,1,0)12 | SARIMA(3,1,1)(0,1,1)12 | |
| Cons | -12,26 [-0,52] | -12,17 [-0,34] |
| ARIMA L1.ar | -0,111 [-0,20] | -0,079 [-0,11] |
| L2.ar | -0,102 [-0,29] | -0,076 [-0,17] |
| L3.ar | -0,027 [-0,06] | 0,019 [0,03] |
| ARMA12 L.ar | -0,709*** [-2,69] | |
| L.ma | -1,000*** [-3,90] | |
| AIC | 440 | 438,4 |
| BIC | 447,5 | 444,7 |
| Loglikelihood | -214 | -214,2 |
| N | 26 | 26 |
Đối với Holt–Winters, nghiên cứu xem xét đặc điểm biên độ mùa vụ theo các chu kỳ 12 tháng liên tiếp. Kết quả cho thấy, biên độ dao động thay đổi giữa các chu kỳ (Bảng 6). Bên cạnh đó, do hạn chế về số quan sát của chuỗi dữ liệu, nên nghiên cứu ước lượng cả Holt–Winters dạng nhân và dạng cộng, trên cơ sở kết quả ước lượng sẽ tiến hành so sánh qua tiêu chí RMSE, để lựa chọn dạng mô hình thích hợp.
Bảng 6. Biên độ mùa vụ của lượng khách quốc tế theo chu kỳ
| Chu kỳ | Giá trị nhỏ nhất | Giá trị lớn nhất | Biên độ dao động |
| 1 | 525 | 2.800 | 2.275 |
| 2 | 440 | 5.780 | 5.340 |
| 3 | 1.590 | 4.652 | 3.062 |
| 4 | 2.250 | 2.880 | 630 |
Ước lượng mô hình
Bảng 7. Kết quả ước lượng mô hình Holt- Winters
| Mô hình | Anpha | Beta | Gamma | RMSE | Quan sát |
| Holt-Winters (dạng nhân) | 0,0063 | 1,0000 | 0,0000 | 659,20 | 39 |
| Holt-Winters (dạng cộng) | 0,011 | 1,0000 | 0,0000 | 593,64 | 39 |
Kết quả ước lượng cho thấy Holt–Winters dạng cộng có RMSE = 593,64, thấp hơn dạng nhân. Vì vậy, mô hình Holt–Winters dạng cộng được sử dụng để so sánh với các mô hình còn lại.

Phương pháp phân rã được thực hiện bằng cách tách chuỗi lượng khách thành thành phần xu thế và mùa vụ thông qua trung bình di động tâm. Kết quả phân rã cho thấy, chuỗi có xu hướng tăng, đồng thời tồn tại dao động mùa vụ lặp lại. Do số quan sát còn hạn chế, nghiên cứu ước lượng cả phân rã dạng nhân và dạng cộng để so sánh thông qua tiêu chí RMSE.
Đối với thành phần xu thế, mô hình hồi quy bậc hai phù hợp hơn hồi quy tuyến tính với hệ số xác định R² = 0,9797 và R² hiệu chỉnh = 0,986; kiểm định F có ý nghĩa thống kê ở mức 1% khẳng định ý nghĩa thống kê tổng thể của mô hình. Do đó, mô hình xu thế bậc hai được sử dụng trong quy trình dự báo bằng phương pháp phân rã.

Kết quả dự báo trong mẫu lượng khách du lịch quốc tế đến thành phố Cần Thơ của bốn mô hình ARIMA (3,1,1), SARIMA (3,1,1)(0,1)12, Holt-Winters và mô hình phân rã (dạng cộng) được sử dụng để so sánh để chọn ra mô hình dự báo phù hợp nhất dựa trên chỉ tiêu RMSE.
Bảng 9. Kết quả dự báo trong mẫu các mô hình
| Thời gian | Thực tế | ARIMA (3,1,1) | SARIMA (3,1,1) (0,1,1) 12 | HOLT-WINTERS (dạng cộng) | MÔ HÌNH PHÂN RÃ (dạng nhân) | MÔ HÌNH PHÂN RÃ (dạng cộng) | |||||
| Dự báo | Sai số | Dự báo | Sai số | Dự báo | Sai số | Dự báo | Sai số | Dự báo | Sai số | ||
| 4/2024 | 2.050 | 2.517 | -467 | 2.431 | -381 | 2.456 | -406 | 2.118 | -68 | 2.117 | -67 |
| 5/2024 | 2.490 | 2.531 | -41 | 2.635 | -145 | 2.733 | -243 | 2.658 | -168 | 2.537 | -47 |
| 6/2024 | 1.590 | 2.684 | -1.094 | 1.697 | -107 | 1.791 | -201 | 1.630 | -40 | 1.758 | -168 |
| 7/2024 | 3.320 | 2.801 | 519 | 2.241 | 1.079 | 2.382 | 938 | 2.584 | 736 | 2.596 | 724 |
| 8/2024 | 3.375 | 2.792 | 583 | 3.367 | 8 | 3.487 | -112 | 3.894 | -519 | 3.315 | 60 |
| 9/2024 | 2.100 | 2.981 | -881 | 2.854 | -754 | 2.994 | -894 | 2.792 | -692 | 2.545 | -445 |
| 10/2024 | 2.450 | 2.804 | -354 | 2.314 | 136 | 2.367 | 83 | 2.109 | 341 | 2.262 | 188 |
| 11/2024 | 2.620 | 2.862 | -242 | 1.973 | 647 | 2.059 | 561 | 1.910 | 710 | 2.108 | 512 |
| 12/2024 | 4.435 | 3.094 | 1.341 | 4.635 | -200 | 4.813 | -378 | 5.063 | -628 | 4.536 | -101 |
| 01/2025 | 2.790 | 3.102 | -312 | 3.471 | -681 | 3.620 | -830 | 3.534 | -744 | 3.189 | -399 |
| 02/2025 | 4.652 | 3.152 | 1.500 | 4.001 | 651 | 4.067 | 585 | 4.702 | -50 | 4.132 | 520 |
| 03/2025 | 2.460 | 2.978 | -518 | 3.005 | -545 | 3.116 | -656 | 2.893 | -433 | 2.785 | -325 |
| 04/2025 | 2.250 | 3.297 | -1.047 | 2.797 | -547 | 3.131 | -881 | 2.515 | -265 | 2.602 | -352 |
| 05/2025 | 2.880 | 3.108 | -228 | 3.169 | -289 | 3.379 | -499 | 3.132 | -252 | 3.007 | -127 |
| 06/2025 | 2.468 | 3.470 | -1.002 | 2.156 | 312 | 2.408 | 60 | 1.906 | 562 | 2.212 | 256 |
Bảng 10. Kết quả so sánh mức độ chính xác của mô hình
| Chỉ số | RMSE |
| Mô hình ARIMA | 939,96 |
| Mô hình SARIMA | 974,46 |
| Mô hình Holt-Winters | 593,64 |
| Mô hình phân rã (dạng nhân) | 553,49 |
| Mô hình phân rã (dạng cộng | 537,72 |
Kết hợp giữa kết quả dự báo trong mẫu tại Bảng 9 và kết quả so sánh độ chính xác của các mô hình tại Bảng 10 cho thấy mô hình phân rã dạng cộng đạt độ chính xác cao nhất với RMSE = 537,72, thấp hơn phân rã dạng nhân = 553,49, Holt–Winters = 593,64, ARIMA = 939,96 và SARIMA = 974,46. Do đó, phân rã dạng cộng được xác định là mô hình dự báo chính xác nhất trong các mô hình đã ước lượng.
Nghiên cứu tiếp tục kiểm định hiện tượng tự tương quan bằng kiểm định Breusch-Godfrey16.
Bảng 11. Kết quả kiểm định tự tương quan
| Độ trễ (lag) | Chi-square | Df | Prob > chi2 |
| 1 | 21,263 | 2 | 0.0000 |
| 2 | 22.402 | 2 | 0.0000 |
| 3 | 22.539 | 3 | 0.0001 |
Kết quả kiểm định cho thấy, mô hình tồn tại hiện tượng tự tương quan lên đến 3 độ trễ, do đó cần hiệu chỉnh để bảo đảm độ tin cậy của suy luận thống kê. Nghiên cứu sử dụng sai số chuẩn Newey–West để điều chỉnh trong trường hợp có tự tương quan và phương sai sai số thay đổi (Newey & West, 1987)17.
Bảng 12. Kết quả hiệu chỉnh sai số chuẩn Newey-West
| Biến độc lập | Hệ số | Sai số chuẩn Newey-West | T | P-value |
| Hằng số | 987,95 | 64,47 | 15,32 | 0,000 |
| Xu thế t | 79,79 | 9,18 | 8,69 | 0,008 |
| t2 | -0,64 | 0,22 | -2,82 | 0,000 |
| Quan sát F-statistic P-value | 39 506,36 0.0000 |
Sau khi hiệu chỉnh, các biến trong mô hình xu thế vẫn giữ được ý nghĩa thống kê ở mức cao với mô hình tổng thể đạt ý nghĩa ở mức 1%, khẳng định tính ổn định và độ tin cậy của mô hình. Do đó, kết quả dự báo từ mô hình này có thể được sử dụng làm căn cứ phân tích và thảo luận chính sách.
Bảng 13. So sánh kết quả dự báo các mô hình
| Thời gian | ARIMA(3,1,1) | SARIMA(3,1,1) (0,1,1)12 | HOLT-WINTERS | MÔ HÌNH PHÂN RÃ |
| 7/2025 | 2.525 | 4.186 | 2.979 | 3.036 |
| 8/2025 | 2.582 | 4.229 | 4.040 | 3.740 |
| 9/2025 | 2.639 | 2.941 | 3.515 | 2.954 |
| 10/2025 | 2.696 | 3.279 | 2.876 | 2.655 |
| 11/2025 | 2.752 | 3.437 | 2.544 | 2.486 |
| 12/2025 | 2.809 | 5.240 | 5.262 | 4.899 |
| 01/2026 | 2.866 | 3.583 | 4.047 | 3.537 |
| 02/2026 | 2.923 | 5.433 | 4.488 | 4.464 |
| 3/2026 | 2.980 | 3.228 | 3.508 | 3.102 |
| 4/2026 | 3.037 | 3.006 | 3.515 | 2.904 |
| 5/2026 | 3.094 | 3.624 | 3.768 | 3.294 |
| 6/2026 | 3.151 | 3.200 | 2.804 | 2.484 |
| 7/2026 | 3.208 | 4.906 | 3.374 | 3.292 |
| 8/2026 | 3.264 | 4.936 | 4.435 | 3.981 |
| 9/2026 | 3.321 | 3.637 | 3.910 | 3.180 |
| 10/2026 | 3.378 | 3.963 | 3.271 | 2.866 |
| 11/2026 | 3.435 | 4.108 | 2.939 | 2.682 |
| 12/2026 | 3.492 | 5.899 | 5.657 | 5.079 |
Kết quả dự báo và đồ thị dự báo cho thấy lượng khách du lịch quốc tế trong giai đoạn nghiên cứu có xu hướng tăng và biến động theo mùa vụ. Trong đó, mô hình phân rã dạng cộng tạo ra chuỗi dự báo có mức dao động hợp lý hơn và thể hiện xu hướng tăng tương đối ổn định qua thời gian. Do đó, mô hình phân rã dạng cộng là mô hình dự báo tối ưu nhất trong nghiên cứu.

6. Thảo luận
Kết quả nghiên cứu cho thấy, phương pháp phân rã dạng cộng có hiệu quả dự báo tốt hơn so với ARIMA, SARIMA và Holt–Winters, qua đó cho thấy tính phù hợp của cách tiếp cận này trong bối cảnh dữ liệu du lịch có mức độ biến động cao. Phát hiện này phù hợp với các nghiên cứu của Theodosiou (2011)17 và Bergmeir et al. (2016)18, nhấn mạnh vai trò của phương pháp phân rã trong bối cảnh dữ liệu có xu thế và mùa vụ rõ rệt. Kết quả của nghiên cứu cũng tương đồng với Zhang et al. (2022)19, khi cho thấy lợi thế của các mô hình dựa trên phương pháp phân rã so với các mô hình dự báo trực tiếp trong dự báo du lịch. Tuy nhiên, kết quả nghiên cứu không tương đồng với một số công trình nghiên cứu trên thế giới cho rằng mô hình ARIMA, SARIMA và mô hình Holt–Winters dạng nhân là những mô hình dự báo có độ chính xác cao. Điều này hoàn toàn phù hợp, bởi không có mô hình nghiên cứu nào là toàn diện cho mọi thị trường (Gunter & Önder, 2015)20, tuỳ thuộc vào bối cảnh nghiên cứu, đặc điểm địa lý và dữ liệu.
Việc ARIMA và SARIMA có RMSE cao hơn có thể được lý giải bởi đặc điểm dữ liệu. Các mô hình này thường hoạt động tốt khi chuỗi đủ dài, ổn định và có cấu trúc rõ ràng. Trong khi đó, chuỗi dữ liệu trong nghiên cứu chỉ bao gồm giai đoạn sau Covid-19, cùng với quá trình sáp nhập đơn vị hành chính, nên phạm vi dữ liệu sử dụng buộc phải thu hẹp ở giai đoạn phù hợp nhất để bảo đảm tính đồng nhất và tính liên tục của dữ liệu. Điều này làm giảm độ dài chuỗi, khiến ARIMA và SARIMA khó khai thác đầy đủ thông tin quá khứ, do đó mô hình trở nên xử lý kém, khó nắm bắt được cấu trúc dữ liệu, từ đó cho kết quả dự báo kém chính xác.
7. Kết luận
Về phương diện khoa học, nghiên cứu này cung cấp bằng chứng thực nghiệm về hiệu quả của mô hình phân rã chuỗi thời gian truyền thống được tiếp cận như một phương pháp dự báo độc lập, đồng thời chứng minh tính cạnh tranh của phương pháp này so với mô hình dự báo chuỗi thời gian truyền thống dựa trên sự phù hợp với đặc điểm dữ liệu.
Về phương diện thực tiễn, kết quả dự báo lượng khách quốc tế giai đoạn 7/2025–12/2026 có triển vọng phục hồi tích cực, có xu hướng biến động theo đặc điểm mùa vụ và điều kiện thực tế của thị trường du lịch địa phương. Kết quả này là cơ sở khoa học hỗ trợ cơ quan quản lý trong việc xây dựng kế hoạch phát triển du lịch tại địa phương, đặc biệt trong việc định hướng đầu tư hạ tầng, định hướng sản phẩm đặc thù và xúc tiến thị trường. Đồng thời, kết quả này cũng là căn cứ thực tiễn để các doanh nghiệp dịch vụ du lịch xây dựng chiến lược kinh doanh linh hoạt, tăng cường liên kết chuỗi giá trị, đa dạng hóa thị trường và tối ưu hóa năng lực phục vụ nhằm nâng cao khả năng thích ứng và năng lực cạnh tranh.
Tuy nhiên, nghiên cứu còn hạn chế khi sử dụng các mô hình chuỗi thời gian đơn biến và tập dữ liệu tương đối ngắn có thể ảnh hưởng đến tính ổn định dài hạn của kết quả dự báo. Các nghiên cứu tiếp theo có thể mở rộng theo hướng sử dụng các mô hình dự báo đa biến và so sánh với các mô hình hiện đại, cần khai thác tập dữ liệu dài hơn và cập nhật liên tục theo thời gian sẽ góp phần nâng cao tính ổn định và độ tin cậy của kết quả dự báo, đồng thời nâng cao giá trị khoa học và thực tiễn của dự báo du lịch trong bối cảnh quản lý địa phương sau sáp nhập.
Chú thích:
1. Box, G. E. P., & Jenkins, G. M. (1970). Time series analysis: Forecasting and control. Holden-Day.
2, 4. Nguyễn Trọng Hoài và cộng sự (2009). Dự báo và phân tích dữ liệu trong kinh tế và tài chính. Nhà xuất bản Thống kê.
3, 6. Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice (2nd ed.). OTexts. https://otexts.com/fpp2/
5. Song, H., Qiu, R. T. R., & Park, J. (2019). A review of research on tourism demand forecasting: Launching the Annals of Tourism Research curated collection on tourism demand forecasting. Annals of Tourism Research, 75, 338–362.
7. Lim, C. (2002). Time series forecasts of international travel demand for Australia. Tourism Management, 23(4), 389–396.
9, 17. Theodosiou, M. (2011). Forecasting monthly and quarterly time series using STL decomposition. International Journal of Forecasting, 27(4), 1178–1195. https://doi.org/10.1016/j.ijforecast.2010.11.002
10, 18. Bergmeir, C., Hyndman, R. J., & Benítez, J. M. (2016). Bagging exponential smoothing methods using STL decomposition and Box–Cox transformation. International Journal of Forecasting, 32(2), 303–312. https://doi.org/10.1016/j.ijforecast.2015.07.002
11, 19. Zhang, C., Li, M., Sun, S., Tang, L., & Wang, S. (2022). Decomposition methods for tourism demand forecasting: A comparative study. Journal of Travel Research, 61(7), 1682–1699.
12. Đỗ Quang Giám, Vũ Thị Hân, Lý Thị Lan Phương, & Nguyễn Thu Thủy. (2012). Xây dựng mô hình ARIMA cho dự báo khách du lịch quốc tế đến Việt Nam. Tạp chí Khoa học Nông nghiệp Việt Nam, 10(2), 164–171.
13. Nguyễn Thị Tuyết Nhung (2020). Phân tích xu hướng biến động của khách du lịch quốc tế đến Việt Nam. Tạp chí Công Thương, 2020.
14. Hamilton, J. D. (1994). Time series analysis. Princeton University Press.
16. Breusch, T. S. (1978). Testing for autocorrelation in dynamic linear models. Australian Economic Papers, 17(31), 334–355. https://doi.org/10.1111/j.1467-8454.1978.tb00635.x
20. Gunter, U., & Önder, I. (2015). Forecasting international city tourism demand for Paris. Tourism Management, 46, 123–135.
Tài liệu tham khảo:
1. Ủy ban Thường vụ Quốc hội (2025). Nghị quyết số 76/2025/UBTVQH về việc sắp xếp đơn vị hành chính năm 2025.
2. Cao Tấn Bình, Đinh Nguyễn Minh Nguyên, Phạm Lan Anh, & Võ Thùy Linh. (2023). Phân tích và dự báo số khách du lịch quốc tế đến tỉnh Bình Định bằng các mô hình chuỗi thời gian. Kinh tế Châu Á – Thái Bình Dương, Tháng 4/2023, 89–91.
3. Lê Thanh Tùng (2019). Dự báo lượng khách du lịch nước ngoài đến Việt Nam bằng phương pháp ARIMA. Journal of Environmental Management and Tourism, 9(6), 1135–1144.
4. Box, G. E. P., & Jenkins, G. M. (1976). Time series analysis: Forecasting and control (Revised ed.). Holden-Day.
5. Godfrey, L. G. (1978). Testing against general autoregressive and moving average error models when the regressors include lagged dependent variables. Econometrica, 46 (6), 1293–1301. https://doi.org/10.2307/1913829
6. Kodituwakku, W., Wijesundara, W., & Hettiarachchi, C. (2015). Modeling and forecasting tourism demand for Sri Lanka – University of Colombo School of Computing.
7. Newey, W. K., & West, K. D. (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix. Econometrica, 55(3), 703–708. https://doi.org/10.2307/1913610
8. Winters, P. R. (1960). Forecasting sales by exponentially weighted moving averages. Management Science, 6(3), 324–342.



