Quản lý và khai thác thông tin trong môi trường số 

ThS. Lê Thị Thu Thủy
Học viện Hành chính Quốc gia

(Quanlynhanuoc.vn) – Trong thời đại số ngày nay, thông tin đã trở thành một tài nguyên vô cùng quan trọng và quý giá đối với nhiều tổ chức và cá nhân. Quản lý và khai thác thông tin trong môi trường số không chỉ là một thách thức mà còn là một cơ hội để tối ưu hóa hoạt động, tăng cường hiệu suất và định hình chiến lược kinh doanh. Đối với cán bộ, công chức, viên chức, việc quản lý và khai thác thông tin trong môi trường số là yêu cầu thiết yếu và có vai trò quan trọng trong hoạt động chuyên môn, nghiệp vụ. Bài viết tập trung vào kỹ năng quản lý và khai thác thông tin trong môi trường số.

Từ khóa: Quản lý; khai thác thông tin; môi trường số.

1. Đặt vấn đề

Môi trường số là môi trường truyền thông tích hợp bao gồm hệ thống thiết bị kỹ thuật số được kết nối để quản lý nội dung thông tin số và các hoạt động bên trong nó. Các thành phần chính của môi trường số gồm nội dung thông tin số, công cụ tìm kiếm, các website, máy chủ đám mây (cloud servers), các ứng dụng website và ứng dụng di động1.

Thông tin số là thông tin được tạo lập bằng phương pháp dùng tín hiệu số2. Trong môi trường số, các giao dịch trực tuyến được kết nối, trao đổi thông tin số giữa các bên (các cá nhân và tổ chức) nhanh chóng, dễ dàng và giảm chi phí hơn. Đặc biệt, các cơ quan nhà nước cung cấp dịch vụ công cho người dân và doanh nghiệp, thông qua các ứng dụng website để cung cấp các dịch vụ công trực tuyến mức độ cao, trên diện rộng nhằm tạo sự hài lòng, thuận lợi hơn cho họ. Hơn nữa, với xu hướng các ứng dụng di động ngày càng được người dân và cộng đồng doanh nghiệp ưa thích sử dụng, đây là yếu tố để gia tăng số lượng và chất lượng các ứng dụng di động cài đặt trên điện thoại thông minh và máy tính bảng.

Để quản lý và khai thác thông tin trong môi trường số một cách hiệu quả, cán bộ, công chức, viên chức cần phải có những kỹ năng cơ bản, như: kỹ năng quản lý thông tin, thu thập tìm kiếm thông tin, nhận diện thông tin, kiểm chứng thông tin, xử lý tình huống khi phát hiện thông tin xấu, độc… 

2. Quản lý thông tin trong môi trường số 

Quản lý thông tin trong môi trường số (hay còn gọi là quản lý thông tin kỹ thuật số) là quá trình tổ chức, lưu trữ, xử lý, truyền tải, bảo mật dữ liệu và thông tin trong một môi trường số hoặc kỹ thuật số. Trong môi trường số gồm nhiều thứ, từ tài liệu văn bản, hình ảnh, video, âm thanh đến dữ liệu kết nối Internet of Things (IoT), dữ liệu máy tính và dữ liệu từ các ứng dụng và hệ thống trực tuyến. 

Quản lý thông tin trong môi trường số gồm các hoạt động: Thu thập dữ liệu từ các nguồn khác nhau, như: website, hệ thống máy tính, cơ sở dữ liệu, cảm biến IoT và các nguồn dữ liệu trực tuyến khác. Tổ chức dữ liệu, xác định cách tổ chức dữ liệu để dễ dàng truy cập và hiệu quả trong việc tìm kiếm và sử dụng. Điều này bao gồm việc xác định cấu trúc dữ liệu, đặt các thẻ (tags) và phân loại dữ liệu. Lưu trữ dữ liệu một cách an toàn và hiệu quả trên các nền tảng lưu trữ kỹ thuật số như máy chủ, đám mây (cloud) hoặc hệ thống lưu trữ phân tán. Xử lý dữ liệu bao gồm các hoạt động làm sạch dữ liệu (data cleansing), biến đổi dữ liệu (data transformation) và tích hợp dữ liệu (data integration) để chuẩn bị cho các phân tích và ứng dụng khác. Truyền tải dữ liệu giữa các hệ thống và ứng dụng khác nhau bằng cách sử dụng các giao thức và phương tiện truyền tải khác nhau, như: internet, mạng nội bộ hoặc giao thức truyền tải dữ liệu mạng (Network Data Transfer Protocol). Bảo mật dữ liệu nhằm bảo đảm dữ liệu được bảo vệ khỏi các mối đe dọa bảo mật thông qua việc áp dụng các biện pháp bảo mật như mã hóa, kiểm soát truy cập, và giám sát. Quản lý vòng đời thông tin, quản lý vòng đời dữ liệu bao gồm việc theo dõi và quản lý dữ liệu từ khi nó được tạo ra cho đến khi nó không còn được sử dụng nữa. Điều này bao gồm việc sao lưu, giữ lại và xóa dữ liệu theo yêu cầu và quy định.

(1) Vai trò của quản lý thông tin trong môi trường số.

Tổ chức và lưu trữ dữ liệu: quản lý thông tin trong môi trường số giúp tổ chức và lưu trữ dữ liệu một cách có tổ chức và hiệu quả. Điều này bao gồm việc xác định và thiết kế cấu trúc lưu trữ dữ liệu, bảo đảm tính toàn vẹn và sẵn sàng của dữ liệu cũng như quản lý vòng đời của dữ liệu từ khi nó được tạo ra đến khi nó không còn cần thiết nữa.

Truy cập và chia sẻ thông tin: quản lý thông tin trong môi trường số cho phép người dùng dễ dàng truy cập và chia sẻ thông tin, bao gồm thiết lập các hệ thống và quy trình cho việc quản lý quyền truy cập và phân quyền, bảo đảm chỉ những người được cấp quyền mới có thể truy cập vào thông tin.

Bảo mật thông tin: quản lý thông tin trong môi trường số cũng đóng vai trò quan trọng trong việc bảo đảm an ninh và bảo mật thông tin. Với việc thiết lập các biện pháp bảo mật để bảo vệ dữ liệu khỏi các mối đe dọa, như: truy cập trái phép, mất mát, phá hủy dữ liệu hoặc tin tặc tấn công.

Tối ưu hóa quy trình làm việc, quản lý thông tin trong môi trường số có thể giúp tối ưu hóa quy trình làm việc bằng cách tự động hóa các hoạt động và công việc, giảm thiểu thời gian và công sức cần thiết cho việc tìm kiếm, truy cập và xử lý thông tin.

Hỗ trợ ra quyết định, quản lý thông tin cung cấp dữ liệu và thông tin hữu ích để hỗ trợ quyết định. Việc phân tích dữ liệu, tạo báo cáo và biểu đồ, cung cấp thông tin định kỳ nhằm giúp người quản lý và nhân viên đưa ra quyết định thông minh dựa trên dữ liệu.

Tạo ra giá trị từ dữ liệu: quản lý thông tin trong môi trường số giúp tổ chức tạo ra giá trị từ dữ liệu bằng cách sử dụng thông tin để phát triển sản phẩm và dịch vụ mới, cải thiện hiệu suất và hiệu quả của quy trình quản lý, kinh doanh cũng như tăng cường tương tác với khách hàng.

(2) Lợi ích của quản lý thông tin trong môi trường số.

Quản lý thông tin trong môi trường số là một yếu tố quan trọng đối với tổ chức và cá nhân vì nó mang lại một loạt các lợi ích và giải pháp cho các thách thức liên quan đến dữ liệu và thông tin kỹ thuật số, như: 

Tăng cường tính hiệu quả và linh hoạt: quản lý thông tin trong môi trường số giúp tăng cường tính hiệu quả và linh hoạt trong việc tổ chức, lưu trữ và truy cập thông tin. Việc tổ chức dữ liệu một cách cẩn thận giúp người dùng dễ dàng tìm kiếm và truy cập thông tin một cách nhanh chóng và hiệu quả.

Tiết kiệm thời gian và chi phí: quản lý thông tin số giúp người dùng tiết kiệm thời gian và chi phí trong việc tìm kiếm, xử lý và truy cập dữ liệu. Các công cụ tự động hóa và quy trình quản lý thông tin có thể giảm thiểu công việc thủ công và tăng cường hiệu suất làm việc.

Bảo mật và quyền riêng tư: quản lý thông tin số giúp cải thiện bảo mật và quyền riêng tư của dữ liệu. Bằng cách áp dụng các biện pháp bảo mật như mã hóa, kiểm soát truy cập và giám sát, tổ chức có thể bảo đảm rằng thông tin của họ được bảo vệ khỏi các mối đe dọa bảo mật.

Tăng cường quyết định dựa trên dữ liệu: quản lý thông tin số cung cấp các công cụ và kỹ thuật để phân tích và khai thác dữ liệu, từ đó cung cấp thông tin quan trọng để hỗ trợ ra quyết định dựa trên dữ liệu. Việc sử dụng dữ liệu để dự đoán xu hướng thị trường, đánh giá hiệu suất và dự đoán tương lai có thể giúp tổ chức ra quyết định thông minh và hiệu quả hơn.

Tạo ra giá trị mới: quản lý thông tin trong môi trường số có thể tạo ra giá trị thêm cho tổ chức thông qua việc sử dụng thông tin để phát triển sản phẩm và dịch vụ mới, cải thiện quy trình kinh doanh, tăng cường tương tác với khách hàng và đối tác.

Tuân thủ pháp luật và quy định: quản lý thông tin số giúp tổ chức tuân thủ các quy định và pháp luật liên quan đến quản lý dữ liệu và thông tin, bao gồm cả việc bảo vệ quyền riêng tư của người tiêu dùng và bảo đảm tuân thủ các tiêu chuẩn an toàn thông tin.

(3) Quản lý thông tin trong môi trường số

Quản lý thông tin trong môi trường số là quá trình tổ chức, lưu trữ, xử lý, truyền tải và bảo mật dữ liệu, thông tin trong một môi trường kỹ thuật số. Sau đây là một số bước quan trọng để quản lý thông tin trong môi trường số một cách hiệu quả:

Xác định mục tiêu và yêu cầu thông tin của việc quản lý thông tin gồm mục đích sử dụng, loại thông tin cần quản lý và yêu cầu bảo mật.

Xác định và thu thập thông tin, xác định các nguồn dữ liệu cần thiết và thu thập thông tin từ các nguồn khác nhau như cơ sở dữ liệu, tệp văn bản, hệ thống máy tính và cảm biến IoT.

Tổ chức và phân loại thông tin, xác định cấu trúc dữ liệu và phân loại thông tin vào các danh mục, thẻ (tags) hoặc phân khúc để dễ dàng quản lý và truy cập.

Lưu trữ thông tin, chọn lựa phương thức lưu trữ phù hợp như máy chủ nội bộ, đám mây (cloud) hoặc hệ thống lưu trữ phân tán và áp dụng các biện pháp bảo mật để bảo vệ dữ liệu.

Xử lý dữ liệu, thực hiện các bước làm sạch, biến đổi và tích hợp dữ liệu để chuẩn bị cho việc phân tích và sử dụng.

Quản lý quyền truy cập, thiết lập và quản lý quyền truy cập đối với dữ liệu, nhằm bảo đảm chỉ những người được ủy quyền mới có thể truy cập vào thông tin cần thiết.

Bảo mật thông tin, áp dụng các biện pháp bảo mật như mã hóa, kiểm soát truy cập và giám sát để bảo đảm an toàn cho dữ liệu.

Quản lý vòng đời thông tin, quản lý vòng đời của dữ liệu từ khi nó được tạo ra cho đến khi nó không còn được sử dụng nữa, bao gồm cả việc sao lưu, giữ lại hoặc xóa dữ liệu.

Tạo ra và thực hiện chính sách quản lý thông tin, xây dựng, triển khai chính sách và quy trình quản lý thông tin để bảo đảm tuân thủ các quy định và tiêu chuẩn pháp lý.

Liên tục đánh giá và cải tiến, việc đánh giá và cải tiến quy trình quản lý thông tin dựa trên phản hồi và kết quả hoạt động nhằm bảo đảm tính hiệu quả và linh hoạt.

3. Khai thác thông tin trong môi trường số 

Khai thác thông tin trong môi trường số là quá trình tìm kiếm, phân tích và trích xuất thông tin hữu ích từ các nguồn dữ liệu kỹ thuật số như cơ sở dữ liệu, tệp tin, website, phương tiện truyền thông xã hội, email, cảm biến IoT và các nguồn dữ liệu khác trên internet. Mục đích của việc khai thác thông tin là tạo ra thông tin có ý nghĩa và giá trị từ dữ liệu không cấu trúc và phức tạp.

Thứ nhất, lợi ích của việc khai thác thông tin trong môi trường số.

Việc khai thác thông tin trong môi trường số mang lại nhiều lợi ích quan trọng, như: (1) Cập nhật thông tin giúp người dùng nắm bắt thông tin mới nhất và nhanh chóng từ các nguồn đa dạng như website, mạng xã hội và báo chí điện tử. Điều này giúp chúng ta cập nhật thông tin về các sự kiện, tin tức và xu hướng mới nhất trong xã hội. (2) Tìm kiếm và thu thập thông tin trong môi trường số giúp cho người dùng tìm kiếm và thu thập thông tin một cách nhanh chóng hiệu quả. Người dùng có thể sử dụng các công cụ tìm kiếm và phân tích dữ liệu để lọc ra thông tin quan trọng và phân tích xu hướng. (3) Tạo ra kiến thức mới, việc khai thác thông tin trong môi trường số giúp chúng ta tạo ra những kiến thức mới và ứng dụng thông tin vào công việc và cuộc sống hằng ngày. (4) Tạo ra cơ hội mới, việc khai thác thông tin số giúp phát hiện ra cơ hội mới từ dữ liệu. Bằng việc phân tích dữ liệu, các tổ chức có thể nhận biết xu hướng và nhu cầu của xã hội hay tiềm năng mới, từ đó phát triển các sản phẩm và dịch vụ mới phù hợp. (5) Tối ưu hóa quy trình hoạt động, phân tích dữ liệu số giúp tổ chức hiểu rõ hơn về hoạt động của tổ chức mình và tìm ra cách tối ưu hóa quy trình hoạt động của tổ chức. (6) Hỗ trợ quyết định, thông tin số cung cấp thông tin hữu ích để hỗ trợ tổ chức ra quyết định. Bằng cách phân tích dữ liệu, các quyết định có thể dựa trên các dữ liệu chính xác và đáng tin cậy, giúp tăng cường khả năng đưa ra quyết định chính xác và hiệu quả. (7) Nâng cao trải nghiệm người dùng, việc phân tích dữ liệu từ hành vi trực tuyến của người dùng giúp tổ chức hiểu rõ hơn về nhu cầu và sở thích của họ. Điều này giúp cá nhân hóa trải nghiệm người dùng, cung cấp dịch vụ và sản phẩm tốt hơn, tăng cường sự hài lòng của người dùng. (8) Phát triển sản phẩm và dịch vụ, thông tin số cung cấp thông tin quý báu để phát triển sản phẩm và dịch vụ bằng cách phân tích phản hồi từ người dùng và dữ liệu thị trường, các tổ chức có thể điều chỉnh, cải thiện sản phẩm và dịch vụ đáp ứng nhu cầu của xã hội.

Thứ hai, khai thác thông tin số như thế nào?

Quá trình khai thác thông tin trong môi trường số bao gồm một loạt các bước và kỹ thuật phức tạp để tổ chức, phân tích và trích xuất thông tin hữu ích từ dữ liệu số. Sau đây là một cái nhìn tổng quan về cách thức thực hiện quá trình khai thác thông tin trong môi trường số.

Thu thập thông tin cần bảo đảm yêu cầu, như: chính xác (thông tin từ các nguồn tin chính thống, từ các nguồn tin đáng tin cậy, đã được kiểm chứng hoặc có cơ sở để kiểm chứng); phù hợp (phù hợp với mục đích, nhu cầu khai thác thông tin đã được đặt ra), kịp thời (không phải các thông tin cũ, lạc hậu, có thể gây sự hiểu lầm nếu sử dụng thông tin cũ không phù hợp với thời điểm đăng tải, chia sẻ). Xác định các nguồn dữ liệu phù hợp với mục tiêu khai thác thông tin, bao gồm cơ sở dữ liệu, tệp tin, website, phương tiện truyền thông xã hội, email, cảm biến IoT và các nguồn dữ liệu khác. Thu thập dữ liệu từ các nguồn đã xác định, bao gồm việc sử dụng các công cụ tự động hoặc kỹ thuật scraping để lấy dữ liệu từ các website.

Tiền xử lý dữ liệu để làm sạch và chuẩn bị dữ liệu cho việc phân tích, bao gồm loại bỏ dữ liệu nhiễu, điền đầy giá trị bị thiếu, chuẩn hóa dữ liệu và loại bỏ các bản ghi trùng lặp. Biến đổi dữ liệu nếu cần thiết để chuyển đổi dữ liệu vào định dạng phù hợp cho phân tích tiếp theo.

Phân tích dữ liệu là việc sử dụng các kỹ thuật và công cụ phân tích dữ liệu, như: phân tích thống kê, khai phá dữ liệu, học máy và học sâu để khám phá mẫu lặp lại, xu hướng và thông tin hữu ích từ dữ liệu. Áp dụng các phương pháp phân tích phù hợp với mục tiêu cụ thể của việc khai thác thông tin như phân loại, gom cụm, dự đoán hay phát hiện tri thức.

Trích xuất thông tin quan trọng và có ý nghĩa từ dữ liệu phân tích, bao gồm việc trích xuất từ khóa, thực thể, mẫu hoặc kết luận từ dữ liệu. Sử dụng các kỹ thuật khai phá ngôn ngữ tự nhiên và trích xuất thông tin cấu trúc để trích xuất thông tin một cách tự động từ văn bản không cấu trúc.

Đánh giá và trình bày kết quả là việc đánh giá tính chính xác, độ tin cậy của kết quả khai thác thông tin và trình bày thông tin hữu ích, đáng tin cậy cho người sử dụng cuối cùng thông qua các báo cáo, biểu đồ, đồ thị hoặc ứng dụng khác. Cần chú ý đến việc hiểu rõ ngữ cảnh của dữ liệu và kết quả phân tích để bảo đảm tính ứng dụng và đáng tin cậy của thông tin.

Lặp lại và cải tiến quá trình khai thác thông tin với các bộ dữ liệu mới hoặc mở rộng nhằm bảo đảm tính liên tục và cải tiến kết quả. Thực hiện việc cải tiến và tối ưu hóa quá trình khai thác thông tin dựa trên phản hồi và kết quả hoạt động.

4. Các công cụ, phần mềm hỗ trợ khai thác thông tin trong môi trường số

Có nhiều công cụ, phần mềm được phát triển để hỗ trợ quá trình khai thác thông tin trong môi trường số. Những công cụ, phần mềm này đều cung cấp các tính năng và chức năng đa dạng để hỗ trợ quá trình khai thác thông tin trong môi trường số, từ trước khi xử lý dữ liệu đến phân tích và trực quan hóa kết quả. Tùy thuộc vào nhu cầu cụ thể, người dùng có thể chọn lựa một trong số các công cụ, phàn mềm sao cho phù hợp để thực hiện công việc khai thác thông tin của mình. 

 Python và các thư viện học máy: Python là một ngôn ngữ lập trình phổ biến trong lĩnh vực khoa học dữ liệu và học máy. Các thư viện, như: Pandas, NumPy, Scikit-learn, TensorFlow và PyTorch cung cấp các công cụ mạnh mẽ để tiền xử lý dữ liệu, phân tích dữ liệu và xây dựng mô hình học máy.

– R là một ngôn ngữ lập trình và môi trường phần mềm được sử dụng rộng rãi trong thống kê và phân tích dữ liệu. Các gói như dplyr, tidyr, ggplot2 và caret cung cấp các công cụ mạnh mẽ để tiền xử lý, phân tích và khai thác dữ liệu.

– RapidMiner là một nền tảng phân tích dữ liệu tự động được sử dụng để xây dựng mô hình dữ liệu, khám phá dữ liệu và triển khai các giải pháp phân tích dữ liệu.

– Weka là một bộ công cụ phân tích dữ liệu mã nguồn mở được sử dụng để thực hiện các tác vụ, như: phân loại, gom cụm, học tập kí tự và khai thác dữ liệu.

– KNIME là một nền tảng phân tích dữ liệu và quản lý quy trình làm việc cho phép người dùng tích hợp, xử lý và phân tích dữ liệu một cách trực quan.

– Apache Spark là một hệ thống phân tán mã nguồn mở được sử dụng để xử lý dữ liệu lớn và thực hiện các tác vụ phân tích dữ liệu phức tạp trên cụm máy chủ.

– ELK Stack (Elasticsearch, Logstash, Kibana) là một bộ công cụ mã nguồn mở được sử dụng cho việc thu thập, xử lý và trực quan hóa dữ liệu log từ các hệ thống và ứng dụng phân tán.

– OpenRefine (trước đây là Google Refine) là một công cụ mã nguồn mở để tiền xử lý và làm sạch dữ liệu không cấu trúc từ nhiều nguồn khác nhau.

– Scrapy và BeautifulSoup là các thư viện Python được sử dụng để crawl và scrape dữ liệu từ các website.

– Microsoft Power BI và Tableau là các công cụ phân tích dữ liệu và trực quan hóa dữ liệu giúp người dùng thực hiện phân tích dữ liệu một cách trực quan và hiệu quả.

– Google Search là công cụ tìm kiếm phổ biến nhất và mạnh mẽ nhất trên internet, nó cho phép người dùng tìm kiếm thông tin trên web bằng cách sử dụng từ khóa và cụm từ.

 – Bing là một công cụ tìm kiếm website của Microsoft, nó cung cấp các tính năng tìm kiếm tương tự như Google.

– DuckDuckGo là một công cụ tìm kiếm website có tính riêng tư cao, không lưu trữ thông tin cá nhân của người dùng và không theo dõi hoạt động tìm kiếm.

– Yahoo Search là một công cụ tìm kiếm web khác cung cấp các tính năng tìm kiếm và lọc kết quả.

– Yandex là một công cụ tìm kiếm website phổ biến ở Nga và các quốc gia khác trong khu vực đó.

– Bộ Google Webmaster Tools cung cấp các công cụ để quản lý và theo dõi hiệu suất của website trên công cụ tìm kiếm Google.

– Google Alerts cho phép người dùng thiết lập cảnh báo để nhận thông báo khi có thông tin mới xuất hiện trên Internet về các từ khóa hoặc chủ đề cụ thể.

–  RSS Readers là công cụ đọc như Feedly cho phép người dùng theo dõi các website và blog mà họ quan tâm thông qua việc đăng ký các nguồn cung cấp RSS.

– Công cụ cấp dữ liệu như Import.io và Octoparse cho phép người dùng thu thập dữ liệu từ các website và chuyển đổi nó thành định dạng có thể sử dụng.

– Công cụ quét và crawl website như Screaming Frog và Xenu Link Sleuth cho phép người dùng quét và crawl website để thu thập thông tin và phân tích cấu trúc của website.

5. Kết luận 

Quản lý và khai thác thông tin trong môi trường số đóng vai trò quan trọng trong việc tạo ra cơ hội, tăng cường tính cạnh tranh, nâng cao hiệu suất và hiệu quả làm việc của tổ chức và cá nhân. Nó đòi hỏi các kỹ năng và chiến lược phù hợp đối với tổ chức, điều này có thể bao gồm việc đầu tư vào hạ tầng công nghệ thông tin, đào tạo nhân viên và thiết lập quy trình làm việc hiệu quả. Điều này không còn là thách thức mà là cơ hội để tạo ra giá trị, sự phát triển đối với các tổ chức và cá nhân. Việc hiểu, áp dụng các nguyên tắc và công nghệ quản lý thông tin số sẽ giúp con người ngày càng phát triển trong một thế giới số hóa ngày càng tốt đẹp hơn.

Chú thích:
1. Học viện Hành chính Quốc gia. Tài liệu bồi dưỡng đối với công chức ngạch chuyên viên và tương đươngQuyển II: Kỹ năng. H. NXB Bách khoa Hà Nội, 2023, tr. 326.
2. Luật Công nghệ thông tin năm 2006.
Tài liêu tham khảo:
1. Luật An toàn thông tin mạng năm 2015.
2. Quyết định số 749/QĐ-TTg ngày 03/6/2020 của Thủ tướng Chính phủ phê duyệt “Chương trình Chuyển đổi số quốc gia đến năm 2025, định hướng đến năm 2030”.