Xây dựng dữ liệu số phục vụ xuất bản tạp chí khoa học

TS. Tạ Quang Tuấn 
ThS. Lê Thị Thanh Huyền
ThS. Vũ Mạnh Hùng
ThS. Đỗ Khánh Phương
ThS. Nguyễn Thị Thu Hương
Học viện Hành chính Quốc gia

(Quanlynhanuoc.vn) – Ứng dụng công nghệ số là bước phát triển tất yếu của ngành Xuất bản, không chỉ bởi thói quen đọc sách của độc giả đã thay đổi, gắn với những thiết bị thông minh, những máy đọc sách ngày một tiện dụng, bên cạnh đó, quy trình sáng tạo tác phẩm, biên tập đến in ấn và phát hành theo cách truyền thống đều đang có sự dịch chuyển quan trọng.Trong xu thế chung của chuyển đổi sốxây dựng dữ liệu số đang được đặc biệt coi trọng, thực hiện và ứng dụng các kết quả trong hoạt động của các tạp chí khoa học. Bài viết làm rõ một số nội dung liên quan đến xây dựng dữ liệu số, đề xuất quy trình vận hành dữ liệu số trong xuất bản tạp chí khoa học ở Việt Nam hiện nay.

Từ khóa: Dữ liệu số; quy trình vận hành; xuất bản; tạp chí khoa học.

1. Đặt vấn đề

Bối cảnh hợp tác và hội nhập quốc tế đã và đang tác động sâu sắc đến toàn cầu nói chung và Việt Nam nói riêng trong phát triển khoa học và công nghệ, trong đó việc công bố sản phẩm nghiên cứu khoa học và ứng dụng chuyển giao công nghệ là hết sức cấp thiết. Đặc biệt, trong bối cảnh chuyển đổi số mạnh mẽ, cùng với phát triển kinh tế tri thức, trí tuệ nhân tạo (AI)… hiện nay. Các nghiên cứu về chuyển đổi số nói chung và xây dựng dữ liệu số nói riêng tại Việt Nam đang được coi trọng nhằm thực hiện và ứng dụng trong thực tiễn. Trong phạm vi hoạt động của tạp chí khoa học, cần thiết nhiều nghiên cứu liên quan đến xây dữ liệu số sẽ góp phần công bố sản phẩm khoa học và công nghệ trên các tạp chí khoa học trong nước, quốc tế nhằm thực hiện các mục tiêu phát triển của tổ chức và quốc gia. 

Vấn đề đặt ra là cần nghiên cứu tiêu chuẩn và cách thức, giải pháp để tạp chí khoa học có thể đạt được hệ thống tiêu chuẩn của dữ liệu số tạp chí khoa học, tạo nền tảng cho quy trình xuất bản. Bài viết phân tích khái niệm, cấu trúc và quy trình vận hành dữ liệu số như là cơ sở lý luận để vận dụng và giải quyết vấn đề trên trong thực tiễn của tạp chí khoa học tại Việt Nam hiện nay. 

2. Dữ liệu số trong xuất bản tạp chí khoa học

Thứ nhất, đặc điểm của dữ liệu số.

Dữ liệu số là dữ liệu được thu thập, nhập vào hệ thống cơ sở dữ liệu qua tập hợp phần cứng, phần mềm để lưu trữ, hệ thống hóa, phân tích và kiến tạo tri thức mới với mục tiêu lợi ích, có thể khảo cứu và sử dụng được khi cần. Như vậy, dữ liệu số là hình thức thể hiện dưới dạng điện toán của thông tin, có phạm vi rộng hơn dữ liệu cá nhân, có tính ứng dụng trong các lĩnh vực khác nhau và phụ thuộc vào cơ sở dữ liệu.

Ngoài ra, dữ liệu số còn mang một số đặc trưng, như:

(1) Tính chính xác, luôn phản ánh đối tượng và phục vụ mục đích cụ thể;

(2) Tính liên quan và gắn kết chặt chẽ với bối cảnh thu thập, lưu trữ, sử dụng, từ đó phản ánh giá trị thông tin về chất và lượng; 

(3) Không có tính tiêu hao sau khi được khai thác, sử dụng, vì thông tin được gắn kết với dữ liệu có tính không cạn kiệt, chúng có thể được tái truy xuất và phân tích để phục vụ các mục đích khác nhau;

(4) Dữ liệu số được thu thập có chủ đích, phụ thuộc vào ý chí chủ quan của chủ thể đầu tiên tiến hành thu thập, song không nhất thiết phản ánh thông tin về chủ thể này mà có thể phản ánh thông tin về chủ thể, khách thể, đối tượng khác. Bên cạnh đó, dữ liệu cũng có giá trị khách quan vì nó có thể phản ánh thông tin về hiện thực khách quan; 

(5) Dữ liệu số được tạo ra trên cơ sở truy nhập thông tin thực vào hệ thống thông tin, cũng có thể được tạo mới từ kết quả phân tích dữ liệu sẵn có. Trong cả hai trường hợp, việc tạo ra dữ liệu đòi hỏi một khoản chi phí mất đi từ việc đầu tư vào các thiết bị phần cứng, phần mềm và cơ sở dữ liệu.

Ở Việt Nam, xây dựng và phát triển tạp chí khoa học đạt tiêu chuẩn quốc tế ngày càng thu hút sự quan tâm của các cấp quản lý, cơ sở giáo dục đại học, viện nghiên cứu và các tạp chí khoa học. Bên cạnh đó, việc xây dựng các tiêu chí để đánh giá và xếp loại tạp chí khoa học của quốc gia hướng tới các chuẩn mực quốc tế cũng rất cần thiết. 

Thứ hai, các hình thức của dữ liệu số.

Dữ liệu xuất bản của tạp chí khoa học thường tồn tại và được lưu trữ dưới các hình thức dữ liệu số cơ bản, như: chữ – hình ảnh – âm thanh – video…

(1) Số hóa âm thanh  dữ liệu số âm thanh.

Phương pháp cơ bản số hóa âm thanh là điều chế mã xung (viết tắt là PCM) được số hóa bằng cách lấy mẫu biên độ tín hiệu của sóng âm theo chu kì lấy mẫu. Chu kì lấy mẫu càng nhỏ, thang lấy mẫu càng chi tiết, âm thanh càng trung thực nhưng cần nhiều không gian lưu trữ. Để số hóa âm thanh, người ta dùng các thiết bị ghi âm cài đặt sẵn phần mềm số hóa, trong đó có các mạch điện tử chuyển tín hiệu tương tự sang tín hiệu số (Analog to Digital Converter – ADC). Số bit cần thiết để biểu diễn được một giây âm thanh gọi là tốc độ bit (bit-rate). Các thiết bị âm thanh số cần có mạch điện tử gọi là DAC có chức năng tạo lại tín hiệu tương tự từ tín hiệu số để phát ra loa hoặc tai nghe.

Có nhiều định dạng lưu trữ âm thanh khác nhau giúp giảm bớt không gian lưu trữ trên cơ sở nén không mất mát (lossless) hoặc giảm chất lượng âm thanh ở mức chấp nhận được.

(2) Số hóa hình ảnh  dữ liệu số ảnh.

Hình ảnh được số hóa trên cơ sở hệ ba màu cơ bản: đỏ, xanh lá cây, xanh dương – lam phối hợp theo các “liều lượng” khác nhau để tạo ra tất cả các màu được gọi là hệ màu RGB (viết tắt từ Red-Green-Blue). Biểu diễn tự nhiên nhất của hình ảnh số chính là tập hợp thông tin màu của các điểm ảnh. Điểm ảnh trong tiếng Anh gọi là pixel. Ảnh lưu thông tin theo từng điểm ảnh gọi là ảnh bitmap. Số bit cần thiết để mã hóa thông tin màu của một điểm ảnh trong tiếng Anh là “bit depth” được hiểu là độ sâu màu. Độ sâu màu càng lớn thì màu sắc của ảnh càng tinh tế. Ảnh màu thông dụng trong máy tính là ảnh theo hệ RGB. Mỗi điểm ảnh được mã hóa bởi 24 bit, mỗi màu cơ bản sử dụng 8 bit để mô tả sắc độ từ 0 (đen) đến 255 (màu đậm nhất). 

(3) Số hóa video   dữ liệu số video.

Video có thể được tạo ra bởi một đầu thu video, máy quay phim, video hoạt hình số hóa, các thiết bị quay video chuyên dụng khác, hoặc thậm chí bởi các thuật toán chương trình phần mềm. Một số thiết bị ghi video tiếp nhận một tín hiệu tương tự hay liên tục, như: video được thu vào một máy quay phim hoặc video được ghi lại trên các media từ tính và chuyển đổi nó thành giá trị số với các đặc trưng điển hình của video (như: định dạng, kiểu mã hóa, tỷ lệ khung hình, kích thước khung hình (chiều rộng và chiều cao), độ phân giải khung hình, độ dài video, kiểu nén, số lượng màu sắc, và tốc độ khung hình (bit rate).

Dữ liệu video có thể có định dạng khác nhau, các kiểu nén, tỷ lệ khung hình, kích thước khung hình, độ phân giải khung hình, thời gian chơi, loại nén, số lượng màu sắc và tốc độ bit phụ thuộc vào cách dữ liệu video kỹ thuật số đã được ghi lại. Video số hóa được tích hợp lưu trữ, truy xuất và quản lý dữ liệu trong hệ thống cơ sở dữ liệu tập trung. Kích thước của video số hóa (số byte) có xu hướng lớn so với các đối tượng máy tính truyền thống. Do đó, một số cơ chế mã hóa được sử dụng dữ liệu để nén dữ liệu video còn byte ít hơn, chiếm một dung lượng nhỏ trên các thiết bị lưu trữ và mạng.

(4) Số hóa chữ  dữ liệu số ký tự chữ.

Ứng dụng thông minh nhận diện chữ viết, số hoá văn bản giấy tờ được coi là xu thế phát triển tất yếu ở Việt Nam, bước đầu triển khai ở các tổ chức tài chính, ngân hàng, cơ quan hành chính, bảo hiểm… Cùng với quá trình xây dựng Chính phủ số, triển khai chương trình chuyển đổi số quốc gia đã được Thủ tướng Chính phủ phê duyệt thì việc số hoá văn bản, giấy tờ là vô cùng cần thiết, góp phần tạo nên một hệ sinh thái văn bản số với nguồn dữ liệu có thể kết nối, chia sẻ với nhau, trên cơ sở an toàn, bảo mật.

Để chuyển đổi từ chữ viết tay sang , cần phải có một quy trình bài bản, thông minh, bao gồm: quét hình ảnh văn bản viết tay – tiền xử lý – bóc tách chữ viết – trích chọn đặc trưng – nhận dạng – hậu xử lý – văn bản được nhận dạng cuối cùng. Trong đó, khâu trích chọn đặc trưng và nhận dạng chữ không phải là việc đơn giản do không phải công nghệ nào cũng xử lý tốt được để cho ra kết quả cuối cùng chính xác nhất so với bản gốc, nhất là với hệ thống ngôn ngữ phức tạp như tiếng Việt, chưa kể là có những văn bản viết trên nền in phức tạp, kèm theo dòng kẻ gây nhiễu loạn thông tin. 

3. Quy trình vận hành dữ liệu số trong xuất bản tạp chí khoa học

Dữ liệu số được vận hành trong xuất bản tạp chí khoa học theo quy trình xuất bản, tùy thuộc vào nền tảng công nghệ mà tạp chí cần tối ưu hóa các bước cho xuất bản và phù hợp với điều kiện của từng Tạp chí, trong đó một số nền tảng công nghệ có thể kể đến, bao gồm:

(1) Nền tảng công nghệ phần cứng. Đề cập đến tất cả các máy móc và thiết bị vật lý mà một tổ chức sử dụng trong môi trường công nghệ thông tin, như: thiết bị lưu trữ và máy chủ cung cấp cho doanh nghiệp tài nguyên mạng; các thiết bị điểm cuối (máy tính, điện thoại và máy tính bảng)…

(2) Nền tảng công nghệ phần mềm. Bao gồm các chương trình, ứng dụng chạy trên hệ thống máy tính, giúp người dùng thực hiện các tác vụ cụ thể. Một số phần mềm thường có trong hạ tầng công nghệ thông tin, như: hệ điều hành (MAC OS, Windows, Linux,…) phần mềm trung gian; cơ sở dữ liệu; máy chủ ứng dụng; hệ thống quản lý nội dung; phần mềm quản lý; phần mềm an ninh mạng và bảo vệ dữ liệu…

(3) Nền tảng công nghệ internet kết nối vạn vật (Internet of Things – IoT).

IoT đang là xu hướng công nghệ được chú ý, IoT kết hợp cùng thuật toán thông minh AI và hệ thống tự động kết nối IT/ERP. Chúng nhằm quản lý các mô hình kinh doanh, sản xuất mới. Từ đó, các doanh nghiệp, các hãng công nghệ đã hoàn toàn bỏ được các hình thức kinh doanh cũ kỹ, lạc hậu. Nền tảng IoT có nhiều vai trò quan trọng, như: kết nối phần cứng (thiết bị và cảm biến); giúp xử lý các giao thiệp truyền thông của các phần cứng, phần mềm khác nhau; cung cấp bảo mật, xác thực thông tin thiết bị và người dùng; giúp thu thập dữ liệu, trực quan hóa và phân tích một cách khoa học; tích hợp các chức năng với các hệ thống dữ liệu, dịch vụ website khác.

(4) Blockchain platform. Đây là nền tảng hỗ trợ phát triển các ứng dụng phân quyền chạy trên blockchain. Nó giống như một nền tảng đám mây phân tán giúp cung cấp mạng lưới blockchain, tổ chức, triển khai và chạy những giao thức thông minh. Độ bảo mật và tin cậy của blockchain là rất cao, việc xử lý thông tin cũng rất nhanh chóng. Do không sử dụng cơ sở hạ tầng tập trung. Blockchain còn bảo đảm tính minh bạch cao do dữ liệu người dùng không thể thay đổi và có thể truy vấn dữ liệu hệ thống theo thời gian thực.

(5) Digital Manufacturing platform. Đây là nền tảng cung cấp các dịch vụ hỗ trợ sản xuất gồm một số dịch vụ phổ biến: thống giám sát, kiểm soát sản xuất; phân tích dữ liệu, tự động hóa; mô phỏng quy trình sản xuất; lập kế hoạch sản xuất, bảo trì tự động.

(6) Digital platform. Nền tảng này cho phép các hoạt động duy trì liên tục, gần như không nghỉ (always-on environment) tạo điều kiện cho tổ chức thực hiện các chiến lược truyền thông số – Digital marketing. Digital platform giúp kết nối nhiều người dùng lại với nhau, từ đó giúp thu thập nhiều thông tin hữu ích cho tổ chức, tăng sự tương tác của người dùng và tăng nhận diện cũng như “độ phủ”của thương hiệu.

(7) Customer Data platform (CDP). Đây là nền tảng dữ liệu về khách hàng. Một nền tảng dữ liệu khổng lồ, bền bỉ và dễ dàng truy cập và hệ thống khác. Nền tảng này tổng hợp, sắp xếp dữ liệu người dùng. Từ đó giúp tổ chức nhìn nhận được hành vi và nhu cầu từ khách hàng, tăng hiệu quả củachiến lược marketing.

(8) Trí tuệ nhân tạo – AI platform. Nền tảng AI cho phép máy móc thực hiện những hành động của con người, nhưng với tốc độ và độ chính xác cao hơn gấp nhiều lần. Ngày nay, nhiều doanh nghiệp, tập đoàn công nghệ đã và đang thay thế vị trí không cần thiết bằng máy móc trang bị trí tuệ nhân tạo rất hiện đại. Một số tính năng tiêu biểu của nền tảng AI: máy học (Machine Learning); tự động hóa; hiểu và xử lý ngôn ngữ tự nhiên; điện toán đám mây (Cloud)…

Quy trình vận hành dữ liệu số tương ứng với quy trình thực thi công tác xuất bản. Quy trình này do chính các thành viên tham gia quy trình vận hành dựa trên nền tảng công nghệ và nguồn dữ liệu số theo từng khâu, từng bước một cách liên tục, liên thông, đồng bộ và tối ưu hóa. Quy trình này được khái quátnhư sau:

Trên cơ sở triển khai ứng dụng những nền tảng công nghệ phù hợp, các tạp chí khoa học cần thực hiện các bước cơ bản sau đây để bảo đảm quy trình xuất bản và vận hành dữ liệu số tương ứng trong xuất bản: (1) Sơ loại; (2) Phản biện; (3) Biên tập; (4) Xuất bản.

Mỗi giai đoạn, tùy thuộc vào vai trò của thành viên tham gia mà nguồn dữ liệu số được sử dụng khác nhau. Nguồn dữ liệu số quan trọng nhất là nội dung nghiên cứu mà tác giả và tạp chí mong muốn công bố, xuất bản. Nguồn dữ liệu này phổ biến được cung cấp dưới dạng file word thông qua kênh chữ, bảng biểu, sơ đồ, hình ảnh. Các dữ liệu số về video, âm thanh cũng được cung cấp tùy thuộc vào các nghiên cứu cụ thể…

Ngoài dữ liệu số là nội dung bài viết còn có nguồn dữ liệu có tính hỗ trợ trong quá trình biên tập. Cụ thể:

(1) Dữ liệu các quy định, quy chế, hướng dẫn xuất bản của tạp chí, như: hướng dẫn đăng nhập tài khoản trực tuyến; kiểm tra tính đáp ứng với các tiêu chuẩn đăng bài và lựa chọn bài đăng đủ điều kiện; thông báo chấp nhận, yêu cầu sửa chữa và nộp lại hoặc từ chối bản đăng ký; quy định về hình thức phản biện (phản biện mù đơn hoặc mù đôi, qua một vòng hoặc hai vòng phản biện kín…);  hệ thống tiêu chuẩn và thang đo để đánh giá chất lượng bài viết; quy định về thời gian xuất bản; hướng dẫn biên tập và xuất bản; quyết định duyệt đăng; quy định tổ chức biên tập; quy định về duyệt đăng của Tổng biên tập; quy định xuất bản…

(2) Các nguồn tài liệu đã được số hóa phục vụ cho tác giả, phản biện và biên tập viên tham khảo trong quy trình xuất bản, như: toàn bộ các bài viết của tạp chí đã xuất bản và được số hóa, các nguồn dữ liệu dùng chung của quốc gia, của khu vực, như: VJOL, ACI hoặc của quốc tế, như: Scopus, ISI….

Tài liệu tham khảo:
1. Nghị định số 47/2020/NĐ-CP ngày 09/4/2020 của Chính phủ về quản lý, kết nối và chia sẻ dữ liệu số của cơ quan nhà nước.
2. Quyết định số 348/QĐ-TTg ngày 06/4/2023 của Thủ tướng Chính phủ phê duyệt Chiến lược chuyển đổi số báo chí đến năm 2025, định hướng đến năm 2030.
3. Khung chuyển đổi số đối với ngành Xuất bản tại Việt Nam. https://www.quanlynhanuoc.vn, ngày 07/5/2024.
4. Phát triển xuất bản số ở Việt Nam. https://www.tapchicongsan.org.vn, ngày 27/10/2022.
5. Xuất bản số trong phát triển văn hóa đọc: Xu thế tất yếu. https://dangcongsan.vn, ngày 28/4/20222.