Sự cần thiết trong việc khai thác dữ liệu hành chính để sản xuất thông tin thống kê nhà nước của Việt Nam

|

Sự cần thiết trong việc khai thác dữ liệu hành chính để sản xuất thông tin thống kê nhà nước của Việt Nam

Trên thế giới
Trên thế giới có mô;̣t sô;́ nước ứng dụng khai thác, sử dụng dữ liệu hành chính (DLHC) phục vụ cho mục đích thô;́ng kê đã được thực hiện từ lâu và rất thành cô;ng.

Có thể kể đến các nước trong khô;́i Scandinavia như: Na-Uy, Thụy Điển, Đan Mạch và Phần Lan đã sử dụng dữ liệu hành chính trong cô;ng tác thô;́ng kê từ rất sớm và khá thành cô;ng. Cụ thể: Ở Đan Mạch, dữ liệu hành chính được xây dựng căn cứ vào sổ đăng ký chính của họ - Sổ Đăng ký Cá nhân Trung tâm (CPR), Sổ Đăng ký kinh doanh (CVR) và Sổ Đăng ký Nhà ở và Hô;̣ Gia đình (BBR). Ở Phần Lan, việc khai thác sử dụng dữ liệu hành chính cho mục đích sản xuất sô;́ liệu thô;́ng kê kinh tế - xã hô;̣i được xây dựng ngay từ trong luật và thực hiện rất tô;́t. Thô;́ng kê Phần Lan (cụ thể là văn phòng thô;́ng kê trung ương) thu thập gần như tất cả (chiếm khoảng 93%) dữ liệu từ các nguồn hành chính. Từ năm 1990, Phần Lan cũng đã hoàn toàn dựa vào dữ liệu hành chính để thực hiện điều tra dân sô;́ và nhà ở. Ngay trong các văn bản quy phạm pháp luật của mình, Phần Lan cũng dựa trên nguyên tắc cô;́t lõi là khai thác và tận dụng tô;́i đa nguồn dữ liệu hành chính để đưa ra các quyết sách.

Bên cạnh các nước trong khô;́i Scandinavia, hiện nay trên thế giới việc nghiên cứu ứng dụng khai thác dữ liệu hành chính trong sản xuất sô;́ liệu thô;́ng kê đã và đang dần được chú trọng, có nhiều nghiên cứu và đã được áp dụng thành cô;ng ở mô;̣t sô;́ nước Châu Á (Sinh-ga-po, Hàn Quô;́c) cũng như mô;̣t sô;́ nước Châu Âu (Đan Mạch, Na-uy, Đức, Anh…) và Châu Úc (Australia) hay như ở các nước Bắc Mỹ (Ca-na-đa).

Tại Ca-na-đa, từ năm 1921 cơ quan Thô;́ng kê của nước này đã thu thập các dữ liệu thô;́ng kê quan trọng từ các tỉnh cũng như các vùng lãnh thổ của họ. Ngoài ra Ca-na-đa đã nhập và xuất dữ liệu về các doanh nghiệp trên lãnh thổ của mình từ những 1938. Có thể nói, tính đến nay Ca-na-đa đã sử dụng dữ liệu hành chính trong gần mô;̣t thế kỷ. Hiện tại, cơ quan thô;́ng kê Ca-na-đa đang sử dụng hơn 800 tệp dữ liệu hành chính trong cô;ng tác thô;́ng kê và 40% các chương trình của thô;́ng kê Ca-na-đa dựa trên toàn bô;̣ hoặc mô;̣t phần dữ liệu hành chính sẵn có.
 
Tại Việt Nam
Hiện nay, Tổng cục Thô;́ng kê (TCTK) sử dụng 3 nguồn dữ liệu chính: dữ liệu từ điều tra, DLHC và các báo cáo thô;́ng kê. Theo nhận định, nguồn dữ liệu từ chế đô;̣ báo cáo và DLHC có thể cung cấp thô;ng tin tính toán khoảng gần mô;̣t nửa trong tổng sô;́ 350 chỉ tiêu trong Hệ thô;́ng chỉ tiêu Thô;́ng kê quô;́c gia. Đô;́i với các báo cáo thô;́ng kê, nguồn dữ liệu đầu vào phục vụ cho báo cáo lại chính là các nguồn DLHC của khu vực cô;ng.

Từ tháng 8 năm 2016 đến tháng 4 năm 2017, Tổng cục Thô;́ng kê đã nhận được sự hỗ trợ từ UN-ESCAP giúp xây dựng phần mềm chiết xuất sô;́ liệu thô;́ng kê kinh tế từ dữ liệu thuế, dựa trên Biên bản ghi nhớ giữa Tổng cục Thô;́ng kê và Tổng cục Thuế (ban hành ngày 10 tháng 11 năm 2015).

Tổng cục Thô;́ng kê cũng đang xúc tiến hợp tác với Tổng cục Hải quan trong việc xây dựng quy trình, biểu mẫu và thử nghiệm sử dụng dữ liệu hải quan để sản xuất sô;́ liệu thô;́ng kê xuất nhập khẩu. Liên quan tới việc sử dụng sô;́ liệu hành chính trong thô;́ng kê giáo dục, cơ quan Thô;́ng kê Đan Mạch đã thực hiện đợt khảo sát thí điểm mô;̣t sô;́ trường tiểu học, trung học cơ sở và đại học tại tỉnh Bắc Ninh để xem xét, đánh giá việc sử dụng dữ liệu hành chính trong sản xuất sô;́ liệu thô;́ng kê cũng như luồng dữ liệu từ các trường đến cơ quan chủ quản, từ đó nghiên cứu xây dựng báo cáo nghiên cứu khả thi làm cơ sở để tìm các nhà tài trợ thực hiện dự án cho Tổng cục Thô;́ng kê.

Ngoài ra, hoạt đô;̣ng đăng ký hô;̣ tịch hiện đang được thiết kế và thực hiện tại Việt Nam, điều này sẽ tạo điều kiện thuận lợi giúp chuyển dịch việc sản xuất mô;̣t sô;́ chỉ tiêu thô;́ng kê nhất định từ điều tra thô;́ng kê sang sử dụng hồ sơ hành chính, đặc biệt việc sử dụng duy nhất mô;̣t định danh cá nhân sẽ giúp Tổng cục Thô;́ng kê xây dựng kho dữ liệu chuỗi thời gian theo chiều dọc (longitudinal time series) trong lĩnh vực thô;́ng kê xã hô;̣i.

Dự án “Hiện đại hóa sản xuất thô;́ng kê của Việt Nam” do Ngân hàng Thế giới (WB) hỗ trợ cũng đang bước đầu giúp Việt Nam trong việc đánh giá và lồng ghép dữ liệu hành chính về giáo dục, thuế và hải quan phục vụ sản xuất sô;́ liệu thô;́ng kê nhà nước.

Ngày 22/5/2015, Thủ tướng Chính phủ ban hành Quyết định sô;́ 714/QĐ-TTg về Danh mục Cơ sở dữ liệu quô;́c gia (CSDLQG). Theo đó cần ưu tiên triển khai khai tạo nền tảng phát triển chính phủ điện tử, bao gồm 6 CSDLQG.

Có thể thấy, việc khai thác và sử dụng dữ liệu hành chính trong sản xuất thô;ng tin thô;́ng kê đang trở thành xu hướng mới trong cô;ng tác thô;́ng kê của nhiều nước trên thế giới nói chung và Việt Nam nói riêng.

 

Sự cấp thiết khai thác dữ liệu hành chính phục vụ cô;ng tác thô;́ng kê
Thực tế việc khai thác dữ liệu hành chính phục vụ sản xuất thô;ng tin thô;́ng kê hiện nay là vô; cùng cần thiết bởi những lý do sau:

Thứ nhất, xuất phát từ chính bản thân những ưu thế mà nguồn dữ liệu hành chính mang đến.

Mô;̣t là, giảm chi phí thu thập số liệu thống kê


Nguồn dữ liệu hành chính là nguồn dữ liệu lớn, đa dạng và sẵn có, vì vậy nếu các cơ quan thô;́ng kê khi khai thác sử dụng nguồn dữ liệu này để sản xuất sô;́ liệu thô;́ng kê nhà nước thì sẽ tiết kiệm được chi phí so với việc thu thập dữ liệu thô;́ng kê thô;ng qua các cuô;̣c điều tra bởi sẽ khô;ng mất thêm các khoản chi phí khác, ngoại trừ các khoản phụ phí hoặc chi phí liên quan đến làm sạch dữ liệu.

Trong mô;̣t vài trường hợp hoặc mô;̣t vài khâu chi phí để thu thập, khai thác DLHC gần bằng chi phí thu thập dữ liệu ở các cuô;̣c điều tra tại địa bàn, tuy nhiên nếu xét toàn bô;̣ quá trình từ lúc bắt đầu thu thập cho đến khi kết thúc để có thể ra được mô;̣t bô;̣ dữ liệu hoàn chỉnh thì khai thác DLHC có giá rẻ hơn nhiều.

Từ bảng chi phí cho cuô;̣c tổng điều tra dân sô;́ và nhà ở của các quô;́c gia thuô;̣c Liên minh châu Âu năm 2000-2001 (Theo Bảng 22 của ấn phẩm Eurostat) cho thấy sự khác biệt lớn về chi phí trên đầu người giữa Phần Lan, quô;́c gia điều tra dân sô;́ dựa trên các nguồn hành chính so với các quô;́c gia khác như Anh và Úc là hai quô;́c gia sử dụng bảng câu hỏi truyền thô;́ng.

 

Hai là, giảm tải gánh nặng của thu thập thô;ng tin thống kê

Khi khai thác nguồn dữ liệu hành chính sẵn có sẽ giúp giảm tải gánh nặng đáng kể so với quy trình khai thác sản xuất sô;́ liệu thô;́ng kê truyền thô;́ng. Gồm: (i) Giảm gánh nặng về nguồn nhân lực và thủ tục hành chính. Việc giảm khô;́i lượng thô;ng tin cần thu thập trong bảng hỏi của các cuô;̣c điều tra sẽ giúp giảm tải các gánh nặng về cô;ng tác chuẩn bị, tập huấn điều tra, các thủ tục hành chính cũng như giảm thời gian thu thập thô;ng tin tại địa bàn. (ii) Giảm gánh nặng đô;́i với người được phỏng vấn trong các cuô;̣c điều tra. Việc tận dụng khai thác nguồn DLHC để giảm tải các chỉ tiêu cần thu thập qua điều tra, điều này sẽ giúp giảm gánh nặng đô;́i với người trả lời.

Ba là, tính kịp thời và mức đô;̣ thường xuyên, liên tục của số liệu

(i) Thô;ng tin thu thập từ các cuô;̣c điều tra chuyên mô;n luô;n có đô;̣ trễ nhất định do để triển khai mô;̣t cuô;̣c điều tra thô;́ng kê cần phải được tiến hành đúng theo trình tự, đảm bảo đúng và đầy đủ tất cả các khâu. Đặc biệt, đô;́i với cô;ng tác thu thập thô;ng tin tại địa bàn luô;n mất mô;̣t khoảng thời gian khá dài và sẽ luô;n phát sinh các vấn đề ngoài dự tính trong quá trình điều tra làm tăng đô;̣ trễ của sô;́ liệu. Sô;́ liệu thu thập tại địa bàn sau đó sẽ cần khoảng thời gian để nhập tin, rà soát, làm sạch trước khi tiến hành tổng hợp, phân tích và tính toán.

Trái lại, với nguồn DLHC thì các thô;ng tin đã sẵn có khô;ng cần phải tiến hành các khâu: chuẩn bị, tập huấn và triển khai thu thập dưới địa bàn.

(ii) Mức đô;̣ thường xuyên, liên tục của nguồn sô;́ liệu:

Dữ liệu hành chính là dữ liệu được thu thập có tính liên tục, trực tiếp. Các DLHC luô;n được cập nhật thường xuyên hàng năm, hàng quý, hàng tháng và thậm chí hàng ngày, hàng giờ tùy thuô;̣c vào nhu cầu về nguồn dữ liệu theo quy định của pháp luật. Đô;́i với quá trình phân tích xu hướng của các hiện tượng kinh tế - xã hô;̣i và dự báo thô;́ng kê thì việc có được nguồn sô;́ liệu thường xuyên liên tục cập nhật theo mô;̣t chuỗi thời gian như vậy là điều thực sự cần thiết, có thể nói đây được xem là mô;̣t trong những thế mạnh thực sự của nguồn dữ liệu hành chính.

Trong khi thô;ng tin thô;́ng kê cập nhật theo hàng tháng, hàng quý thu thập, tổng hợp từ các cuô;̣c tổng điều tra, điều tra chọn mẫu hay điều tra chuyên đề... là khô;ng khả thi. Các cuô;̣c điều tra từ nguồn ngân sách hay được tài trợ để khi tiến hành thường sẽ thực hiện theo định kỳ hàng năm hoặc 3 đến 5 năm hoặc lâu hơn (ví dụ: tổng điều tra dân sô;́ và nhà ở diễn ra 5 năm hoặc 10 tùy từng quô;́c gia, ở Việt Nam được tiến hành 10 năm mô;̣t lần).

Bốn là, cung cấp các thô;ng tin mang tính “lịch sử”

Nguồn DLHC có thể giúp cho các nhà làm thô;́ng kê cũng như các cơ quan thô;́ng kê có thể khai thác và phân tích dữ liệu theo mô;̣t chuỗi thời gian giúp nghiên cứu được sự biến đổi của các hiện tượng kinh tế - xã hô;̣i sô;́ lớn theo thời gian, từ đó có thể chỉ ra được bước ngoặt biến đổi của các hiện tượng kinh tế - xã hô;̣i và gắn nó với sự biến đổi về mặt lịch sử, chính trị, văn hóa và xã hô;̣i của mỗi quô;́c gia cũng như của toàn thế giới.

Năm là, có đô;̣ bao phủ rô;̣ng, thô;ng tin đa dạng và phân tổ được theo nhiều tiêu thức

Dữ liệu hành chính được thu thập dựa trên quy định của pháp luật phục vụ cô;ng tác quản lý của các cơ quan hành chính của tất cả từ các cơ quan, tổ chức đến các cá nhân, chính vì thế, dữ liệu hành chính sẽ có đô;̣ bao phủ rô;̣ng. Ở nhiều quô;́c gia trên thế giới hay ở mô;̣t sô;́ lĩnh vực cụ thể thì DLHC có tính bao phủ gần như 100% dân sô;́ giúp có thể phân tổ cũng như đảm bảo đô;̣ tin cậy ở cấp nhỏ.

Sáu là, giảm sai số trong điều tra thống kê

Trong nghiên cứu thô;́ng kê có hai loại sai sô;́ là “sai sô;́ phi chọn mẫu” và “sai sô;́ chọn mẫu”. Sai sô;́ phi chọn mẫu là sai sô;́ do đăng ký, ghi chép và nó xảy ra với tất cả các cuô;̣c điều tra thô;́ng kê (điều tra mẫu, điều tra trọng điểm, điều tra chuyên đề và tổng điều tra) cũng như xảy ra đô;́i với cả cô;ng tác tổng hợp báo cáo thô;́ng kê định kỳ. Sai sô;́ chọn mẫu hay còn gọi là sai sô;́ do tính đại diện, sai sô;́ này chỉ xảy ra trong điều tra chọn mẫu. Cả hai loại sai sô;́ này sẽ được khắc phục thay thế bằng việc khai thác nguồn dữ liệu hành chính sẵn có.

Bảy là, khắc phục hiện tượng từ chối trả lời phỏng vấn

Việc từ chô;́i phỏng vấn là mô;̣t vấn đề cần được quan tâm trong điều tra thô;́ng kê, khi tỷ lệ từ chô;́i phỏng vấn nhiều sẽ làm tăng tỷ lệ dữ liệu bị mất (missing data) dẫn đến làm giảm chất lượng của nguồn sô;́ liệu khi chúng ta tiến hành tổng hợp và suy rô;̣ng cho tổng thể. DLHC đa phần là các dữ liệu được thực hiện theo quy định của pháp luật nên các thô;ng tin đăng ký, kê khai luô;n luô;n được thực hiện, khai thác nguồn DLHC là khai thác nguồn dữ liệu sẵn có, vì vậy sẽ khắc phục được hiện tượng từ chô;́i trả lời ở điều tra thô;́ng kê.

Thứ hai, xuất phát từ thực tế nền thống kê Việt Nam

Đô;́i với nền thô;́ng kê nước ta hiện nay sẽ khó khăn nếu chỉ dựa trên hệ thô;́ng sản xuất sô;́ liệu thô;́ng kê hiện có. Cô;ng tác thô;́ng kê ngoài việc cần phải thích ứng liên tục với các yêu cầu mới, để giảm gánh nặng thô;́ng kê nhà nước cần phải thay thế các quy trình sản xuất sô;́ liệu thô;́ng kê tô;́n kém và cồng kềnh bằng các quy trình sản xuất tích hợp giúp tiết kiệm chi phí, thời gian, kết hợp với việc sử dụng mới và mở rô;̣ng các nguồn dữ liệu hiện có, dựa nhiều hơn vào các dữ liệu hành chính sẵn có từ các cơ quan chính phủ.

Luật Thô;́ng kê sô;́ 89/2015/QH13 Mục 1 Chương III (từ Điều 36 đến Điều 39) đã có những quy định về việc sử dụng dữ liệu hành chính cho hoạt đô;̣ng thô;́ng kê nhà nước cho thấy Chính phủ và Tổng cục Thô;́ng kê luô;n ý thức rằng việc sử dụng dữ liệu hành chính cho cô;ng tác sản xuất sô;́ liệu thô;́ng kê là hết sức cần thiết. Tuy nhiên thực tế hiện nay, Tổng cục Thô;́ng kê vẫn chỉ thu thập các thô;ng tin thô;́ng kê dựa trên hai kênh chủ yếu là điều tra thô;́ng kê và chế đô;̣ báo cáo thô;́ng kê (thô;ng qua các các thô;ng tin từ các báo cáo thô;́ng kê của các bô;̣, ngành và địa phương), trong khi việc thu thập và khai thác thô;ng tin từ các nguồn dữ liệu hành chính vẫn đang bị bỏ ngỏ.

Cuối cùng, hiện nay nguồn dữ liệu hành chính khá đầy đủ và sẵn có ở rất nhiều lĩnh vực liên quan đến thô;́ng kê kinh tế, tài chính hay xã hô;̣i và mô;i trường như: Thuế, Hải quan, Y tế, Văn hóa, Giáo dục, Thô;ng tin Truyền thô;ng, Tô;̣i phạm, An toàn Giao thô;ng,… nên có thể thấy việc sử dụng dữ liệu hành chính có tiềm năng rất lớn phục vụ trong cô;ng tác thô;́ng kê nếu được khai thác và tận dụng.

Có thể thấy, việc khai thác sử dụng nguồn dữ liệu hành chính là cần thiết, tuy nhiên hiện nay trong cô;ng tác Thô;́ng kê vẫn chưa được khai thác toàn diện vì các CSDL chuyên ngành vẫn đang trong quá trình xây dựng và hoàn thiện để kết nô;́i lên cổng CSDL quô;́c gia. Hy vọng trong tương lai khô;ng xa, khi 6 CSDLQG hoàn thiện và có mô;̣t khung pháp lý đầy đủ, kết hợp với cơ sở hạ tầng cô;ng nghệ thô;ng tin đủ mạnh thì dữ liệu hành chính sẽ là mô;̣t trong những kênh được khai thác và sử dụng chính trong cô;ng tác Thô;́ng kê nhà nước./.
 
Tài liệu tham khảo:
1. Asian Development Bank – Administrative Data Sources for compiling millennium development goalds and related indicators;

2. Anders Wallgren and Britt Wallgren - Register - Based Statistics: Statistical Methods for Administrative Data

3. European Commission (2017), Hướng tới hệ thống thống kê dựa trên đăng ký hành chính;

4. CODED Eurostat’s Concepts and Definitions Database, Hyperlink:

http://ec.europa.eu/eur stat/ramon/nomenclatures/index.cfm?TargetUrl =DSP_GLOSSARY_NOM_DTL_VIEW&StrNom=CODED2&StrL anguageCode=EN&IntKey=20159524&RdoSearch=BEGIN&TxtSearch=adminis&CboTheme=&IsTer=&IntCurrentPage=1&ter_valid=0

 
ThS. Nguy??n Thanh Ngọc
Cục Thu thập DL và Ứng dụng CNTT Thống kê - TCTK

 

 

 

 

 

 

 

 

Ứng dụng giải trí AFB Electronics