Нещодавно Кабмін з великою помпою оприлюднив дані про чисельність населення України, з розбивкою за регіонами, з деталізацією за віком і статтю і тд. Одним із аргументів на користь такої «оцінки», а не традиційного перепису за стандартами ООН, було здешевлення та використання сучасних технологій, поєднання даних різних реєстрів і тд.
Так, 23 січня 2020 р. міністр Кабінету міністрів України Дмитро Дубілет у своєму телеграм-каналі опублікував PDF-файл (https://t.me/dmytro_dubilet/578) з презентацією «Оцінки чисельності наявного населення». Більше даних, або більш детального пояснення застосованих методів оцінки опубліковано не було.
Одним із методів було заявлено «Комбінований метод оцінки чисельності наявного населення (дані статево-вікової структури населення + дані реєстрів)».
Що про цей метод відомо:
- Вираховувалися частки населення за статево-віковою структурою за даними Держстата та державних реєстрів
- Із даних Державного реєстру загальнообов’язкового державного соціального страхування визначалася чисельність осіб віком 60+ з урахуванням пенсіонерів із ОРДЛО, які приїжджають по пенсії
- Дані щодо чисельності осіб віком 60+ екстраполювалися на дані статево-вікової структури
Важко пояснити причину такого бажання, але вирішили ми подивитися, наскільки статево-вікова структура населення, представлена в «Оцінці…», корелює із даними, що опубліковані на сайті Державної служби статистики України.
Отримавши дані, що лежать у вільному доступі на сайт Держстату (Таблиця: 0204. Розподіл постійного населення за статтю, віковими групами та типом місцевості), ми їх згрупували за віковими групами, зазначеними у презентації п. Дубілета:
- Діти: 0-14 років
- Ранній працездатний вік: 15-24 роки
- Основний працездатний вік: 25-54 роки
- Зрілий працездатний вік: 55-64 роки
- Літні люди: 65 років і старше
Результат можна побачити у таблиці:
Потім узагальнені за віковими групами дані ми співставили із показниками з презентації Дубілета. Відразу якось дивно вразило практичне однакове співвідношення між статево-віковими групами — що становить близько 88,8% (дані Дубілета від даних Держстату).
І тут закралася підозра. А, що якщо ніякої «екстраполяції» насправді не було? А було тупо множення даних Держстату на коефіцієнт 0,888 (або 88,8%)? А незначні розбіжності у співвідношеннях — це лише результат округлень (бо не комільфо зазначати у висновках, у що нас 8 110 378,392 (триста дев’яносто дві тисячних) осіб підраховано).
Маючи сподівання, що це все-ж таки плід нашої уяви, і не може ж все бути так тупо, ми спробували відтворити можливе застосування коефіцієнта 0,888 до даних Держстату. Після кількох ітерацій (що зайняло з півгодини часу), нам вдалося із практично 100% точністю згенерувати дані, що їх опублікував п. Дубілет, як буцімто результат «екстраполяції» даних пенсійного реєстру на дані Держстату.
Звертаємо увагу, що на другому кроці
округлення до сотень було здійснено через ROUNDUP — до найближчого
більшого значення (не питайте, чому, це загадка для нас). Також ці
розрахунки може повторити кожен охочий, а для зручності ми також виклали
табличку з нашими розрахунками у вільний доступ: https://docs.google.com/spreadsheets/d/1il-RCOHuy6kozVcR-V0de1vf50gQC6gieVp5Zgt7gvg/edit#gid=1131691965
Як видно із табличок, лише для однієї статево-вікової групи (жінки, 15-24 роки) результат наших примітивних розрахунків не збігся із супер-сучасними методами обробки і аналізу «big data» п. Дубілета. Так, замість 1740 тис осіб, у нас вийшло 1741 тис осіб.
Але, при цьому, варто відзначити, що у п. Дубілета також не сходяться суми за віковими групами. Так, якщо просумувати усіх чоловіків у його презентації, то виходить 17 млн 281 тис, а не 17 млн 280 тис осіб.
Отже, підведемо підсумки. По-перше, п. Дубілет та його команда сфальсифікували загальнонаціональне дослідження, свідомо ввівши в оману всю Україну. По-друге, зробили це тупо і недолуго.
Яка тут може бути мораль? Закінчити цю історію можна хіба що цитатою із фільму «Прочитати і спалити»:
Джерело: Український центр суспільних даних