Description:
|
Проведено порівняльний аналіз можливостей застосування різних програмних продуктів для вирішення проблеми відновлення даних на прикладі вибірки, для якої симульовані різні варіанти пропусків даних. Дослідження дало змогу виявити слабкі та сильні сторони розглянутих програмних продуктів, а також визначити ефективність застосування того чи іншого методу за різних обсягів пропущеної інформації. Найпростішим інструментом відновлення пропусків визначено пакет прикладних програм Statistica, який пропонує користувачу лише прості методи обробки пропущених даних. Ця програма допоможе
впоратися з пропущеними даними при незначному обсязі пропусків (до 10%). SPSS пропонує ширший спектр методів відновлення даних порівняно зі Statistica, водночас має зрозуміліший інтерфейс для користувача проти мов програмування R чи SAS. В останніх зазначених програмних середовищах можна
використовувати різні методи відновлення даних від найпростіших до найскладніших, таких як, наприклад, множинна імпутація. Отже, R та SAS є найпотужнішими програмами з відновлення даних, проте і складнішими для користувачів, оскільки потребують знання мови програмування. Встановлено, що жодне з розглянутих програмно-аналітичних середовищ не має вбудованих процедур обробки категоріальних даних. У програмних середовищах R та SAS є певні підходи, які можна реалізувати за аналогією для упорядкованих категорій, проте це не покриває всі потреби аналізу досліджень, реалізованих у вигляді опитувань і результати яких здебільшого представлені як відповіді на
запитання. Методи, які застосовуються для відновлення кількісних даних, не можуть бути поширені на категоріальні, навіть якщо для кодування відповідей використані цифри.
Дослідження безперечно довело той факт, що до відновлення даних у різних програмних середовищах, так само, як і до вибору можливих способів застосування тих чи інших способів імпутації у різних середовищах, слід підходити дуже обережно. У кожному конкретному випадку проблема імпутації має
вирішуватися на основі ретельного аналізу існуючої бази даних з урахуванням не тільки особливостей самих даних і обсягу пропусків, а й специфіки конкретного дослідження.
Робота з пропущеними даними охоплює широкий спектр проблем, серед яких вивчення природи
пропусків, вибір методології обробки й відновлення даних залежно від їхньої природи та від типу, а також використання різних програмних засобів відновлення даних.
У подальшому планується оцінити ефективність відновлювальної здатності методів, реалізованих у різних пакетах прикладних програм, а також розробити методологічні засади відновлення пропусків для категоріальних даних та реалізувати їх на практиці. |