DSpace

Інституційний репозитарій Державного вищого навчального закладу "Національної Академії Статистики, Обліку та Аудиту"

 en uk 
 


Періодичні видання НАСОА >
Статистика України >
2019 >
№4 >

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://194.44.12.92:8080/jspui/handle/123456789/4558

Назва: Нові тенденції у доказовій статистиці: проблеми імпутації даних
Автори: Ковтун, Н. В.
Фаталієва, А.-Н. Я.
Ключові слова: пропущені дані
види пропусків
методи імпутації даних
безумовна імпутація
умовна імпутація
множинна імпутація
регресія
Дата публікації: 2019
Видавець: Національна академія статистики, обліку та аудиту
Короткий огляд (реферат): Ковтун Н. В., Фаталієва А.-Н. Я. Нові тенденції у доказовій статистиці: проблеми імпутації даних // Статистика України. 2019. № 4. С. 04–13. Doi: 10.31767/su. 4(87)2019.04.01.
Опис: Проведено порівняльний аналіз результатів застосування різних методів імпутації на прикладі вибірки, для якої симульовані різні варіанти пропусків даних. При 10% повністю випадкових пропусків оцінки параметрів і p-value для двох факторів, отримані у результаті застосування першої групи методів, наближені до результатів, одержаних на повних даних. Середньоквадратичні помилки, розраховані за методом безумовного середнього і методом заповнення пропусків з послідовним підбором, близькі до результатів, отриманих на оригінальних даних, всі інші методи завищували цю оцінку. Найбільш схожим з вихідними даними був коефіцієнт детермінації при застосуванні методу заповнення пропусків з послідовним підбором. При 25% повністю випадкових пропусків для коефіцієнта детермінації найменша оцінка була при застосуванні методу заповнення безумовним середнім значенням, а переоцінка була найнижчою при методі заповнення пропусків з послідовним підбором. З іншими підходами зміна була мінімальною. Отже,отримані оцінки параметрів і p-value в результаті застосування методу аналізу наявних випадків були більше наближені до значень, отриманих при побудові регресії на повних даних. При 50% таких пропусків фактор ваги став незначним при застосуванні методу аналізу повних спостережень. Найбільш точна оцінка змінної була отримана за методом умовного середнього, найменш схожою – послідовним підбором. Також можна виділити метод заповнення безумовним середнім, результати застосування якого були найбільш наближені до первинних даних. За результатами імпутації 10% і 50% випадково пропущених даних кожним способом зміна в оцінці параметрів для вільного члена і двох інших факторів була мінімальною. Саме при застосуванні методу множинної імпутації середньоквадратична помилка і коефіцієнт детермінації були максимально близькі до результатів, отриманих на основі повних даних. Проведене дослідження надало можливість виявити слабкі та сильні сторони кожного методу імпутації даних за повністю випадкових та випадкових пропусків, а також визначити ефективність застосування того чи іншого методу при різних частках пропущеної інформації. Дослідження безперечно довело той факт, що до процесу імпутації слід підходити дуже обережно і проблема імпутації має вирішуватися в кожному конкретному випадку на основі ретельного аналізу існуючої бази даних з урахуванням не тільки особливостей самих даних і обсягу пропусків, а й специфіки конкретного дослідження. The problem of missing data affects quality of the statistical results. One of the ways of resolving the problem of missing data is to exclude all records with missing data. As a result, sample size gets reduced, and that affects the accuracy of the results. At the same time, misuse of missing data can also affect confidence intervals. Analysis of observations with missing data as well as analysis of complete observations only (after omitting missing records), can lead to biased results, and thereby, distortions from the results of research leading to the factually incorrect decisions. The main reasons for omissions are: 1. Exclusion of the subject from the study due to non-compliance with study requirements; 2. The occurrence of an adverse event; 3. Missing result; 4. Lack of registration; 5. Researchers’ act of omission and / or commission. We can define the following data gap limits: 1) Less than 5% of omissions are insignificant and they do not affect the research results; 2) Data losses of 20% and more question the integrity of research results. The higher the share of the missing data, the less reliable the conclusions are, and the more difficult to prove the treatment efficiency is. Consequently, missing data is a potential source of bias when analyzing data. Exclusion of subjects can affect the compatibility of groups and subgroups, which leads to bias in the estimates. There are different ways to deal with missing data. The simplest is to exclude the subject from the calculations. But the consequences of this approach are: reduction in sample size; compromise in the extent of relevance for statistical inferences; change of a confidence interval (e.g. narrowing resulting from underestimation of variances). Hence, it is important to identify the nature of the omission when dealing with missing data which can be of missing completely at random (MCAR), missing at random (MAR) and missing not at random. This necessitates using an appropriate method of data processing with missing values: exclusion, filling, weighing and modeling. All these methods give different results with different volumes and nature of omissions. We attempted to evaluate the results of different imputation methods by using a sample with different proportions of missing data that were simulated. Thus, with 10% of the MCAR omissions, parameter estimates and p-value for two factors, resulting from the application of the first group of methods, were close to the result from complete data. Average square errors that were calculated by using the method of the absolute average, and the method of filling blank spaces with successive selection, were closer to the standard; all other methods overvalued this estimate. Coefficient of determination was almost similar to the initial data when the method of filling blank spaces with successive selection was applied. Data with 25% of missing MCAR: factor – treatment group became insignificant when the method of filling with absolute and conditional averages was applied. The lowest estimate for coefficient of determination was found when the method of filling with absolute average values was applied, and overestimation was the least when the method of filling blank spaces with successive selection was applied. The changes were minimal with other approaches. Thus, parameter estimates and p-value resulting from the application of the analysis method of available cases were closer to the result available from the regression on the complete data. Data with 50% of missing MCAR: Pre-treatment weight became insignificant when the analysis method of complete observations was applied. Factor treatment group became insignificant when the method of filling blank spaces with successive selection was applied. The most accurate estimate of pre-treatment weight variable was received from the result of the method of conditional average. But, the method of filling with absolute average can be singled out - its results were the closest to the initial data. According to the results of imputation with 10% and 50% of missing MAR data by each method, the change in parameter estimate for an intercept and two factors were minimal. It is with the application of the methods of multiple imputation that average square error and determination coefficient were the closest to the results, received from using complete data.This study identifies the weaknesses and the strengths of different methods of data imputation, and presents the effectiveness of applying the one method over the other one with different shares of missed information. Undisputedly, the result from this study established that the approach to the imputation process cannot be an “one-size-fits-all” and the imputation problem should be solved on a case-by-case basis by analysis of the existing database, taking into account not only the characteristics of the data itself and the volume of omissions, but also the expected contribution(s) from a particular study.
URI (Уніфікований ідентифікатор ресурсу): http://194.44.12.92:8080/jspui/handle/123456789/4558
Розташовується у зібраннях:№4

Файли цього матеріалу:

Файл Опис РозмірФормат
Ковтун.pdf165,93 kBAdobe PDFПереглянути/Відкрити
Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

 

Valid XHTML 1.0! Програмне забезпечення DSpace Авторські права © 2002-2005 Массачусетський технологічний інститут та Х’юлет Пакард - Зворотній зв’язок