SUFFICIENT SAMPLE SIZE: LIKELIHOOD BOOTTRAPPING

N. S Kiselev; Киселев Н. С; A. V Grabovoi; Грабовой А. В

doi:10.31857/S0044466925020094

ДОСТАТОЧНЫЙ РАЗМЕР ВЫБОРКИ: БУТСТРАПИРОВАНИЕ ПРАВДОПОДОБИЯ

Авторы: Киселев Н.С¹, Грабовой А.В¹
Учреждения:
1. МФТИ
Выпуск: Том 65, № 2 (2025)
Страницы: 235-242
Раздел: ИНФОРМАТИКА
URL: https://ogarev-online.ru/0044-4669/article/view/287399
DOI: https://doi.org/10.31857/S0044466925020094
EDN: https://elibrary.ru/CBDKTA
ID: 287399

Цитировать

Полный текст

Открытый доступ
Доступ закрыт

Доступ предоставлен
Доступ закрыт

Только для подписчиков

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Определение подходящего размера выборки имеет решающее значение для построения эффективных моделей машинного обучения. Существующие методы часто либо не имеют строгого теоретического обоснования, либо привязаны к конкретным статистическим гипотезам о параметрах модели. В настоящей работе представляются два новых метода, основанных на значениях правдоподобия на бутстрапированных подвыборках. Демонстрируется корректность одного из этих методов на в модели линейной регрессии. Вычислительные эксперименты как с синтетическими, так и с реальными наборами данных показывают, что предложенные функции сходятся по мере увеличения размера выборки, что подчеркивает практическую полезность подхода. Библ. 13. Фиг. 4. Табл. 1.

Ключевые слова

достаточный размер выборки, бутстрапирование правдоподобия, линейная регрессия, вычислительная линейная алгебра

Об авторах

Н. С Киселев

МФТИ

Email: kiselev.ns@phystech.edu
Долгопрудный

А. В Грабовой

МФТИ

Email: grabovoy.av@phystech.edu
Долгопрудный

Список литературы

Robert R Bies, Matthew F Muldoon, Bruce G Pollock et al. A genetic algorithm-based, hybrid machine learning approach to model selection // J. Pharmacokinet. Pharmacodyn. 2006. V. 33. № 2. P. 195.
Cawley, Gavin C. On over-fitting in model selection and subsequent selection bias in performance evaluation // J. Mach. Learn. Res. 2010. V. 11. № 1. P. 2079–2107.
Richard H Byrd, Gillian M Chin, Jorge Nocedal, Yuchen Wu. Sample size selection in optimization methods for machine learning // Math. Program. 2012. V. 134. № 1. P. 127–155.
Rosa L Figueroa, Qing Zeng-Treitler, Sasikiran Kandula, Long H Ngo. Predicting sample size required for classification performance // BMC Med. Inf. Decis. Making. 2012. V. 12. № 1. P. 1–10.
Indranil Balki, Afsaneh Amirabadi, Jacob Levman et al. Sample-size determination methodologies for machine learning in medical imaging research: a systematic review // Can. Assoc. Radiol. J. 2019. V. 70. № 4. P. 344–353.
Adcock, C. J. A Bayesian Approach to Calculating Sample Sizes // J. R. Stat. Soc. D. 1988. V. 37. № 4. P. 433.
Lawrence Joseph, David B. Wolfson, Roxane Du Berger. Sample Size Calculations for Binomial Proportions via Highest Posterior Density Intervals // J. R. Stat. Soc. D. 1995. V. 44. № 2. P. 143–154.
Steven G Self, Robert H Mauritsen. Power/sample size calculations for generalized linear models // Biometrics. 1988. V. 44. № 1. P. 79–86.
Gwowen Shieh. On power and sample size calculations for likelihood ratio tests in generalized linear models // Biometrics. 2000. V. 56. № 4. P. 1192–1196.
Gwowen Shieh. On power and sample size calculations for Wald tests in generalized linear models // J. Stat. Plann. Inference . 2005. V. 128. № 1. P. 43–59.
Dennis V. Lindley. The choice of sample size // J. R. Stat. Soc. D. 1997. V. 46. № 2. P. 129–138.
Dennis V. Lindley. On Bayesian analysis, Bayesian decision theory and the sample size problem // J. R. Stat. Soc. D. 1997. V. 46. № 2. P. 139–144.
Alan E. Gelfand, Fei Wang. A simulation-based approach to Bayesian sample size determination for performance under a given model and for separating models // Stat. Sci. 2002. V. 17. № 2. P. 192-208.
Jing Cao, J. Jack Lee, Susan Alber. Comparison of Bayesian sample size criteria: ACC, ALC, and WOC // J. Stat. Plann. Inference. 2009. V. 139. № 12. P. 4111–4122.
Pierpaolo Brutti, Fulvio De Santis, Stefania Gubbiotti. Bayesian-frequentist sample size determination: a game of two priors // METRON 2014. V. 72. № 2. P. 133–151.
Hamid Pezeshk, Nader Nematollahi, Vahed Maroufy, John Gittins. The choice of sample size: a mixed Bayesian / frequentist approach // Stat. Methods Med. Res. 2008. V. 18. № 2. P. 183–194.
A. V. Grabovoy, T. T. Gadaev, A. P. Motrenko, V. V. Strijov. Numerical Methods of Sufficient Sample Size Estimation for Generalised Linear Models // Lobachevskii J. Math. 2022. V. 43. № 9. P. 2453–2462.
Anastasiya Motrenko, Vadim Strijov, Gerhard-Wilhelm Weber. Sample size determination for logistic regression // J. Comput. Appl. Math. 2014. V. 255. № 2. P. 743–752.
Lawrence Joseph, Roxane Du Berger, Patrick Belisle. Bayesian and mixed Bayesian/likelihood criteria for sample size determination // Stat. Med. 1997. V. 16. № 7. P. 769–781.
Markelle, Kelly. The UCI Machine Learning Repository. https://archive.ics.uci.edu.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Том 65, № 12 (2025)