Развитие методов предварительной обработки изображений для программной компенсации аномалий рефракции глаз наблюдателя
- Авторы: Аль-Казир Н.Б.1,2, Ярыкина М.С.2,3, Николаев Д.П.3,4, Николаев И.П.2
-
Учреждения:
- Национальный исследовательский университет «Высшая школа экономики»
- Институт проблем передачи информации им. А.А. Харкевича РАН
- Институт системного анализа Федерального исследовательского центра “Информатика и управление” РАН
- Смарт Энджинс Сервис
- Выпуск: Том 38, № 3 (2024)
- Страницы: 31-50
- Раздел: ОБЗОРЫ
- URL: https://ogarev-online.ru/0235-0092/article/view/263332
- DOI: https://doi.org/10.31857/S0235009224030027
- EDN: https://elibrary.ru/BSFLPC
- ID: 263332
Цитировать
Полный текст
Аннотация
Вошедшие в наш обиход практики демонстрации пользователям различных статических и видео- изображений с помощью цифровых, процессорно-управляемых, чаще всего самосветящихся устройств (компьютерных мониторов, экранов смартфонов, планшетов и т. п.) подстегнули развитие различных методов улучшения восприятия таких изображений путём их компьютерной предобработки. Это касается и методов предварительной обработки изображений, демонстрируемых пользователям с различными аномалиями рефракции глаз (например, миопия или астигматизм) в ситуациях, когда они не вооружены очками или иными корректирующими устройствами. За более чем 20 лет исследователями были опубликованы десятки работ, посвященных этой задаче, называемой задачей предкомпенсации. На наш взгляд, пришло время осмыслить развитие научной мысли в данном направлении и подсветить наиболее важные вехи в осознании проблем, стоящих на пути к достижению “идеальной” предкомпенсации, и в подходах к их успешному решению. Этому посвящена первая часть данного обзора. Во второй же его части мы фокусируемся на современном состоянии исследований в заявленной области, выделяем проблемы, не решённые до сих пор, и пытаемся уловить тенденции дальнейшего развития методов предкомпенсации изображений, уделяя максимальное внимание нейросетевым подходам.
Полный текст
ВВЕДЕНИЕ
Большинство пользователей компьютеров, имеющих такие аномалии рефракции, как миопия (близорукость), гиперметропия (дальнозоркость) и/или астигматизм, сталкиваются с ухудшения четкости изображения, особенно если эти аномалии не корректируются очками или контактными линзами.
Такая ситуация может возникнуть, например, при использовании некоторых гарнитур виртуальной реальности, в которых нет места для стандартных очков, что может создать трудности для пользователей с аномалиями рефракции. Такие гарнитуры, как правило, имеют системы коррекции, регулирующие положение линз относительно экрана, но они не всегда могут полностью компенсировать проблему, например, в случае астигматизма: этот вид аномалий требует более сложной оптической системы.
Довольно часто пользователи с незначительными аномалиями рефракции вообще не носят очки или контактные линзы, что приводит к дискомфорту при использовании смартфонов и других устройств, оснащенных экранами, на которых воспроизводятся изображения. За счет рефракционных аномалий чёткость воспринимаемого изображения снижается, вплоть до невозможности распознать некоторые части изображения, особенно содержащие важные мелкие детали.
В отличие от объектов окружающего мира, а также напечатанных на бумаге, на экранах есть техническая возможность показывать измененное изображение, которое будет лучше распознаваться пользователями с аномалиями рефракции.
Исследователи рассматривают человеческий глаз как систему формирования изображения, аналогичную любой другой оптической системе, состоящей из линз. Идеальная оптическая система формирует идеальное изображение, то есть все лучи, вышедшие из одной точки объекта, фокусируются в одной точке на сетчатке. Однако никакая реальная оптическая система не является идеальной, то есть лучи из одной точки объекта оказываются сфокусированными не в одну точку, а в пятно некоторого размера, что приводит к потере резкости, контраста, появлению артефактов. Эти негативные явления проявляются тем сильнее, чем выше значения величин, характеризующих рефракционные аномалии оптической системы.
Изображение на сетчатке глаза называют ретинальным. Для рассматриваемого круга задач ретинальное изображение можно представить в виде двумерного массива точек различной яркости, при этом каждая из точек объекта, рассматриваемого глазом, проецируется на ретинальное изображение как некоторое пятно.
Рефракционные аномалии глаза принято описывать функцией рассеяния точки (ФРТ, англ. point spread function, PSF), представляющей собой двумерное отображение на сетчатке глаза рассматриваемого точечного объекта. Оптометрический рецепт (рецепт на очки), содержит достаточно информации, чтобы рассчитать ФРТ человеческого глаза в той же степени, в какой очки компенсируют рефракционные аномалии. Однако более высокой точности можно добиться с помощью специального обследования на аберрометре (см., напр., Яблоков и др., 2005), поскольку аберрометр оценивает большее число параметров ФРТ.
Название прибора отсылает нас к понятию аберрации как конкретного вида рефракционной аномалии. К аберрациям низшего порядка (в смысле их пространственного масштаба) относят дефокусировку (в быту ее называют близорукостью или дальнозоркостью) и астигматизм. Такие аберрации, как, например, кома или трилистник, относятся к аберрациям высшего порядка: их пространственная структура имеет мелкомасштабные осцилляции. Для их выявления и требуются такие специальные приборы, как аберрометры (аберроскопы).
С помощью функции рассеяния точки (ФРТ) можно удобно рассчитывать ретинальное изображение любого рассматриваемого объекта, не обязательно точечного. Для этого двумерный массив яркостей, описывающий этот объект, подвергается математической операции свёртки с ФРТ.
В процессе выполнения свёртки яркость каждого пикселя выходного изображения существенно зависит не только от яркости соответствующего пикселя входного изображения, но и от яркости пикселей, соседствующих с ним. Чем шире ФРТ, тем больше пикселей влияют на итоговую яркость, а ширина ФРТ, в свою очередь, определяется силой проявления рефракционных аномалий. В большинстве случаев свёртка с ФРТ приводит к тому, что ретинальное изображение оказывается размытым по сравнению с входным.
Деконволюцией называется обращение свёртки, восстанавливающее исходное изображение из размытого изображения или изображения низкого качества. Если ФРТ известна, задача восстановления изображения называется задачей неслепой деконволюции, если ФРТ неизвестна, то говорят о слепой деконволюции. Многие методы слепой деконволюции заключаются в начальной оценке ФРТ из каких-либо соображений и итерационном применении неслепой деконволюции с параллельным улучшением оценки ФРТ.
Задача предкомпенсации изображений – это задача так преобразовать исходное изображение, что на сетчатке человеческого глаза с рефракционными аномалиями изображение становится близким к исходному.
Схема на рис. 1 иллюстрирует суть предкомпенсации. Здесь прямое преобразование – это преобразование изображения зрительной системой человека, описываемое с помощью ФРТ, а обратное преобразование – это преобразование, обратное ФРТ, т.е. компенсирующее размытие изображения глазом человека и создающее из исходного изображения так называемое предкомпенсированное изображение. В результате последовательного применения этих двух преобразований воспринимаемое наблюдателем изображение становится ближе к исходному, по сравнению со случаем, когда вместо обратного преобразования применяется тождественное.
Рис. 1. Концепция предкомпенсации изображений для людей с аномалиями рефракции глаза
На рисунке 2 показано несколько изображений, иллюстрирующих как работает предкомпенсация. Симулированные ретинальные изображения (в, г) моделируют зрительное восприятие миопического наблюдателя, смотрящего на изображения а и б. Обратите внимание на то, что предкомпенсированное изображение (рис. 2б) само по себе выглядит довольно странно, но становится намного ближе к исходному изображению после того, как размывается в глазу наблюдателя (рис. 2г).
Рис. 2. Пример предварительной компенсации изображения: а) исходное изображение; б) предкомпенсированное изображение; в) исходное изображение на сетчатке при миопии глаза (симуляция); г) предкомпенсированное изображение на сетчатке миопического глаза (симуляция)
Основная проблема задачи предкомпенсации связана с тем, что её точного решения, вообще говоря, не существует: например, для того, чтобы на сетчатке сформировалось идеальное изображение некоторого предмета или сцены, некоторые пиксели предкомпенсированного изображения, предъявляемого наблюдателю, должны иметь яркость, существенно превышающую максимальную яркость дисплея, а некоторые другие пиксели должны иметь отрицательную яркость, что физически невозможно. В результате реальная предкомпенсация всегда не идеальна, что проявляется прежде всего в низкой контрастности воспринимаемого человеком изображения, а также в присутствующих в нем артефактах.
В этой работе мы приведём обзор научных подходов к улучшению качества изображения для людей с аномалиями рефракции. В первых работах этого ряда решалась задача повышения разборчивости текста для людей с аномалиями рефракции, затем исследователи искали подходы к улучшению более сложных, но все еще монохромных изображений, в более поздних работах рассматривались и цветные изображения. При этом развивалась тенденция перехода от неперсонализированных методов (то есть таких, в которых предъявляемое пользователю изображение не зависит от параметров его зрительной системы) к персонализированным. Несколько лет назад стали ожидаемо появляться работы, в которых задача предкомпенсации решается нейросетевыми методами.
ПРЕДЫСТОРИЯ И РАЗВИТИЕ МЕТОДОВ ПРЕДКОМПЕНСАЦИИ ИЗОБРАЖЕНИЙ
Первые попытки использования предобработки текста для улучшения его распознавания слабовидящими предпринимались ещё в 1980-е годы и были адресованы слабовидящим людям, зрительные аномалии которых не корректируются очками. К таким патологиям относятся катаракта, центральная скотома (часто сопровож дающая возрастную макулодистрофию) и другие патологии центрального зрения, часто обнаруживаемые у пожилых пациентов с жалобами на зрение. Известно, что при центральной скотоме для фокусировки зрения начинают использоваться альтернативные участки сетчатки (Tarita-Nistor et al., 2023), однако центральным вопросом предкомпенсации является корректировка проблем оптики глаза, а не сетчатки.
Пели и др. (Peli, Lim, 1982; Peli, Peli, 1984) искали методы повышения контраста изображения, которые сохраняли бы яркость каждого пикселя в диапазоне, доступном для отображения. Они предложили алгоритм адаптивного улучшения изображений, основанный на знании функции контрастной чувствительности человека и подборе соответствующих Фурье-фильтров (в смысле пространственной, а не временнóй частоты).
Функция контрастной чувствительности (англ. CSF) – это функция, отображающая зависимость контрастной чувствительности зрительной системы человека от пространственной частоты. Контрастная чувствительность описывает способность зрительной системы различать яркие и тусклые компоненты статического изображения (например, ахроматическую разницу яркости между соседними областями на изображении) и является одной из наиболее фундаментальных функций зрительной системы человека.
Фурье-компоненты с низкими пространственными частотами задают крупные детали на рассматриваемом изображении, а с высокими – мелкие. Идея этого алгоритма заключается в локальном усилении высокочастотных компонент изображения и смещении локальной яркости к среднему уровню (что приводит к ослаблению низкочастотных компонент). Первое позволяет улучшить видимость мелких деталей, второе расширяет динамический диапазон для визуализации этих деталей. Метод применялся к черно-белым изображениям (например, в газетах) с целью улучшить распознавание лиц и других важных фрагментов изображения. В работах Пели, Лоутон и др. (Peli, Peli, 1984; Peli et al., 1991; Peli et al., 1994; Lawton, 1988; Lawton, 1989; Lawton, 1992) было показано, что пространственная фильтрация (Фурье-фильтрация) улучшает распознавание лиц, а также восприятие деталей на изображениях и видео.
Лоутон изучала влияние пространственной фильтрации, а именно усиления средних и высоких пространственных частот, на распознавание текста. Она использовала частично персонализированные фильтры и обнаружила, что усиление некоторых пространственных частот позволяет распознавать более мелкий текст.
Исследование Пели и др. (Peli et al., 1994) показало, что слабовидящие, участвующие в исследовании, при настройке параметров алгоритма предобработки изображений для улучшения распознавания лиц имеют тенденцию выбирать схожие полосы пространственных частот и уровни их усиления, т.е. разные испытуемые выбирают схожие пространственные фильтры, что обосновывало применение в этой задаче неперсонализированных методов.
В работе Файна и Пели (Fine, Peli, 1995) авторы решили применить алгоритм адаптивного улучшения изображений (Peli, Lim, 1982) к тексту и измерить скорость чтения испытуемыми текста, представленного в виде бегущей строки. Поскольку в предыдущих исследованиях испытуемые выбирали улучшения с помощью схожих пространственных частот, от персонализации решили отказаться. Исследователи пришли к выводу, что адаптивное улучшение высококонтрастного текста (с помощью пространственной фильтрации) приводит к увеличению скорости чтения лишь некоторыми испытуемыми со слабым зрением.
Возможно, положительный эффект частично связан с повышенной яркостью улучшенных букв (авторы адресуют этот вопрос в будущее). К сожалению, скорость чтения улучшенного текста невозможно предсказать ни по остроте зрения, ни по скорости чтения исходного текста: некоторые испытуемые читают улучшенный текст существенно быстрее, некоторые – нет. Достоверной закономерности в этих результатах выявить не удалось.
Начиная с работы Алонсо и Баррето (Alonso, Barreto, 2003) подход к улучшению изображений для лиц с плохим зрением меняется: данные авторы перенесли фокус внимания с группы людей, зрение которых не может быть скомпенсировано с помощью оптики (правильно подобранных линз), на людей с аномалиями именно рефракции, то есть с миопией, гиперметропией или астигматизмом. Дело в том, что таких людей очень много (по оценке (Holden et al., 2016) лица с миопией составляют 22,9% населения планеты), но далеко не все они (по разным причинам) носят очки или контактные линзы. Более того, для людей с нарушениями рефракции задача улучшения качества воспринимаемого изображения имеет гораздо более строгую постановку, чем для пациентов, страдающих катарактой: становится возможным рассмотреть глаз миопического (или гиперметропического) человека как оптическую систему, характеризующуюся определенной функцией размытия точки (ФРТ). В этой же работе впервые использован термин “предкомпенсация” применительно к обсуждаемому кругу задач, хотя и без чёткого его определения.
Ранее мы уже дали следующее определение предкомпенсации изображения: преобразование исходного изображения такое, что на сетчатке человеческого глаза с рефракционными аномалиями изображение становится близким к исходному. По сравнению с показом исходного изображения наблюдателю, обладающему неидеальным зрением и вследствие этого неспособному воспринять изображение во всей его полноте, такое преобразование изображения чисто программными средствами, без изменения физических характеристик дисплея, позволяет приблизить восприятие изображения наблюдателем к восприятию наблюдателя с идеальным зрением. Заметим, что под данное определение подпадают как персонализированные, так и неперсонализированные методы.
Авторы пионерской работы по предкомпенсации (Alonso, Barreto, 2003) пишут, что появление таких приборов, как аберрометры (также называемых анализаторами волнового фронта) сделало технически возможным измерение ФРТ для каждого глаза с целью компенсации глазных аберраций, включая аберрации высших порядков, которые не компенсируются стандартными очками или контактными линзами.
Авторы используют свёрточную модель формирования изображения на сетчатке (Goodman, 1968; Thibos, 2000).
,
где r(x, y) – изображение на сетчатке, t(x, y) – предъявленное изображение, h(x, y) – ФРТ конкретного глаза. Тогда если показать на экране предварительно исправленное изображение
,
пользователь своим неидеальным глазом увидит исходное изображение. Авторы рассматривают эту задачу как в некотором смысле эквивалентную задаче обратной фильтрации/деконволюции.
В общем случае обратная функция h–1(x, y) не существует, поэтому приходится пользоваться регуляризацией, приводящей к известной формуле винеровской фильтрации:
,
где P(fx, fy), H(fx, fy) и T(fx, fy) – Фурье-образы функций p(x, y), h(x, y) и t(x, y), а K – константа-регуляризатор.
В обсуждаемой работе метод предкомпенсации тестировали на здоровых людях, используя в качестве имитатора нарушения рефракции рассеивающую линзу с оптической силой –6 дптр и предкомпенсируя на предъявляемом изображении влияние этой линзы.
В качестве тестового изображения была выбрана стандартная буквенная таблица для проверки зрения, а в качестве метрики успеха использовали оценку остроты зрения, сравнивая способность здоровых людей распознавать буквы сквозь линзу с оптической силой –6 диоптрий при предъявлении исходных и предкомпенсированных изображений.
Авторы установили, что предкомпенсация обеспечивает частичное восстановление остроты зрения: исходное зрение испытуемых 0.2 по шкале logMAR, зрение сквозь линзу без предкомпенсации 1.4 logMAR (самые большие буквы в таблице для проверки зрения с расстояния 2 м распознаются неправильно), c предкомпенсацией 0.6 logMAR. Хотя метод тестировали на аберрациях, вызванных простой сферической линзой, теоретически сам метод подходит и для коррекции сложных нарушений зрения, вызванных в т. ч. аберрациями высших порядков (такими как сферическая аберрация, кома и др.).
В 2005 году Алонсо и др. (Alonso et al., 2005a; 2005b) развивают предложенный в предыдущей работе метод предкомпенсации изображений. В частности, они впервые сформулировали основную проблему, не позволяющую добиваться идеального восприятия подобных изображений наблюдателями. Дело в том, что предкомпенсированное изображение должно иметь значительно более высокий динамический диапазон по сравнению с исходным изображением; настолько высокий, что существуют проблемы с отображением таких изображений. Например, у оптимально рассчитанного предкомпенсированного изображения некоторые пиксели должны иметь яркость, превышающую максимальную яркость монитора, а другие пиксели должны иметь отрицательную яркость, недостижимую на мониторе даже теоретически. Это иллюстрирует рис. 3. Для простоты здесь выбран одномерный сигнал, который можно воспринимать, как одну строку некоего изображения с контрастной “ступенькой” по яркости. Из рис. 3,в видно, что оптимальное предкомпенсированное изображение не может быть показано на дисплее.
Рис. 3. Основная проблема предкомпенсации:
а) исходный сигнал; б) воспринимаемый сигнал (свертка исходного сигнала и ФРТ); в) оптимальная предкомпенсация исходного сигнала. Красные пунктирные линии обозначают диапазон яркости, который может отображаться на мониторе
Задача предъявления изображений расширенного яркостного диапазона на дисплеях и других носителях с более узким диапазоном известна в современной обработке изображений как задача тонового отображения (tone mapping). В алгоритмах предкомпенсации, основанных на деконволюции, приходится решать, в том числе, эту задачу. К сожалению, задача тонового отображения некорректна, и при ее решении используются приближенные методы, что приводит к искажению воспринимаемого изображения по сравнению с исходным. В частности, преобразование требуемого для деконволюции диапазона яркостей к доступному диапазону яркостей для отображения на мониторе линейной функцией приводит к потере контраста (рис. 4г), а при попытках усиления контраста возникают низкочастотные артефакты (рис. 5б).
Рис. 4. Потеря контраста при предкомпенсации (Alonso et al., 2005b): а) исходное изображение; б) исходное изображение на сетчатке глаза (симуляция); в) предкомпенсированное изображение; г) предкомпенсированное изображение на сетчатке глаза (симуляция)
Рис. 5. Пример низкочастотных артефактов, возникающих при попытке увеличения контраста предкомпенсированного изображения (Alonso et al., 2005b): а) рассчитанное предкомпенсированное изображение; б) смоделированное ретинальное изображение
В классическом фильтре Винера для регуляризации используется параметр K. В работе (Alonso et al., 2005b) с целью уменьшения низкочастотных артефактов предлагается улучшенный фильтр Винера, в котором параметр регуляризации K становится функцией пространственных частот в Фурье-пространстве (рис. 6). Впрочем, из того, что авторы никак не продемонстрировали в работе те преимущества, которые даёт данный подход, можно сделать вывод о том, что эти преимущества невелики.
Рис. 6. Параметр регуляризации K улучшенного фильтра Винера как функция пространственных частот в Фурье-пространстве (Alonso et al., 2005b). Здесь fs обозначает частоту дискретизации изображения. В точке (0, 0) K = 0
В этой же работе для повышения контраста воспринимаемого предкомпенсированного изображения авторы предлагают следующий подход к проблеме тонового отображения:
- Отделить букву от фона. Предкомпенсировать только букву, а фон оставить исходным.
- Осуществить комбинацию линейного и нелинейного преобразования яркости предкомпенсированного изображения. Линейным преобразованием обеспечить сохранение средней яркости изображения, нелинейным – преобразовать области с низкой яркостью (авторы назвали свой подход односторонним преобразованием контраста).
Впрочем, эти ухищрения не слишком помогли авторам избавиться от ореолов вокруг букв (рис. 7).
Рис. 7. Пример применения “одностороннего преобразования контраста” к предкомпенсированному изображению (Alonso et al., 2005b): a) предкомпенсированное изображение после применения улучшенного фильтра Винера; б) предкомпенсированное изображение после одностороннего усиления контраста; в) смоделированное отображение; б) на сетчатке глаза
В следующей работе (Alonso et al., 2008) авторы ищут методы ослабления артефактов типа “рябь”, появляющихся в результате усиления контраста. Для решения этой проблемы они предложили на исходном изображении детектировать границы и применять предкомпенсацию только в прилегающих к ним областях.
К сожалению, авторы тестировали свой метод исключительно на бинарных изображениях. Помимо текстовых символов, они рассматривали пиктограммы, то есть изображения, упрощенные до визуальной схемы (примером могут служить “иконки” в пользовательских интерфейсах). Пиктограммы, как и символы текста, имеют четкие границы, и это существенно для метода. Однако фотореалистичные полноцветные изображения не обладают таким свойством, поэтому с учетом того, что актуальность применения предкомпенсации в 2010-е годы стали связывать с очками виртуальной реальности, в которых демонстрируются сложные многобитные изображения, дальнейшего развития эта работа не получила.
Следующий существенный шаг в развитии персонализированного подхода был сделан в 2011 году. Хуанг и др. (Huang et al., 2011) предложили динамическую предкомпенсацию изображений, учитывающую размер зрачка глаза человека в реальном времени. Суть метода заключалась в том, что предкомпенсированное изображение динамически обновлялось на основе одновременного измерения размера зрачка наблюдателя. Эта идея вытекает из двух хорошо известных фактов: ре фракционные аномалии проявляют себя тем сильнее, чем шире открыт зрачок, а диаметр зрачка даже в условиях покоя испытывает у людей значительные флуктуации (Fernández, 2012).
Авторы демонстрируют, что, если учитывать текущий (а не средний во времени) размер зрачка, качество предкомпенсации заметно улучшается, что иллюстрирует рис. 8. Работа Хуанг и др. (Huang et al., 2011) интересна тем, что авторы моделировали миопию человеческого глаза с помощью расфокусированной камеры. Рис. 8г (крайний правый столбец) соответствует ситуации, когда в расчете предкомпенсированного изображения используется тот же самый размер зрачка, который выставлен в камере (его роль выполняет диафрагма объектива камеры). Рис. 8б, в (два центральных столбца) соответствуют ситуации, когда диафрагма объектива больше или меньше того значения, которое использовалось в расчете предкомпенсированного изображения. Чем темнее картинка, тем сильнее прикрыта диафрагма. Метод для пересчета ФРТ в зависимости от размера зрачка был предложен Кэмпбеллом в работе (Campbell, 2003).
Рис. 8. Иллюстрация процесса предкомпенсации изображений, снятых расфокусированной камерой, с учетом изменений параметров диафрагмы (Huang et al., 2011): а) исходные изображения, снятые расфокусированной камерой; б) предкомпенсированные изображения, снятые расфокусированной камерой; в) предкомпенсированные изображения, снятые расфокусированной камерой после уменьшения диафрагмы, но без изменений параметров предкомпенсации; г) изображения, предкомпенсированные с параметрами, согласованными с изменившимися параметрами диафрагмы
Подход, связанный с моделированием миопии или гиперметропии человеческого глаза с помощью расфокусированной камеры, может помочь частично автоматизировать процедуру тестирования различных алгоритмов предкомпенсации, но только для сферических ошибок рефракции. Моделирование даже астигматизма уже вызывает серьезные технические проблемы, не говоря уже о более сложных аномалиях.
В работах (Huang et al., 2012b; 2012c) исследуется эффективность метода динамической предкомпенсации на людях. Испытуемым предлагается распознавать на экране бинарные (содержащие всего два цвета: белый и черный) пиктограммы, после чего исследователи сравнивают количество правильно распознанных пиктограмм в случае динамической и статической предкомпенсации. В их исследовании динамическая предкомпенсация позволила повысить частоту правильных ответов примерно в 1,5 раза по сравнению со статической. При этом, как показал опрос испытуемых, основную проблему в распознавании пиктограмм представляет низкий контраст воспринимаемого предкомпенсированного изображения.
Пожалуй, именно в работах этого периода была в полной мере осознана основная проблема предкомпенсации изображений для пользователей с аномалиями рефракции. Согласно Хуангу и его соавторам, человеческий глаз с рефракционными аберрациями ведет себя как фильтр низких частот, ослабляя высокочастотные компоненты пространственного спектра наблюдаемых объектов, что приводит к размытию их деталей, особенно мелких. Предкомпенсация, напротив, действует как фильтр высоких частот, предварительно (на исходном изображении) увеличивая амплитуду высокочастотных гармоник, которые будут затем ослаблены глазом. Это увеличение неизбежно приводит к тому, что на идеально предкомпенсированном изображении должны быть области с яркостью, значительно превышающей максимальную яркость исходного изображения, а также области с яркостью, значительно меньшей, чем исходная минимальная яркость. В случае, когда исходное изображение высококонтрастно, это создает проблемы. И если увеличение максимальной яркости теоретически возможно за счет разработки всё более ярких экранов, то отображение отрицательной яркости невыполнимо даже теоретически.
В итоге приходится подвергать идеальное предкомпенсированное изображение линейному или нелинейному тоновому отображению (преобразованию шкалы яркости), что, с одной стороны, делает возможной его демонстрацию на компьютерном мониторе, но, с другой – искажает объекты на изображении, причём тем более существенно, чем сильнее пришлось модифицировать шкалу.
Следует заметить, что даже сдвиг шкалы яркости является тоновым отображением, причем если линейное уменьшение яркости в отсутствие более ярких участков сцены компенсируется зрительной системой человека (воспринимаясь как изменение освещенности сцены при ее неизменности), то превращение черного в серое воспринимается как наблюдение сцены через завесу тумана. То есть сдвиг шкалы может приводить к существенному ухудшению воспринимаемого качества изображения. Такое отображение сохраняет почти все его детали (кроме самых мелких, которые вообще не могут передаваться неидеальной оптической системой глаза), но существенно понижают контраст этих деталей, вплоть до полной нечитаемости.
В работе (Huang et al., 2012d) Хуанг и др. предложили увеличивать контраст методом обрезания гистограммы яркостей: у предкомпенсированного изображения перед сдвигом и масштабированием в диапазон [0, 255] (доступный для показа на мониторе диапазон яркостей) обрезаются 0,1% экстремальных значений яркостей. Авторы статьи рассчитывают, что эффект расширения диапазона яркости при предкомпенсации затрагивает совсем небольшую площадь. В случае, если изображение содержит умеренное число границ (и не содержит высококонтрастных текстур), это позволяет сузить диапазон яркостей и, следовательно, повысить контрастность воспринимаемого изображения (рис. 9).
Рис. 9. Иллюстрация различных методов предкомпенсации изображений, снятых с разной степенью расфокусировки камеры (Huang et al., 2012d): а) исходные изображения, снятые хорошо сфокусированной камерой; б) исходные изображения, снятые камерой с дефокусировкой в –5 дптр; в) предкомпенсированные изображения без улучшения контраста; г) предкомпенсированные изображения (в), снятые расфокусированной камерой; д) предкомпенсированные изображения, полученные с помощью выравнивания гистограммы; e) предкомпенсированные изображения, полученные с помощью обрезания гистограммы; ж) предкомпенсированные изображения (д), снятые расфокусированной камерой; з) предкомпенсированные изображения (e), снятые расфокусированной камерой
Мохаммадпур и др. (Mohammadpour et al., 2012) также работали над повышением контраста воспринимаемых предкомпенсированных изображений и предложили метод размытия периферии изображения с целью повышения контраста в центральной части изображения. Авторы сначала использовали улучшенный фильтр Винера, как и в работах ранее, а затем размывали периферию предкомпенсированного изображения с помощью гауссова фильтра.
На изображениях, представленных в статье, пиксели с минимальной и максимальной яркостью находятся на краях изображения, поэтому размытие периферии позволяет уменьшить диапазон яркостей предкомпенсированного изображения. По всей видимости, авторы наблюдали краевые эффекты, возникающие при использовании винеровского фильтра. Опираясь на субъективный анализ симуляций воспринимаемых предкомпенсированных изображений, авторы утверждают, что в результате периферия такого изображения размывается, зато в центральной его части контраст существенно повышается. В своих симуляциях авторы использовали ФРТ, отвечающие восьми типам аберраций, в т. ч. высших порядков: комы и трилистника.
В 2014 году Цзи и др. (Ji et al., 2014) провели первое серьезное исследование тонового отображения в качестве постпроцессинга винеровской фильтрации в задаче предкомпенсации изображений. Основное внимание в исследовании было уделено анализу влияния характеристик тонового отображения на контрастность и появление артефактов типа “звон” на предкомпенсированных изображениях. Более того, это была первая работа, в которой предкомпенсация аномалий рефракции была опробована на цветных изображениях.
Одним из ключевых нововведений данной работы является разработка новых метрик для количественной оценки контраста изображений, на которых присутствует эффект “звона”. Эффект “звона” – это полужаргонный термин, которым часто описывают ложное оконтуривание, или осцилляции Гиббса. Авторы предложили метод определения “эквивалентного изображения без звона”, соответствующего гистограмме яркости исходного изображения, и использовали его контраст в качестве меры для сравнения различных функций тонового отображения.
Для нахождения функции тонового отображения, которая обеспечивает желаемый контраст при контролируемом уровне “звона”, исследователи использовали кривые Безье. Задача была сформулирована как оптимизация целевой функции, включающей параметры, отвечающие за “звон” и контраст. Для минимизации этой функции применялся алгоритм Левенберга–Марквардта, что позволяло варьировать весовые коэффициенты так, чтобы находить оптимальный баланс между контрастом и “звоном”. К сожалению, авторы уделили мало внимания экспериментам на людях, при том что привели убедительные доказательства работоспособности их метода, протестировав его на проекторе с дефокусировкой.
Вообще стоит отметить, что работы по предкомпенсации дефокусировки проектора появились раньше работ по предкомпенсации рефракционных аномалий человеческих глаз. Поэтому многие подходы, такие как, например, винеровская фильтрация, как бы переоткрывались заново в новой, по постановке, задаче. В частности, Цзи с соавторами (Ji et al., 2014) сравнили качество получаемых ими изображений с результатами гораздо более ранней работы по предкомпенсации дефокусировки проектора (Zhang, Nayar, 2006) и получили близкий результат.
В отличие от упомянутых предшественников, которые сначала решали задачу деконволюции (большинство – посредством винеровской фильтрации), а затем использовали какой-либо алгоритм приведения предкомпенсированного изображения к диапазону яркостей, который может отобразить монитор, Монтальто и соавторы (Montalto et al., 2015) предлагают сразу решать задачу ограниченной деконволюции, т.е. при решении задачи деконволюции ограничивают значения яркости пикселей выходного изображения диапазоном [0, 1] (в некоторой относительной шкале).
Задачу ограниченной деконволюции авторы решают как оптимизационную, причём в качестве регуляризатора используют полную вариацию предкомпенсированного изображения для повышения его контраста и уменьшения артефактов. Кроме того, пользователям была предложена шкала, позволяющая выбирать параметр ограничения шкалы яркости. При малых значениях потери контраста малы, а артефакты типа “звон” явно выражены, при больших же – наоборот. Пользователи отдали предпочтение изображениям с небольшой потерей контраста.
Для объективного измерения уровня контраста Монтальто и соавторы используют коэффициент контрастности Майкельсона и сравнивают по контрастности свой чисто программный метод с подходом Хуанга и др. (Huang et al., 2012a), использующих сложные технические средства – двухслойные дисплеи, достигая при этом сравнимого качества. Авторы валидировали свои результаты на здоровых людях, используя очковые линзы оптической силой –2.75 дптр, а тестовые изображения выбирали из общедоступного корпуса данных USC-SIPI Image Database.
Ключевые аспекты подхода Монтальто и др. заключаются в следующем:
- Решается задача минимизации функционала, при этом винеровская фильтрация не используется, а применяется градиентный спуск, внутри которого варьируют яркость всех пикселей оптимизируемого изображения.
- Функционал состоит из трёх частей: первая штрафует расхождение между эталонным изображением и симуляцией ретинального предкомпенсированного изображения, вторая является регуляризатором, а третья обеспечивает ограничение значений яркости пикселей предкомпенсированного изображения: все яркости должны находиться в допустимом диапазоне [0, 1].
- В качестве штрафующей части функционала используется расстояние, вычисляемое по метрике L2, а в качестве регуляризатора используется полная вариация предкомпенсированного изображения.
- В итоге алгоритм Монтальто и др. не требует дальнейшего применения тонового отображения.
Математически, подход Монтальто и др. свод ится к решению следующей задачи оптимизации:
,
где θ – относительный вес регуляризации. С помощью этого параметра авторы предлагают контролировать компромисс между подав лением артефактов и увеличением контраста на воспринимаемых предкомпенсированных изображениях.
В 2018 году Сюй и Ли (Xu, Li, 2018), приняв метод Монтальто за текущий мировой уровень, предложили его улучшить в смысле производительности вычислений. Дело в том, что регуляризация с использованием полной вариации (Montalto et al., 2015) не позволяет решить задачу оптимизации аналитически (как это делает винеровская фильтрация), что приводит к необходимости использовать итерационный процесс градиентного спуска. В качестве регуляризатора, вместо полной вариации предкомпенсированного изображения, Сюй и Ли предложили использовать гиперлапласовское априорное распределение, характерное для градиентов изображений (Krishnan, Fergus, 2009). Предложенная ими регуляризация позволила получить аналитическое решение задачи оптимизации и, соответственно, избежать итераций градиентного спуска.
Учитывая достигнутое таким образом ускорение оптимизации при вычислении предкомпенсированного изображения, авторы предложили внедрить эту технологию в очки виртуальной реальности для проигрывания видео. К сожалению, они не сообщили ничего относительно того, как при этом предлагается учесть неизбежные изменения размера зрачка в процессе просмотра видео, особенно в результате резких изменений средней яркости кадра. Как мы уже упоминали, ширина ФРТ глаза прямо пропорциональна текущему размеру зрачка.
Метод вычисления предкомпенсированного изображения p(x,y) описывает следующая формула:
.
Здесь λ – весовой коэффициент; Fj – Фурье-образы фильтров первого порядка fj (в данном случае f1 = [1 − 1] и f2 = [1 − 1]T ); ∗ – операция комплексного сопряжения; а F−1 – обратное преобразование Фурье.
В 2018 году Йе и соавторы (Ye et al., 2018), продолжили исследование (Ji et al., 2014) и предложили метод, который учитывает визуальную значимость (saliency) различных областей изображения и отдает приоритет сохранению контраста в наиболее значимых областях, допуская при этом большую размытость в менее важных частях. Помимо этого, ученые описали в работе, как использовать S-образную кривую тонового отображения для достижения желаемого уровня контраста при минимизации “звона”. Это проиллюстрировано на рис. 10, из которого видно, что параметры тонового отображения существенно влияют на ретинальную проекцию предкомпенсированного изображения, позволяя настраивать баланс между его контрастом и чёткостью и тем самым добиваться, например, читаемости некоторого текста. Также авторы провели обширную оценку, включая пользовательское исследование, где сравнивали свой улучшенный метод с исходным и показали предпочтения пользователей в сторону нового метода.
Рис. 10. Иллюстрация использования S-образной кривой тонового отображения для предкомпенсации изображений с различными параметрами, а также их симуляции в условиях расфокусировки (Ye et al., 2018): a) S-образная кривая тонового отображения; б) исходное изображение (сверху) и симуляция его расфокусированной проекции на сетчатке (снизу); в) и г) предкомпенсированные изображения, полученные с различными параметрами S-функции (сверху) и симуляции их расфокусированных проекций на сетчатке (снизу). τ используется для регулировки формы кривых Безье, которые формируют S-образную функцию
В 2021 году к задаче предкомпенсации обратилась никогда прежде ей не занимавшаяся группа во главе с Джамбо (Jumbo et al., 2021). Их статья написана нечетко, что затрудняет ее анализ, а также игнорирует проблемы, поставленные в работах более ранних исследователей, хотя формально и содержит ссылки на них. Так, авторы вообще не обсуждают ключевую проблему предкомпенсации: принципиальную необходимость тонового отображения, приводящего математически рассчитанное предкомпенсированное изображение к диапазону возможных значений яркости на мониторе. Возможно, они пользовались библиотеками визуализации, осуществляющими автоматическое контрастирование или обрезание шкалы. К сожалению, иллюстрации (а никаких других данных в работе не представлено) не позволяют сделать однозначный вывод и оценить вклад авторов в развитие методов предкомпенсации.
СОСТОЯНИЕ И ПЕРСПЕКТИВЫ НЕЙРОСЕТЕВОЙ ПРЕДКОМПЕНСАЦИИ ИЗОБРАЖЕНИЙ
Итак, почти 20 лет персонализированные методы предкомпенсации развивались в ключе классических алгоритмов и методов оптимизации. А недавно в литературе стали появляться и нейросетевые методы предкомпенсации, впрочем, их число пока невелико. Но, судя по тенденциям в компьютерном зрении и цифровой обработке изображений в целом, переход к нейросетевым методам – закономерный процесс, и дальнейшее развитие методов предкомпенсации будет идти в парадигме искусственного интеллекта.
В связи с этим интересно обратить внимание на смежную область – деконволюцию изображений, где переход к нейросетевым методам прошел несколько раньше. Как уже упоминалось, задачи деконволюции и предкомпенсации отличаются математической постановкой, однако они не различаются по типу входных (изображение и искажающая ФРТ) и выходных (изображение) данных. Это позволяет надеяться, что при решении этих двух задач могут быть использованы одинаковые или хотя бы близкородственные нейросетевые архитектуры.
Прежде чем переходить к собственно нейросетевым моделям неслепой деконволюции, коротко пройдемся по основным вехам в истории развития классических методов решения этой задачи.
В 1949 году Норберт Винер опубликовал свою монографию “Интерполяция, экстраполяция и сглаживание стационарных временных рядов” (Wiener, 1949), в которой изложил общую теорию оптимальной линейной фильтрации, одним из частных результатов которой стал прямой метод решения задачи деконволюции, получивший впоследствии название винеровской фильтрации.
Следующей важной точкой стало появление метода неслепой деконволюции Ричардсона–Люси – итерационного метода, предложенного независимо двумя авторами в начале 1970-х (Richardson, 1972; Lucy, 1974). Наконец, в 1995 году в этой задаче было предложено использование регуляризации полной вариации (Vogel, Oman, 1995).
Нейросетевые технологии начали применять в задаче деконволюции в 2010–2020-х годах. Так, в 2013 году было предложено использовать шумоподавляющую нейросеть в качестве постобработчика результатов классического неслепого метода (Schuler et al., 2013), а уже в 2014 году была предложена нейросетевая архитектура, решающая задачу от начала и до конца (Xu et al., 2014). В последующих работах, вышедших в двадцатые годы, исследователи стремились достичь более высокой точности деконволюции, а также предлагали архитектуры, пригодные для более широкого класса задач восстановления изображений, в том числе – задачи повышения разрешения.
В этих исследованиях можно выделить два интересных направления. Первое из них касается совершенствования методов регуляризации. Так, в работе (Cascarano et al., 2021) используется предложенный ранее метод глубокой априорной модели изображения (Deep Image Prior, DIP) совместно с регуляризацией полной вариации.
Второе направление, представленное гораздо шире, касается использования итерационных нейросетевых методов. Исследователи, предлагающие глубокие итерационные методы, как правило, опираются на тот или иной классический алгоритм и строят обобщающую его архитектуру. В работе Гонга с соавторами (Gong et al., 2020) предлагается рекуррентная сеть градиентного спуска (Recurrent Gradient Descent Network, RGDN), применяемая затем к задаче деконволюции, поставленной как оптимизационная.
В работе Агарвала с соавторами (Agarwal et al., 2020), вышедшей в том же году, предлагается метод глубокого развертывания алгоритма Ричардсона–Люси (Deep Unfolded Richardson–Lucy, Deep-URL), прямо обобщающий классический алгоритм деконволюции (впрочем, следует заметить, что в работе (Agarwal et al., 2020) решается задача слепой деконволюции, хотя исходный алгоритм создавался в предположении об известной ФРТ). В качестве общего подхода к построению итерационных нейросетевых архитектур несколько лет используется глубокое развертывание (Deep Unfolding) (Zhang et al., 2020; Mou et al., 2022).
В исследовании (Chaganova et al., 2024) среди всех нейросетевых методов неслепой деконволюции были выделены три работы, определяющие современное состояние науки в этой области. Приведем здесь их краткое описание.
USRNet (Zhang et al., 2020). Модель изначально была разработана для повышения разрешения одиночного изображения, но она пригодна и для решения задачи неслепой деконволюции.
Архитектура модели включает три модуля:
- модуль оценки гиперпараметров – трехслойная полносвязная сеть, принимающая на вход значение уровня шума и коэффициент уменьшения размерности. Параметры, определенные этим модулем, передаются на вход остальным двум;
- модуль восстановления изображения не содержит обучаемых параметров и имеет аналитическую форму, использующую преобразование Фурье;
- модуль шумоподавления – нейронная сеть архитектуры ResUNet, которая помимо оценки восстановленного изображения принимает также на вход оценку уровня шума.
Последние два модуля, согласно подходу глубокого развертывания, применяются к изображению неоднократно, чередуясь при этом.
В качестве функции потерь используется метрика L1. Модель обучена восстанавливать как размытие в результате движения, так и гауссово размытие изображений.
DWDN (Dong et al., 2020). Основная идея глубокой винеровской деконволюционной сети (Deep Wiener Deconvolution Network, DWDN) – объединить классический фильтр Винера с обучаемой нейросетевой моделью.
Модель DWDN состоит из трех модулей:
- модуль извлечения локальных признаков – cверточная нейронная сеть;
- модуль фильтрации – классический фильтр Винера, применяющийся к выходу сверточной сети;
- модуль реконструкции – сверточный автоэнкодер, восстанавливающий изображение в виде пирамиды разномасштабных изображений.
При обучении DWDN используется взвешенная сумма потерь L1 над пирамидой масштабов. Разные веса соответствуют изображениям, реконструированным в разных масштабах. Авторы рассчитывают, что в результате обучения пространственно распределенные признаки, извлеченные сверточной сетью, будут содержать больше полезной информации, чем интенсивность пикселей исходного изображения, но при этом образуют схожую пространственно-частотную картину. Модель обучена восстанавливать изображения, размытые из-за движения.
KerUnc (Nan, Ji, 2020). Нейросетевая модель KerUnc разрабатывалась с целью повышения устойчивости к шуму и ошибкам в оценках ФРТ. Авторы модифицировали классическую задачу деконволюции изображения в оптимизационной постановке, явно введя величину ошибки и добавив соответствующие операторы регуляризации.
Модель KerUnc состоит из трех модулей:
- модуль восстановления изображения не содержит обучаемых параметров и имеет аналитическую форму, использующую преобразование Фурье;
- модуль оценки ошибки – модификация нейросети UNet с двумя входами (dual-path UNet);
- модуль оценки шума – комбинация сверточной сети и набора вейвлет-фильтров верхних частот.
Модель применяется к изображению неоднократно, следуя подходу градиентного спуска. В качестве функции потерь при обучении используется взвешенная сумма MSE между восстановленным и истинным изображениями на протяжении всех итераций. Модель обучена восстанавливать изображения, размытые из-за движения. Устойчивость модели к ошибкам в оценках ФРТ обеспечивается методикой построения обучающего набора данных. При обучении, наряду с истинными, используются искаженные ФРТ (не вполне соответствующие ядру размытия изображения).
В работе (Chaganova et al., 2024) эти методы подробно сравнивают в различных сценариях. Показано, что в отсутствие графических ускорителей использование любой из указанных нейросетевых архитектур вряд ли оправдано, поскольку фильтр Винера несопоставимо производительнее и при этом обеспечивает приемлемую точность. Отмечается также, что нейросетевые архитектуры дают ощутимый прирост точности относительного винеровской фильтрации только в присутствии шума. Можно, конечно, заметить, что наличие дробового шума в задаче деконволюции практически неизбежно. Но нас интересует задача предкомпенсации, где входное изображение считается идеальным, а дробовой шум на сетчатке содержательно не влияет на постановку, и в таком контексте данный вывод весьма интересен.
Наконец, отмечается, что модели KerUnc и DWDN показывают значительную (в том числе по отношению к фильтру Винера) устойчивость к ошибкам в оценке ФРТ. Подобная устойчивость весьма желательна при решении задачи деконволюции, поскольку позволила бы нивелировать изменения расстояния между глазом и экраном, а также вариации радиуса зрачка. Но, к сожалению, нет достаточных оснований считать, что в двух рассматриваемых задачах поведение моделей будет схожим.
Дело в том, что в задаче деконволюции входное изображение содержит информацию об истинной ФРТ (именно поэтому возможна слепая деконволюция), а в задаче предкомпенсации – нет. Впрочем, обучение с искаженной ФРТ (что предлагается для модели KerUnc) возможно и при решении задачи предкомпенсации и должно приводить к решению, “неплохому в среднем” на множестве ожидаемых ФРТ.
Рассмотрим теперь статьи, в которых предлагаются нейросетевые модели для решения задачи предкомпенсации глазных аберраций. На сегодня известно всего две такие работы.
В работе Танаки и Ковано (Tanaka, Kawano, 2021) предложен метод предкомпенсации на базе сверточной нейронной сети архитектуры VDSR, первоначально разработанной для решения задачи повышения разрешения изображения. Входными данными для нейросетевой модели служат оригинальные изображения, а также ожидаемая ФРТ глаза.
Авторы утверждают, что их метод позволяет корректировать различные типы изображений при помощи одной обученной модели без существенной потери контраста. Однако для текстовых изображений качество коррекции оказалось ниже, что может быть обусловлено отсутствием или малым представительством подобных изображений в обучающей выборке. Кроме того, все исследование в обсуждаемой работе проводится всего на трех вариантах ФРТ, что несколько снижает ценность исследования, поскольку вопрос об универсальности метода по отношению к различным ФРТ остается открытым.
В 2023 году Гюзель и соавторы предложили нейросетевой метод ChromaCorrect (Güzel et al., 2023) предкомпенсации изображений в шлеме виртуальной реальности. В своей работе они опираются на метод градиентного спуска для оптимизации предкопенсированного изображения, а в ФРТ учитывают структуру отдельных пикселей. В качестве средства ускорения они предлагают аппроксимацию данного метода сверточной нейронной сетью архитектуры UNet. Авторы сравнивают эффективность своего метода с традиционными алгоритмами, используя разнообразные метрики качества изображений, такие как PSNR, SSIM и FLIP.
Заметно, что развитие нейросетевых методов в двух обсуждаемых задачах движется в схожих направлениях. За основу берутся как прямые, так и итерационные классические алгоритмы, а результаты их работы или сама последовательность их действий аппроксимируются либо нейросетевыми моделями известных архитектур, либо нейросетями, составленными из ранее известных модулей. Довольно часто архитектуры заимствуются из хорошо проработанной ранее области повышения разрешения изображений.
При всем сходстве область нейросетевой предкомпенсации выглядит существенно отстающей в развитии от области нейросетевой деконволюции. Можно сделать предположение как минимум об одной причине такого положения дел. Задача деконволюции в отсутствии шума и нулей в спектре ФРТ может быть решена сколь угодно точно, а в реалистичных сценариях – с отклонениями, несоразмерно малыми по сравнению с нормой идеального изображения. Напротив, физические ограничения в задаче предкомпенсации приводят к тому, что ищется решение, наилучшее среди прочих, но все рано существенно отличное от идеального. Это означает, что вопрос метрики, по которой производится оптимизация (а соответственно, и вопрос функции потерь) является в первой задаче малосущественным, а во второй – ключевым.
Действительно, все метрики (в математическом смысле) достигают нуля одновременно, при решении, строго совпадающем с идеальным, поэтому их различия проявляются существенно только для решений, далеких от идеального. Поэтому успешность нейросетевого метода предкомпенсации зависит не только от выбранной архитектуры и использованного набора обучающих данных, но и от оптимизируемой метрики.
Рассмотрим теперь, какие метрики и способы оценки качества уже применяются в задаче предкомпенсации. В работах Лоутон (Lawton, 1992), а также Файна и Пели (Fine, Peli, 1995) в качестве метрики используется скорость чтения текста. Такой подход требует длительных экспериментов с испытуемыми и вряд ли может быть полезен для обучения нейросетей. Алонсо и Баррето (Alonso, Barreto, 2003) в качестве метрики использовали оценку остроты зрения (LogMar) при просмотре оригинальных и предкомпенсированных изображений, что также требует исследований на людях.
Работа Хуанга и др. (Huang et al., 2012d) характерна тем, что в ней миопический человеческий глаз моделируется с помощью расфокусированной камеры. Это может помочь частично автоматизировать процедуру тестирования различных алгоритмов предкомпенсации, но только для единственного типа рефракционных аномалий, а именно дефокусировки (которая выражается симптомами миопии или гиперметропии). Моделирование даже астигматизма таким способом уже вызывает серьезные технические проблемы, не говоря о более сложных аномалиях.
Работа Йе с соавторами (Ye et al., 2018) интересна тем, что в ней, по-видимому впервые, методы предкомпенсации сравниваются по метрике качества SSIM, что не требует исследований на людях. Изображения для сравнения в этой работе взяты из общедоступного набора данных BSDS500 database, а вот параметры глаз “виртуальных испытуемых” были сгенерированы способом, который, к сожалению, не приведен в статье.
Аль-Казир и соавторы (Alkzir et al., 2023) предложили новый корпус данных SCA-2023 для сравнительной оценки различных методов предкомпенсации изображений. Корпус SCA-2023 состоит из двух частей: категоризированные эталонные изображения (тексты, пиктограммы и реальные изображения) и характерные ФРТ человеческих глаз, моделирующие различные степени и типы рефракционных аномалий. Авторы воспроизвели три известных алгоритма предкомпенсации изображений и оценили их с помощью пяти метрик: 1-NRMSE, 1-STRESS, CORR, SSIM и MS-SSIM. Ученые подчеркивают, что выбор подходящей метрики оценки качества предкомпенсированных изображений требует дополнительных исследований, включая эксперименты с участием людей.
Исследование, представленное в статье (Alkzir et al., 2024), направлено на выявление метрик, наиболее точно коррелирующих с человеческим восприятием качества предкомпенсированных изображений. В ходе изыскания был использован уже упомянутый корпус данных SCA-2023. Авторы выбрали подмножество из 18 исходных изображений и 3 варианта ФРТ, а также 5 вариантов предкомпенсации с различным соотношением контрастности и точности воспроизведения деталей. Эти изображения были представлены 24 участникам эксперимента для парного сравнения, в результате чего было собрано более 2000 оценок. Эти результаты сопоставляли с результатами популярных метрик качества изображений, таких как NRMSE, SSIM и др.
Исследование показало, что большинство из этих метрик неадекватно отражают человеческое восприятие в рассматриваемой задаче, что подчеркивает необходимость дальнейших исследований в данной области. Основным результатом работы стало выявление коэффициента корреляции (CORR) как наиболее соответствующей метрики для оценки качества предкомпенсированных изображений в рассмотренном диапазоне параметров предкомпенсации. На основе полученных данных авторы предложили методологию для оптимизации предкомпенсации изображений, показывая, как правильный выбор метрик может улучшить качество восприятия.
Реализация визуально различных вариантов предкомпенсации в работе (Alkzir et al., 2024) обеспечивается применением глобального тонового отображения (global tone mapping) к результатам винеровской фильтрации. Авторы использовали S-образную функцию, изменение параметров которой позволяет плавно регулировать вид результата между высококонтрастными изображениями, но с наличием артефактов, и низкоконтрастными, но с хорошей детализацией. Такой подход позволяет (при использовании метрики, адекватно моделирующей человеческое восприятие) оптимально балансировать упомянутые эффекты. Но для достижения результатов, существенно превосходящих по качеству уже известные решения, глобального тонового отображения, по-видимому, недостаточно.
Следует заметить, что основной мотивацией развития методов тонового отображения является актуальная для практики некорректно поставленная задача оптимального отображения изображений на устройствах с динамическим диапазоном яркостей, недостаточным для точного воспроизведения. Эта задача имеет очевидную связь с главной проблемой предкомпенсации, но описание соответствующей области очевидно выходит за рамки данного обзора. Здесь же упомянем, что современные методы тонового отображения являются не глобальными, а локальными (при таком отображении объекты исходно одной яркости могут визуализироваться как имеющие разную, поскольку разные участки преобразуются с разными параметрами). Считается, что локальный подход позволяет существенно повысить воспринимаемый контраст выходного изображения. Современные методы локального тонового отображения являются, как правило, нейросетевыми, а их обучение ведется в том числе с помощью метрик, моделирующих человеческое восприятие. Использование упомянутых методов выглядит логичным дальнейшим развитием методов предкомпенсации.
ЗАКЛЮЧЕНИЕ
Из изложенного следует, что задача предкомпенсации по-прежнему актуальна. Её практическая значимость связана с тем, что число людей с небольшими рефракционными аномалиями продолжает расти, и многие из них не хотят носить очки или линзы для коррекции зрения. Известно множество методов предкомпенсации, однако ни один из них не может претендовать на то, чтобы называться оптимальным, поскольку поставленная задача не имеет точного решения, а проблема качественного сравнения этих методов до сих пор не решена в полной мере.
Вполне вероятно, что дальнейшее развитие области будет идти путями, аналогичными пройденным в области неслепой деконволюции. Тогда будут развиваться нейросетевые подходы, опирающиеся на известные аналитические решения (в частности, на винеровскую фильтрацию). Впрочем, для достижения на этом пути значительных успехов потребуется решить проблему выбора (или построения) метрики, адекватно моделирующей человеческие предпочтения по отношению к контрастности, разборчивости и детализации изображений. Вероятно, потребуется также увеличение объемов и разнообразия открытых корпусов данных, в том числе аннотированных через предпочтения реальных испытуемых.
Если же касаться не методических, а алгоритмических аспектов, то наиболее перспективным и при этом практически не исследованным является подход с использованием локального тонового отображения. Этот подход, по крайней мере в теории, позволит перейти от балансирования между контрастностью и детализацией к решениям, в которых оба требуемых свойства будут проявлены в большей мере.
КОНФЛИКТ ИНТЕРЕСОВ
Авторы статьи подтвердили отсутствие конфликта интересов, о котором необходимо сообщить.
Об авторах
Н. Б. Аль-Казир
Национальный исследовательский университет «Высшая школа экономики»; Институт проблем передачи информации им. А.А. Харкевича РАН
Автор, ответственный за переписку.
Email: nafekzir@gmail.com
Россия, Москва; Москва
М. С. Ярыкина
Институт проблем передачи информации им. А.А. Харкевича РАН; Институт системного анализа Федерального исследовательского центра “Информатика и управление” РАН
Email: nafekzir@gmail.com
Россия, Москва; Москва
Д. П. Николаев
Институт системного анализа Федерального исследовательского центра “Информатика и управление” РАН; Смарт Энджинс Сервис
Email: nafekzir@gmail.com
Россия, Москва; Москва
И. П. Николаев
Институт проблем передачи информации им. А.А. Харкевича РАН
Email: nafekzir@gmail.com
Россия, Москва
Список литературы
- Яблоков М. Г., Мачехин В. А., Дога А. В., Колотов М. Г., Вартапетов С. К., Ларичев А. В., Ирошников Н. Г. Результаты исследований волнового фронта на первом отечественном аберрометре “Мультиспот-250”. Офтальмохирургия. 2005. № 2. С. 4–8.
- Agarwal C., Khobahi S., Bose A., Soltanalian M., Schonfeld D. Deep-URL: A model-aware approach to blind deconvolution based on deep unfolded Richardson-Lucy network. 2020 IEEE international conference on image processing (ICIP). 2020. P. 3299 3303. DOI:
- Alkzir N., Nikolaev I., Nikolaev D. SCA-2023: A two-part dataset for benchmarking the methods of image precompensation for users with refractive errors. ECMS. 2023. P. 298–305. doi: 10.7148/2023-0298
- Alkzir N. B., Nikolaev I. P., Nikolaev D. P. Search for image quality metrics suitable for assessing images specially precompensated for users with refractive errors. Sixteenth international conference on machine vision (ICMV 2023). 2024. V. 13072. P. 230–238. DOI:
- Alonso M. Jr, Barreto A., Cremades J. G., Jacko J. A., Adjouadi M. Image pre-compensation to facilitate computer access for users with refractive errors. Behaviour Information Technology. 2005a. 24(3). P. 161–173. doi: 10.1080/01449290412331327456
- Alonso M. Jr, Barreto A., Jacko J. A., Adjouadi M., Choudhury M. Improving computer interaction for users with visual acuity deficiencies through inverse point spread function processing. Proceedings IEEE southeastcon. 2005b. P. 421–427. doi: 10.1109/SECON.2005.1423281
- Alonso M. Jr, Barreto A. B. Pre-compensation for high-order aberrations of the human eye using on-screen image deconvolution. Proceedings of the 25th annual international conference of the IEEE engineering in medicine and biology society (IEEE cat. no. 03ch37439). 2003. V. 1. P. 556–559. doi: 10.1109/IEMBS.2003.1279804
- Alonso M. Jr, Barreto A., Adjouadi M. Digital image inverse filtering for improving visual acuity for computer users with visual aberrations. Inverse Problems in Science and Engineering. 2008. V. 16(8). P. 957–966. doi: 10.1080/17415970802082823
- Campbell C. E. Matrix method to find a new set of Zernike coefficients from an original set when the aperture radius is changed. JOSA A. 2003. V. 20(2). P. 209–217. doi: 10.1364/JOSAA.20.000209
- Cascarano P., Sebastiani A., Comes M. C., Franchini G., Porta F. Combining weighted total variation and deep image prior for natural and medical image restoration via admm. I2021 21st international conference on computational science and its applications (ICCSA). 2021. P. 39–46. doi: 10.1109/ICCSA54496.2021.00016
- Chaganova O., Grigoryev A., Nikolaev D., Nikolaev I. Applied aspects of modern non-blind image deconvolution methods. Компьютерная оптика. 2024. V. 48(4). doi: 10.18287/2412-6179-CO-1409
- Dong J., Roth S., Schiele B. Deep wiener deconvolution: Wiener meets deep learning for image deblurring. Advances in Neural Information Processing Systems. 2020. V. 33. P. 1048–1059.
- Fernández E. J. Adaptive optics for visual simulation. International Scholarly Research Notices. 2012. V. 2012(1). P. 104870. doi: 10.5402/2012/104870
- Fine E. M., Peli E. Enhancement of text for the visually impaired. JOSA A. 1995. V. 12(7). P. 1439–1447. doi: 10.1364/JOSAA.12.001439
- Gong D., Zhang Z., Shi Q., van den Hengel A., Shen C., Zhang Y. Learning deep gradient descent optimization for image deconvolution. IEEE transactions on neural networks and learning systems. 2020. V. 31 (12). P. 5468–5482. doi: 10.1109/TNNLS.2020.2968289
- Goodman J. W. Introduction to Fourier optics. McGraw-Hill, 1968.
- Güzel A. H., Beyazian J., Chakravarthula P., AKS, it K. Chromacorrect: prescription correction in virtual reality headsets through perceptual guidance. Biomedical Optics Express. 2023. V. 14(5). P. 2166–2180. doi: 10.1364/BOE.485776
- Holden B. A., Fricke T. R., Wilson D. A., Jong M., Naidoo K. S., Sankaridurg P., Wong T. Y., Naduvilath T. J., Resnikoff S. Global prevalence of myopia and high myopia and temporal trends from 2000 through 2050. Ophthalmology. 2016. V. 123(5). P. 1036–1042. DOI:
- Huang F.-C., Lanman D., Barsky B. A., Raskar R. Correcting for optical aberrations using multilayer displays. ACM transactions on graphics (TOG). 2012a. V. 31(6). P. 1–12. doi: 10.1145/2366145.2366204
- Huang J., Barreto A., Adjouadi M. Dynamic image pre-compensation for computer access by individuals with ocular aberrations. 2012 annual international conference of the IEEE engineering in medicine and biology society. 2012c. P. 3320–3323. doi: 10.1109/EMBC.2012.6346675
- Huang J., Barreto A., Adjouadi M. Evaluation of dynamic image pre-compensation forcomputer users with severe refractive error. Proceedings of the 14th international ACM SIGACCESS conference on Сomputers and accessibility. 2012b. P. 175–182. doi: 10.1145/2384916.238494
- Huang J., Barreto A., Alonso M. Jr, Adjouadi M. Vision correction for computer users based on image pre-compensation with changing pupil size. 2011 annual international conference of the IEEE engineering in medicine and biology society. 2011. P. 4868–4871. doi: 10.1109/IEMBS.2011.6091206
- Huang J., Barreto A., Alonso M. Jr, Adjouadi M. Contrast improvement in pre-compensation of ocular aberrations for computer users. Biomedical sciences instrumentation. 2012d. V. 48. P. 179–186. doi: 10.1007/978-1-4614-3535-8_32
- Ji Y., Ye J., Bing Kang S., Yu J. Image pre-compensation: Balancing contrast and ringing. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. P. 3350–3357. doi: 10.1109/CVPR.2014.428
- Jumbo O. E., Asfour S., Sayed A. M., Abdel-Mottaleb M. Correcting higher order aberrations using image processing. IEEE Transactions on Image Processing. 2021. V. 30. P. 2276–2287. doi: 10.1109/TIP.2021.3051499
- Krishnan D., Fergus R. Fast image deconvolution using hyper-Laplacian priors. Advances in neural information processing Systems. 2009. V. 22. https://proceedings.neurips.cc/paper/2009/file/3dd48ab31d016ffcbf3314df2b3cb9ce-Paper.pdf doi: 10.1145/1531326.1531402
- Lawton T. B. Improved word recognition for observers with age- related maculopathies using compensation filters. Clinical Vision Sciences. 1988. V. 3(2, 19). P. 125–135. https://ntrs.nasa.gov/citations/19890037275
- Lawton T. B. Improved reading performance using individualized compensation filters for observers with losses in central vision. Ophthalmology. 1989. V. 96(1). P. 115–126. doi: 10.1016/S0161-6420(89)32935-6
- Lawton T. B. Image enhancement filters significantly improve reading performance for low vision observers. Ophthalmic and Physiological Optics. 1992. V. 12(2). P. 193–200. doi: 10.1111/j.1475-1313.1992.tb00289.x
- Lucy L. B. An iterative technique for the rectification of observed distributions. Astronomical Journal. 1974. V. 79. P. 745. doi: 10.1086/111605
- Mohammadpour S., Mehridehnavi A., Rabbani H., Lakshminarayanan V. A pre-compensation algorithm for different optical aberrations using an enhanced wiener filter and edge tapering. 2012 11th international conference on information science, signal processing and their applications (ISSPA). 2012. P. 935–939. doi: 10.1109/ISSPA.2012.6310689
- Montalto C., Garcia-Dorado I., Aliaga D., Oliveira M. M., Meng F. A total variation approach for customizing imagery to improve visual acuity. ACM Transactions on Graphics (TOG). 2015. V. 34(3). P. 1–16. doi: 10.1145/2717307
- Mou C., Wang Q., Zhang J. Deep generalized unfolding networks for image restoration. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. P. 17399–17410. doi: 10.48550/arXiv.2204.13348
- Nan Y., Ji H. Deep learning for handling kernel/model uncertainty in image deconvolution. Proceedings of the IEEE/ CVF conference on computer vision and pattern recognition. 2020. P. 2388– 2397. doi: 10.1109/CVPR42600.2020.00246
- Peli E., Goldstein R. B., Young G. M., Trempe C. L., Buzney S. M. Image enhancement for the visually impaired. simulations and experimental results. Investigative ophthalmology visual science. 1991. V.32 (8). P. 2337–2350. doi: 10.1109/NEBC.1989.36690
- Peli E., Lee E., Trempe C. L., Buzney S. Image enhancement for the visually impaired: the effects of enhancement on face recognition. JOSA A. 1994. V. 11(7). P. 1929–1939. doi: 10.1364/JOSAA.11.001929
- Peli E., Peli T. Image enhancement for the visually impaired. Optical engineering. 1984. V. 23(1). P. 47–51. doi: 10.1117/12.7973251
- Peli T., Lim J. S. Adaptive filtering for image enhancement. Optical Engineering. 1982. V. 21(1). P. 108–112. doi: 10.1117/12.7972868
- Richardson W. H. Bayesian-based iterative method of image restoration. JOSA. 1972. V. 62(1). P. 55–59. doi: 10.1364/JOSA.62.000055
- Schuler C. J., Christopher Burger H., Harmeling S., Scholkopf B. A machine learning approach for non-blind image deconvolution. Proceedings of the IEEE conference on computer vision and pattern recognition. 2013. P. 1067–1074. doi: 10.1109/CVPR.2013.142
- Tanaka H., Kawano H. Image correction for improving visual acuity using Zernike-based vision simulation. 2021 20th international symposium on communications and information technologies (ISCIT). 2021. P. 32–36. doi: 10.1109/ISCIT52804.2021.9590607
- Thibos L. N. Formation and sampling of the retinal image. Seeing. Academic Press, 2000. P. 1–54. doi: 10.1016/B978-012443760-9/50003-9
- Vogel C. R., Oman M. E. Fast total variation-based image reconstruction. International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. American Society of Mechanical Engineers, 1995. V. 97669. P. 1009–1015. doi: 10.1115/DETC1995-0672
- Wiener N. Extrapolation, interpolation, and smoothing of stationary time series: With engineering applications. The MIT Press, 1949. doi: 10.7551/mitpress/2946.001.0001
- Xu F., Li D. Software based visual aberration correction for hmds. 2018 IEEE conference on virtual reality and 3d user interfaces (VR). 2018. P. 246–250. doi: 10.1109/VR.2018.8447557
- Xu L., Ren J. S., Liu C., Jia J. Deep convolutional neural network for image deconvolution. Advances in neural information processing systems. 2014. V. 27.
- Ye J., Ji Y., Zhou M., Kang S. B., Yu J. Content aware image pre-compensation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2018. V. 41(7). P. 1545–1558. doi: 10.1109/TPAMI.2018.2839115
- Zhang K., Gool L. V., Timofte R. Deep unfolding network for image super-resolution. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. P. 3217–3226. doi: 10.1109/CVPR42600.2020.00328
- Zhang L., Nayar S. Projection defocus analysis for scene capture and image display. ACM siggraph 2006 papers. 2006. P. 907– 915. doi: 10.1145/1179352.1141974
Дополнительные файлы
