Neuromorphic decoding of sample image representations by the boundary-consistent interpolation method

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

The paper discusses methods for encoding and decoding large amounts of data using a neuromorphic model based on known neuromechanisms for the perception of visual information. Known mechanisms of the visual system, such as aggregation of counts by receptive fields, central-lateral inhibition, etc., have been studied. A decoding model has been developed that implements the function of simple cells of the primary visual cortex responsible for spatial perception of stimulus contrasts. The proposed decoding model makes it possible to restore local boundaries of objects in an image, while improving the visual quality of images in comparison with the quality of restoration with classical bilinear interpolation.

Толық мәтін

ВВЕДЕНИЕ

Последние десятилетия из-за стремительного развития сети Интернет, многочисленных его сервисов и разработок в области искусственного интеллекта объем информации повышается экспоненциально. Вследствие такого роста также расширился арсенал механизмов по использованию этих данных. Однако вместе с этим появилось огромное число специфических проблем, связанных преимущественно с хранением, обработкой и передачей огромных объемов данных как между корпорациями, так и между людьми, что получило название проблема Больших данных.

Наиболее четко проблемы с Большими данными проявляются в отношении аудиовизуального контента, который является наиболее востребованным в сети Интернет – изображения в соцсетях, аудиоматериалы на сайтах электронных книг, видеоролики в видеохостингах и т. п. Согласно статистике, полученной за 2023 г., было сделано около 1.81 трлн цифровых изображений, что составляет около 5 млрд изображений в день. Стоит отметить, что большая часть этих изображений была создана с использованием мобильных устройств. Благодаря развитию CMOS-камер и увеличению памяти смартфонов среднестатистический пользователь за 2023 г. создал и сохранил на своих устройствах порядка 3000 фотографий и видео. В свою очередь, развитие социальных сетей и мессенджеров привело к увеличению объемов обмена данными до уровня в 6.9 млрд изображений ежедневно [1].

Поскольку вопросы хранения данных в настоящее время достаточно эффективно решаются на основе достижений микроэлектроники, все большее внимание уделяется задаче эффективной их передачи между пользователями (устройствами). В данном вопросе в сравнении с прочими видами данных, видеоданные являются наиболее проблемными, поскольку подразумевают передачу большого объема информации по каналам, имеющим принципиально ограниченную пропускную способность. Данная проблема давно известна под названием эффект «бутылочного горлышка», когда отдельный элемент информационной системы ограничивает ее производительность в целом. Ограничение производительности приводит к увеличению времени передачи информации, что влечет дискомфорт пользователям системы. Отметим, что проблема была актуальной задолго до появления Больших данных и, по сути, стала основным стимулом при создании современной теории информации К. Шенноном и его коллегами. Следует отметить связанную с проблемой «бутылочного горлышка» теорию скорости–погрешности (rate–distortion theory) [2]. К сожалению, на практике результаты этой теории дают только потенциально возможные характеристики производительности систем обмена информацией вместо реально достижимых.

К настоящему времени большинство способов решения отмеченной проблемы найдено на путях сжатия (возможно с потерями) данных. В частности, разработано огромное множество методов компрессии изображений, среди которых можно упомянуть арифметическое сжатие, метод Хаффмана, широко используемый JPEG (Joint Photographic Experts Group) и др., оперирующие пиксельным представлением изображения. Однако стоит отметить, что существуют и другие оптимальные практические решения проблемы пропускной способности информационных систем. Речь идет о нейросенсорных системах, представленных в первую очередь зрительной системой высших позвоночных животных и человека. Если сравнить эти системы с имеющимися искусственными, то можно выделить, что число рецепторов сетчатки глаза достигает порядка 108, что аналогично количеству “байт” изображения, а число аксонов зрительного нерва, или емкости канала передачи информации, – около 106 [3], что указывает на стократную степень сжатия входных данных, полученных с сетчатки глаза, без заметных визуальных дефектов. Детальное обсуждение ряда вопросов по данной теме было представлено в работе [4], где приведены также многочисленные ссылки на материалы по теме.

Цель данной работы – анализ данных, полученных в области адаптации инспирированных механизмами зрительного восприятия процедур нейронного кодирования к проблемам оптимального кодирования и декодирования изображений, и создание нового метода по обработке графических данных.

1. ФОТООТСЧЕТНЫЕ ВЫБОРОЧНЫЕ ПРЕДСТАВЛЕНИЯ

В основе предлагаемого метода лежит специальное представление изображений в виде набора фотоотсчетов, который моделирует результирующий поток случайных дискретных событий, зарегистрированных фоторецепторами сетчатки глаза, в ответ на воздействие непрерывно распределенной интенсивности излучения Ix, xΩ. Существующие системы формирования изображений, к примеру CMOS-камеры [5], формируют исходные изображения аналогичным образом, регистрируя отдельные фотоны и генерируя фототок в виде дискретных отсчетов. Представление сигналов в виде потоков событий и их статистическое описание с использованием двумерных точечных пуассоновских процессов можно найти в [6], в свою очередь, схожая модель таких сигналов может быть получена с использованием разработанного в предыдущих наших работах понятия идеального устройства формирования изображения [4]. В основе представления лежит набор координат отсчетов – зарегистрированных событий X=xi, где xi,  i=1,..., N – число случайных точек на светочувствительной поверхности устройства Ω, причем количество зарегистрированных отсчетов N также является величиной случайной, заданной распределением Пуассона со средним значением

N¯=ΩαIxdx,

где коэффициент α=ηhν¯1 определяется в том числе квантовой эффективностью η идеального устройства формирования изображения [4].

Собственно набор случайных отсчетов описывается распределением вероятностей случайного числа точек xi некоторого неоднородного точечного пуассоновского процесса с функцией интенсивности αIx [6]. Поскольку количество отсчетов N является случайной величиной, то указанное описание представляется неудобным для практического использования, в частности при больших значениях N. Поэтому было предложено использовать представление точечных процессов в виде набора случайных точек, как в оригинальном пуассоновском процессе, однако общее число отсчетов фиксировано NpN¯. Фиксированная выборка Xp=xj случайного размера Np, полученная из X=xi, может быть задана плотностью распределения [7] следующего вида:

ρXp=xj,|Ix=j=1Npρxj|Ix,

ρxj|Ix=|Ixj/ΩIxdx. (1)

Представление изображений с использованием фиксированных выборок Xp=xj, =1,...,Np, статистически определенных в (1), было предложено называть выборочным представлением изображений.

На рис. 1 приведен пример сформированного выборочного изображения на основе взятого из стандартной базы данных MPEG7 [8] изображения “butterfly-19”. Для формирования выборки Xp=xj, состоящей из Np = 10 000 000 отсчетов, исходное изображение размером 429×421 пикселей, глубиной цвета 𝜐 = 8 бит было предварительно конвертировано в формат PNG с той же глубиной цвета, но размером s × s = 1 000 × 1 000 пикселей. При этом в конечном варианте изображения использовались всего два оттенка серого – 100 и 255. Отсчеты генерировались методом отбраковки Монте-Карло с равномерным вспомогательным распределением ux =s2 и вспомогательной константой M = 2𝜐.

 

Рис. 1. Представление изображения по выборке отсчетов (выборочное представление): а – оригинальное изображение «butterfly-19» [8], б – выборочное представление размером 10 млн отсчетов.

 

2. МОДЕЛЬ РЕЦЕПТИВНЫХ ПОЛЕЙ ДЛЯ ОБРАБОТКИ ВЫБОРОЧНЫХ ПРЕДСТАВЛЕНИЙ

Предложенное выборочное представление Xp=xj наиболее точно описывает данные, полученные с рецепторов внешнего слоя сетчатки – палочек и колбочек. Эти данные генерируются при формировании изображений на основе регистрируемой интенсивности светового сигнала I(x), xΩ. Однако, как упоминалось ранее, посылаемые в кору головного мозга импульсы от нейронов внутреннего слоя сетчатки имеют существенное отличие от данных, зарегистрированных на фоторецепторных клетках. Благодаря многочисленным промежуточным интернейронам среднего и внутреннего слоев сетчатки, входной сигнал существенно преобразуется. В результате нейроны на выходе сетчатки передают агрегированные данные от десятков, а порой и тысяч фоторецепторов, расположенных в малых областях входного слоя сетчатки и образующих так называемые рецептивные поля (РП). Изучение систем РП и нейронного преобразования данных от входного слоя фоторецепторов в последовательность нейронных импульсов зрительного нерва обычно связывают с фундаментальными исследованиями Хьюбеля и Визеля [9]; современное представление строения зрительной системы и особенностях функционирования рецептивных полей можно найти, например, в [10].

Стоит отметить, что выходные нейроны сетчатки, представленные набором ганглиозных клеток, весьма разнообразны как по форме, так и по функциям – в сетчатке выделяются более 20 типов этих клеток. Соответственно, функции и строение различных РП значительно дифференцированы, поскольку определяются типами связанных с этими полями ганглиозных клеток, нейронов внутреннего слоя и соответствующих им фоторецепторов. В работе рассматривается только семейство карликовых клеток, основная функция которых – кодирование пространственного распределения интенсивности по всей поверхности сетчатки Ω. Отметим, что большинство РП обладает центро-антагонистической структурой, которая определяет реакцию на характер освещения либо затемнения. Так, ON-клетки РП возбуждаются при световой стимуляции центра поля и тормозятся при стимуляции его периферии, и наоборот, OFF-клетки возбуждаются при стимуляции РП-периферии и тормозятся при стимуляции центра [9]. Наличие двух типов клеток обусловлено особенностями нервного кодирования положительных/отрицательных перепадов в стимулах (ON-клетка активируется, когда стимуляция центра превышает среднюю стимуляцию по РП, OFF-клетка – наоборот).

Что касается структуры РП, то известно, что соседние ON- и OFF-клетки имеют значительно перекрывающиеся поля, а РП-клетки одинакового типа практически не перекрываются. При этом неперекрывающиеся РП каждого типа плотно прилегают друг к другу, образуя сетчатую структуру, покрывающую всю сетчатку глаза [11]. Если допустить пересечение ON-полей только с соседними OFF-полями и отсутствие пересечений с прочими ON-полями, при этом допуская соприкосновение их границ, можно окончательно формализовать пространственную геометрию РП. Аналогичное справедливо при взаимной замене ON-клеток на OFF-клетки, благодаря их симметрии. Формальное представление области Ω квадратными РП с круглыми центрами, которое используется в дальнейшем для алгоритмических целей, представлено на рис. 2. (Подробнее о структуре РП см. в [12].)

 

Рис. 2. Разбиение поверхности изображения Ω системой рецептивных ON-полей {Ck(x),Sk(x)} с квадратными носителями k s, расположенными в узлах регулярной квадратной решетки.

 

Ввиду ранее упомянутого симметричного относительно друг друга расположения ON- и OFF-полей, можно рассмотреть систему РП гибридного типа, способную кодировать как положительные (по образу ON-полей), так и отрицательные (по образу OFF-полей) перепады интенсивности светового сигнала. На основе приведенных выше данных мы можем формализовать модель плотности вероятности отсчета xj на поверхности изображения Ω – ρxj |Ix (1), как параметрическое семейство плотностей вероятностей =ρx;θ|θ∈Θ, представляющих собой смеси K пар компонентов Ckx, Skx, k=1,,K:

ρx;θ=k=1KwkCkxkSkx, (2)

где параметры θ=wk,νk модели  представляют собой положительные веса смеси, а компоненты смеси Ckx и Skx могут быть интерпретированы как наборы компонент центра и антагонистического окружения k-го РП соответственно. Причем компоненты центра и окружения задаются положительными, нормированными плотностями распределения вероятностей с компактными носителями Δkc={x |Ckx>0} и Δks={x |Skx>0}, которые составляют в объединении носители k-х РП Δk=ΔkcΔks (см. рис. 2):

ΔkcCkxdx=ΔksSkxdx=1. (3)

Учитывая тождественность плотности ρxj |Ix нормированной версии интенсивности сигнала Ix, зафиксированную в (1), становится очевидным смысл введенных параметров θΘ. Уравнение (2), по существу, задает разложение интенсивности Ix по системе локальных распределений с точностью до нормирующего множителя, как это принято в любом мультиразрешающем анализе [13]. При этом соотношениями (3) определена нормировка заданных функций.

Далее, если предположить, что носители центра Δkc и антагонистического окружения Δks  k-го РП не имеют общих точек ΔkcΔks=, то можно добавить соотношения ортогональности в дополнение к приведенным соотношениям нормировки (3):

ΔkcSkxdx=ΔksCkxdx=0. (4)

Учитывая, что множество носителей РП Δk составляет точное мозаичное разбиение поверхности сетчатки, т. е. все они плотно покрывают все пространство Ω, но при этом носители центра Δkc и окружения Δks  попарно не пересекаются, можно, так же как в мультиразрешающем анализе, выразить параметры θ=wk,νk модели через соответствующие интегралы плотности ρx;θ (2) по соответствующим носителям РП:

wk=kc ρx;θdx,

wk=ks ρx;θdx, (5)

где параметры wk, vk могут быть интерпретированы как вероятности попадания отсчета xj в центр kc либо в окружение ks k-го РП. Также можно представить параметры wk, vk (5) как средние значения характеристических функций, для которых справедливы следующие утверждения: Πkcx=1, если xΔkc, иначе Πkcx=0, и Πksx=1, если xΔks, иначе Πksx=0 по всей поверхности Ω.

Поскольку плотность ρx;θ не известна, а в отношении ее известна только выборка Xp=xj, то связи (5) не могут быть использованы для нахождения wk, vk. Однако, используя стандартный прием из [16], с учетом асимптотики закона больших чисел можно заменить средние Πkcx=1 и Πksx=1 их выборочными (эмпирическими) средними, что приводит к следующему представлению параметров:

wk=1Nsj=1NПkc(xj)=nkcNp,

νk=1Nsj=1NПks(xj)=nksNp, (6)

где nkc и nks – числа отсчетов соответственно в центре и в окружении k-го РП.

Стоит отметить, что приближенные значения параметров (6) не зависят от вида компонент Ckx и Skx, а только от вида их носителей kc и ks. Отсюда следует, что для приближенной оценки плотности вероятности ρx;θ (3) достаточны лишь числа nkc и nks отсчетов в центрах и окружениях рецептивных полей. Другими словами, выборочное представление Xp=xj изображения может быть сокращено (сжато) в рассматриваемом случае до представления “числами заполнения” Yp=nkc , nks, которые в данном контексте являются достаточными статистиками выборочного представления.

3. КОДИРОВАНИЕ ВЫБОРОЧНЫХ ДАННЫХ, СЖАТЫХ С ИСПОЛЬЗОВАНИЕМ СИСТЕМЫ РЕЦЕПТИВНЫХ ПОЛЕЙ

Используя наборы чисел заполнения YNp=nkc , nks, оценим, каким образом эти данные можно закодировать для дальнейшей передачи на последующие этапы обработки. Для удобства можно считать систему рецептивных полей однородной на всем пространстве Ω, то есть все поля идентичны друг другу по выполняемым функциям и по своему строению, как это показано на рис. 2. Типичное поле имеет площадь σ = |∆|, состоящую из компактного центра площади σc = |∆c| и антагонистического окружения с площадью σs = |∆s|, причем эти площади не пересекаются, откуда следует, что σ = σc + σs.

Каждое РП может определять общее число принадлежащих ему отсчетов n, состоящее из числа отсчетов в центре nc и окружении ns, причем количество отсчетов в окружении может быть определено в виде линейной комбинации an + bnc. Коэффициенты a и b могут быть произвольными как по величине, так и по знаку, что интерпретируется в данном случае, как возбуждающее либо тормозящее действие соответствующих областей поля. В частном случае эти коэффициенты могут принимать единичные значения, при которых справедлива зависимость ns = n nc. Поскольку регистрация отсчетов имеет случайный характер, числа n, nc и ns также являются случайными величинами, однако одновременно с этим являются взаимозависимыми. Для выборочных представлений Xp=xj данные числа являются пуассоновскими случайными величинами [4]. Учитывая статистическую независимость nc и ns ввиду того условия, что области центра и окружения отдельного РП являются непересекающимися, можно представить распределения вероятностей в следующем виде:

Pc(nc|λ)=(σcλ)ncnc!exp-σcλ,

Ps(ns|µ)=(σsµ)nsns!exp-σsµ, (7)

где λ и µ по сути представляют интенсивность отсчетов в центре и в окружении РП, которые можно представить следующим образом:

λ=ασcΔcIxdx,  μ=ασsΔsIxdx. (8)

Можно заметить, что средние значения распределений (7) связаны с (8) следующим образом: n¯c=σcλ и n¯s=σsμ. Поэтому значения отсчетов в центре и окружении РП nc и ns соответственно, являясь несмещенными оценками своих средних n¯c и n¯s, предоставляют также соответствующие им несмещенные оценки n¯c/σc и n¯s/σs значений интенсивностей отсчетов λ и µ.

Путем обычного перемножения распределений (7) можно получить совместные распределения для отсчетов nc и ns. Если же от этих данных перейти сначала к значениям nc в центре и n на всем РП и далее к δ = nc – (σc/σ)n и n, то после ряда преобразований с использованием аппроксимации биноминального распределения гауссовским и дальнейшим упрощением, можно перейти к следующей статистической модели данных:

P(δ,n| λ, μ)=P(δ|n, λ, μ)P(n| ν),    P(δ|n, λ, μ)=12πγ2expδε22γ2,   ε=σcσsσ2λμνn,  γ2=σcσsσi2λμν2n ,P(n| ν)=σνnn!expσν,  ν=σcσλ+ σsσμ .   (9)

Однако для полного статистического описания модели рецептивного поля следует использовать априорное совместное распределение для значений интенсивностей отсчетов центра и окружения λ и µ, которое можно выбрать, например, в виде:

ρλ | μ=ωδλμ+1ωλ, (10)

где ω и (1 – ω) представляют веса, которые можно трактовать как вероятность 0-гипотезы H0 о том, что интенсивности λ и µ зависимы, либо наоборот, как вероятность независимости значений λ и µ, т. е. альтернативы этой гипотезы. Следовательно, λ является априорным безусловным распределением вероятностей каждой из интенсивностей λ и µ.

Используя стандартные статистические методы, на основе статистической модели (9),(10) с помощью данных δ и n могут быть получены апостериорные распределения интенсивностей λ и µ, а также их оптимальные оценки, тесты проверки 0-гипотезы H0 и т. д. Выбрав для значений λ и µ апостериорные распределения ρ(λ, µ| nc, n), можно выразить первые моменты, которые могут представлять MAP (оценки апостериорного максимума) оценок λ¯δ,n и μ¯δ,n:

λ¯δ,n=    n/σ,   δDn  nc/σc,  δ>Dn ,μ¯δ,n=    n/σ,   δDn   ns/σs,  δ>Dn , (11)

где D2=2σcσslnΛ¯0/σ2 – пороговый коэффициент, представленный исключительно через параметры задачи, включая параметр априорного правдоподобия Λ¯0, который, при разумных предположениях, может быть задан следующим приближенным выражением

Λ¯0=4ωπ1ωσcσsn¯σ2, (12)

где n¯=σν^, ν^ – характерный масштаб априорного распределения вероятностей λ. На рис. 3 представлено кодирование данных δ и n в пороговые оценки λ¯δ,n и μ¯δ,n на решетке 50×50 рецептивных полей (исходное изображение было представлено на рис. 1).

 

Рис. 3. Иллюстрация процедуры кодирования (11) на решетке рецептивных полей размером 50×50 выборочного представления изображения «butterfly-19» [8] (см. рис. 1): а – выборочное представление, б – РП с ненулевыми значениями δ, белым цветом выделены ON-ответы (δ > 0), черным – OFF-ответы (δ < 0).

 

Кодирование (11) можно интерпретировать как регрессию данных при их сжатии [14], если допустить, что n/σ является общей оценкой для значений λ и µ на основе предиктора n/σ (при условии, что имеет место 0-гипотеза H0), а δ/σc=nc/σcn/σ, δ/σs=ns/σsn/σ являются остатками для этой оценки. Если сравнить данный подход с методом регрессии данных LASSO (Least Absolute Shrinkage and Selection Operator) [14], можно отметить зависимость общего числа отсчетов n на области σ отдельного РП и выражения порогового значения Dn. Причем количество отсчетов связано с зависимостью интенсивности Ix сигнала изображения и пуассоновским шумом. Таким образом, (11) представляет собой нелинейный центро-латеральный пороговый фильтр.

4. ВОССТАНОВЛЕНИЕ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ СОГЛАСОВАННОЙ С ГРАНИЦАМИ ИНТЕРПОЛЯЦИИ

Используя известные методы интерполяции изображений с низким разрешением, можно провести оценку эффективности предложенной процедуры кодирования (11). Среди таких методов можно выделить ряд широко используемых интерполяционных алгоритмов (билинейная интерполяция, бикубическая интерполяция и метод ближайшего соседа), алгоритмы регуляризации, спектральное представление. В данной работе был выбран простейший метод билинейной интерполяции, что, однако, не исключает возможность использования более эффективных в смысле точности методов, в частности связанных с нейронными сетями, используемыми для решения задачи формирования интерполяционных изображений.

Поскольку часть кода с числами отсчетов {nk} по сути является выходом сглаживающего фильтра со скользящим окном площади σ, можно однозначно говорить о размытой форме искажений исходного изображения (рис. 4а). В свою очередь, декодирование, связанное с частью кода, представляющей так называемые “дефекты” {δk}, реализуется ступенчатым фильтром, принимающим постоянные и положительные значения в области центра РП, и также постоянные, но уже отрицательные – в его окружении, причем полный интеграл отклика равен нулю. Данный тип фильтров широко распространен в цифровой обработке изображений, и в частном случае полученный фильтр совпадает с фильтром COSO (center-ON-surround-OFF), предложенным в [15]. Последний был предложен в качестве имитации отклика LoG-фильтра (Laplacian of Gaussian) и использован Марром и Хилдертом в теории обнаружения границ на изображениях [16].

 

Рис. 4. Восстановленное (декодированное) изображение «butterfly-19» [8] (см. рис. 1), заданное выборочным представлением {nkc,nks} на решетке 50×50: а – сглаженное изображение, декодированное только с использованием “плавной” части {nk} кода, б – интерполяция вдоль ребер, заданных деталями {δk}.

 

Коды {δk} оказываются тесно связанными с оператором Лапласа, нули их линейной интерполяции вдоль ребер решетки РП представляют собой точки пересечения с ними границ изображений, поэтому для реконструкции изображений, сохраняющих содержательные детали, можно использовать многочисленные методы вдоль-реберной интерполяции (edge-directed interpolation) [17]. Стоит еще раз отметить, что подобные интерполяции предоставляют на сегодняшний день наилучшее перцептивное качество реконструированных изображений.

Для иллюстрации реконструкции (декодирования) изображений была использована простейшая билинейная, согласованная с границами интерполяция для кодированного выборочного представления «butterfly-19» (см. рис. 1б). Область представления Ω была покрыта набором из 2500 квадратных рецептивных полей, расположенных в узлах квадратной решетки 50×50 (см. рис. 2 и детали в [12]). В каждом k-м узле вычислялись значения {δk, nk}, после чего δk подвергалось цензуре с порогом Dnk. Классическая билинейная интерполяция, показанная на рис. 4а, демонстрирует реконструкцию на основе только части данных {nk}, интерполируя их сначала линейно вдоль вертикальных ребер решетки, а затем линейно по всем строкам всех ячеек на основе уже интерполированных значений вертикальных ребер. Билинейная интерполяция, направленная вдоль детектированных границ изображения, показана на рис. 4б. В отличие от классической билинейной интерполяции, она дополнительно оперирует значениями дефектов {δk}, которые представляют некоторое подобие оператора Лапласа. Если рассматривать величину дефекта δk подробно, то он представляет собой более общее значение, чем лапласиан, что позволяет использовать его подобно оператору Марра в задачах обнаружения границ. В таком случае билинейная интерполяция также использует двухпроходную реконструкцию. При первом проходе значения {nk} также интерполируются по всем вертикальным и горизонтальным ребрам решетки. Но в случае, когда в узлах данного ребра решетки значения δi и δj отличны от нуля и разных знаков, это ребро решетки рассматривается как пересекающее границу изображения, причем за точку пересечения принимается середина ребра решетки. В результате, если ребро решетки пересекается границей изображения, значения ni и nj в его узлах кусочно-постоянно продолжаются вдоль ребра решетки до встречи ровно посередине. Если же ребро не пересекает границу изображения, для него производится линейная интерполяция ni nj, как и в классическом случае. На втором проходе значения в ячейках решетки линейно интерполируются по значениям на их ребрах. Если ни одно ребро ячейки не пересекает границы изображения, или таких ребер одно или более двух, то интерполяция производится по строкам ячеек, как при классической интерполяции. Если же в ячейке имеется ровно два ребра решетки пересекающиxся с границами изображения, то, соединяя точки этих пересечений прямой линией, мы восстанавливаем фрагмент границы изображения в ячейке и проводим линейную интерполяцию по прямым, параллельным этой линии. Результат (см. рис. 4б) представляется обладающим лучшим визуальным качеством даже по сравнению с классической билинейной интерполяцией (см. рис. 4а).

ЗАКЛЮЧЕНИЕ

В работе были представлены методы кодирования и декодирования входных данных на основе нейроморфной модели, основанной на известных нейромеханизмах восприятия зрительной системы. В качестве данных для обработки было использовано формализованное ранее представление входных данных в виде пуассоновского набора случайных точек, представленного в виде выборочного представления. Исходное изображение было взято из стандартной базы данных MPEG7 [4] и предварительно обработано. Модель кодирования данных была формализована в контексте концепции рецептивных полей. Разработанная процедура порогового кодирования информации была определена как сжатие данных, схожее с принципом нелинейного центрально-латерального порогового фильтра.

Предложенный метод восстановления данных был формализован в виде модели связанного ON-OFF-декодирования, как реконструкция ранее сжатого изображения на основе участков изменения пространственных контрастов. Оценка качества восстановленного изображения была произведена путем визуального сравнения с изображением, восстановленным с использованием алгоритма классической интерполяции. Преимуществом используемого метода оказалось более четкое выделение краевых областей на изображении.

КОНФЛИКТ ИНТЕРЕСОВ

Авторы заявляют об отсутствии конфликта интересов.

ФИНАНСИРОВАНИЕ РАБОТЫ

Работа выполнена за счет бюджетного финансирования в рамках государственного задания в Институте радиотехники и электроники им. В. А. Котельникова РАН (AAAA-A 19-119041590070-1).

×

Авторлар туралы

V. Kershner

Kotel’nikov Institute of Radio Engineering and Electronics, Russian Academy of Sciences

Хат алмасуға жауапты Автор.
Email: vladkershner@mail.ru
Ресей, Mokhovaya Str., 11, Build. 7, Moscow, 125009

Әдебиет тізімі

  1. Lu Z., Huang D., Bai L. et al. // arXiv preprint arXiv:2304.13023. 2023. https://doi.org/10.48550/arXiv.2304.13023
  2. Pinkston J. T. // IEEE Trans. 1969. V. IT-15. № 1 P. 66. https://doi.org/10.1109/TIT.1969.1054274
  3. Milner D., Goodale M. The Visual Brain in Action. Oxford: Univ. Press, 2006. https://doi.org/10.1093/acprof: oso/9780198524724.001.0001
  4. Antsiperov V., Kershner V. // Pattern Recognition Applications and Methods, ICPRAM 2021–2022. Lecture Notes in Computer Sci. P. 13822. Cham: Springer, 2023. https://doi.org/10.1007/978-3-031-24538-1_3
  5. Yang M., Sun X., Jia F. et al. // Polymers. 2022. V. 14. № 10. Р. 2019. https://doi.org/10.3390/polym14102019
  6. Keeler H. P. Notes on the Poisson Point Process. Technical Report. Berlin: Weierstrass Inst. 2016. 36 p. https://hpaulkeeler.com/wp-content/uploads/2018/08/PoissonPointProcess.pdf
  7. Antsiperov V. // Proc. 11th Int. Conf. on Pattern Recognition Applications and Methods – ICPRAM. 3–5 Feb. 2022. Setúbal: SciTePress – Science and Technology Publ., 2022. P. 354. https://doi.org/10.5220/0010836800003122
  8. Latecki L. J., Lakamper R., Eckhardt T. // Proc. IEEE Conf. Computer Vision and Pattern Recognition, CVPR-2000. Hilton Head Island. 15 Jun. N.Y.: IEEE, 2000. P. 424. https://doi.org/10.1109/CVPR.2000.855850
  9. Hubel D. H., Wiesel T. N. Brain and Visual Perception: The Story of a 25-year Collaboration. Oxford: Univ. Press, 2004. https://doi.org/10.1016/0001-6918(64)90136-2
  10. Keller A. J., Roth M. M., Scanziani M. // Nature. 2020. V. 582. № 7813. Р. 545. https://doi.org/10.1038/s41586-020-2319-4
  11. Hoon M., Okawa H., Santina L. D., Wong R. O. // Progress in Retinal and Eye Research. 2014. V. 42. Р. 44. https://doi.org/10.1016/j.preteyeres.2014.06.003
  12. Antsiperov V. // Proc. 12th Int. Conf. on Pattern Recognition Applications and Methods (ICPRAM 2023). Lisbon. 22–24 Feb. 2023. Setúbal: SciTePress – Science and Technology Publ., 2023. P. 517. https://doi.org/10.5220/0011792800003411
  13. Fish J., Wagner G. J., Keten S. // Nature Mater. 2021. V. 20. № 6. Р. 774. https://doi.org/10.1038/s41563-020-00913-0
  14. Ranstam J., Cook J. A. // J. British Surgery. 2018. V. 105. № 10. Р. 1348. https://doi.org/10.1002/bjs.10895
  15. Tam W. S., Kok C. W., Siu W. C. // J. Electron. Imaging. 2010. V. 19. № 1. Р. 013011. https://doi.org/10.1117/1.3358372
  16. Marr D., Hildreth E. // Proc. Royal Society of London. Ser. B. Biol Sci. 1980. V. 207. № 1167. P. 187. https://doi.org/10.1098/rspb.1980.0020. PMID: 6102765.
  17. Yu S., Zhang R., Wu Sh. et al. // Biomedical Engineering Online. 2013. V. 12. Р. 1. https://doi.org/10.1186/1475-925X-12-102

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML
2. Fig. 1. Representation of an image based on a sample of samples (sample representation): a – original image “butterfly-19” [8], b – sample representation of 10 million samples.

Жүктеу (67KB)
3. Fig. 2. Partitioning of the image surface Ω by a system of receptive ON-fields with square carriers ∆k ∪ ∆s located at the nodes of a regular square lattice.

Жүктеу (107KB)
4. Fig. 3. Illustration of the coding procedure (11) on a 50×50 receptive field grid of a selective representation of the image “butterfly-19” [8] (see Fig. 1): a – selective representation, b – RP with non-zero values ​​of δ, ON responses (δ > 0) are highlighted in white, OFF responses (δ < 0) are highlighted in black.

Жүктеу (99KB)
5. Fig. 4. The reconstructed (decoded) image “butterfly-19” [8] (see Fig. 1), defined by the selective representation {} on the 50×50 lattice: a – smoothed image, decoded only using the “smooth” part {nk} of the code, b – interpolation along the edges defined by the details {δk}.

Жүктеу (48KB)

© Russian Academy of Sciences, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».