Ⅰ. 서 론
차량 환경에서의 영상 인식 기술은 자율주행, 첨단 운전자 보조 시스템(ADAS), 스마트 교통 인프라 구축 등 다양한 응용 분야에서 핵심적인 역할을 담당하고 있다. 이러한 응용 시스템의 성능은 카메라 센서로부터 획득된 영상의 품질에 크게 의존한다(Seo and Park, 2022;Park et al., 2025). 특히 저조도 환경이나 극단적인 조명 대비가 존재하는 실제 주행 조건에서는 영상에 강한 노이즈, 채도 왜곡, 명암 손실 등이 발생해, 후속 인식 알고리즘의 정확도를 심각하게 저하시킨다. 일반적으로 인식 알고리즘은 센서가 출력하는 RAW 영상 이 아닌 이미지 신호처리(Image Signal Processing, ISP) 파이프라인을 통해 정제된 sRGB 영상을 입력받는다. 전통적인 하드웨어 기반 ISP 파이프라인은 수동으로 설계된 블록들을 직렬로 구성하는데 (ex. 색 보정, 화이 트 밸런스 조정, 디모자이킹, 톤매핑 등), 열화된 영상을 개선하는 능력에 한계가 있고, 특히 저조도 환경에 서 성능 저하가 두드러지는 문제가 있다.
최근 딥러닝 기술의 발전과 함께 뉴럴 ISP(Neural ISP)가 이러한 한계를 극복하기 위한 유망한 접근법으로 주목받고 있다. 뉴럴 ISP는 전통적인 ISP의 기능을 신경망이 직접 학습함으로써 다양한 조명·기상 조건에서 보다 풍부한 색상 표현과 노이즈 억제를 동시에 달성할 수 있다. Ignatov et al.(2020b)은 같은 장면을 촬영한 [스마트폰 RAW, DSLR sRGB] 데이터셋을 대규모 구축하여, 뉴럴 ISP가 스마트폰 입력을 받아 DSLR 급의 출력을 할 수 있도록 하는 연구를 진행하였다. 특히, ISP 이전의 센서 RAW 데이터에 더 많은 정보가 남아 있기 때문에 뉴럴 ISP와 영상개선을 통합하는 연구가 많이 진행되고 있다. Chen et al.(2018)은 DSLR 카메라 로 짧은 노출과 긴 노출의 데이터를 모아, 짧은 노출의 입력이 들어갔을 때 긴 노출의 출력을 할 수 있는 저 조도 개선 뉴럴 ISP를 소개했다. Brooks et al.(2019)은 ISP 처리된 sRGB의 노이즈 모델이 복잡해지기 때문에 RAW 도메인에서 노이즈 제거를 하는 것이 더 효과적임을 보였다.
하지만 대부분의 선행 연구들은 대규모 모델 구조와 고성능 GPU를 전제로 하여 설계되어, 차량용 실시간 환경에 직접 적용하기에는 계산량과 지연 측면에서 제약이 크다(Ignatov et al., 2020a). 또한, 일반 환경과 달 리 차량 주행 환경은 날씨와 조명 변화가 극심하여 영상 인식 성능 저하를 유발하는 주요 요인으로 작용하 므로, 이러한 변화를 충분히 반영할 수 있는 학습 데이터셋이 필수적이다. 이에 본 연구에서는 차량 환경에 서 실시간으로 동작 가능하며 저조도 환경에 특화된 경량 뉴럴 ISP 프레임워크를 제안한다. 제안 방식은 고 품질 RAW–sRGB 학습 데이터셋 구축, 채도 과포화 보정을 포함한 전통적 파이프라인 기반 베이스라인 ISP 설계, 뉴럴 ISP 네트워크 경량화 및 색조 힌트 기반 안정화, 그리고 센서 인터페이스로부터 곧바로 네트워크 입력 텐서를 생성하는 전처리 레이어 구현으로 구성된다.
본 논문의 주요 기여는 다음과 같다.
-
- 다양한 환경을 반영한 뉴럴 ISP 학습 데이터셋 구축: 차량용 카메라를 이용하여 주간, 야간, 특수 기상 등 실제 주행 환경을 포괄하는 고품질 학습 데이터셋을 제작하였다.
-
- 채도 과포화 보정을 포함한 전통적 베이스라인 ISP 설계: 기존 파이프라인 기반 ISP에 채도 보정 모듈을 추가하여 저조도 및 고채도 영역에서 안정적인 색 재현 성능을 확보하였다. 해당 베이스라인 ISP는 뉴럴 ISP 학습용 정답 데이터 구축에 이용되었다.
-
- 차량용 실시간 경량 뉴럴 ISP 설계: MW-ISPNet(Ignatov et al., 2020a)을 경량화하고 색조 힌트를 추가하 여 저조도 환경에서의 색 표현력 및 학습 수렴 속도를 개선하였다.
-
- 전처리 레이어 기반 엔드투엔드 파이프라인 구현: 센서 CSI-2 스트림을 직접 수신하여 네트워크 입력으 로 변환하는 경량 전처리 레이어를 설계함으로써 지연 시간을 최소화하였다.
-
- 정량·정성 실험을 통한 실용성 검증: 다양한 경량화 버전의 네트워크를 비교·분석하고 상용 ISP 대비 우 수한 저조도 처리 성능을 실험적으로 입증하였다.
Ⅱ. 본 론
1. 시스템 아키텍처 및 데이터 파이프라인
본 장에서는 제안하는 저조도 대응 경량 뉴럴 ISP의 전체적인 학습 및 추론 프레임워크를 기술한다. 전체 시스템은 크게 데이터 수집 및 정답 생성 단계와 뉴럴 ISP 학습 및 추론 단계로 구성된다(<Fig. 1> 참조). 이 러한 구조적 분리를 통해, 복잡한 연산이 필요한 베이스라인 ISP의 고품질 영상 생성 능력을 경량화된 뉴럴 ISP가 학습하여, 실제 주행 환경에서는 낮은 연산량으로도 고품질의 영상을 실시간으로 복원할 수 있도록 설 계하였다.

<Fig. 1>
Overview of the overall system architecture and training pipeline. The upper part represents the process of collecting sensor data and generating ground truth using the baseline ISP, while the lower part illustrates the preprocessing layer and the training and inference structure of the lightweight Neural ISP network.
1) 데이터 수집 및 정답 생성 단계
뉴럴 ISP의 지도 학습을 위해 입력과 정답(Ground Truth, GT) 쌍을 구축하는 과정이다. 차량용 카메라 센 서를 통해 5가지 주행 환경(Day, Evening, Snow, Night, Night Lights)에서 RAW 데이터를 수집한다. 특히 Night와 Night Lights 환경의 경우, 충분한 동적 범위(Dynamic Range)를 확보하기 위해 다중 노출(Multiexposure) 기법을 사용하여 HDR RAW 데이터를 합성한다. 베이스라인 ISP는 수집된 RAW 데이터로부터 고 품질의 sRGB 타깃 이미지를 생성하기 위해 설계된 전통적 ISP 파이프라인이다. 블랙 레벨 보정(BLC), 화이 트 밸런스(WB), 디모자이킹(Demosaic), 색 보정(CCM), 톤매핑(Tone Mapping) 등의 표준 모듈로 구성되며, 특 히 저조도 환경에서의 색상 왜곡을 방지하기 위한 채도 과포화 보정 알고리즘이 포함된다. 이 파이프라인의 출력은 뉴럴 ISP가 모사해야 할 정답 역할을 수행한다.
2) 뉴럴 ISP 학습 및 추론 단계
실시간 처리가 가능한 딥러닝 기반 ISP 모델을 구축하는 단계이다. 우선, 센서로부터 입력되는 MIPI CSI-2 포맷의 비트 스트림을 네트워크 입력 텐서로 변환하는 전처리 레이어를 구현한다. 전처리 레이어의 도입으 로 데이터 파싱, 베이어 패킹, 로그 정규화 등의 기능을 GPU/NPU 상에서 효율적으로 수행할 수 있다. 후속 뉴럴 ISP와 동일 디바이스 내 파이프라인을 유지하여 추가적인 최적화도 가능하게 한다. 뉴럴 ISP 모듈은 전 처리된 텐서를 입력받아 최종 sRGB 이미지를 추론한다. MW-ISPNet(Ignatov et al., 2020a) 구조를 기반으로 차량용 임베디드 환경에 맞게 채널 수와 블록 깊이를 최적화(경량화)하였으며, 베이스라인 ISP가 생성한 타 깃 이미지와의 구조적 유사도(SSIM) 차이를 최소화하는 방향으로 학습된다. 추가적으로 저조도 색상 복원을 돕기 위한 색조 힌트도 입력으로 받도록 한다.
2. 데이터셋 구축
뉴럴 ISP를 학습시키기 위해서는 센서 원시 데이터와 이에 대응하는 색보정/톤매핑 등을 포함한 sRGB 타 깃 쌍, 즉 ⟨센서 RAW 이미지, ISP 처리된 sRGB 이미지⟩의 학습 데이터셋이 필요하다. 본 연구에서는 OnSemi AR0341 오토모티브 센서를 사용하여 데이터를 수집하였다. 해당 센서는 GRBG 베이어 패턴과 1920×1536 해상도를 가지며, 센서 내부에서 2개의 노출(T1, T2)을 융합해 출력하는 HDR 모드를 지원한다. 데이터 전송은 GMSL2 인터페이스를 사용하고, 그래버를 통해 들어오는 데이터는 MIPI CSI-2 프로토콜을 따 른다.
일반화 성능과 특히 화이트밸런스 학습을 고려하여 5가지 외부 환경(Day, Evening, Snow, Night, Night Lights)에서 데이터를 구성하였다. 다양한 색온도 및 조명 대비 변화를 포함함으로써 뉴럴 ISP가 장면·조명 변화에 대해 견고한 색채 복원 능력을 학습하도록 유도한다. (<Fig. 2>)

<Fig. 2>
Overview of the five dataset subsets. Top row: Day, Snow, Evening. Bottom row: Night, Night Lights. All images are outputs of the baseline ISP; for Night and Night Lights, the baseline ISP is applied to HDR RAWs formed by fusing 10 exposures.
-
- Day: 강한 햇빛이 존재하는 낮 시간대, 3062프레임 (2FPS, One-Take)
-
- Evening: 주변 광량이 점차 줄어드는 이른 저녁, 1000프레임 (1FPS, One-Take)
-
- Snow: 약한 눈이 내리는 특수 기상 조건, 3980프레임 (2FPS, One-Take)
-
- Night: 야간 환경, 학습용 1154세트, 검증용 100세트
-
- Night Lights: 야간 환경에서 신호등 및 조명이 있는 장면, 61세트
Day, Evening, Snow 서브셋에서는 <T1=10ms, T2=0.35ms> 고정 노출로 각각 한 번씩의 주행 데이터로 수 집하고, 각 RAW 프레임에 베이스라인 ISP를 적용하여 sRGB 타깃을 생성하였다. 해당 환경들은 노이즈가 생기지 않을 정도의 밝기이기 때문에 단순 주행 데이터를 학습용으로 사용할 수 있었다.
Night 서브셋은 신호대잡음비(SNR)와 동적범위(DR)의 한계를 보완하기 위해 정적인 장면을 10개의 노출 (5, 7, 10, 15, 20, 50, 100, 300, 500, 1000 ms)로 수집하였다. 이때, 설정 변경은 T1 노출로 하였고 T2 노출은 비활성화하였다. 수집된 12개 RAW 이미지를 RAW 도메인에서 노출 정규화 및 가중 융합을 통해 HDR RAW로 합성한 뒤, 동일한 베이스라인 ISP로 처리하여 sRGB 타깃을 생성하였다. 단순 장노출 이미지를 GT 로 사용할 경우 밝은 영역에서 과노출 포화 현상이 발생할 수 있으나 (Chen et al., 2018), 본 연구에서는 다중 노출 이미지를 RAW 도메인에서 정규화·융합함으로써 under-saturation과 over-saturation을 모두 최소화한 균질 한 GT를 확보하였다. 1개의 세트를 수집하기 위해서 10번의 촬영과 센서 설정 변경이 필요하기에 대략 10초 간 정적인 장면을 유지해야 했다. 이는, 동적 객체(예: 자동차, 사람)가 빈번한 도로 주행 데이터로는 수집하 기 어려웠기에, 촬영 카트를 이용하여 캠퍼스 환경에서 수집하였다. (<Fig. 3>)

<Fig. 3>
An example from the Night subset. Left: baseline ISP applied to each of the 10 individual exposures. Right: baseline ISP applied to an HDR RAW created by fusing those 10 exposures.
캠퍼스 환경의 야간 데이터로만 학습하였을 때, 채도와 밝기가 높은 야간 조명(예: 신호등, 후미등)에 대해 뉴럴ISP의 복원 성능이 저하되는 경향이 관찰되었다. 이에 Night 서브셋과 같은 형태이지만 도로 환경의 신 호등이나 조명이 있는 장면을 모아 Night Lights 서브셋을 소량 구성하였다. 10개의 샷을 모으는 동안 신호등 이나 후미등의 상태가 변하면 안 되기 때문에 수집이 까다로운 편이다. sRGB 타깃을 생성하는 방법은 Night 서브셋과 동일하다.
데이터 수집에 사용된 렌즈 구성은 서브셋의 수집 방식에 따라 달리 적용하였다. 차량 전방에 고정되어 주행 데이터를 수집한 Day, Evening, Snow, Night Lights 서브셋은 HFOV 72°, F/2.3 사양의 단일 렌즈를 사용 하였다. 반면, 촬영 카트를 이용하여 정적인 장면을 수집한 Night 서브셋의 경우, 데이터의 다양성을 극대화 하기 위해 HFOV 39°(F/1.8), 45°(F/1.8), 72°(F/2.3), 150°(F/2.0)의 네 가지 렌즈를 교체하며 촬영하였다. 또한 사용된 모든 렌즈에는 IR cut filter가 장착되어 가시광선 영역의 데이터를 획득할 수 있도록 하였다.
3. 베이스라인 ISP
학습 GT를 구성하기 위해 전통적 파이프라인 기반의 베이스라인 ISP를 구현하였다. 파이프라인은 다음의 순서를 따른다.
-
- 블랙레벨 보정: 렌즈 캡을 장착한 상태에서 다크 프레임을 촬영하여 블랙레벨을 166으로 계측하고 채널 별 오프셋을 제거한다.
-
- 화이트밸런싱: 기본적으로 grey-world 가정을 적용하되, 특정 장면(예: 도로면에 유색 객체가 과도하게 분 포한 경우)에서 시각적으로 어긋나는 색복원이 관찰되면 소폭의 수동 보정을 적용한다.
-
- 디모자이킹: bilinear interpolation 기반 디모자이킹을 사용하여 베이어 패턴을 RGB 이미지로 변경한다.
-
- 색상 보정: 실험실 환경에서 Macbeth ColorChecker를 촬영하여 3×3 컬러 보정행렬을 추정, 센서 RGB를 sRGB 컬러 공간으로 변환한다.
-
- 톤매핑: Local Edge-Preserving(LEP) 톤매핑(Gu et al., 2013)을 통해 휘도 성분을 HDR에서 LDR로 변경한 다. LEP 톤매핑은 파라미터 설정에 민감하지 않고 기본 설정만으로도 안정적으로 대비와 로컬 디테일을 강조하는 출력을 제공한다. 결과가 인간 시각에는 다소 과도하게 선명해 보일 수 있으나, 인지·인식 파 이프라인에서는 이러한 디테일 보강이 유리하다.
-
- 컬러 리매핑: 채도 제어가 가능한 Tumblin & Turk 형태를 사용한다(Tumblin and Turk, 1999). 입력 채널 Cin , 입력 휘도 Lin , 톤매핑된 출력 휘도 Lout 에 대해 Cout = (Cin/Lin)sLout 을 적용하고, 채도 지수 s = 0.6으로 설정한다. 이는 저조도에서 컬러 포화와 휘도 간 균형을 유지하면서 색채 선명도를 확보하 는 데 유효하다.
이와 같은 베이스라인 ISP는 모든 환경의 HDR RAW 입력으로부터 일관된 sRGB 타깃을 생성하여 뉴럴 ISP 학습의 교사 신호로 사용된다.
1) 채도 과포화 보정
앞선 컬러 리매핑 과정에서 어두운 환경의 경우 채도가 높은 조명이나 신호등과 같은 객체에서 과도한 번 짐 현상이 발생하였다(<Fig. 4>). 이러한 현상의 원인을 분석하기 위해 톤매핑된 휘도를 확인한 결과, 실제 휘도에서는 번짐이 나타나지 않았다. 그러나 고채도 영역에서 RGB 채널 중 특정 성분만 포화될 경우, 최대 휘도의 약 1/3 수준으로만 표현되기 때문에, ISP가 어두운 장면을 밝게 표현하려는 과정에서 이러한 왜곡이 발생한 것으로 판단된다. 장면의 전반적인 밝기 수준을 유지하면서 채도 과포화를 완화하기 위해 휴리스틱 한 보정 방법을 적용한다. 구체적으로, 채도가 높으나 톤매핑된 휘도 값이 일정 수준 이하인 픽셀의 경우 컬 러 리매핑 단계에서 채도 지수 s를 기본값인 0.6보다 낮추어 표현의 안정성을 확보한다. 구체적인 보정 수식 은 아래와 같다.

<Fig. 4>
Left: tone-mapped luminance image. Middle: naive color remapping using a fixed saturation index. Right: result after applying saturation overshoot correction.
이 때, 는 컬러 보정된 HDR RGB값, Lhdr (x, y)은 톤매핑 이전의 HDR 휘도, Lldr (x, y) 은 톤매핑된 LDR 휘도를 각각 의미한다. 참고로 Lldr (x, y)는 0에서 1사이의 실수 값을 가지도록 정규화 되 어 있다.
4. 네트워크 구성
기본 구조로는 AIM Learned ISP 트랙에서 우수한 성능을 보인 MW-ISPNet을 채택하였다(Ignatov et al., 2020a). MW-ISPNet은 U-Net 계열 인코더-디코더 구조에 residual channel attention block(RCAB)을 삽입하여 표 현력을 높인 모델이다. 다만 차량 적용에서 실시간성이 핵심이므로, 본 연구에서는 다음과 같이 경량화한다: (1) 각 스케일 레벨에서 RCAB 개수를 20개에서 2개 또는 1개로 축소, (2) 각 레벨의 채널 폭을 절반으로 축 소. 이러한 변경으로 연산량과 메모리 사용량을 크게 줄이면서도, 저조도-고대비 환경에서 필요한 표현 능력 을 유지하도록 한다. 본 논문의 실험에서는 원본 모델을 MW-ISPNet-L로 정의하고, 앞서 기술한 경량화 전략 에 따라 채널 수를 절반으로 줄이고 RCAB을 각각 2개와 1개로 축소한 모델을 MW-ISPNet-M과 MWISPNet- S로 명명하여 구분한다.
입력 표현 측면에서는 센서 RAW 베이어를 2×2 패킹하여 4x(H/2)x(W/2) 형태로 구성한다. 센서의 HDR 모 드에서 RAW의 수치 범위가 매우 넓기(0~226) 때문에, 단순한 정규화만으로는 학습이 불안정하였다. 이를 해 소하기 위해 로그 스케일 전처리를 적용한다. 구체적으로,
형태로 정규화하여 스케일을 압축한다. 최대 RAW값인 226대신 222를 분모로 설정한 것은, 강한 햇빛이 아 닌 이상 대부분의 값이 222이하에 분포하기 때문이다.
1) 색조 힌트를 활용한 보조 입력 설계
학습 초기 과정에서 높은 채도 영역의 색상 수렴이 불안정하게 나타나는 경향을 관찰하였다. 이는 베이스 라인 ISP의 컬러 리매핑 단계에서 보듯이, 색상 값이 RAW 스케일에서 비율로 결정되는 특성과 관련이 있다. 본 연구에서는 네트워크 입력에 로그 스케일 전처리를 적용하는데, 이러한 로그 변환이 상대적인 색상 비율 을 왜곡하여 학습 안정성을 저해하는 원인으로 작용하는 것으로 판단된다.
이 문제를 완화하기 위해 컬러 기반의 보조 입력을 추가한다. 구체적으로, 베이스라인 ISP의 컬러 리매핑 과정을 모방하여 RAW 스케일에서 각 컬러 채널 값을 해당 픽셀의 GRBG 평균값으로 나누고, 그 결과에 대 해 0.6승을 취하였다. 이를 통해 색상 정보가 상대적 강도로 정규화되며, 네트워크가 색조에 대한 힌트를 명 시적으로 활용할 수 있도록 한다. 최종적으로 원래의 4채널 로그스케일 입력에 보조 컬러 정보 4채널이 더해 져, 입력 텐서는 8×(H/2)×(W/2)의 형태로 확장된다. 이러한 보조 입력 구조는 네트워크가 색상과 휘도의 균 형을 보다 안정적으로 학습하도록 유도하여, 고채도 영역에서의 표현 안정성과 수렴 속도를 동시에 향상시 켰다 (<Fig. 5>). 네트워크의 최종 출력은 3×H×W 형태의 sRGB 이미지로 생성된다.

<Fig. 5>
Qualitative results after 50 training epochs. Left: network input without a hue hint. Right: network input with a hue hint. Adding the hue hint yields more faithful color reproduction.
5. 전처리 레이어 구현
기존 뉴럴 ISP 연구들(Ignatov et al., 2020b;Chen et al., 2018)은 주로 모델의 복원 성능 향상에 집중하며, 입력 데이터가 이미 정제된 RAW 포맷(DNG, TIFF 등)으로 준비되어 있다고 가정한다. 그러나 실제 차량용 센서 인터페이스(MIPI CSI-2)는 압축된 비트 스트림 형태로 데이터를 전송하며, 이를 학습된 모델의 입력 텐 서로 변환하는 과정에서 상당한 CPU 연산 부하와 메모리 복사 오버헤드가 발생한다. 이는 밀리초(ms) 단위 의 초저지연이 요구되는 자율주행 시스템에서 전체 파이프라인의 병목 요소로 작용한다. 따라서 본 연구는 모델 자체의 구조적 변형뿐만 아니라, 센서 인터페이스부터 네트워크 출력까지의 전 과정을 GPU/NPU 상에 서 End-to-End로 처리를 가능케 하는 전처리 뉴럴넷 레이어를 설계하게 되었다.
전처리 뉴럴넷 레이어는 실시간 파이프라인 최적화를 위해 센서의 MIPI CSI-2 스트림을 직접 받아 뉴럴 ISP 가 요구하는 입력 텐서 형태로 변환하는 역할을 한다. MIPI CSI-2는 이미지 센서와 프로세서 간에 고속으로 RAW 데이터를 전송하기 위한 표준 인터페이스 규격이다. 레이어의 모든 연산은 텐서 재배열, 산술 연산, 클립 (clip) 등 일반적인 뉴럴넷 연산으로 구성되어 어떠한 GPU나 NPU 상에서도 효율적으로 수행된다. 이 레이어는 다음의 장점을 갖는다. 첫 번째로 CSI-2 패킷 파싱, 2D 재구성, 베이어 패킹 등 대부분의 전처리 연산이 픽셀 단위의 데이터 독립적 계산으로 이루어져 GPU/NPU에서의 대규모 병렬화에 매우 적합하여 계산 효율을 높인 다. 두번째로 변환 이전 단계의 데이터가 압축·패킹된 스트림 형태이므로 CPU-GPU(NPU)간 메모리 전송 오버 헤드를 최소화하여 프레임 지연을 완화한다. 세번째로 후속 뉴럴 ISP와 동일 디바이스 내 파이프라인 유지를 통해 TensorRT와 같은 실행 엔진에서 전처리 레이어와 뉴럴 ISP를 공동 최적화(fusion, scheduling, 메모리 재사 용) 할 수 있어 엔드-투-엔드 레이턴시를 추가로 감소시킨다. 결과적으로 센서에서 네트워크로 이어지는 경로 가 간결해져, 차량용 제약(지연·전력·메모리) 하에서도 뉴럴 ISP를 효율적으로 운용할 수 있다.
<Fig. 6>의 예시는 센서가 1920x1536해상도의 베이어 이미지에 대해서 26-bit 픽셀을 12-bit로 압축하여 CSI-2 RAW12 포맷으로 송출할 때의 전처리 레이어 구성이며, 비트폭/압축 세팅이 달라지더라도 관련 모듈 의 파라미터 교체만으로 쉽게 대처 가능하다. 구체적인 변환 단계는 다음과 같다.

<Fig. 6>
Preprocessing layer overview. Top-left: reshaping a CSI-2 RAW12 frame into a 2D layout. Top-right: implementation of the Decompress module.
-
- 2D 재배열 및 패킷 정리: CSI-2 바이트 스트림을 <Fig. 6> 좌상단과 같이 2D 레이아웃으로 재배열하고, 패킷 헤더/풋터를 제거하여 순수 페이로드만 남긴다.
-
- RAW12 파싱: CSI-2 RAW12는 3바이트에 2픽셀이 저장된다. 간단한 산술 연산으로 각 픽셀의 12-bit 값 을 추출하여 텐서의 하나의 요소가 한 픽셀에 대응하도록 한다.
-
- Bayer Packing: 베이어 패턴(GRBG 등)의 인접 픽셀을 채널 차원으로 재배열하여 색 필터별 평면을 분리 한다. 이를 위해 픽셀 재배열을 통해 해상도를 줄이는 용도로 흔히 사용하는 PixelUnshuffle 레이어(Shi et al., 2016)를 사용한다.
-
- Decompress (12-bit → 26-bit): 신경망 연산 효율을 저해하는 제어 흐름 분기를 회피하고자, <Fig. 6> 우 상단과 같이 클립(clip)과 기본 산술 연산만으로 구성된 커널로 12-bit 값을 원래 26-bit 범위로 확장한다.
-
- 정규화 & 색조 힌트 계산: 복원된 RAW 도메인에서 각각 정규화와 색조 힌트를 계산한 후, 텐서를 이어 붙인다. 이로써 최종 뉴럴 ISP 입력 텐서가 완성되며, 동일 디바이스 상에서 후속 뉴럴 ISP에 의해 바로 소비된다.
Ⅲ. 실 험
1. 학습방법
본 연구의 뉴럴 ISP는 서로 다른 조도·기상 조건을 반영한 다중 서브셋을 통합하여 학습하였다. Day, Evening, Snow 서브셋에서는 수집된 각 RAW 프레임을 모델 입력으로 사용하고, 해당 프레임에 베이스라인 ISP를 적용해 생성한 sRGB 이미지를 정답(ground truth)으로 사용하였다. 이때 샘플 수는 Day 3,062장, Evening 1,000장, Snow 3,980장으로 총 8,042장이다. Night와 Night Lights 서브셋의 경우에는 한 세트를 융합 해 단일 GT를 구성하되, 세트 내 10개의 RAW 프레임을 모두 입력으로 활용할 수 있기 때문에, Night 11,540 장과 Night Lights 610장을 더해 12,150장의 샘플을 확보하였다. 결과적으로 한 에폭(epoch) 당 학습에 사용되 는 총 샘플 수는 20,192장(8,042 + 12,150)이다.
학습 과정에서는 데이터 다양성을 확보하고 네트워크의 일반화 성능을 높이기 위해 다양한 증강을 적용하 였다. 먼저, 입력 RAW 영상에 대응하는 sRGB 타깃 영상 기준으로 1024×1024 영역을 랜덤 크롭하여 512×512 크기의 입력 패치를 생성하였다. 또한 random vertical flip, horizontal flip, transpose 연산을 적용하되, 센서의 베 이어 패턴이 손상되지 않도록 BayerAug 기법(Liu et al., 2019)을 활용하여 필터 배열의 일관성을 유지하였다. 또한 입력 RAW RGB 값을 약 ±10% 내로 랜덤하게 변형하여 조명색이 달라진 것과 유사한 효과를 주어, 네트 워크가 다양한 광원 조건에서 화이트밸런스를 안정적으로 유지하는 능력을 학습하도록 유도하였다.
모델 학습은 배치 사이즈 16으로 설정하였으며, 최적화 알고리즘으로 AdamW 옵티마이저를 사용하였다. 초기 학습률은 1×10⁻⁴로 설정하고, 코사인 어닐링 스케줄링을 200 에폭 단위로 총 3회 반복하여 총 600에 폭 학습을 진행하였다. 이러한 학습 스케줄링은 극저조도 환경과 주간 환경이 혼합된 데이터셋에서 안정적 인 수렴을 유도하는 데에 효과적이었다.
손실 함수는 SSIM(Structural Similarity) Loss만을 단독으로 사용하였다. 초저조도 장면은 본질적으로 노이 즈가 많고 유효 신호가 부족해, L1 또는 VGG(퍼셉추얼) 손실을 병용할 경우 무리하게 디테일을 살리려다 아 티팩트가 나타나는 경향이 있다. 반면 SSIM Loss 단독 사용 시 구조적 보존 특성이 강화되어 노이즈 환경에 서도 보다 안정적인 학습 결과를 얻을 수 있었다.
2. 정량적 결과 분석
본 연구의 주안점은 새로운 네트워크 설계 자체가 아니라, 자동차용 실시간 뉴럴 ISP의 실용성을 입증하 는 데 있다. 기존 뉴럴 ISP들은 최고 성능을 지향하며 모델 규모와 연산량이 과도하게 커지는 경향이 있었 고, 이는 차량 환경에 부합하지 않았다. 이에 우리는 MW-ISPNet (Ignatov et al., 2020a)을 기반으로 다양한 경 량화 변형을 구성해 비교 실험을 수행하였다. 평가는 정확도 지표와 계산 복잡도, 그리고 전처리 레이어를 포함한 엔드투엔드 추론시간으로 이루어졌으며, 모든 속도 측정은 TensorRT 최적화 하에 NVIDIA RTX 4090 에서 수행하였다. 또한 연산량은 Multiply–Accumulate Operations(MAC) 기준으로 산정하였다. 본 연구는 센 서 RAW 전처리부터 뉴럴 ISP, 후속 인식 알고리즘까지 동일 GPU/NPU에서 통합 실행되는 차량용 파이프라 인을 목표로 하기 때문에 고성능 GPU에서 추론 속도를 산정하였다. 최근 차량용 컴퓨팅 환경이 고성능 통합 SoC로 전환됨에 따라, 측정된 1~2ms 내외의 지연 시간은 전체 자율주행 파이프라인에서 충분히 수용 가능한 수준으로 판단된다.
정확도 해석에 있어서는 학습에 SSIM 손실만을 단독 사용했기에 <Table 1>의 정량 지표 중 SSIM을 핵심 지표로 해석하고, PSNR과 Angular Error는 참조용으로만 제시한다. Angluar Error는 출력 RGB와 GT RGB 벡 터간의 각도를 의미하는 것으로 색 정확도를 나타낸다. 추론시간은 전처리 레이어와 뉴럴 ISP를 묶어 TensorRT로 최적화한 수치를 보고한다. FP32와 FP16 두 모드 모두 평가했으며, FP16은 별도의 캘리브레이션 없이 적용 가능하므로 실제 배치에서 사용을 회피할 이유가 없다. 다만 전처리 레이어는 오버플로우 가능성 으로 인해 FP32로 고정하였다. 향후 양자화 캘리브레이션을 동반한 INT8 최적화를 적용하면 추가적인 속도 향상이 가능할 것으로 판단된다.
<Table 1>
Quantitative evaluation of different neural ISP architectures
| PSNR (↑) | SSIM (↑) | Angular Error (↓) | Inference Time (↓) (FP32 / FP16) | # of Operations | |
|---|---|---|---|---|---|
| MW-ISPNet-L | 21.687 | 0.690 | 4.165° | 52.89ms / 19.93ms | 1296.47 GMac |
| MW-ISPNet-M | 22.131 | 0.682 | 4.444° | 3.45ms / 1.72ms | 53.68 GMac |
| MW-ISPNet-S | 21.964 | 0.678 | 4.537° | 2.52ms / 1.19ms | 38.28 GMac |
| MW-ISPNet-NAF | 21.438 | 0.672 | 4.601° | 3.77ms / 1.83ms | 21.3 GMac |
| RED-Net | 18.721 | 0.601 | 5.846° | 2.17ms / 1.54ms | 14.55 GMac |
| SYENet | 17.819 | 0.576 | 7.989° | 1.40ms / 0.93ms | 5.88 GMac |
| Baseline ISP | 19.559 | 0.433 | 10.044° | N/A | N/A |
정확도 측정을 위한 데이터셋은 Night 서브셋에서 학습용과는 별도로 구축한 100세트의 검증용 데이터를 이용하였다. 학습 때는 입력으로 10개의 RAW 프레임을 모두 사용했지만, 검증에서는 실제 주행환경과의 유 사성을 고려해 10ms 노출의 RAW 프레임만 입력으로 사용하여 정답 이미지와 비교하였다.
<Table 1>는 MW-ISPNet의 네 변형과 실시간성을 지향하는 뉴럴 ISP인 RED-Net(Lamba and Mitra, 2021), SYENet(Gou et al., 2023), 그리고 GT를 만들 때 사용한 고전적인 Baseline ISP를 대상으로 정확도·추론시간· 연산량 비교를 제시한다. 베이스라인 ISP는 실시간 동작을 위해 만든 알고리즘이 아니므로 추론시간과 연산 량에 대한 수치를 제외한다.
MW-ISPNet은 U-Net 기반 구조로 다운샘플링과 업샘플링에 웨이블릿 변환을 사용하고, 각 스케일 레벨마 다 Residual Channel Attention Block(RCAB)을 배치한 모델이다. 우선 MW-ISPNet-L은 원 논문의 구성 그대로 평가했으며, SSIM이 가장 높아 상한선 역할을 하지만 모델이 매우 무거워 실시간 시스템에 적용하기에는 한 계가 있다. 이에 비해 MW-ISPNet-M은 각 해상도 레벨의 채널 폭을 절반으로 줄이고 각 해상도 레벨의 RCAB 수를 20개에서 2개로 축소해 연산량을 크게 감축하면서도 SSIM 하락을 최소화했다. 그 결과 1.72 ms 의 추론시간을 달성해, 정확도와 지연 사이의 균형을 맞춘 모델이다. 더 과감한 경량화인 MW-ISPNet-S는 레 벨별 RCAB을 1개로 줄여 추가적인 연산 절감을 이루었고, SSIM은 소폭 하락했으나 1.19 ms까지 지연을 줄 이며 보다 강한 실시간성이 필요한 시나리오에 적합한 선택지를 제공한다.
MW-ISPNet-NAF는 MW-ISPNet-M의 RCAB을 최근 복원 분야에서 보편화된 NAF 블록 (Chen et al., 2022) 으로 교체한 실험이다. 이 경우 LayerNorm이 빈번히 개입하면서 연산량 감소에도 불구하고 실제 추론시간이 오히려 소폭 증가하고 SSIM도 하락하는 양상을 보였다. 학습의 안정성은 우수하나 연산량 대비 효율성이 떨 어지는 결과로, 임베디드/실시간 환경에서는 네트워크 구성 요소의 런타임 친화성(정규화 빈도, 메모리 접근 등)을 함께 고려해야 함을 시사한다.
경량 ISP 모델인 RED-Net(Lamba and Mitra, 2021)은 본래 실시간을 지향한 뉴럴 ISP이므로 FP32 추론에서 는 MW-ISP-Net-S보다 빠른 모습을 보이나, 정확도가 낮아 실제 적용에는 한계가 컸다. 더구나 FP16 최적화 후에는 MW-ISPNet-S보다 느려지는 역전이 관찰되었는데, 이는 MW-ISPNet 구조가 최적화에 더 친화적으로 설계되어 있음을 의미한다. 또 다른 경량 ISP 모델인 SYENet(Gou et al., 2023)은 추론 네트워크를 위한 재파 라미터화 기법을 통해 가장 빠른 속도를 보이지만 현저히 낮은 정확도를 보였다. 다른 뉴럴 ISP들이 U-Net구 조나 빈번한 글로벌 어텐션 기법을 통해 전역적인 컨텍스트를 활용하는 데 비해, SYENet은 로컬 특징 추출 에 집중하는 구조를 가지고 있어, 다양한 환경 변화가 있는 입력데이터에 대해 약점이 있는 것으로 보인다.
추가적으로 전통적 파이프라인 기반의 성능 수준을 가늠하기 위해 Baseline ISP에 대해서도 동일한 검증 셋으로 평가를 진행하였다. 그 결과 Baseline ISP는 SSIM 0.433 기록하는 데 그쳐, 뉴럴 ISP 기법들에 비해 매 우 낮은 정확도를 보였다. 이는 저조도 환경에서는 전통적 ISP 대비 딥러닝 기반 접근법이 영상의 구조적 복 원력과 품질 측면에서 월등한 성능 우위를 가짐을 정량적으로 입증한다.
결과적으로 <Table 1> 전반의 비교는 MW-ISPNet이 정확도와 최적화 용이성의 균형을 갖춘 모델임을 보여 주며, L–M–S로 이어지는 단계적 경량화는 응용 요구에 맞춰 정확도와 지연시간 간의 일관된 트레이드오 프를 제공한다. 보조적으로 주어진 PSNR과 색정확도(Angular Error)도 대체로 SSIM과 비슷한 경향을 보임을 확인할 수 있다.
3. 정성적 결과 분석
<Fig. 7>은 야간 환경에서의 영상 처리 결과를 비교한 것으로, 좌측부터 순서대로 상용 하드웨어 ISP, 뉴 럴 ISP의 밝기 수준으로 보정한 상용 하드웨어 ISP 결과, 베이스라인 ISP, 그리고 제안한 뉴럴 ISP (MW-ISPNet-M)의 출력을 나타낸다. 상용 하드웨어 ISP의 결과는 LI-AR0233-GW5400 카메라에서 획득한 영 상이며, 이는 본 논문에서 사용한 OnSemi AR0341 센서와 동일 모델은 아니지만, 유사한 성능을 제공하는 OnSemi AR0233 센서를 사용하고 있으며, GW5400 ISP가 탑재되어 있다. 두 카메라는 동일한 장면을 촬영하 기 위해 물리적으로 양옆에 배치하고 동일한 렌즈를 장착했으며 동시에 데이터를 수집하였다. 두 센서의 종 횡비와 센서 사이즈가 다르기 때문에, 시각화 시 동일한 영역을 크롭하여 비교가 가능하도록 정렬하였다.

<Fig. 7>
Nighttime ISP performance comparison. From left to right: commercial HW ISP (LI-AR0233-GW5400), HW ISP output with brightness adjusted to match the Neural ISP, AR0341 with baseline ISP, and AR0341 with our proposed Neural ISP.
또한 공정한 비교를 위해 노출 조건을 명시한다. 우선 상용 하드웨어 ISP는 카메라 내부 알고리즘에 의해 자동 노출이 적용되고 사용자가 노출 시간을 직접 제어할 수 없는 모델이었다. 베이스라인 ISP 및 뉴럴 ISP의 입력으로 사용한 AR0341 카메라의 RAW 이미지는 10ms로 고정된 노출 조건에서 획득되었으며, 이는 자율주행 환경에서 모션 블러가 심하게 발생하지 않으면서도 저조도 장면을 안정적으로 포착할 수 있는 적절한 값이다.
상용 하드웨어 ISP(<Fig. 7>의 첫 번째 열)의 경우, 저조도 환경에서 발생하는 센서 노이즈를 억제하고자 전체적으로 화면의 밝기를 낮추는 전략을 취하고 있다. 이로 인해 밝은 영역에서는 비교적 안정적인 결과를 보이나, 어두운 영역에서는 객체가 거의 식별되지 않는 수준으로 명암 대비가 낮게 표현되는 한계가 확인된 다. 명확한 비교를 위해 상용 ISP의 출력 영상을 제안하는 뉴럴 ISP의 평균 밝기 수준에 맞춰 후처리 보정을 수행하였으나(<Fig. 7>의 두 번째 열), 단순한 밝기 증폭으로는 어두운 영역의 디테일이 살아나지 않음이 관 찰된다. 베이스라인 ISP(<Fig. 7>의 세 번째 열)는 전통적인 파이프라인 기반 처리로 인해 노이즈 억제 성능 이 제한적이어서, 어두운 영역 전체에 노이즈가 뚜렷하게 나타나고, 색상 표현력도 다소 부족함을 확인할 수 있다. 이에 비해 제안된 뉴럴 ISP의 출력(<Fig. 7>의 네 번째 열)은 동일한 환경에서 높은 휘도와 균일한 밝 기 분포를 유지하면서도, 노이즈 억제 성능이 뛰어나고 색 재현력이 우수함을 확인할 수 있다.
이러한 정성적 비교 결과는 제안한 뉴럴 ISP가 기존의 전통적 ISP 파이프라인이나 상용 하드웨어 ISP 대 비 저조도 환경에서 객체 식별 가능성과 시각적 품질을 크게 향상시킬 수 있음을 실험적으로 입증한다.
Ⅴ. 결 론
본 연구에서는 차량 환경에서 실시간 동작이 가능한 뉴럴 ISP를 구현하고, 다양한 차량 주행 환경에서의 강건한 색 재현 및 노이즈 억제 성능을 실험적으로 입증하였다. 이를 위해 다중 노출 기반의 HDR RAW 데 이터셋을 구축하고, MW-ISPNet 구조를 경량화하여 실시간성을 확보하면서도 SSIM 지표 기준으로 높은 영 상 품질을 유지하였다. 또한 전처리 레이어를 통해 센서로부터 뉴럴 ISP까지의 경로를 최적화함으로써 지연 을 최소화하고, 저조도 환경에서도 기존 하드웨어 ISP나 전통적 파이프라인 ISP 대비 우수한 시각적 품질을 달성하였다. 이러한 결과는 제안된 뉴럴 ISP가 자율주행 및 지능형 교통 시스템 분야에서 실시간 영상 인식 의 기반 기술로 활용될 수 있음을 보여준다.









