Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.25 No.1 pp.75-98
DOI : https://doi.org/10.12815/kits.2026.25.1.75

Analysis of Technology Trends in the Mobility Field Using OpenAlex

Ho Lee*, Joon Woo Park**, Si Kyo Jung***, Ilsoo Yun****
*Korea Agency for Infrastructure Technology Advancement
**Dept. of Transportation System Eng., Ajou University
***Co-author: Head of Mobility Division, Korea Institute of Construction Technology
****Corresponding author: Professor, Department of Transportation Systems Engineering, Ajou University
Corresponding author : Ilsoo Yun, ilsooyun@ajou.ac.kr
16 December 2025 │ 4 January 2026 │ 9 February 2026

Abstract


Future technology prediction is critical in the rapidly changing mobility industry. Existing analysis methods relying on subjective judgment have limitations. This study proposes a quantitative, reproducible technology trend analysis methodology using vast academic literature data from OpenAlex. The methodology involves LLM-based data extraction, hierarchical topic modeling via BERTopic to construct technology structures, and adapting the Prophet model and boston consulting group(BCG) matrix to classify technology types (emerging, growing, mature, declining). This research provides a foundation for data-driven, objective technology exploration and preemptive R&D strategy establishment in a dynamic environment.



OpenAlex를 이용한 모빌리티 분야 기술 트렌드 분석

이 호*, 박 준 우**, 정 시 교***, 윤 일 수****
*주저자 : 국토교통과학기술진흥원 철도실 선임연구원
**공저자 : 국토교통과학기술진흥원 철도실 철도실장
***공저자 : 국토교통과학기술진흥원 모빌리티 본부 본부장
****교신저자 : 아주대학교 교통시스템공학과 교수

초록


급격한 인공지능의 부상 등으로 급변하고 혼란스러운 상황에서 모빌리티 산업 분야에서 미 래에 사용될 기술에 대한 예측의 중요성이 더욱 부각되고 있으나, 소수 전문가의 주관적 판단 에 의존하는 기존 분석 방식에는 한계가 존재한다. 본 연구는 이러한 한계를 극복하기 위해, 대규모 학술 데이터베이스인 OpenAlex를 활용하여 방대한 학술 문헌 데이터를 자동으로 채굴, 클러스터링, 평가하는 정량적·재현가능한 기술 트렌드 분석 방법론을 제안한다. 제안된 방법론 은 거대 언어 모델 기반 데이터 추출, BERTopic을 활용한 계층적 토픽 모델링을 통한 기술 구 조 구축, 그리고 Prophet 모델과 boston consulting group(BCG) 매트릭스 변용을 통한 미래 성장 잠재력 예측 및 기술 유형을 자동 분류(부상, 성장, 성숙, 쇠퇴)하는 절차로 구성된다. 이 연구 는 데이터 기반의 객관적인 기술 탐색과 미래 예측을 통한 선제적 R&D 전략 수립의 기틀을 마련하고 급변하는 기술 환경에서 효과적인 R&D 전략 수립을 위한 이론적 토대를 제공할 수 있을 것으로 기대된다.



    Korea Agency for Infrastructure Technology Advancement

    Ⅰ. 연구의 배경 및 목적

    최근 모빌리티(mobility) 산업은 전자제품화, 인공지능(artificial intelligence, AI), 커넥티비티(connectivity), 공 유경제와 같은 기술 및 개념의 전례 없는 융합으로 기존의 패러다임과 궤를 달리해가고 있다. 이러한 패러다 임의 변화 속에서 민간기업, 정부연구기관 및 정책결정자들이 미래에 성장률이 폭발적일 것으로 기대되는 기술을 미리 예측하여 연구개발을 지체없이 시작하는 것이 매우 중요한 상황이다. 하지만, 기존 전통적인 기 술 트렌드(trend) 분석 방법은 주로 소수의 전문가의 의견이나 정성적 컨설팅 의견에 의존해 왔으며, 전문가 와 분석자의 주관이 개입될 여지가 크고 개인의 인식의 범위를 벗어나는 기술 등을 놓칠 수 있다는 본질적 인 단점이 있다.

    이러한 본질적 단점의 극복을 위해서 계량적 기술 트렌드 분석 방법론을 차용해야 하는 상황이다. 이러한 상황에서, 신규 과학과 기술의 발견 및 개념이 가장 먼저 발표되는 원천 데이터인 학술문헌의 서지분석 (bibliographic analysis)은 기술의 성장과 점유율을 분석 및 예측하는 기본적인 방법론으로 생각해 볼 수 있다 (Daim et al., 2005). 다만, 기술분야가 초미세화 되고 학술문헌의 개수 및 토픽(topic)이 기하급수적으로 증가 하면서, 수백만 건에 달하는 학술문헌을 인간이 검토하고 트렌드를 분석하는 것은 불가능한 상황이 되었다. 따라서, 방대한 학술문헌 데이터의 채굴, 클러스터링, 트렌드 평가까지의 분석 일주기를 자동으로, 재현가능 하게, 확장가능토록 하는 기술 트렌드 분석방법론 개발이 필요한 상황이다.

    특히 지능형 교통체계(intelligent transport system, ITS) 및 모빌리티 분야는 기계공학, 전자공학, 통신공학, 교통공학이 복잡하게 융합된 대표적인 학제간 영역으로(Kaewunruen et al., 2016), ‘traffic’이 데이터 트래픽을 의미하는지 도로교통을 의미하는지, ‘network’가 통신망인지 도로망인지 구분하기 어려운 용어의 중의성 문 제가 타 분야보다 심각하게 나타난다. 실제로 ITS 및 모빌리티 관련 용어는 의미론적으로 매우 일반적이어 서 대규모 데이터셋에서 다양한 맥락으로 해석될 수 있으며, 이는 연구 문헌의 체계적 분류에 있어 주요한 장애요인으로 작용한다(Putri, 2021). 기존의 키워드 빈도 분석이나 전통적인 latent dirichlet allocation(LDA) 토 픽 모델링은 단어의 동시 출현 패턴만을 포착할 뿐 문맥적 의미를 파악하지 못하여, 모빌리티 분야의 이질적 기술들의 분리와 융합기술의 출현을 감지하는 데 한계가 있다(Lee and Kim, 2024).

    본 연구는 이러한 모빌리티 분야 특유의 방법론적 난제를 해결하기 위해, 문맥을 깊이 이해하는 bidirectional encoder representations from transformers(BERT) 기반 임베딩 기술을 적용함으로써 용어의 중의성을 해소하여, 이질적인 기술군 속에서도 의미론적으로 정확한 기술 토픽을 자동 분류할 수 있는 모빌리티 분야에 특화된 분석 체계를 구축하였다는 점에 그 의의가 있다. 또한, 본 연구에서 수행되는 미래 예측은 완전히 새로운 ‘무 (無)에서의 발견’이 아니라, 학술 문헌에 이미 등장하기 시작한 태동기 기술적 개념들의 성장 잠재력을 정량화 하는 것을 목표로 한다. 학술 문헌은 기술이 특허 출원이나 상용화에 앞서 연구자들에 의해 개념이 처음 정립 되는 단계에서 가장 먼저 신호가 포착되는 선행 지표로서의 특성을 지니므로(Daim et al., 2005), 본 연구의 분 석 결과는 아직 산업 표준으로 자리 잡지 못한 선행 기술의 싹을 조기에 식별하여 선제적 R&D 투자 우선순위 를 결정하는 객관적 근거로 활용될 수 있다.

    구체적으로 모빌리티 분야의 기술 트렌드 분석을 위해 3단계로 이루어진 방법론을 제안하고자 한다. 첫째, OpenAlex 전체 연도 논문서지 발굴과 데이터 전처리, 거대언어모형(large language model, LLM)을 통한 모빌리 티 분야 키워드 추출 및 해당 키워드와 관련된 서지정보의 자연어처리(natural language processing, NLP)를 통한 추출. 둘째, 추출된 서지정보(초록)들의 벡터화 임베딩(sentence-transformers), 차원축소(uniform manifold approximation and projection, UMAP) 및 클러스터링(hierarchical density-based spatial clustering of applications with noise, HDBSCAN)의 머신러닝 기법들을 통한 트렌드분석의 대상이 될 기술 토픽 생성. 셋째, 시계열 데이터 기반 미 래 예측모델(Prophet)을 통해 미래성장 잠재력을 예측하여 경영전략 프레임워크인 Boston Consulting Group (BCG) 매트릭스를 응용한 기술트렌드 분류의 체계적인 프로세스로 나뉜다.

    본 연구의 방법론 개발을 위해 사용된 프로그램 코드 등 기술적 구현 세부사항보다는 각 분석 단계별 방 법론과 예시의 결과에 초점을 맞춰 기술할 것이며, 급변하는 패러다임의 변화에서 혁신적인 미래 기술 아이 템을 정량적으로 예측할 수 있는 이론적 토대를 마련하는 데 도움이 될 것으로 기대된다.

    Ⅱ. 이론적 배경 및 선행 연구 고찰

    1. 계량서지학 기반의 기술 트렌드 분석

    계량서지학(Bibliometrics)은 학술문헌의 서지정보를 수학적, 통계적 방법으로 분석하여 특정 연구분야의 구조와 관계를 정량적으로 규명하는 학문이다(Donohue, 1972;Pritchard, 1969). 또한, 단순 문헌요약과 같은 전통적 방식과 달리 현대에는 인용관계, 저자정보, 키워드 출현빈도 등의 데이터를 활용한 분야별 거시적 기 술지도를 그려내기도 한다(Wallin, 2005).

    계량서지학의 핵심적인 응용분야로는 ‘연구동향 파악’, ‘영향력있는 연구자와 기관 식별’, ‘네트워크 분석’ 등이 있으며(Donohue, 1972;Godin, 2006), 키워드 출연빈도 및 인용 네트워크 탐지를 통해 트렌디한 기술 분 야를 식별할 수 있다. 이러한 계량서지학 응용 방법론들은 R&D 전략 수립, 연구비 효과성 분석, R&D 정책 방향 설정에 근거자료가 되며(Godin, 2006), 특히 기술경영분야에서는 특허 및 논문의 계량 서지분석을 통해 실제 사업화가 가능한 기술 기회(technology opportunity)를 포착하는 데 사용되고 있다(Hu et al., 2024).

    2. 학술 문헌의 선행 지표로서의 가치와 기술 예측에서의 역할

    기술 트렌드 예측에서 학술 문헌 데이터를 사용하는 것에 대한 당위성은 학술 논문이 ‘기술혁신 주기’에 서 어떤 시점에 등장하는가에 달려 있다. 실증 연구에 따르면 학술 연구는 제품 상용화에 평균 7년 정도 선 행하며, 산업 혁신의 중요한 기반이 되어왔다(Mansfield, 1998). 최근에는 지식집약적 기술 분야를 중심으로 과학 연구와 기술 개발 간 연계가 더욱 긴밀해지는 추세를 보이고 있으며(Ahmadpoor and Jones, 2017), 특히 기계학습이나 인공지능 분야에서는 연구자들이 arXiv 등의 프리프린트 서버를 통해 논문을 먼저 공개하고, 이후 기업들이 이를 상용화하는 패턴이 일반화되었다(Berg et al., 2016).

    이러한 현상은 현대 모빌리티 R&D 분야에서 더욱 두드러진다. 모빌리티 기술 혁신의 핵심인 자율주행, V2X 통신, mobility as a service(MaaS), 딥러닝 기반 교통 예측 등은 물리적 제품보다 알고리즘과 개념의 혁 신이 선행되는 특성을 지니기 때문이다. 예를 들어, 자율주행의 핵심 기술인 you only look once(YOLO) 객체 탐지 알고리즘은 2016년 학술 논문(Redmon et al., 2016)으로 처음 발표된 후, Tesla, Waymo 등 주요 자율주행 기업들이 1~2년 내에 해당 논문의 아이디어를 참조하여 실제 시스템에 적용하였다. 이는 모빌리티 분야에서 학술 문헌이 단순히 연구 성과를 기록하는 것을 넘어, 미래 기술 방향을 파악하는 선행 지표로 활용될 수 있 음을 보여준다.

    따라서 본 연구에서는 학술 문헌 데이터를 기반으로 ‘완성된 기술’을 단순 시계열적으로 추적하는 것이 아니라, ‘기술적 역량의 축적’ 및 ‘연구 커뮤니티의 지식 창출’ 방향성을 조기에 감지하는 것을 목표로 한다. 이는 정부 R&D 기획 관점에서 특히 중요한데, 민간기업이 시장 수요를 확인하고 상용화 가능성을 판단하기 이전 단계에서 공공 부문이 선제적으로 기초·원천 연구에 투자함으로써 국가 기술 경쟁력의 기반을 마련할 수 있기 때문이다(Mowery, 2012). 학술문헌 분석을 통해 도출된 부상(emerging) 기술군은 아직 시장 수요가 명확하지 않더라도 기술적 가능성이 학술적으로 입증되기 시작한 영역이므로, 장기적 R&D 포트폴리오 구성 시 투자 우선순위를 설정하는 데 객관적 근거로 활용될 수 있다.

    3. 개방형 학술 데이터베이스: OpenAlex

    계량서지학 분석의 품질과 신뢰성은 분석의 대상이 되는 데이터의 포괄성 및 접근성에 깊은 관련이 있다. 과거에는 분석에 Scopus나 Web of Science 등의 유료 구독형 데이터베이스를 많이 사용했으나, 고비용과 접 근성의 한계가 대규모 계량 컴퓨팅 분석에 큰 장벽이 되었다(Pranckute, 2021). 장벽을 무너뜨리고자 연구 DB 의 투명성, 접근성, 형평성을 강조하는 ‘오픈사이언스(Open Science)’ 운동이 확산되었고, 신규 데이터 인프라 가 탄생하게 되었다.

    오픈사이언스 기조에 힘입어 OpenAlex는 마이크로소프트 아카데믹 그래프(microsoft academic graph, MAG) 의 계보를 잇는 프로젝트로 2022년에 출범했다(Priem et al., 2022). OpenAlex는 2억5천만 건 이상의 학술문헌 의 초록 등 서지정보를 무료로 제공하고 있으며, 연구목적으로는 모든 데이터를 무료로 사용할 수 있다. 또 한, API 및 다운로드 플랫폼을 제공하여 연구자들이 2억5천만 건의 데이터를 쉽고 빠르게 수집할 수 있도록 지원한다. Scopus나 Web of Science는 영향력이 높은 학술지의 학술문헌에 데이터가 집중되어 있는 반면, OpenAlex는 연구성과를 더욱 포괄적으로 포함하고 벌크(bulk)형태로 무료제공하여 개인연구자에게 대규모 계량서지 분석을 가능하게 해주었다(Priem et al., 2022). 주요 특징들의 비교는 <Table1>에 정리하였다.

    <Table 1>

    Comparison of features between major bibliographic databases

    Features OpenAlex Scopus Web of Science
    Data coverage Over 250 million items, includes non-English/global research Focused on selected high-quality journals, English-language bias Focused on selected high-quality journals, English-language bias
    Accessibility Free, provides open API Subscription-based Subscription-based
    License Open Restrictive Restrictive
    Main use cases Large-scale computational analysis, AI-based research Traditional literature search, Bibliometric analysis of selected data Citation analysis focused on core journals
    Limitations Requires API utilization skills, Potential for data quality variation High cost, access barriers, Low comprehensiveness High cost, access barriers, Low comprehensiveness

    OpenAlex의 단점으로는 방대한 데이터를 포함하는 만큼 데이터 정제성, 품질 일관성에 대한 상대적인 문 제가 있으며, 대량의 데이터를 API를 통해 다운받아 개인 프로그램으로 해석해야 하는 사용자 친화적이지 않은 문제가 있다. 그럼에도 불구하고 대규모의 포괄적인 데이터를 용량 제한없이 무료로 사용한다는 점이 본 연구에서 데이터베이스 소스로 차용한 까닭이며, 아래 <Table 1>에서는 주요 서지정보 데이터베이스들 간 특징을 비교하여 OpenAlex의 효과성을 보여주고 있다.

    4. 심층신경망을 이용한 토픽 모델링: BERTopic

    토픽 모델링(Topic modeling)이란 정형화되지 않은 텍스트 데이터 집합 내에서 잠재된 주제(토픽)를 자동 으로 발견하기 위해 고안된 비지도적(unsupervised) 학습 기법이다(Grootendorst, 2022). 전통적으로는 LDA와 같은 모델이 사용되어 왔고, LDA는 주어진 문서집합에서 숨겨진 토픽을 찾기 위해 단어들의 동시 등장 빈 도를 통계적으로 분석했다(Blei et al., 2003). 그러나 LDA는 단어의 순서나 글 전체의 문맥을 고려하지 않고 ‘단어 주머니(bag-of-words)’ 확률분포 개념으로 동작하기 때문에, 미묘한 단어의 의미 차이를 포착할 수 없고 분석자가 토픽의 수를 사전에 정하는 등의 한계점이 있다(Lee and Kim, 2024).

    이러한 한계극복을 위해 최근에는 BERT라는 사전훈련된 언어모델을 사용하는 심층신경망 토픽 모델링 기법이 각광받고 있다. 그중에서도 BERTopic이라는 학습기법은 글 전체의 문맥을 이해하여 토픽을 찾아내는 뛰어난 방식으로 인정받고 있으며, BERTopic의 기술적 동작 절차는 4단계로 구성된다(Grootendorst, 2022).

    첫째, 문서 임베딩(document embedding). 각 학술문헌의 텍스트(초록 또는 제목)를 sentence-transformer라는 사전훈련 언어모델 및 심층신경망을 사용하는 모델을 통해 학습시켜 고차원의 숫자 벡터(임베딩)로 변환한 다. 텍스트가 가진 문맥의 의미를 768차원 또는 384차원 등으로 벡터공간에 최대한 풍부하게 표현하는 작업 이다.

    둘째, 차원 축소(dimensionality reduction). 고차원 임베딩 벡터는 계산비용이 매우 크고 고차원에서는 클러 스터링이 용이하지 않기 때문에, UMAP과 같은 문맥 및 의미 구조는 최대한 보존하면서 저차원의 벡터로 압 축하는 방식을 차용한다(McInnes et al., 2018).

    셋째, 클러스터링(clustering). 차원축소된 벡터들을 HDBSCAN 알고리즘을 사용하여 유사한 의미를 가진 문서들을 군집화한다. HDBSCAN은 밀도 기반 군집화로 군집의 개수를 자동으로 결정하며, 노이즈를 효과적 으로 처리하는 강점을 가지고 있다(Campello et al., 2013).

    넷째, 토픽 표현(topic representation): HDBSCAN를 통해 군집화된 토픽을 가장 잘 설명할 수 있는 키워드를 추출하기 위해 토픽에 속한 문서의 텍스트들을 class-based Term Frequency-Inverse Document Frequency(c-TF-IDF) 라는 알고리즘에 산입하여, 각각의 토픽을 직관적으로 잘 설명할 수 있는 키워드들을 얻는다(Grootendorst, 2022).

    BERTopic을 활용한 접근 방식은 기존 전통적인 계량서지학이 키워드나 인용횟수를 계산하던 행태에서 벗 어나, 문헌의 문맥을 기반으로 이해할 수 있게 한다. 단순히 높은 빈도로 발생하는 키워드 포착을 통한 군집 화하기보다, 논문 간 개념 및 주제 분석을 통해 군집화하는 접근 방식이 본질적인 토픽을 포착하는데 도움이 될 것이다.

    5. 융복합 기술 분야 분석을 위한 광범위 범주 설정의 필요성

    기술 트렌드 분석에서 분석 범위를 어떻게 설정하느냐에 따라 분석 결과의 타당성과 유용성이 좌우된다. 전통적 기술분류 체계는 분석의 대상이 되는 기술 도메인을 좁게 정의함으로써 분석 정확성을 확보하고자 했으나(Daim et al., 2006), 기술 융합이 가속화되는 현재 상황에서는 이러한 접근이 한계를 보인다.

    기술 융합이란 여러 기술 분야가 상호작용하며 새로운 기술 패러다임이 추가 창출되는 현상을 의미하며, 특히 ITS 및 모빌리티 분야는 기계공학, 전자공학, 통신공학, 컴퓨터과학, 교통공학 등이 복잡하게 얽힌 대표 적인 융복합 도메인이다. Curran and Leker(2011)는 나노기술, 바이오기술, 정보통신기술 간 융합 패턴을 특허 분석을 통해 연구했고, 혁신기술일수록 기존 기술 분류의 경계를 넘나들며 출현하는 경향이 있음을 밝혔다. 만약 분석자가 특정 좁은 범주(예: ‘차량 제어 시스템’)로만 분석 범위를 한정할 경우, 인접 분야(예: ‘컴퓨터 비전’, ‘5G 통신’)에서 유입되는 파괴적 혁신의 신호를 포착하지 못하는 맹점이 발생할 수 있을 것이다.

    현대의 기술 융복합이 가속화되는 환경에서, ITS 및 모빌리티 분야의 고유특성을 고려할 때 광범위 범주 설정의 필요성은 더욱 높아진다. 첫째, 모빌리티 분야는 단일 기술 영역이 아닌 다수의 이질적 기술 영역이 교차하는 ‘기술 교차점’의 특성을 지닌다. 예를 들어, 자율주행차 한 대를 구현하기 위해서는 센서 기술(LiDAR, 카메라), 인공지능(딥러닝 알고리즘), 통신 기술(V2X), 제어 공학(차량 동역학), 지도 정보(simultaneous localization and mapping, SLAM) 등 최소 5개 이상의 서로 다른 학문 분야의 기술이 복합적으로 요구된다. 만약 ‘자율주행’을 사전에 좁게 정의된 하나의 기술 범주로만 한정하여 분석한다면, 이러한 융합의 역동성과 각 기술 요소 간 상호작용을 포착할 수 없게 된다.

    둘째, Curran and Leker(2011)는 융복합 기술 탐지를 위해서는 의도적으로 광범위한 초기 범주 설정 후, 텍 스트 마이닝 및 클러스터링 기법을 통해 이질적인 기술들을 의미론적으로 재구조화하는 전략이 효과적임을 제안했다. 본 연구는 ‘모빌리티’라는 초광범위 범주로 출발하여 144만여 건의 이질적인 서지정보를 수집한 후, BERT 기반 문맥 임베딩과 HDBSCAN 밀도 기반 클러스터링을 통해 이들을 798개의 세분화된 기술 토픽 으로 자동 분리한다. 이러한 접근법의 핵심은 ‘혼재된 데이터 속에서 패턴을 발견하는 능력’에 있으며, 이는 전문가가 사전에 정의한 좁은 범주로는 포착할 수 없는 융합 기술의 출현을 조기에 감지할 수 있게 한다.

    셋째, 광범위 범주 설정은 용어의 중의성 문제 해결에 유리하다. 앞서 언급했듯이 ITS 및 모빌리티 분야에 서는 ‘traffic’이 ‘도로 교통량’ 또는 ‘네트워크 데이터 트래픽’을, ‘network’는 ‘통신망’ 또는 ‘도로망’을 동시에 의미하는 등 용어가 의미론적으로 매우 일반적이어서 다양한 맥락으로 해석될 수 있다(Nikitas et al., 2020;Putri, 2021). 만약 좁은 범주로 사전 필터링을 수행할 경우, 이러한 중의적 용어가 포함된 문헌들이 키워드 매칭 단계에서 일괄적으로 포함되거나 배제되어 오분류 될 위험이 크다. 반면, 광범위 범주로 모든 잠재적 관련 문헌을 수집한 후 문맥 기반 클러스터링을 통해 사후 분류하는 방식을 사용하면 동일 용어지만 사용된 맥락에 따라 다른 토픽으로 정확히 분리될 수 있게 될 것이다.

    결론적으로, 본 연구에서 ‘모빌리티’라는 광범위 범주 설정은 융복합 기술 환경에서 이질적 기술 간 상호 작용을 포착하고, 인간이 예측하기 어려운 혁신의 신호를 조기에 감지하며, 용어의 중의성에 따른 오분류를 최소화하기 위한 방법론적 의의가 있다.

    Ⅲ. 기술 트렌드 분석 방법론 개발

    본 연구에서 제안하는 모빌리티 기술 트렌드 분석 방법론은 총 세 개의 단계로 구성된다. 제3자의 방법론 재현을 위해 각 단계는 진행순서에 따라 설정되었으며, 이전 단계의 산출 데이터가 다음 단계의 입력 데이터 로 활용되는 유기적 구조를 가진다.

    1. 데이터 수집 및 모빌리티 분야 필터링

    첫째, 수집 및 분석범위 정의. OpenAlex에서 제공하는 초기 2.4TB(약 2.5억개의 서지정보)에 달하는 전체 논문 서지 데이터를 전용 클라이언트를 통해 다운로드한 후, Python 스크립트를 활용하여 분석 범위 (2015-2025년)와 작성언어(영어) 기준에 따라 불필요한 데이터를 선별적으로 제거 및 저장공간을 획기적으로 줄여 분석 정확성과 효율성을 높이는 정제된 초기 데이터셋을 확보한다. 특히, 분석범위를 최근 10년으로 설 정한 것은, 기술의 도입, 성장, 쇠퇴를 아우르는 전체 수명 주기(technology life cycle)를 관찰하고 미래 동향을 예측하는데 10년 이내의 분석기간은 유의미한 분석단위이기 때문이며(Lee et al., 2009), 분석 대상 언어를 영 어로 한정한 것은 영문데이터가 가장 보편적으로 전 세계 트렌드를 담고 있으면서(Tardy, 2004), 최신 토픽 모델링 기법인 BERTopic의 분석성능을 최대로 활용하기 위함이다(Grootendorst, 2022).

    둘째, 관심분야 필터링. 모빌리티 분야 내에서 데이터셋을 구축하기 위해, 2.5억개의 OpenAlex 학술문헌 서지정보 각각이 할당된 4,500개의 주제에 집중하여 필터링 파이프라인을 설계한다. 첫 단계로 ‘모빌리티’ 분야의 의미적 범위 정의를 위해 총 51개의 핵심 키워드로 구성된 리스트를 LLM(Gemini 사용)을 통해 생성 하였으며, <Table 2>에 리스트를 정리하였다. LLM을 통한 대중교통, 물류부터 자율주행차, 마이크로모빌리 티까지 포괄하는 키워드 리스트 도출과 같은 방식은 특정 분야의 어휘집 또는 온톨로지를 구축하는데 최근 많이 사용되는 기법이다(Du et al., 2024).

    <Table 2>

    List of keywords about ‘mobility’ derived through LLM

    Category List of keywords
    Basic mobility concepts ‘Mobility', ‘Transportation', ‘Traffic', ‘Transit', ‘Commute'
    Means of transportation ‘Vehicle', ‘Automobile', ‘Car', ‘Bus', ‘Coach', ‘Train', ‘Railway', ‘Subway', ‘Metro', ‘Bicycle', ‘Bike', ‘Scooter', ‘e-scooter', ‘Aircraft', ‘Airplane', ‘Maritime', ‘Ship', ‘Ferry',
    Shared mobility ‘Ride-sharing', ‘Carpooling', ‘Carsharing', ‘Bike-sharing', ‘Mobility as a Service', ‘MaaS', ‘Ride-hailing', ‘Logistics', ‘Delivery', ‘Public transport'
    Advanced mobility ‘Autonomous vehicle', ‘Self-driving car', ‘Electric vehicle', ‘EV', ‘Connected car', ‘Intelligent Transport Systems', ‘ITS', ‘Navigation', ‘GPS', ‘Infrastructure', ‘Road', ‘Highway', ‘Charging station', ‘Urban Air Mobility', ‘UAM',
    Sustainability and new concepts ‘Sustainable mobility', ‘Micromobility', ‘Last-mile mobility'

    키워드 생성 후에는 BERT모델 중 sentence-transformers모델을 사용하여 2억5천만 개의 서지정보가 속해있 는 4,500개의 주제군(OpenAlex에서는 각각의 서지정보 당 최대 3개의 주제군의 정보를 포함)의 제목을 모두 고차원 벡터 임베딩으로 변환한다. 각 주제군의 모빌리티 키워드 리스트와의 계량적 관련성은 해당 주제군 의 벡터와 전체 키워드 벡터 집합 간의 코사인 유사도로 계산한다. 만약 특정 주제군이 키워드 리스트 중 어 느 하나라도 코사인 유사도가 사전에 정의된 임계값(similarity threshold)을 초과하는 경우 모빌리티 분야에 관련된 토픽으로 판단하게 되는데 본 연구에서는 시행착오를 거쳐 0.45의 임계값으로 실험했으나 이는 데이 터와 관심분야 및 연구목적에 따라 달라질 수 있으므로 추후 재현 시 시행착오를 거쳐 임계값을 추출해야 한다(Yang et al., 2020). 본 연구에서는 0.45 임계값 설정으로 42개의 모빌리티 관련 주제군이 도출되었으며, 그 결과는 <Table 3>에 정리하였다.. 이러한 접근법은 주제군이 모빌리티의 핵심개념 중 어느 하나라도 깊은 관련이 있을 때만 포함되도록 보장하며, 주제군과 모빌리티 분야의 강력한 관련성을 보장한다.

    <Table 3>

    List of automatically extracted topics when threshold value is set to 0.45

    List of topics related to mobility
    1 Analysis of traffic safety and driver behavior
    2 Urban transport and accessibility
    3 Advanced combustion engine technologies
    4 Indoor and outdoor localization technologies
    5 Transportation planning and optimization
    6 Electric motor design and analysis
    7 Network traffic and congestion control
    8 Electric vehicles and infrastructure
    9 Vehicle routing optimization methods
    10 Traffic control and management
    11 Spatial cognition and navigation
    12 Vehicular ad hoc networks (VANETs)
    13 Energy, environment, and transportation policies
    14 Human mobility and location-based analysis
    15 Transportation and mobility innovations
    16 Autonomous vehicle technology and safety
    17 Railway engineering and dynamics
    18 Vehicle dynamics and control systems
    19 Aviation industry analysis and trends
    20 Electric and hybrid vehicle technologies
    21 Urban and freight transport logistics
    22 Air traffic management and optimization
    23 Aerospace engineering and control systems
    24 Advanced aircraft design and technologies
    25 Aerospace and aviation technology
    26 Railway systems and energy efficiency
    27 Law, logistics, and international trade
    28 International law and aviation
    29 Smart parking systems research
    30 Transport and economic policies
    31 Global urban networks and dynamics
    32 Transport systems and technology
    33 IoT and GPS-based vehicle safety systems
    34 Urban transport systems analysis
    35 Transport and logistics innovations
    36 Transportation systems and logistics
    37 Transportation and logistics systems
    38 Transportation systems and safety
    39 Transportation systems and infrastructure
    40 Railway systems and materials science
    41 Economic systems and logistics management
    42 Energy and environmental sustainability

    셋째, 데이터 전처리. 추출된 42개의 주제군에 속하는 서지정보를 필터링하기 위해 각 서지정보가 속한 주 제군(서지정보 당 최대 3개 주제군 포함) 중 하나라도 42개 주제군 리스트에 들어있지 않다면 삭제하여, 총 2.5억 여 개의 서지정보를 144만 여 개로 압축하였다. 144만 여 개의 서지정보를 최종 ‘분석대상 데이터’로 변환하기 위해, 서지정보 별 주요 column들을 구획하고 초록(abstract) 또는 초록이 없는 경우 논문제목을 추 후 clustering의 기반이 되는 column으로 사용한다. OpenAlex에서 초록은 저장용량의 한계로 인하여 문장의 형태가 아닌 ‘abstract inverted index’라는 방식으로 저장되어, 분석을 위해서는 일반문장 형태로 변환시켜야 한다. ‘분석대상 데이터’의 주요 열은 <Table 4>에 정리하였다.

    <Table 4>

    Key columns of `target data`

    Column Name Column Content (Example)
    Doc_id (string) "https://openalex.org/W..."
    Doc_title (string) "The Capacitated Multiple..."
    publication_year (int) 2021
    type (string) "article"
    first_author_id (string) "https://openalex.org/W..."
    first_author_name (string) "Mohammad Reza Shahraki"
    institution_id (string) "https://openalex.org/W..."
    institution_name (string) ""University of Sistan and Baluchestan"
    institution_country (string) "IR"
    title_or_abstract (string) "Facility location is a factor of....“

    2. 계층적 토픽 모델링

    앞서 정제된 데이터를 BERTopic 학습기법을 활용하여 분석에 의미가 있는 기술 토픽을 추출하고, 토픽들 을 계층 단위로 구조화하여 트렌드 분석의 기반이 될 토픽정보를 구획한다. 계층적 토픽 모델링은 3개의 단 계로 나눠진다. 첫째, 기초 토픽 발견 및 최적화에서는 144만 여 건의 주요 서지정보로부터 의미 단위로 세 분화된 토픽들을 생성, 최상의 토픽 구획을 위해 하이퍼파라미터의 최적화 과정을 포함한다. 둘째, 반복 집 계를 통한 계층 구축에서는 최적화된 기초 토픽들을 클러스터링하여 하위 카테고리(sub-category)를, 도출된 하위 카테고리들을 클러스터링하여 카테고리(category)를, 최종적으로 카테고리들을 클러스터링하여 영역 (area)을 다단계로 구축한다. 셋째, LLM을 활용한 의미론적 레이블링에서는 구축된 모든 계층구조의 요소들 (영역, 카테고리, 하위 카테고리, 토픽)에 사람이 이해가능한 자연어 제목을 붙인다. 이러한 과정을 좀 더 상 세히 설명하면 다음과 같다.

    첫째, 기초 토픽 발견 및 최적화. 이전 작업에서 구축된 144만 여 개의 정보를 효율적으로 클러스터링하기 에는 ‘PARQUET’이라는 데이터프레임 형식으로 변환이 필요하다. ‘PARQUET’ 형식은 column 기반 저장소 형식으로 대용량 데이터셋에서 특정 column만 필요할 경우 CSV 및 JSON 등의 일반 데이터형식보다 입출력 연산에서 탁월한 성능을 보여준다(Plase et al., 2017). ‘PARQUET’ 형식으로 전환된 데이터셋에서 초록 또는 제목이 할당된 ‘title_or_abstract’ column을 활용하여 문장기반 클러스터링에 최적화된 BERTopic기법 중 sentence- transformers모델로 후속 클러스터링 작업에 적합한 고품질 수치 벡터로 빠르고 효율적으로 변환한 다. 본 연구에서는 슈퍼컴퓨터 등의 고사양 컴퓨팅 사용이 제한적임에 따라 sentence-transformers 모델 옵션 중 GPU 성능을 최대로 활용하면서 의미론적 유사도 측정에서 강력한 성능을 보여주는 ‘all-MiniLM-L6-v2’ 모델 옵션을 사용하여, 대규모 데이터(144만 여 개) 각각에 대한 384차원 숫자목록(벡터)를 만든다(Yin and Zhang, 2024). 해당 벡터들은 추후 UMAP, HDBSCAN 등의 클러스터링 계산 모델에 사용되며, 벡터들의 예시 를 <Table 5>에 정리하였다.

    <Table 5>

    Example of vector transformation using `sentence-transformer`

    Example of vector transformation Explanation
    [ 0.12, -0.45, 0.88,..., 0.34] The 384-dimensional numerical vector of the first document
    [ 0.56, 0.11, -0.23,..., -0.76] The 384-dimensional numerical vector of the second document
    ・・・・・・・・・・・・ ・・・・・・・・・・・・
    [ 0.91, -0.05, 0.42,..., 0.19] The 384-dimensional numerical vector of the final document

    앞서 설명한 BERTopic기법의 차원축소를 위한 UMAP과 클러스터링을 위한 HDBSCAN모델들을 순차적으 로 수행하는데, 모델의 설정을 어떻게 하느냐에 따라 최종적으로 생성되는 토픽의 품질, 개수, 크기가 크게 달라진다. 따라서, 클러스터링 전에 설정값(하이퍼파라미터)들을 데이터에 맞게 최적화하는 과정이 필수적이 다. 클러스터링 과정에서 토픽에 소속되지 못하는 문서들을 최소화하면서 토픽 간 의미론적 경계를 강화하 는 하이퍼파라미터를 기존 연구 레퍼런스에서 추천한 수치 이내에서 시행착오를 거쳐 연구목적에 맞게 찾아 내야 하며, 그 결과를 <Table 6> 및 <Table 7>에 정리하였다. 이러한 파라미터 최적화 결과를 통해 클러스터 링을 수행한 결과 798개의 의미론적 배경을 공유하는 토픽이 생성되었다.

    <Table 6>

    Recommended UMAP parameter values and applied values in this study

    출처 : Mclnnes et al.(2018), Becht et al.(2019)

    Parameters Explanation Recommended Value AppliedValue
    n_neighbors Determines how globally or locally UMAP views the data structure. adjusts the balance between preserving local and global structure. 5-50 (Default: 15). Low values emphasize local structure, high values emphasize global structure. 50
    min_dist The minimum distance between points in the low-dimensional embedding space. Controls the visual density of clusters. 0.0-0.5 (Default: 0.1). Low values lead to dense clusters, high values encourage uniform distribution. 0.0
    metric The metric used to measure distance between points in the high-dimensional space. Select carefully depending on the data type. Euclidean (for dense numerical data). Cosine (for high-dimensional text data) Cosine
    n_components The number of dimensions of the resulting embedding. For visualization: 2-3. For clustering: 5-10 5
    <Table 7>

    Recommended HDBSCAN parameter values and applied values in this study

    출처 : Mclnnes et al.(2017)

    Parameters Explanation Recommended Value Applied Value
    min_cluster_size The minimum number of points required to be considered a cluster.
    Controls the size and number of clusters.
    Default: 5. Varies based on data size and domain knowledge. 50-100 recommended for large-scale data. 50
    min_samples The number of neighbors used in estimating the local density of each point. Adjusts the conservatism of the clustering. Default: Same as min_cluster_size.
    Reduce if there are many outliers.
    5
    cluster_selection_method The method for selecting final clusters from the hierarchy. eom (Default): Selects the most stable clusters.
    leaf: Selects the most fine-grained (leaf) clusters.
    leaf

    둘째, 반복 집계를 통한 계층 구축. 본 연구에서는 대규모 텍스트 집합으로부터 798개의 대량의 세부 토픽 들이 추출되었으나, 추후 분석의 활용성 및 편의성을 감안하여 세부 토픽들을 의미론적으로 계층적 군집화 하는 ‘반복적 집계방식’을 적용한다. 이러한 bottom-up 접근방식은 연구자가 거시적 관점에서부터 미시적 관 점까지 다양하게 기술 트렌드를 탐색할 수 있게 한다(Ward Jr, 1963). 본 연구에서는, 기존 BERTopic기법의 임베딩과정 중 발생한 각 토픽의 임베딩 벡터를 사용하여 K-Means 클러스터링 기법을 통해 100개의 하위 카 테고리를 1차적으로 형성하였다. 이후, 생성된 각 하위 범주에 속한 토픽 벡터들의 평균을 산출하여 해당 범 주를 대표하는 중심 벡터(centroid)를 계산, 해당 중심 벡터들로 K-Means 클러스터링을 동일방식으로 적용하 여 20개의 카테고리 및 5개의 영역을 산출하였으며, 해당 내용을 <Fig. 1>에 도식화 하였다. 특히, 본 연구에 서는 ‘KMEANS_ INIT_OPTION’을 ‘random’으로 설정하였는데 이는 토픽 벡터들이 특정 영역에 밀집될 가능 성을 고려, 초기 중심점을 무작위로 설정하여 잠재적 군집 편향을 완화하기 위함이다. 실제 ‘KMEANS_INIT_OPTION’의 방식을 비교한 연구에 따르면, ‘random’ 방식은 균형잡힌 군집을 도출하면서도 결과의 강건성을 확보하는 효과적 방식이다(Pena et al., 1999).

    KITS-25-1-75_F1.jpg
    <Fig. 1>

    Conceptual diagram of hierarchy through repeated aggregation

    144만 여 개의 텍스트 정보의 계층화 당시 각 계층(토픽, 하위 카테고리, 카테고리, 영역) 요소 별로 c-TF-IDF 알고리즘을 통해 키워드를 10개 씩 산출하였다. c-TF-IDF는 특정 계층의 요소(예: 특정 하위 카테고 리)에 속한 모든 문서를 하나의 큰 문서로 보고 해당 계층의 다른 요소에서는 상대적으로 드물게 나타나면 서 분석 대상 요소에서는 중요한 키워드들을 산출하는 방식이다(Grootendorst, 2022). 계층 구축 이후 산출된 5개 영역 중 2개는 모빌리티와 연관이 없는 키워드로 구성된 것을 포착, 2개 영역에 소속된 카테고리 및 하 위 카테고리를 조사한 결과 모빌리티와 상관없는 ‘계약’, ‘국제 협약’과 관련된 서지정보 및 초록이 비정상적 으로 출력된 서지정보로 구성된 것이 확인되어 해당 영역 및 하위계층 모두 삭제 처리하였으며, 처리 결과는 <Table 8>과 같다. 이는 분석 대상 분야에 속하지 않는 ‘이상치(outlier)’가 클러스터링 된 계층집단으로 추후 본 연구를 다른 분야에 재현할 시 분석자의 직접 개입이 필요한 부분이다.

    <Table 8>

    Deleted hierarchical elements and keywords

    Representative keywords Sub-tier element number
    Deleteted `Area’ element
    Area_1 `construction’, `law’, `contracts’, `contract’, `contractor’, `building’, `legal’, `quarterly’, `payment’, `works’ 15
    Area_4 `copy’, `access’, `content’, `pdf’, `permalink’, `indefinitely’, `url’, `page’, `browser’, `download’ 14, 18
    Deleteted `Category’element
    Cat_15 `construction’, `law’, `contracts’, `contract’, `contractor’, `building’, `legal’, `quarterly’, `payment’, `employer’ 2
    Cat_14 `copy’, `access’, `content’, `pdf’, `permalink’, `indefinitely’, `url’, `page’, `browser’, `download’ 15, 33, 80
    Cat_18 ‘treaty’, `nations’, `charter’, `united’, `agreement’, `treaties’, `102’, `registered’, `international’, `secretarial’ 9

    셋째, LLM을 활용한 의미론적 레이블링. 앞서 사용된 계층 요소별 키워드를 바탕으로 LLM(Gemini 2.5 flash)을 통해 토픽 784건, 하위 카테고리 95건, 카테고리 17건, 영역 3건의 제목을 도출하였으며, 제목 도출의 예시는 <Table 9>에 정리하였다. LLM을 이용한 키워드 기반 제목 자동생성은 키워드 간 의미론적 관계를 깊 게 이해하고, 사람이 만든 것처럼 직관적 제목을 생성하는 데 매우 효과적이며(Mishra et al., 2021), 복잡한 계층 구조를 명확히 표현하는 이점이 있다. 다만, 완전 자동화된 알고리즘 기반 클러스터링과 LLM을 이용한 레이블링은 기술의미와 관련한 정합성 측면에서 일부 한계를 지닐 수 있다. 특히 토픽 경계가 모호하거나 이 질적인 문서가 소량 혼입된 경우, 알고리즘이 생성한 키워드와 LLM이 부여한 제목이 해당 토픽의 본질을 정확히 포착하지 못할 가능성이 존재한다. 실제로 본 연구에서도 자동 클러스터링 결과 생성된 5개 영역 중 2개(Area_1, Area_4)가 모빌리티와 무관한 내용으로 구성되어 삭제 처리하였다(<Table 8> 참조). 향후 본 방법 론의 정교화를 위해서는 알고리즘 산출물을 최종 결과가 아닌 전문가 검토를 위한 중간 산출물로 정의하고, 체계적인 검증 프로세스를 도입할 필요가 있다. 구체적으로는 1차 자동 클러스터링 및 LLM 레이블링 완료 후, 계층 요소별 대표 키워드와 문서 셈플을 해당 도메인의 전문가에게 제시하여 레이블의 타당성을 평가하 고, 명확히 오분류된 토픽을 수정하는 방식을 고려할 수 있다. 이러한 접근은 본 방법론의 효율성을 유지하 면서도 분석 결과의 정확성을 높일 수 있을 것이다.

    <Table 9>

    Excerpt from LLM-based semantic labeling

    `Area’ element Name
    Area_0 Vehicle traffic data modeling
    Area_2 Deep reinforcement learning algorithms
    Area_3 Electric vehicle energy control
    `Category’ element Name
    Cat_0 Railway bridge vibration analysis
    Cat_1 Carbon emissions and energy policy
    Cat_2 Unmanned aerial vehicle algorithms
    Cat_3 Road pavement performance analysis
    Cat_4 Diesel engine combustion and fuel
    `Sub-Category’ element Name
    Sub_Cat_0 Aviation industry emissions modeling
    Sub_Cat_1 Shared mobility and cycling
    Sub_Cat_3 Smart sustainable urban development
    Sub_Cat_4 Flight simulator motion cueing
    Sub_Cat_5 UAV ground delivery routing
    Sub_Cat_6 Traffic demand and routing
    Sub_Cat_7 Urban public transport accessibility
    Sub_Cat_77 Pedestrian vibration collision analysis
    Sub_Cat_78 EV battery charging converters
    `Topic’ element Name
    Topic_0 Economic growth and emissions
    Topic_1 Traveling salesman problem algorithms
    Topic_2 Crude oil price volatility
    Topic_25 Drone delivery mission planning
    Topic_26 Battery thermal management system
    Topic_27 Tire rolling contact friction
    Topic_29 Carbon tax and trading
    Topic_30 Deep learning object detection
    Topic_317 Aviation law and regulations
    Topic_318 LPG gas leakage detection
    Topic_319 V2G electric vehicle charging
    Topic_320 Weigh-in-Motion axle loads
    Topic_526 Bicycle sharing system
    Topic_527 Bike sharing demand prediction
    Topic_528 Ambulance service routing
    Topic_529 Way finding navigation and maps
    Topic_792 Regenerative braking for electric
    Topic_793 Multiagent airspace conflict resolution
    Topic_794 UAV obstacle avoidance DRL
    Topic_795 E-Voting security and privacy
    Topic_797 Vehicular pseudonymity and privacy

    3. 미래성장 잠재력 예측을 통한 기술 트렌드 분류

    본 방법론의 마지막 단계에서는 앞서 도출된 토픽들의 연도별 패턴 변화를 분석하고, 이를 통해 미래를 예측하며, 최종적으로는 R&D 전략 수립에 직관을 줄 수 있는 ‘기술 트렌드 분류’를 BCG 매트릭스를 변용한 분류체계 도입을 통해 자동으로 수행하게 된다. 전통적으로 BCG 매트릭스 분류의 두 축을 담당하는 ‘시장점 유율’, ‘미래 성장률’을 구하는 방식과 BCG 매트릭스를 변용한 분류체계 적용 방식을 순차적으로 열거한다.

    첫째, 시계열 데이터 구축. 미래 트렌드 예측의 기반이 되는 정량적 데이터 구축을 위해, 토픽 볼륨 (volume)과 토픽 점유율(share)를 계산한다. 토픽 볼륨은 각 토픽이 연도별로 몇 개의 문서를 포함하고 있는지 측정하며, 해당 토픽 및 분야의 연구활동 총량을 보여준다. 그러나 전체적 학술문헌의 수는 시간에 따라 자 연적 증가하며, 특정 토픽의 상대적인 트렌드를 포착하기에 어려운 측면이 있다(Lee and Kim, 2024). 따라서 토픽 볼륨을 점유율로 변환할 필요가 있으며, 각 토픽에 속한 논문 수를 특정 연도의 전체 논문 수로 나누는 방식으로 계산한다. 이는 각 토픽의 실질적인 영향력 변화(trend)를 명확히 포착하는 근거가 될 수 있으며 (Glänzel and Moed, 2002), ‘모빌리티’ 분야를 하나의 ‘시장(market)’이라고 볼 때 각 토픽이 차지하는 ‘시장 점 유율’로도 해석될 수 있어, 추후 언급할 BCG 매트릭스와의 연계 근거를 마련한다.

    둘째, Prophet 모델을 이용한 미래예측. 현재의 점유율 또는 단순한 과거 데이터의 연평균 증가율 (compound annual growth rate, CAGR) 등은 현재의 당연한 영향력을 보여줄 수는 있지만, 해당 토픽이 성장하 는지 정체되었는지 또는 쇠퇴하는지에 대한 정확한 패턴분석이 어렵고(Taylor and Letham, 2018), 이는 이미 성숙기를 지나 쇠퇴하고 있는 기술을 트렌디하다고 분석하는 우를 범할 수 있다. 이러한 관점에서 기술 생명 주기에서 빈번하게 발생하는 성장 둔화나 급증 같은 변곡점 패턴을 명확히 포착할 수 있는 Facebook(현 Meta)에서 개발한 Prophet 모델을 사용하여 미래 성장률을 예측한다. Prophet은 비선형적 추세를 기반으로 이 상치(outlier)나 결측치에 휘둘리지 않고, 급격한 추세 변화를 효과적으로 감지하는 데 특화된 장점이 있으며 (Taylor and Letham, 2018), 미래 주가예측, 기상예측 등 예측이 어려운 패턴을 가진 변수 예측에도 효용성을 입증한 연구들이 있다(Kim and Kim, 2021;Alshara, 2022). Prophet 모델 라이브러리를 사용하여 입력값으로 앞서 계산했던 각 토픽의 연도별 점유율(share) 시계열 데이터를 넣어 미래연도 토픽 점유율을 산출할 수 있 다. 다음과 같은 공식으로 미래 토픽 성장률(growth rate)를 산정하는데, “(2년 후 점유율 예측값 / 2025년 현 재 점유율) - 1”로 수식을 정의할 수 있다. 본 연구에서 예측 기간을 2년으로 설정한 것은, 새로운 기술 기획 과제가 발굴된 후 실제 R&D에 착수하기까지의 일반적인 소요기간을 고려한 것이며, 이는 기술 트렌드의 측 정 및 분류가 R&D 미래 전략 수립에 실질적 도움이 될 수 있도록 하기 위함이다.

    셋째, BCG 매트릭스의 변용. 본 연구에서는 기술 토픽의 트렌드를 분류하기 위해, 전통적으로 기업의 시 장 및 제품 포트폴리오 관리에 사용되던 BCG 성장률-점유율 매트릭스를 R&D 기술 트렌드 분석에 맞게 변 용하고자 하며, 이러한 변용은 이미 R&D 프로젝트 포트폴리오 관리 분야에서 유효하게 널리 사용되는 방식 이다(Korea Institute of S&T Evaluation and Planning, 2006). 앞서 언급하였듯이, BCG매트릭스의 두 축(시장 점 유율, 시장 성장률)을 <Table 10>과 같이 이전 단계에서 도출된 정량적 지표(토픽 점유율, 미래 토픽 성장률) 로 새롭게 설정하고, 이를 통해 기존 BCG 매트릭스가 현재 시점의 ‘스냅샷’ 분석에 머무른다는 한계점을 타 파할 수 있다.

    <Table 10>

    Adaptation of BCG matrix axes

    Axis division Traditional BCG matrix Adapted BCG matrix
    Vertical axis Market growth rate Future topic(technology) growth rate
    Horizontal axis Relative market share Relative topic(technology) share

    784건의 토픽 별 계산된 ‘토픽 점유율’과 ‘미래 토픽 성장률’을 백분위수로 변환 후 소속된 4분면에 따라 자동분류를 할 수 있다. ‘부상(emerging)기술’은 점유율은 낮지만 미래 성장률이 폭발적으로 증가하는 초기 기술로서 2사 분면에 해당하며 전통적 BCG의 question marks에 해당한다. ‘성장(growing)기술’은 현재 점유율 이 높으면서 미래 성장률도 꾸준히 증가하는 주류 기술로서 1사 분면에 해당하며 전통적 BCG의 star에 해당 하며, ‘성숙(mature)기술’은 현재 점유율이 높지만 미래 성장률 둔화되거나 정체되는 기술로서 4사 분면에 해 당하며 전통적 BCG의 cash cow에 해당한다. 마지막으로 ‘쇠퇴(declining)기술’은 점유율과 미래 성장률이 모 두 명확히 감소하는 기술로서 3사 분면에 해당하며 전통적 BCG의 dog에 해당하게 되며, 사분면에 대한 상 세 개념 설명은 <Table 11>에 정리하였다.

    <Table 11>

    Classification system of the adapted BCG matrix

    Relative topic share ≤ 50% Relative topic share > 50%
    Future topic growth rate >50% Emerging Technology
    • Characteristic: Research scale is small, but growth potential is very high

    • Strategy: Selective/exploratory investment needed to verify potential (e.g., pilot projects)

    Growing Technology
    • Characteristic: Research scale is large and growth trend is steep

    • Strategy: Core R&D area. Intensive and continuous investment needed to maintain technology leadership.

    Future topic growth rate ≤50% Declining Technology
    • Characteristic: Both research scale and growth rate are low

    • Strategy: Low investment priority. Minimize resource input and consider gradual withdrawal

    Mature Technology
    • Characteristic: Research scale is large, but growth has slowed

    • Strategy: Efficiency improvement, gradual investment focused on optimization

    BCG 변용 매트릭스 적용의 예시 도출을 위해 기술한 방법론대로 784건의 토픽을 4분면 데이터에 따라 자 동 분류하고, 많은 분야(항공, 물류, 철도 및 기타 분야 등)의 토픽들이 난립하는 이유로 이번 방법론 개발 연 구에서는 ‘도로교통’ 분야와 관련된 토픽들(302개의 토픽)만 필터링하여 선제적으로 분석하였다. 본 연구에 서 ‘부상기술’과 ‘성장기술’은 ‘미래 토픽 성장률’ 내림차순으로 정렬 후 상위 30개의 토픽을 각각 발췌했고, ‘쇠퇴기술’과 ‘성숙기술’은 ‘미래 토픽 성장률’ 오름차순으로 정렬 후 상위 30개의 토픽을 각각 발췌하였다.

    ‘부상기술’은 방법론의 의도와 같이 ‘지능형 차량 이해 상충’, ‘다중 로봇 경로 찾기 문제’, ‘차량 플래투닝 에 대한 사이버 공격’, ‘보안 블록체인 기반 EV충전’, ‘무인 운반차 경로계획’ 등 자율주행, IoT관련 혁신기술 이 다수 포함되어 있었으나, ‘하프카 서스펜션 컨트롤러 설계’와 ‘고카트 섀시 디자인’ 등 ‘부상기술’로 미처 생각하지 못한 토픽들도 포함되었다. 이 경우는 전문가 사각의 토픽을 정량적으로 도출한 결과로 추정할 수 있는데, ‘하프카 서스펜션 컨트롤러 설계’의 경우 자율주행 및 첨단 운전자 지원 시스템(advanced driver assistance systems, ADAS) 기술 발전에 따른 주행안정감 향상을 위한 필요성이 증대되었고, ‘고카트 섀시 디 자인’의 경우 레크리에이션 수요의 증가로 고카트에 대한 관심도 향상과 전기 고카트 섀시로의 전환을 위한 필요성 증대로 학술문헌의 증가가 포착되었다고 추정할 수 있다. ‘성장기술’은 ‘자율주행/보행자 궤적 예측’, ‘자율주행 차량 충돌 회피’, ‘다중 에이전트 강화학습 배차’, ‘3D Lidar 객체 감지’, ‘자율주행 시나리오 검증’ 등 현재 활발히 연구되고 있으면서도 신개념 기술로 분류되는 자율주행 관련 토픽들이 다수 포진되어 방법 론 설계의도와 배치되지 않았다.

    ‘쇠퇴기술’은 ‘도로혼잡 통행료’, ‘유료도로 혼잡 통행료’, ‘교통 로터리 용량’, ‘전자요금 징수 시스템’ 등 전통적인 교통량 분석, 억제 관련 기술 토픽들과 ‘엔진토크 및 출력’, ‘자동 클러치 변속기’, ‘자동차 도어 래 치 매커니즘’ 등 기존부터 연구되던 자동차 HW 관련 토픽들이 다수 포진되어 신규 R&D 기획에 사용될 수 없는 카테고리에 해당했으며, ‘성숙기술’은 ‘교통수단 선택모형’, ‘대중교통 중심 개발’, ‘자전거 및 전기자전 거 인프라’, ‘대중교통 형평성’ 등 도시 교통 포화방지를 대중교통 등 대체교통으로 전환하기 위해 최근까지 자주 사용하던 교통정책 관련 토픽들이 다수 포진하여 혁신적 R&D 기획 시 우선순위가 떨어질 확률이 큰 카테고리에 해당하여 방법론 설계의도와 정확히 부합하는 것으로 판단된다. 네 가지 기술 카테고리 별 30개 의 토픽 발췌본은 <Table 12>, <Table 13>, <Table 14> 및 <Table 15>에 정리하였다.

    <Table 12>

    30 Excerpts from ‘emerging technology’ sorted in descending order by ‘Future Growth Rate’

    Topic name 2025 year share percentile Future growth rate percentile
    Emerging technology
    Historical transport energy data 1.3071895425 99.7445721584
    Urban information and incidents 3.6601307190 99.1060025543
    Intelligent vehicle competing interests 2.9411764706 98.9782886335
    Half-car suspension controller design 2.9411764706 97.9565772669
    Cyberattacks on vehicle platooning 14.5751633987 95.5300127714
    Spatiotemporal data imputation 23.2026143791 95.2745849298
    Road traffic noise pollution 16.7973856209 95.0191570881
    Multi-robot path finding problem 36.2745098039 94.7637292465
    Crowd counting and density estimation 22.4836601307 94.5083014049
    Secure blockchain-based EVcharging 26.8627450980 94.1251596424
    Bikesharing demandprediction 25.2941176471 93.2311621967
    AGV pathplanning 23.2026143791 90.6768837803
    Automatic parking path planning 21.6339869281 90.4214559387
    Visual place recognition 47.4509803922 89.5274584930
    Go kart chassis design 8.8235294118 85.6960408685
    Driver steering control 29.2810457516 85.3128991060
    Smart street lighting 26.2745098039 85.1851851852
    Fuel tank level monitoring 8.8235294118 84.4189016603
    Cooperative vehicle platoon control 21.6339869281 82.2477650064
    Platoon denial of service 25.2941176471 80.8429118774
    Shared parking space allocation 46.0130718954 79.3103448276
    Car rental web application 45.1633986928 79.1826309068
    Electric bicycle technology development 49.8692810458 78.9272030651
    Road maintenance criteria 49.8692810458 78.6717752235
    V2V communication channel propagation 47.4509803922 77.7777777778
    EV cyber-charging attacks 34.9019607843 77.5223499361
    Urban parking revenue management 36.2745098039 77.2669220945
    Parking occupancy prediction 30.8496732026 75.2234993614
    Waste collection and routing 28.3660130719 74.8403575990
    E-scooter injuries and safety 29.2810457516 74.5849297573
    <Table 13>

    30 Excerpts from ‘growing technology’ sorted in descending order by ‘Future Growth Rate’

    Topic name 2025 year share percentile Future growth rate percentile
    Growing technology
    Public transit ridership patterns 78.6274509804 96.2962962963
    3D lidar object detection 78.8888888889 96.1685823755
    Simultaneous localization and mapping 91.1764705882 93.9974457216
    Autonomous driving trajectory prediction 93.8562091503 93.7420178799
    Shared mobility and ride-hailing 71.3071895425 93.6143039591
    Autonomous vehicle collision avoidance 65.2941176471 93.4865900383
    Vehicular edge computing 91.1764705882 93.1034482759
    Multiagent reinforcement learning dispatching 54.1830065359 92.8480204342
    Spatiotemporal trajectory prediction 77.3856209150 92.7203065134
    Pedestrian trajectory prediction 75.4248366013 92.2094508301
    Lithium-ion battery management 61.1764705882 91.4431673052
    Short-term traffic flow prediction 86.5359477124 91.3154533844
    Blockchain-based vehicular security 75.0980392157 91.1877394636
    Lane detection and segmentation 81.8954248366 90.9323116220
    Lithium-ion battery SOH estimation 94.7058823529 90.1660280971
    LIDAR obstacle detection 69.8692810458 89.2720306513
    Bidirectional battery charger 72.0915032680 89.1443167305
    Reinforcement Learning for routing 69.2156862745 89.0166028097
    Autonomous driving scenario validation 85.4901960784 88.3780332056
    In-vehicle intrusion detection 78.2352941176 87.7394636015
    Cooperative connected and autonomous vehicles 89.8039215686 87.6117496807
    Cooperative autonomous vehicle perception 66.6666666667 87.4840357599
    Hybrid energy storage systems 62.9411764706 87.3563218391
    Vehicle trajectory tracking control 91.6339869281 86.9731800766
    Road traffic congestion 54.1830065359 86.3346104725
    Automated driving takeover risk 82.6797385621 86.0791826309
    Vacant parking space detection 55.8823529412 85.8237547893
    Vehicular resource allocation learning 69.8692810458 85.4406130268
    V2X vehicular communication 69.8692810458 85.0574712644
    Multi-agent traffic signal control 89.2156862745 84.5466155811
    <Table 14>

    30 Excerpts from ‘declining technology’ sorted in ascending order by ‘Future Growth Rate’

    Topic name 2025 year share percentile Future growth rate percentile
    Declining technology
    Geospatial data file formats 0.0000000000 0.0000000000
    Transport project facilitation 2.9411764706 0.0000000000
    Rotating electrical machines 4.3790849673 0.0000000000
    Google maps data analysis 0.0000000000 0.0000000000
    Engine torque and power 0.0000000000 0.0000000000
    Engine horsepower and torque 0.0000000000 0.0000000000
    Road congestion pricing 29.2810457516 8.0459770115
    Automatic clutch transmission 19.1503267974 8.5568326948
    Toll road congestion pricing 46.0130718954 9.0676883780
    Fuel tax and policy 43.9869281046 9.1954022989
    Ethanol biofuel production prices 30.8496732026 9.4508301405
    Engine turbocharger transient control 48.1699346405 10.6002554278
    Urban public tram transport 10.1307189542 10.9833971903
    Traffic congestion pricing 43.3986928105 11.6219667944
    WiFi crowd counting 25.2941176471 12.3882503193
    Traffic round about capacity 42.1568627451 12.7713920817
    Electronic toll collection system 14.5751633987 14.0485312899
    Crowd sensing using WiFi 26.8627450980 14.1762452107
    Bus tracking mobile App 34.9019607843 14.8148148148
    Cooperative intelligent transport systems 24.1176470588 15.0702426564
    GPS-based map-matching 19.1503267974 15.5810983397
    Car door latch mechanism 8.8235294118 16.2196679438
    Vehicle-pedestrian collision injury 10.7843137255 16.6028097063
    Bus travel time reliability 42.1568627451 17.2413793103
    Alternative fuel refueling stations 19.1503267974 17.6245210728
    Distracted driving and phones 38.5620915033 17.7522349936
    Headlight glare and visibility 16.7973856209 18.0076628352
    Electronic mobility business 33.6601307190 19.6679438059
    Bus transit signal priority 26.8627450980 19.9233716475
    Orienteering team problem heuristic 16.7973856209 20.1787994891
    <Table 15>

    30 Excerpts from ‘mature technology’ sorted in ascending order by ‘Future Growth Rate’

    Topic name 2025 year share percentile Future growth rate percentile
    Mature technology
    Vehicular Ad-Hoc networks 76.7973856209 6.6411238825
    Public transportation equity planning 69.8692810458 8.1736909323
    On-Street parking spaces 77.7777777778 10.0893997446
    Gasoline retail price elasticities 52.1568627451 11.1111111111
    Travel choice mode models 88.2352941176 12.1328224777
    Public transite quity 80.6535947712 13.1545338442
    Internal combustion engine 86.7320261438 13.4099616858
    Urban public transport services 84.2483660131 14.3039591315
    Automotive engineering and design 52.7450980392 14.6871008940
    Spatial memory and navigation 95.6862745098 18.2630906769
    Transit-oriented development 56.4052287582 18.5185185185
    Automotive transmission systems 54.1830065359 18.7739463602
    Mobile crowd-sensing incentive mechanisms 52.7450980392 19.0293742018
    Older adult driving cessation 67.6470588235 19.2848020434
    Exhaust gas recirculation 67.6470588235 19.7956577267
    Occupant crash injury analysis 54.1830065359 20.6896511724
    Bicycle and E-Bike infrastructure 90.4575163399 21.2005108557
    Commuting travel behavior 90.6535947712 22.2222222222
    Vehicular Ad Hoc network routing 66.0130718954 22.7330779055
    Pavement rutting and deflection 70.3921568627 23.7547892720
    Tire rolling contact friction 84.7058823529 24.0102171137
    Hybrid electric powertrain design 62.9411764706 24.3933588761
    Traffic intersection capacity 82.9411764706 24.9042145594
    Engine combustion and knock 96.9934640523 25.1596424010
    Automotive aerodynamic drag 62.9411764706 25.2873563218
    Free-floating car-sharing mobility 50.9803921569 25.4150702427
    Human urban mobility patterns 87.7777777778 25.5427841635
    Active commuting for students 69.8692810458 26.8199233716
    Three-phase induction motor 72.4836601307 27.0753512133
    Traffic equilibrium assignment 71.6993464052 27.7139208174

    다만, 본 연구에서 도출된 기술 분류 결과는 학술 연구 활동의 양적 변화를 기반으로 한 것이므로, 사회 적·정책적 맥락과 함께 해석되어야 할 것이다. 학술 문헌에서의 연구 활동 증가가 곧 사회적으로 중요한 미 래 기술임을 보장하지는 않기 때문이다. 예를 들어, ‘road congestion pricing(도로혼잡 통행료)’이 본 분석에서 ‘쇠퇴기술’로 분류된 것은 학술 논문의 출판 빈도가 감소하고 있음을 의미하지만, 이는 해당 주제가 이미 이 론적으로 성숙하여 정책 실행 단계로 전환되었을 가능성도 있다. 반대로 ‘부상기술’로 분류된 토픽이라도 기 술적 실현 가능성은 높으나 사회적 수용성이나 규제 환경이 뒷받침되지 않아 실제 R&D 투자로 이어지기 어 려운 경우도 존재할 수 있다.

    따라서 본 연구의 정량적 지표(토픽 점유율, 미래 성장률, BCG 분류)는 최종 의사결정 그 자체가 아니라, 정책 입안자와 R&D 기획자가 다양한 맥락을 고려하여 판단하기 위한 객관적 참고자료로 활용되어야 할 것 이다. 실무적으로는 본 분석 결과를 전문가 델파이 조사, 이해관계자 워크숍, 정책 시뮬레이션 등과 결합하 여, 데이터 기반의 객관성과 인간 전문가의 판단력을 통합하는 의사결정 프로세스를 구축하는 것이 바람직 할 것이다.

    넷째, 데이터마트 구축 및 활용. 마지막 단계까지의 자동 처리된 토픽별 데이터 및 분류체계를 기반으로 분석자가 대시보드 또는 분석 Tool에서 데이터를 빠르고 원활하게 탐색할 수 있도록, 분석된 모든 정보를 통 합하여 하나의 최적화된 데이터파일(데이터마트)을 제작한다. 본 방법론을 통한 데이터마트 구축으로 모든 정보가 유기적으로 통합되고 최적화된 단일 데이터 소스에 즉시 접근하여, <Fig. 2>의 예시에서 보이는 것과 같이 기술 토픽별 트렌드 분류(부상/성장/성숙/쇠퇴), 주요 연구기관, 연도별 연구량에 대한 접근이 가능하다.

    KITS-25-1-75_F2.jpg
    <Fig. 2>

    Example of an interactive dashboard display

    Ⅳ. 결론 및 향후 연구과제

    본 연구는 대규모 개방형 학술 데이터베이스인 OpenAlex를 활용하여 모빌리티 분야의 기술 트렌드를 자 동으로 분석하는 정량적인 방법론을 실제 데이터 수집, 전처리, 클러스터링하는 예시와 함께 새로이 제시하 였다. 전문가 의존적 분석 방식이 가진 주관성과 범위의 한계를 극복하고자, 본 연구는 ‘① 데이터 수집 및 모빌리티 분야 필터링’, ‘② 계층적 토픽 모델링’, ‘③ 미래 성장 잠재력 예측을 통한 트렌드 분류’의 3단계로 구성된 체계적이고 재현가능한 분석 파이프라인을 구축하였다.

    1. 연구의 학술적 기여

    연구의 핵심적인 기여는 다음과 같다. 첫째, 데이터 기반의 객관적 기술 탐색에 대한 기여이다. OpenAlex 의 2.5억 건에 달하는 방대한 서지정보로부터 LLM 키워드 추출과 키워드-텍스트 간 의미유사도 측정을 통해 모빌리티 관련 핵심 데이터 144만 여 개를 효과적으로 필터링하였고, 해당 방법론 단계는 분석가 주관의 배 제와 데이터에 기반한 분야 별 서지정보 추출이 가능한 학문적 토대를 마련하였다.

    둘째, 심층적 기술 구조의 계층적 발견에 대한 기여이다. 최신 자연어 처리 학습 기법인 BERTopic을 활용 하여 144만 여 개의 문헌으로부터 798개의 세분화된 기술 토픽을 사람의 개입을 최소화하여 추출하였다. 나 아가 반복적 클러스터링을 통해 ‘토픽 → 하위 카테고리 → 카테고리 → 영역’으로 이어지는 다단계 계층 구 조를 자동으로 구축함으로써, 개별 토픽의 관점부터 거시적 기술 지형 관점까지 분석자 맞춤형 다각적 관점 을 제시하는 틀을 마련하였다.

    셋째, 미래 예측을 통한 선제적 전략 수립 지원에 대한 기여이다. 비선형적 시계열 데이터 기반 예측 모델 인 Prophet을 도입하여 기술 토픽별 미래 2년 후 성장률을 예측하고, 이를 현재 토픽 점유율과 결합하여 전통 적인 BCG 매트릭스를 본 방법론에 맞게 변용하였다. 이를 통해 모든 기술 토픽을 ‘부상(emerging)’, ‘성장 (growing)’, ‘성숙(mature)’, ‘쇠퇴(declining)’의 네 가지 유형으로 자동 분류하여, R&D 투자의 우선순위를 직관 적으로 결정하고 선제적인 기술 전략을 수립할 수 있는 강력한 분석 방법론을 제공하였다.

    2. 정책 및 R&D 의사결정에의 실무 적용 방안

    본 연구의 방법론이 실제 정책 및 R&D 기획 현장에서 어떻게 활용될 수 있는지를 구체화하기 위해, 두 가지 활용 시나리오를 제시한다.

    첫째, “융합형 혁신과제 도출” 프로세스이다. 정부 R&D 기획 기관은 본 연구에서 도출된 ‘부상기술’ 그룹과 ‘성장기술’ 그룹을 교차 매칭하여 융합형 신규 과제를 기획할 수 있을 것이다. 구체적인 예를 들면, 본 연구 분석 결과에서 미래 성장률 상위 30개 부상기술 목록과 상위 30개 성장기술 목록을 추출한 후, LLM 또는 전문 가 의견을 기반으로 부상기술 중 기술적 성숙도는 낮으나 파괴적 혁신 잠재력이 높은 토픽(예: ‘Cyberattacks on vehicle platooning’, ‘Secure blockchain-based EV charging’)과 성장기술 중 이미 연구 커뮤니티에서 검증된 기 반 기술(예: ‘Blockchain-based vehicular security’, ‘Cooperative connected and autonomous vehicles’)을 매칭한다. 이를 바탕으로 “군집주행 차량의 사이버 보안을 위한 분산원장 기반 통신 프로토콜 개발”과 같은 융합 R&D 과제명을 도출하고, 해당 과제의 필요성을 뒷받침하는 정량적 근거(연평균 논문 증가율, 주요 연구기관 목록 등)를 본 연구의 데이터마트에서 직접 추출하여 제안서에 첨부할 수 있다. 이러한 접근법은 단일 기술 토픽의 성장성만을 보는 것이 아니라, ‘아직 주목받지 못한 신생 기술’과 ‘이미 검증된 기술’의 시너지를 통해 기술적 개발성공 확률을 높이면서도 혁신성과 실현 가능성을 동시에 고려한 R&D 포트폴리오 수립의 근거가 된다.

    둘째, “외부 기술수요조사 아이디어의 검증 지원” 프로세스이다. 정부 R&D 기획 과정에서는 산·학·연 전 문가로부터 기술수요조사를 통해 수백 건의 R&D 아이디어를 접수받게 되는데, 이들의 타당성을 평가하는 과정에서 본 연구의 분석 결과를 객관적 스크리닝의 보조도구로 활용할 수 있다. 구체적으로는, 접수된 각 기술 아이디어의 핵심 키워드를 추출하고 본 연구에서 구축한 784개 토픽 데이터베이스와의 의미적 유사도 를 계산하여 가장 근접한 토픽을 자동 매칭한 후, 매칭된 토픽이 본 연구에서 어떤 기술 분류(부상/성장/성숙 /쇠퇴)에 속하는지 확인한다. 이후 전문가 패널 평가 시에는 각 기술수요에 대해 “해당 기술은 현재 상대적 점유율이 X%이며, 향후 2년 예측 성장률은 Y%로 추정됨”과 같은 정량적 보조 자료를 제공하여 주관적 편 향을 줄이고 객관성을 강화할 수 있을 것이다. 제안된 시나리오들은 본 방법론이 실증적인 분석 도구로서, 실제 정부R&D 기획 관련 의사결정 과정에서 객관성을 확보하는 데 기여할 수 있음을 보여준다.

    3. 연구의 한계 및 향후 연구 방향

    본 연구는 ‘모빌리티’라는 광범위 범주 설정을 통해 융복합 기술 간 상호작용을 포착할 수 있는 강점이 있 었지만, 동시에 기술적 과제도 명확히 드러났다. 초기의도는 모빌리티 분야 서지정보의 bottom-up 방식 클러 스터링을 통해 영역이 autonomous vehicle, aviation 등 기술적 학문 분야로 분류되길 기대했으나, 실제로는 vehicle traffic data modeling, deep reinforcement learning algorithms 등 해당 기술을 연구하는 ‘방법론적 접근방 식’으로 클러스터링이 되는 현상이 발생하였다. 또한 144만여 건의 방대한 데이터셋에서 서로 다른 성격의 기술들이 하나의 토픽에 혼재되는 경우가 일부 관찰되었다.

    다만, 이러한 결과는 방법론적 결함이라기보다, 광범위 범주 설정에 따른 전략적 상충 관계가 반영된 결과 로 판단된다. 실제로 ‘부상기술’로 분류된 ‘Cyberattacks on vehicle platooning’과 ‘Secure blockchain-based EV charging’ 등은 전통적인 좁은 범주 분석에서는 포착되기 어려운 융합형 혁신 기술들이다. 따라서 본 연구의 방법론은 ‘기술융합 패턴탐지’와 ‘거시적 트렌드 탐지’를 목적으로 하는 R&D 전략 수립의 관점에서 유용하 게 활용될 수 있을 것이다.

    향후 연구에서는 본 방법론의 강점을 유지하면서도, 분석 목적에 따라 다단계 접근 전략을 적용할 수 있 을 것이다. 1단계에서는 ‘모빌리티’ 전체를 대상으로 비교적 거시적인 기술 지형을 파악하고, 2단계에서는 특정 관심 영역(예: ‘철도기술’, ‘UAM기술’)에 대해 동일한 방법론을 재적용하여 미시적 수준의 세밀한 토픽 을 발굴하는 계층적 분석 프레임워크를 구축하는 것이다. 또한 LLM을 통한 키워드 추출 방식과 코사인 유 사도 임계값 설정 등을 보다 정교화함으로써 본 연구의 재현성과 타 기술 분야로의 파급 가능성을 높일 수 있을 것으로 기대한다. 나아가 학술 문헌 데이터뿐만 아니라 특허 데이터, 정책 문서 등 다양한 데이터 소스 를 통합하는 멀티모달 분석으로 확장한다면, 보다 입체적인 기술 트렌드 분석이 가능할 것이다.

    ACKNOWLEDGEMENTS

    본 연구는 국토교통과학기술진흥원의 지원으로 수행하였습니다.

    Figure

    KITS-25-1-75_F1.jpg

    Conceptual diagram of hierarchy through repeated aggregation

    KITS-25-1-75_F2.jpg

    Example of an interactive dashboard display

    Table

    Comparison of features between major bibliographic databases

    List of keywords about ‘mobility’ derived through LLM

    List of automatically extracted topics when threshold value is set to 0.45

    Key columns of `target data`

    Example of vector transformation using `sentence-transformer`

    Recommended UMAP parameter values and applied values in this study

    출처 : Mclnnes et al.(2018), Becht et al.(2019)

    Recommended HDBSCAN parameter values and applied values in this study

    출처 : Mclnnes et al.(2017)

    Deleted hierarchical elements and keywords

    Excerpt from LLM-based semantic labeling

    Adaptation of BCG matrix axes

    Classification system of the adapted BCG matrix

    30 Excerpts from ‘emerging technology’ sorted in descending order by ‘Future Growth Rate’

    30 Excerpts from ‘growing technology’ sorted in descending order by ‘Future Growth Rate’

    30 Excerpts from ‘declining technology’ sorted in ascending order by ‘Future Growth Rate’

    30 Excerpts from ‘mature technology’ sorted in ascending order by ‘Future Growth Rate’

    Reference

    1. Ahmadpoor, M. and Jones, B. F. ( 2017), “The dual frontier: Patented inventions and prior scientific advance”, Science, vol. 357, no. 6351, pp.583-587.
    2. Alshara, M. A. ( 2022), “Stock forecasting using Prophet vs. LSTM model applying time-series prediction”, International Journal of Computer Science & Network Security, vol. 22, no. 2, pp.185-192.
    3. Becht, E., McInnes, L., Healy, J., Dutertre, C. A., Kwok, I. W., Ng, L. G., Ginhoux, F. and Newell, E. W. ( 2019), “Dimensionality reduction for visualizing single-cell data using UMAP”, Nature Biotechnology, vol. 37, no. 1, pp.38-44.
    4. Berg, J. M., Bhalla, N., Bourne, P. E., Chalfie, M., Drubin, D. G., Fraser, J. S., Greider, C. W., Hendricks, M., Jones, C., Kiley, R., King, S., Kirschner, M. W., Krumholz, H. M., Lehmann, R., Leptin, M., Pulverer, B., Rosenzweig, B., Spiro, J. E., Stebbins, M., Strasser, C., Swaminathan, S., Turner, P., Vale, R. D., VijayRaghavan, K. and Wolberger, C. ( 2016), “Preprints for the life sciences”, Science, vol. 352, no. 6288, pp.899-901.
    5. Blei, D. M., Ng, A. Y. and Jordan, M. I. ( 2003), “Latent dirichlet allocation”, Journal of Machine Learning Research, vol. 3(Jan), pp.993-1022.
    6. Campello, R. J. G. B., Moulavi, D. and Sander, J. ( 2013), “Density-based clustering based on hierarchical density estimates”, Advances in Knowledge Discovery and Data Mining-17th Pacific-Asia Conference, PAKDD 2013, Proceedings, vol. 2, pp.160-172.
    7. Curran, C. S. and Leker, J. ( 2011), “Patent indicators for monitoring convergence-examples from NFF and ICT”, Technological Forecasting and Social Change, vol. 78, no. 2, pp.256-273.
    8. Daim, T. U., Rueda, G. R. and Martin, H. T. ( 2005), “Technology forecasting using bibliometric analysis and system dynamics”, Technology Management: A Unifying Discipline for Melting the Boundaries, pp.112-122.
    9. Daim, T. U., Rueda, G., Martin, H. and Gerdsri, P. ( 2006), “Forecasting emerging technologies: Use of bibliometrics and patent analysis”, Technological Forecasting and Social Change, vol. 73, no. 8, pp.981-1012.
    10. Donohue, J. C. ( 1972), “A bibliometric analysis of certain information science literature”, Journal of the American Society for Information Science, vol. 23, no. 5, pp.313-317.
    11. Du, R., An, H., Wang, K. and Liu, W. ( 2024), A short review for ontology learning: Stride to large language models trend, arXiv preprint arXiv:2404.14991.
    12. Glänzel, W. and Moed, H. F. ( 2002), “Journal impact measures in bibliometric research”, Scientometrics, vol. 53, no. 2, pp.171-193.
    13. Godin, B. ( 2006), “On the origins of bibliometrics”, Scientometrics, vol. 68, no. 1, pp.109-133.
    14. Grootendorst, M. ( 2022), BERTopic: Neural topic modeling with a class-based TF-IDF procedure, arXiv preprint arXiv:2203.05794.
    15. Hu, X., Gu, H., Tang, Y. and Wang, B. ( 2024), “Mapping the field: A bibliometric literature review on technology mining”, Heliyon, vol. 10, no. 1.
    16. Kaewunruen, S., Sussman, J. M. and Matsumoto, A. ( 2016), “Grand challenges in transportation and transit systems”, Frontiers in Built Environment, vol. 2, p.4.
    17. Kim, J. S. and Kim, T. J. ( 2021), “Application of Facebook’s prophet model for forecasting meteorological data”, Journal of the Korean Society of Hazard Mitigation, vol. 21, no. 2, pp.53-58.
    18. Korea Institute of S&T Evaluation and Planning ( 2006), Survey of R&D investment portfolio composition, pp.14-18.
    19. Lee, S., Yoon, B., Lee, C. and Park, J. ( 2009), “Business planning based on technological capabilities: Patent analysis for technology-driven roadmapping”, Technological Forecasting and Social Change, vol. 76, no. 6, pp.769-786.
    20. Lee, Y. G. and Kim, S. W. ( 2024), “A Comparative study on topic modeling of LDA, Top2Vec, and BERTopic models using LIS Journals in WoS”, Journal of the Korean Society for Library and Information Science, vol. 58, no. 1, pp.5-30.
    21. Mansfield, E. ( 1998), “Academic research and industrial innovation: An update of empirical findings”, Research Policy, vol. 26, no. 7-8, pp.773-776.
    22. McInnes, L., Healy, J. and Astels, S. ( 2017), “hdbscan: Hierarchical density based clustering”, Journal of Open Source Software, vol. 2, no. 11, p.205.
    23. McInnes, L., Healy, J. and Melville, J. ( 2018), Umap: Uniform manifold approximation and projection for dimension reduction, arXiv preprint arXiv:1802.03426.
    24. Mishra, P., Diwan, C., Srinivasa, S. and Srinivasaraghavan, G. ( 2021), “Automatic title generation for text with pre-trained transformer language model”, 2021 IEEE 15th International Conference on Semantic Computing(ICSC), pp.17-24.
    25. Mowery, D. C. ( 2012), “Defense-related R&D as a model for “Grand Challenges” technology policies”, Research Policy, vol. 41, no. 10, pp.1703-1715.
    26. Nikitas, A., Michalakopoulou, K., Njoya, E. T. and Karampatzakis, D. ( 2020), “Artificial intelligence, transport and the smart city: Definitions and dimensions of a new mobility era”, Sustainability, vol. 12, no. 7, p.2789.
    27. Pena, J. M., Lozano, J. A. and Larranaga, P. ( 1999), “An empirical comparison of four initialization methods for the k-means algorithm”, Pattern Recognition Letters, vol. 20, no. 10, pp.1027-1040.
    28. Plase, D., Niedrite, L. and Taranovs, R. ( 2017), “A comparison of HDFS compact data formats: Avro versus Parquet”, Mokslas-Lietuvos ateitis/Science-Future of Lithuania, vol. 9, no. 3, pp.267-276.
    29. Pranckute, R. ( 2021), “Web of Science (WoS) and Scopus: The titans of bibliographic information in today’s academic world”, Publications, vol. 9, no. 1, p.12.
    30. Priem, J., Piwowar, H. and Orr, R. ( 2022), OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts, arXiv preprint arXiv:2205.01833.
    31. Pritchard, A. ( 1969), “Statistical bibliography or bibliometrics”, Journal of Documentation, vol. 25, p.348.
    32. Putri, T. D. ( 2021), “Intelligent transportation systems (ITS): A systematic review using a Natural Language Processing (NLP) approach”, Heliyon, vol. 7, no. 12.
    33. Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. ( 2016), “You only look once: Unified, real-time object detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.779-788.
    34. Tardy, C. ( 2004), “The role of english in scientific communication: Lingua franca or tyrannosaurus rex?”, Journal of English for Academic Purposes, vol. 3, no. 3, pp.247-269.
    35. Taylor, S. J. and Letham, B. ( 2018), “Forecasting at scale”, The American Statistician, vol. 72, no. 1, pp.37-45.
    36. Wallin, J. A. ( 2005), “Bibliometric methods: pitfalls and possibilities”, Basic & Clinical Pharmacology & Toxicology, vol. 97, no. 5, pp.261-275.
    37. Ward Jr, J. H. ( 1963), “Hierarchical grouping to optimize an objective function”, Journal of the American Statistical Association, vol. 58, no. 301, pp.236-244.
    38. Yang, Y. J., Lee, B. H., Kim, J. S. and Lee, K. Y. ( 2020), “Development of an automatic classification system for game reviews based on word embedding and vector similarity”, The Journal of Society for e-Business Studies, vol. 24, no. 2.
    39. Yin, C. and Zhang, Z. ( 2024), “A study of sentence similarity based on the all-minilm-l6-v2 model with “same semantics, different structure” after fine tuning”, 2024 2nd International Conference on Image, Algorithms and Artificial Intelligence(ICIAAI 2024), pp.677-684.

    저자소개

    Footnote