프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-09]

다각 2024. 1. 10. 19:00

[1/129] Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark

Keywords: spatial_reasoning_capabilities, spatial_reasoning_chatgpt, spatial_reasoning_performance
Abstract: 인공지능(AI)은 다양한 영역에서 괄목할 만한 발전을 이루었으며, ChatGPT와 같은 대규모 언어 모델은 인간과 유사한 텍스트 생성 기능으로 큰 주목을 받고 있습니다. 이러한 성과에도 불구하고 공간 추론은 이러한 모델에서 여전히 중요한 과제로 남아 있습니다. StepGame과 같은 벤치마크에서 AI 공간 추론을 평가한 결과, ChatGPT는 만족스럽지 못한 성능을 보였습니다. 그러나 벤치마크에 템플릿 오류가 있으면 평가 결과에 영향을 미칩니다. 따라서 이러한 템플릿 오류를 해결하면 ChatGPT의 성능이 향상되어 공간 추론 능력을 더 정확하게 평가할 수 있습니다. 이 연구에서는 StepGame 벤치마크를 개선하여 모델 평가를 위한 보다 정확한 데이터 세트를 제공합니다. 수정된 벤치마크에서 GPT의 공간 추론 성능을 분석하여 자연어 텍스트를 공간 관계에 매핑하는 데는 능숙하지만 멀티홉 추론에는 한계가 있음을 확인합니다. 저희는 템플릿-관계 매핑과 논리 기반 추론을 결합하여 벤치마크에 대한 완벽한 솔루션을 제공합니다. 이 조합은 StepGame에서 오류 없이 정성적 추론을 수행하는 데 능숙함을 보여줍니다. 그런 다음 공간 추론에서 GPT 모델의 한계를 해결합니다. 우리는 생각의 연쇄 및 생각의 나무 프롬프트 전략을 배포하여 GPT의 '인지 과정'에 대한 통찰력을 제공하고 정확도를 현저하게 향상시킵니다. 또한 모델 결함을 밝혀낼 뿐만 아니라 개선점을 제안하여 더욱 강력한 공간 추론 기능을 갖춘 AI의 발전에 기여하고 있습니다. [abs|pdf]

[2/129] Metaheuristics for (Variable-Size) Mixed Optimization Problems: A Unified Taxonomy and Survey

Keywords: metaheuristic_solutions, metaheuristics_solving_problems, methodologies_applied_metaheuristics
Abstract: 현실 세계의 많은 최적화 문제는 연속형 변수와 이산형 변수를 모두 포함하는 혼합 변수 최적화 문제(MVOP)로 공식화됩니다. 차원 변수를 포함하는 MVOP는 가변 크기의 탐색 공간이 특징입니다. 차원 변수의 값에 따라 문제의 변수의 수와 유형이 동적으로 달라질 수 있습니다. MVOP와 가변 크기 MVOP(VMVOP)는 해결하기 어렵고 메타휴리스틱스 설계에 있어 여러 가지 과학적 과제를 제기합니다. 표준 메타휴리스틱은 연속 또는 이산 최적화 문제를 해결하기 위해 처음 설계되었기 때문에 (V)MVOP를 효율적인 방식으로 해결할 수 없습니다. 이러한 문제를 해결하기 위한 메타 휴리스틱의 개발은 많은 연구자들의 관심을 끌었으며 점점 더 인기를 얻고 있습니다. 그러나 우리가 알기로는 이 중요한 최적화 문제군을 다루기 위해 잘 정립된 분류법과 포괄적인 조사가 존재하지 않습니다.
본 논문에서는 공통된 용어와 분류 메커니즘을 제공하기 위해 (V)MVOP를 해결하기 위한 메타 휴리스틱 솔루션에 대한 통일된 분류법을 제시합니다. 이 논문은 (V)MVOP의 일반적인 수학적 공식과 개념을 제공하고 메타휴리스틱에서 적용할 수 있는 다양한 풀이 방법론을 식별합니다. 제시된 방법론의 장점, 약점 및 한계에 대해 논의합니다. 또한 제안된 분류법을 통해 더 심층적인 조사가 필요한 미해결 연구 과제를 식별할 수 있습니다. [abs|pdf]

[3/129] Agent AI: Surveying the Horizons of Multimodal Interaction

Keywords: multimodal_interactions_agents, modal_ai_systems, agent_based_multimodal
Abstract: 멀티모달 AI 시스템은 일상 생활에서 흔히 볼 수 있는 존재가 될 것입니다. 이러한 시스템을 더욱 인터랙티브하게 만들기 위한 유망한 접근 방식은 물리적 및 가상 환경 내에서 에이전트로 구현하는 것입니다. 현재 시스템은 구현된 에이전트를 만들기 위한 기본 구성 요소로 기존의 기반 모델을 활용하고 있습니다. 이러한 환경 내에 에이전트를 구현하면 모델이 시각적 및 컨텍스트 데이터를 처리하고 해석할 수 있는 능력이 향상되며, 이는 보다 정교하고 컨텍스트를 인식하는 AI 시스템을 만드는 데 매우 중요합니다. 예를 들어, 사용자 행동, 사람 행동, 환경 오브젝트, 오디오 표현, 장면의 총체적 정서를 인식할 수 있는 시스템을 사용하여 주어진 환경 내에서 에이전트의 응답을 알리고 지시할 수 있습니다. 에이전트 기반 멀티모달 인텔리전스에 대한 연구를 가속화하기 위해 유니티는 시각적 자극, 언어 입력, 기타 환경 기반 데이터를 인식할 수 있고 무한한 에이전트로 의미 있는 구현된 동작을 생성할 수 있는 대화형 시스템 클래스를 '에이전트 AI'로 정의합니다. 특히 외부 지식, 다중 감각 입력, 인간의 피드백을 통합하여 다음에 구현될 행동 예측을 기반으로 에이전트를 개선하는 시스템을 연구합니다. 우리는 기반 환경에서 에이전트 AI 시스템을 개발함으로써 대규모 기반 모델의 환각과 환경적으로 잘못된 출력을 생성하는 경향을 완화할 수 있다고 주장합니다. 새롭게 떠오르는 에이전트 AI 분야는 멀티모달 인터랙션의 광범위한 구현 및 에이전트 측면을 포괄합니다. 물리적 세계에서 행동하고 상호 작용하는 에이전트를 넘어 사람들이 가상 현실 또는 시뮬레이션된 장면을 쉽게 만들고 가상 환경 내에 구현된 에이전트와 상호 작용할 수 있는 미래를 상상합니다. [abs|pdf]

[4/129] NovelGym: A Flexible Ecosystem for Hybrid Planning and Learning Agents Designed for Open Worlds

Keywords: open_world_ai, learning_agents_open, agents_open_world
Abstract: AI 에이전트가 실험실을 벗어나 자율주행차, 배달 로봇, 요리 로봇으로 현실 세계로 진출함에 따라 '오픈 월드'에 대응하는 알고리즘을 설계하고 종합적으로 평가해야 할 필요성이 점점 더 커지고 있습니다. 이를 위해 유니티는 그리드월드 환경을 시뮬레이션하도록 설계된 유연하고 적응력이 뛰어난 에코시스템으로, 오픈월드 컨텍스트에서 강화학습(RL)과 하이브리드 계획 및 학습 에이전트를 벤치마킹하기 위한 강력한 플랫폼 역할을 하는 NovelGym을 소개합니다. NovelGym의 모듈식 아키텍처는 다양한 환경 변환을 통해 멀티 에이전트 시나리오를 비롯한 작업 환경을 빠르게 생성하고 수정할 수 있으므로 연구자가 오픈월드 AI 에이전트를 개발할 수 있는 동적 테스트베드를 제공합니다. [abs|pdf]

[5/129] Quantifying stability of non-power-seeking in artificial agents

Keywords: shutdown_stable_mdp, shutdown_model_agents, model_agents_policies
Abstract: 어떤 AI 에이전트가 한 환경에서 안전하다고 알려진 경우, 첫 번째 환경과 유사한 새로운 환경에서도 안전할까요? 특정 환경에서 모델을 학습하고 테스트한 후 다른 환경에 배포하는 경우, 테스트에서 안전하다고 판단되는 모델이 실제 배포에서도 안전하다는 것을 보장해야 합니다. 안전에 대한 우리의 개념은 권력 추구를 기반으로 합니다. 즉, 권력을 추구하는 에이전트는 안전하지 않습니다. 특히 중요한 권력 추구 유형인 셧다운에 대한 저항에 초점을 맞춥니다. 우리는 에이전트를 마르코프 결정 과정의 정책으로 모델링하고, 종료에 저항하지 않는 것이 "안정적"이라는 것을 (두 가지 관심 사례에서) 보여줍니다. 즉, 어떤 MDP가 종료를 피하지 않는 특정 정책을 가지고 있다면 유사한 MDP의 해당 정책도 종료를 피하지 않는다는 것입니다. 또한 안전성이 '안정적이지 않은' 경우, 즉 임의의 작은 교란으로 인해 종료되지 않는 정책이 발생할 수 있는 자연스러운 경우도 있음을 보여줍니다. 첫 번째 관심 사례인 최적에 가까운 정책에서는 MDP에 대한 이중 시뮬레이션 메트릭을 사용하여 작은 섭동으로 인해 에이전트가 종료되는 데 시간이 더 오래 걸리지 않는다는 것을 증명합니다. 두 번째 관심 사례는 다양한 모델(언어 모델 포함)에 적용되는 특정 제약 조건을 만족하는 MDP에 대한 정책입니다. 여기서는 종료되지 않을 확률이 얼마나 빨리 증가할 수 있는지에 대한 정량적 한계를 증명합니다. MDP에 대한 메트릭을 정의하고, MDP의 함수로서 종료되지 않을 확률이 반연속적이라는 것을 증명하고, 이 함수가 얼마나 빨리 감소하는지에 대한 한계를 증명합니다. [abs|pdf]

[6/129] ClusterComm: Discrete Communication in Decentralized MARL using Internal Representation Clustering

Keywords: multi_agent_reinforcement, agent_reinforcement_learning, agent_policy_network
Abstract: 다중 에이전트 강화 학습(MARL)의 영역에서 일반적인 접근 방식은 인간의 학습, 견고성, 확장성에서 단점을 드러냅니다. 이러한 문제를 해결하기 위해 유니티는 에이전트가 중앙 제어 장치 없이 개별적으로 통신하는 완전 분산형 MARL 프레임워크인 ClusterComm을 도입했습니다. ClusterComm은 에이전트 정책 네트워크의 마지막 숨겨진 계층의 활성화에 대한 미니 배치-K 수단 클러스터링을 활용하여 이를 개별 메시지로 변환합니다. 이 접근 방식은 통신을 하지 않는 것보다 성능이 뛰어나며, 무제한의 지속적인 통신과도 경쟁이 가능하므로 MARL에서 협업적 작업 해결을 향상시키는 간단하면서도 효과적인 전략이 될 수 있습니다. [abs|pdf]

[7/129] Computational Argumentation-based Chatbots: a Survey

Keywords: chatbots_employ_argumentation, argumentation_based_bot, chatbots_conversational
Abstract: 챗봇은 다양한 목적을 위해 사용자와 대화식으로 상호 작용하도록 설계된 대화형 소프트웨어 애플리케이션입니다. 놀랍게도 이러한 구어체 에이전트는 최근에야 인간 커뮤니케이션의 특징인 일반적인 정보 교환을 기계가 읽을 수 있는 형식으로 형식화하는 것을 목표로 하는 계산적 논증 모델(즉, 계산적 논증)과 결합되었습니다. 챗봇은 다양한 수준과 방식으로 논증을 사용할 수 있습니다. 본 설문조사에서는 문헌을 통해 이러한 종류의 논증 기반 봇에 관한 논문을 검토하고, 표준 챗봇과 비교하여 이러한 접근 방식이 수반하는 장단점에 대한 결론을 도출하는 한편, 향후 트랜스포머 기반 아키텍처 및 최첨단 대규모 언어 모델과의 개발 및 통합 가능성을 예상해 보았습니다. [abs|pdf]

[8/129] Exploring Large Language Model based Intelligent Agents: Definitions, Methods, and Prospects

Keywords: ai_natural_language, intelligent_agents, agents_discussions
Abstract: 지능형 에이전트는 인공 지능(AGI)을 향한 잠재적 경로로 주목받고 있습니다. 따라서 연구자들은 지능형 에이전트를 다양하게 구현하기 위해 많은 노력을 기울여 왔습니다. 최근 대규모 언어 모델(LLM)의 발전에 힘입어 범용 자연어를 인터페이스로 사용하는 LLM 기반 에이전트는 자율적인 범용 작업 도우미 역할부터 코딩, 사회 및 경제 영역의 애플리케이션에 이르기까지 다양한 애플리케이션에서 강력한 일반화 기능을 발휘하며 광범위한 탐색 기회를 제공합니다. 이 백서에서는 단일 에이전트 및 다중 에이전트 시스템 내의 LLM 기반 지능형 에이전트에 대한 심층적인 개요를 제공하기 위해 최신 연구를 조사합니다. 에이전트의 정의, 연구 프레임워크, 구성, 인지 및 계획 방법, 도구 활용, 환경 피드백에 대한 반응과 같은 기본 구성 요소에 대해 다룹니다. 또한 다중 역할 협업, 메시지 전달, 에이전트 간의 커뮤니케이션 문제를 완화하기 위한 전략 등 다중 에이전트 시스템에서 LLM 기반 에이전트를 배포하는 메커니즘에 대해서도 자세히 살펴봅니다. 또한 널리 사용되는 데이터 세트와 애플리케이션 시나리오에 대해서도 논의합니다. 마지막으로 AI와 자연어 처리의 진화하는 환경을 고려하여 LLM 기반 에이전트의 전망을 구상하며 마무리합니다. [abs|pdf]

[9/129] Engineering Features to Improve Pass Prediction in Soccer Simulation 2D Games

Keywords: pass_prediction_soccer, prediction_soccer_simulation, passing_behavior_soccer
Abstract: Soccer Simulation 2D(SS2D)는 실제 축구 경기를 2차원으로 시뮬레이션한 게임입니다. 축구에서 패스 동작은 우리 팀이 공을 소유하고 골 기회를 창출하는 데 필수적인 동작입니다. 마찬가지로 SS2D에서도 상대팀과 우리 팀 동료의 패스 행동을 예측하면 자원을 관리하고 더 많은 골을 넣는 데 도움이 됩니다. 따라서 본 연구에서는 심층신경망(DNN)과 랜덤 포레스트(RF)를 사용하여 축구 2D 선수들의 패스 행동 모델링을 다루고자 합니다. 이를 위해 에이전트의 의사결정을 온라인 형식으로 기록할 수 있는 임베디드 데이터 추출 모듈을 제안합니다. 이후 학습 데이터 준비를 위해 4가지 데이터 정렬 기법을 적용합니다. 그 후, 독특한 경기 전략을 가진 2019 로보컵 상위 6개 팀을 상대로 훈련된 모델의 성능을 평가합니다. 마지막으로, 패스 전략 예측에 있어 다양한 특징 그룹이 얼마나 중요한지 살펴봅니다. 이 작업의 각 단계에서 얻은 모든 결과는 우리가 제안한 방법론의 효과를 입증하고 축구 시뮬레이션 2D 게임에서 패스 예측 성능을 5%(예: 같은 팀과의 경기)에서 10%(예: 로보컵 상위 팀과의 경기)까지 향상시켰습니다. [abs|pdf]

[10/129] Escalation Risks from Language Models in Military and Diplomatic Decision-Making

Keywords: agents_simulated_wargames, agents_strategic_military, military_foreign_policy
Abstract: 특히 GPT-4와 같은 고급 제너레이티브 AI 모델의 등장으로 각국 정부는 중요한 군사 및 외교 정책 의사결정에 자율 AI 에이전트를 통합하는 방안을 점점 더 고려하고 있습니다. 유니티의 연구는 시뮬레이션 전쟁 게임에서 여러 AI 에이전트의 행동을 면밀히 조사하는 것을 목표로 하며, 특히 다자간 분쟁을 악화시킬 수 있는 확대 행동에 대한 선호도에 초점을 맞추고 있습니다. 확대 역학에 관한 정치학 및 국제 관계 문헌을 바탕으로 다양한 시나리오에서 이러한 에이전트가 취하는 행동의 확대 위험을 평가하기 위한 새로운 전쟁 게임 시뮬레이션 및 채점 프레임워크를 설계합니다. 이전 연구와는 달리, 우리의 연구는 질적, 양적 인사이트를 모두 제공하며 대규모 언어 모델(LLM)에 초점을 맞춥니다. 연구 대상인 5개의 기성 LLM 모두 에스컬레이션의 형태와 예측하기 어려운 에스컬레이션 패턴을 보인다는 사실을 발견했습니다. 우리는 모델이 군비 경쟁의 역학을 발전시켜 더 큰 분쟁으로 이어지고, 드물게는 핵무기 배치로까지 이어지는 경향이 있음을 관찰했습니다. 또한 정성적으로는 모델이 선택한 행동에 대해 보고한 추론을 수집하고 억지 및 선제공격 전술에 근거한 우려스러운 정당성을 관찰합니다. 군사 및 외교 정책적 맥락의 높은 위험성을 고려할 때, 전략적 군사 또는 외교적 의사 결정을 위해 자율 언어 모델 에이전트를 배치하기 전에 추가 검토와 신중한 고려를 권장합니다. [abs|pdf]

[11/129] Decision Making in Non-Stationary Environments with Policy-Augmented Search

Keywords: reinforcement_learning_online, search_learns_policy, learns_policy_interacting
Abstract: 불확실성 하에서 순차적인 의사 결정은 많은 중요한 문제에서 존재합니다. 이러한 문제를 해결하기 위해 널리 사용되는 두 가지 접근 방식은 강화 학습과 온라인 검색(예: 몬테카를로 트리 검색)입니다. 전자는 환경과 상호 작용하여 정책을 학습하는 반면(일반적으로 실행 전에 수행됨), 후자는 환경의 생성 모델을 사용하여 의사 결정 시점에 유망한 행동 궤적을 샘플링합니다. 에이전트가 작동하는 환경이 시간이 지남에 따라 바뀔 수 있는 비고정적 환경에서는 의사 결정이 특히 어렵습니다. 이러한 환경에서는 두 가지 접근 방식 모두 단점이 있습니다. 한편으로는 실행 전에 학습한 정책이 환경이 바뀌면 오래되어 재학습에 시간과 계산 노력이 모두 필요합니다. 반면에 온라인 검색은 허용된 런타임에 제한이 있는 경우 차선책으로 최적의 작업을 반환할 수 있습니다. 이 논문에서는 오래된 정책의 액션 값 추정치와 최신 환경 모델을 사용한 온라인 검색을 결합하는 정책-증강 몬테카를로 트리 검색(PA-MCTS)을 소개합니다. 우리는 PA-MCTS가 한 단계 최적 조치를 선택하는 조건을 보여주는 이론적 결과를 증명하고 PA-MCTS를 정책으로 따르는 동안 발생하는 오류를 제한합니다. 또한 여러 OpenAI Gym 환경에서 우리의 접근 방식을 또 다른 하이브리드 계획 접근 방식인 AlphaZero 및 딥러닝과 비교하고 대조합니다. 광범위한 실험을 통해 제한된 시간 제약이 있는 비고정적 환경에서는 PA-MCTS가 이러한 기준선보다 더 나은 성능을 발휘한다는 것을 보여줍니다. [abs|pdf]

[12/129] Learning Persistent Community Structures in Dynamic Networks via Topological Data Analysis

Keywords: persistent_community_detection, dynamic_community_detection, temporally_persistent_community
Abstract: 동적 커뮤니티 탐지 방법에는 종종 시간적 일관성을 보장하는 효과적인 메커니즘이 부족하여 네트워크 진화를 분석하는 데 방해가 됩니다. 본 논문에서는 짧은 간격 내 네트워크 토폴로지 변화의 최소화라는 개념에서 영감을 얻어 커뮤니티 간 구조에 대한 시간적 일관성 정규화 기능을 갖춘 새로운 딥 그래프 클러스터링 프레임워크를 제안합니다. 구체적으로 표현 붕괴 문제를 해결하기 위해 먼저 노드 임베딩을 보존하는 행렬 인수분해 기반 심층 그래프 클러스터링 알고리즘인 MFC를 도입합니다. 정적 클러스터링 결과를 기반으로 확률론적 커뮤니티 네트워크를 구축하고 강력한 위상학적 척도인 지속성 상동성을 계산하여 네트워크 간의 구조적 유사성을 평가합니다. 또한, 새로운 신경망 정규화 TopoReg를 도입하여 시간 간격에 따른 커뮤니티 간 구조의 위상적 유사성을 보존합니다. 이러한 접근 방식은 커뮤니티 수가 고정적이거나 다양한 실제 데이터 세트에서 시간적 일관성과 클러스터링 정확도를 향상시킵니다. 또한, 시간적으로 지속되는 커뮤니티 탐지에 TDA를 적용한 선구적인 사례로, 네트워크 분석 분야에 인사이트를 제공하는 데 기여하고 있습니다. 코드와 데이터는 공개 git 리포지토리에서 사용할 수 있습니다(다음 https URL) [abs|pdf]

[13/129] A Survey on Verification and Validation, Testing and Evaluations of Neurosymbolic Artificial Intelligence

Keywords: neurosymbolic_ai_evaluates, neurosymbolic_artificial_intelligence, making_neurosymbolic_ai
Abstract: 신경심볼릭 인공지능(AI)은 심볼릭 인공지능과 하위 심볼릭 인공지능의 강점을 결합한 인공지능의 새로운 분야입니다. 하위 기호 AI의 가장 큰 단점은 예측을 설명하기 어려운 '블랙박스' 역할을 하기 때문에 하위 기호 AI를 사용하는 시스템의 테스트 및 평가(T&E), 검증 및 검증(V&V) 프로세스를 어렵게 만든다는 것입니다. 뉴로심볼릭 AI는 심볼릭 AI와 서브심볼릭 AI의 장점을 결합한 것으로, 이번 설문조사에서는 뉴로심볼릭 애플리케이션이 어떻게 V&V 프로세스를 간소화할 수 있는지에 대해 살펴봅니다. 이 설문조사에서는 신경심볼릭 AI의 두 가지 분류법을 고려하고, 이를 평가하며, 현재 애플리케이션에서 어떤 알고리즘이 심볼릭 및 하위 심볼릭 구성 요소로 일반적으로 사용되는지 분석합니다. 또한 이러한 구성 요소의 T&E 및 V&V 프로세스에 대한 현재 기술에 대한 개요를 제공합니다. 또한, 현재 신경심볼 애플리케이션에서 심볼 부품이 T&E 및 V&V 목적으로 어떻게 사용되는지 조사합니다. 연구 결과, 뉴로심볼릭 인공지능은 심볼릭 인공지능의 가능성을 활용하여 하위 심볼릭 인공지능의 T&E 및 V&V 프로세스를 간소화할 수 있는 큰 잠재력을 가지고 있음을 보여줍니다. 또한 현재의 T&E 및 V&V 방법을 뉴로심볼릭 AI에 적용할 수 있는지 평가하고, 다양한 뉴로심볼릭 아키텍처가 이러한 방법에 어떤 영향을 미칠 수 있는지 살펴봅니다. 신경심볼릭 애플리케이션의 상징적 부분과 하위 상징적 부분을 독립적으로 테스트, 평가, 검증 또는 검증하는 데 현재의 T&E 및 V&V 기법이 부분적으로 충분한 반면, 일부는 기본적으로 현재의 T&E 및 V&V 기법이 적용되지 않는 접근법을 사용하므로 조정 또는 새로운 접근법이 필요하다는 것을 알 수 있습니다. 이번 연구는 하위 기호 모델의 예측을 테스트, 평가, 검증 또는 검증하는 데 기호적 AI를 사용하는 데 큰 잠재력이 있음을 보여 주며, 신경 기호적 AI는 안전하고 보안이 유지되며 신뢰할 수 있는 AI를 위한 흥미로운 연구 방향이 될 것입니다. [abs|pdf]

[14/129] Manifold-based Shapley for SAR Recognization Network Explanation

Keywords: manifold_based_shapley, interpretability_traditional_shap, rendering_shapley_explanation
Abstract: 설명 가능한 인공 지능(XAI)은 특히 합성 개구 레이더(SAR)와 같이 위험하고 비용이 많이 드는 일부 시나리오에서 심층 신경망의 투명성과 신뢰성을 향상시키는 데 매우 중요한 의미를 갖습니다. 샤플리는 강력한 수학적 기반을 갖춘 게임 기반 설명 기법입니다. 하지만 샤플리는 모델의 특징이 독립적이라고 가정하기 때문에 고차원 모델에서는 샤플리 설명이 유효하지 않습니다. 본 연구에서는 고차원 특징을 저차원 매니폴드 특징에 투영하여 퓨전-셰이프를 얻는 매니폴드 기반 샤플리 기법을 도입하여 (1) 기존 샤플리가 가진 잘못된 설명 문제를 해결하고, (2) 복잡한 시나리오에서 기존 샤플리가 직면하는 해석 가능성 문제를 해결하는 것을 목표로 합니다. [abs|pdf]

[15/129] A white box solution to the black box problem of AI

Keywords: logic_cellular_automata, use_symbolic_ai, automaton_inference_cellular
Abstract: 신경망에 기반한 인공 지능은 상당한 발전을 이루었습니다. 그러나 이 접근법의 투명성 부족으로 인해 신뢰성과 보안에 대한 우려가 있습니다. 이것이 바로 인공지능의 블랙박스 문제입니다. 여기서는 투명한 화이트박스 특성을 가진 심볼릭 AI를 사용하여 이 문제를 해결할 수 있는 방법을 보여줍니다. 수학적 모델과 자연어 용어의 불투명성, 통합된 온톨로지의 부재, 검색 옵션의 조합적 폭발로 인해 기호적 AI의 광범위한 사용이 저해되고 있습니다. AI 블랙박스 문제를 해결하고 범용 기호 AI를 구현하기 위해 관련 영역의 일반 이론의 첫 번째 원칙에 기반한 규칙을 가진 결정론적 논리 셀룰러 오토마타를 사용할 것을 제안합니다. 이 경우 해당 영역의 일반 이론은 셀룰러 오토마타 추론을 위한 지식 베이스 역할을 합니다. 셀룰러 오토마톤은 복잡한 시스템의 세 가지 수준의 조직에서 자동 병렬 논리 추론을 구현합니다. 몇 가지 생태학적 가설에 대한 검증을 통해 화이트박스 AI 구현의 성공적인 선례를 제시합니다. 마지막으로 지식을 처리하고 자동화된 결정의 신뢰성과 안전성을 보장할 수 있는 범용 심볼릭 AI를 만드는 프로그램에 대해 논의합니다. [abs|pdf]

[16/129] UMIE: Unified Multimodal Information Extraction with Instruction Tuning

Keywords: multimodal_information_extraction, multimodal_information_extractor, unified_multimodal_information
Abstract: 멀티미디어 콘텐츠의 인기가 높아짐에 따라 멀티모달 정보 추출(MIE)이 크게 주목받고 있습니다. 그러나 현재의 MIE 방법은 종종 작업별 모델 구조를 사용하는 경우가 많기 때문에 작업 간 일반화 가능성이 제한되고 MIE 작업 전반에서 공유된 지식을 제대로 활용하지 못합니다. 이러한 문제를 해결하기 위해 본 논문에서는 인스트럭션 튜닝을 통해 세 가지 MIE 태스크를 생성 문제로 통합하여 텍스트와 시각적 언급을 모두 효과적으로 추출할 수 있는 통합 멀티모달 정보 추출기인 UMIE를 제안합니다. 광범위한 실험 결과, 단일 UMIE가 세 가지 과제에 대한 여섯 개의 MIE 데이터 세트에서 다양한 최신(SoTA) 방법보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 또한 심층 분석을 통해 제로 샷 환경에서 UMIE의 강력한 일반화, 명령어 변형에 대한 견고성 및 해석 가능성을 입증했습니다. 이번 연구는 통합 MIE 모델을 향한 초기 단계로, MIE 도메인 내에서 인스트럭션 튜닝과 대규모 언어 모델에 대한 탐색을 시작합니다. 코드, 데이터 및 모델은 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[17/129] Dr2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning

Keywords: dual_residual_networks, residual_networks, residual_networks_dr
Abstract: 최신 컴퓨터 비전 작업에서 사전 학습된 대규모 모델의 중요성은 점점 더 커지고 있습니다. 이러한 모델은 일반적으로 엔드 투 엔드 미세 조정을 통해 다운스트림 작업에서 사용되며, 이는 비디오 이해, 작은 물체 감지, 포인트 클라우드 분석과 같이 고해상도 데이터를 사용하는 작업에서 메모리 집약적입니다. 이 백서에서는 메모리 소비를 크게 줄이면서 사전 훈련된 모델을 미세 조정하는 대리 네트워크 역할을 하는 새로운 네트워크 아키텍처인 동적 가역 이중 잔류 네트워크(Dynamic Reversible Dual-Residual Networks, 이하 Dr2Net)를 제안합니다. Dr2Net에는 두 가지 유형의 잔류 연결이 있는데, 하나는 사전 학습된 모델의 잔류 구조를 유지하는 것이고 다른 하나는 네트워크를 가역적으로 만드는 것입니다. 가역성으로 인해 출력에서 재구성할 수 있는 중간 활성화는 훈련 중에 메모리에서 지워집니다. 두 가지 유형의 잔류 연결에 각각 두 가지 계수를 사용하고, 사전 훈련된 모델을 훨씬 더 높은 수치 정밀도로 가역적 네트워크로 원활하게 전환하는 동적 훈련 전략을 도입합니다. 다양한 사전 훈련된 모델과 다양한 작업에 대해 Dr2Net을 평가하고, 기존의 미세 조정과 비슷한 성능에 도달하면서도 메모리 사용량은 훨씬 적다는 것을 보여줍니다. [abs|pdf]

[18/129] MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Keywords: outperforms_mamba_transformer, transformer_based_llms, transformer_like_performance
Abstract: 상태 공간 모델(SSM)은 순차적 모델링 분야에서 트랜스포머의 아성에 도전하는 강력한 경쟁자가 되었습니다. 동시에 전문가 혼합(MoE)은 최근의 최신 오픈 소스 모델을 포함하여 Transformer 기반 LLM을 크게 개선했습니다. 확장성을 위해 SSM의 잠재력을 발휘하려면 MoE와 결합해야 한다고 제안합니다. 트랜스포머와 같은 놀라운 성능을 구현하는 최신 SSM 기반 모델인 맘바(Mamba)를 통해 이를 소개합니다. 당사의 모델인 MoE-Mamba는 Mamba와 Transformer-MoE를 모두 능가하는 성능을 발휘합니다. 특히 MoE-Mamba는 2.2배 더 적은 훈련 단계로 Mamba와 동일한 성능에 도달하는 동시에 Transformer 대비 Mamba의 추론 성능 향상을 유지합니다. [abs|pdf]

[19/129] Unveiling Bias in Fairness Evaluations of Large Language Models: A Critical Literature Review of Music and Movie Recommendation Systems

Keywords: fairness_evaluations_acknowledge, fairness_evaluations, nuanced_fairness_evaluations
Abstract: 생성형 인공 지능, 특히 대규모 언어 모델(LLM)의 등장으로 정확성과 함께 공정성을 면밀히 검토해야 할 필요성이 더욱 커졌습니다. 최근 추천과 같은 도메인 내에서 LLM의 공정성 평가를 조사하는 연구가 시작되었습니다. 개인화가 추천 시스템의 본질적인 측면이라는 점을 고려할 때, 이를 공정성 평가에 통합하는 것이 무엇보다 중요합니다. 그러나 현재의 공정성 평가 프레임워크가 개인화를 어느 정도까지 고려하고 있는지는 아직 불분명합니다. 이 포괄적인 문헌 검토는 개인화 요소의 통합에 초점을 맞춰 기존 프레임워크가 LLM의 공정성 평가를 어떻게 처리하는지 검토함으로써 이러한 간극을 메우는 것을 목표로 합니다. 관련 연구를 철저히 수집하고 분석했음에도 불구하고, 대부분의 평가가 추천 시스템의 중요한 측면인 개인화를 간과하여 불공정한 관행을 의도치 않게 영속화한다는 사실을 발견했습니다. 이번 조사 결과는 이러한 간과를 조명하고 개인화를 인정하는 보다 미묘한 공정성 평가가 시급히 필요하다는 점을 강조합니다. 이러한 개선은 AI 커뮤니티 내에서 공평한 발전을 촉진하는 데 필수적입니다. [abs|pdf]

[20/129] Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Keywords: video_contrastive_loss, multimodal_supervised_contrastive, modal_contrastive_loss
Abstract: 최근 연구자들은 시각적 신호로 동작이 잘 표현되지 않거나 포착되지 않는 문제를 해결하기 위해 오디오와 비디오 신호를 결합하고 있습니다. 그러나 두 가지 모달리티를 효과적으로 활용하는 방법은 아직 개발 중입니다. 이 연구에서는 계층적 표현 학습을 활용하는 멀티스케일 멀티모달 트랜스포머(MMT)를 개발합니다. 특히 MMT는 새로운 멀티스케일 오디오 트랜스포머(MAT)와 멀티스케일 비디오 트랜스포머로 구성됩니다[43]. 차별적인 교차 모달리티 융합을 학습하기 위해 두 모달리티를 강력하게 정렬하는 오디오-비디오 대비 손실(AVC) 및 모달 내 대비 손실(IMC)이라는 다중 모달 감독 대비 목표를 추가로 설계합니다. MMT는 외부 훈련 데이터 없이도 최고 수준의 정확도 측면에서 키네틱스 사운드와 VG 사운드에서 기존 최첨단 접근법을 각각 7.3%, 2.1% 능가합니다. 또한, 제안된 MAT는 세 가지 공개 벤치마크 데이터 세트에서 AST[28]를 22.2%, 4.4%, 4.7% 크게 능가하며, 플롭 수 기준으로는 약 3% 더 효율적이고 GPU 메모리 사용량 기준으로는 9.8% 더 효율적입니다. [abs|pdf]

[21/129] Simultaneous Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications

Keywords: planning_temporal_logic, robotic_planning_temporal, robotic_planning
Abstract: 시간 논리 사양, 특히 선형 시간 논리(LTL)를 사용한 로봇 계획에 대한 과거의 연구는 주로 개별 로봇 또는 로봇 그룹에 대한 단일 공식을 기반으로 했습니다. 그러나 작업의 복잡성이 증가함에 따라 LTL 공식은 필연적으로 길어져 해석과 사양 생성이 복잡해지고 기획자의 계산 능력에 부담을 줄 수밖에 없습니다. LTL 사양의 잠재력을 극대화하기 위해 우리는 작업의 내재적 구조를 활용하여 LTL 사양에 계층적 구조를 도입하고, 입력 시퀀스가 주어졌을 때 이를 만족하는지 확인하는 알고리즘을 설계했습니다. 둘째, 다중 로봇 시스템의 계획을 합성하는 데 검색 기반 접근 방식을 사용하여 작업 할당과 계획을 동시에 수행합니다. 검색 공간은 느슨하게 상호 연결된 하위 공간으로 근사화되며, 각 하위 공간은 하나의 LTL 사양에 해당합니다. 검색은 주로 단일 하위 공간에 국한되며, 자동화의 분해에 의해 결정되는 특정 조건에서 다른 하위 공간으로 전환됩니다. 또한 검색 속도를 크게 높이기 위해 여러 휴리스틱이 공식화되어 있습니다. 완결성과 최적성에 관한 이론적 분석은 가벼운 가정 하에 수행됩니다. 서비스 작업에 대한 기존 방법과 비교했을 때, 우리의 방법은 비슷한 솔루션 품질과 함께 실행 시간 측면에서 더 나은 성능을 보입니다. 마지막으로 30대의 로봇으로 구성된 그룹을 테스트하여 합리적인 런타임을 달성함으로써 확장성을 평가합니다. [abs|pdf]

[22/129] Polynomial Precision Dependence Solutions to Alignment Research Center Matrix Completion Problems

Keywords: matrix_completion_problems, matrix_completion, solutions_matrix_completion
Abstract: 정밀도 ε에 다항식 의존성을 갖는 정렬 연구 센터에서 제안한 행렬 완성 문제에 대한 해결책을 제시합니다. 이러한 문제의 동기는 AI 정렬을 위해 다양한 양의 심층 신경망을 공식적으로 평가하고 추론하기 위한 휴리스틱 추정기의 효율적인 계산을 가능하게 하기 위해서입니다. 우리의 솔루션은 행렬 완성 문제를 준정밀도 프로그램(SDP)으로 재구성하고, 빠르고 효율적이며 확장 가능한 SDP 해결을 위해 스펙트럼 번들 방법의 최근 발전된 기술을 사용하는 것입니다. [abs|pdf]

[23/129] Behavioural Cloning in VizDoom

Keywords: doom_imitation_learning, imitation_learning_il, autonomous_agents_play
Abstract: 이 백서에서는 픽셀 데이터만 입력으로 사용하는 모방 학습(IL)을 통해 게임 '둠 2'를 플레이하도록 자율 에이전트를 훈련하는 방법에 대해 설명합니다. 또한 카메라 움직임과 궤적 데이터를 비교하여 강화 학습(RL)이 IL과 인간성을 어떻게 비교하는지 살펴봅니다. 행동 복제를 통해 개별 모델이 다양한 행동 특성을 학습할 수 있는 능력을 살펴봅니다. 유니티는 다양한 플레이 스타일을 가진 실제 플레이어의 행동을 모방하여 기존 AI보다 더 공격적으로, 수동적으로, 또는 단순히 인간처럼 행동하는 에이전트를 훈련할 수 있다는 사실을 발견했습니다. 유니티는 비디오 게임 속 에이전트에 보다 깊이 있고 인간과 유사한 행동을 도입하는 방법을 제안합니다. 훈련된 IL 에이전트는 데이터 세트의 평균 플레이어와 동등한 성능을 보였으며, 최악의 플레이어보다 더 뛰어난 성능을 보였습니다. 성능은 일반적인 RL 접근 방식만큼 강력하지는 않지만, 에이전트에게 훨씬 더 강력한 인간과 유사한 행동 특성을 제공합니다. [abs|pdf]

[24/129] A Primer on Temporal Graph Learning

Keywords: temporal_graph_learning, graph_learning_tgl, transformers_graph_neural
Abstract: 이 문서는 개념 우선 접근 방식을 통해 독자들이 시간적 그래프 학습(TGL)에 익숙해지도록 하는 것을 목표로 합니다. TGL 프레임워크의 작동을 이해하는 데 필수적인 핵심 개념을 체계적으로 제시했습니다. 정성적인 설명과 더불어 해당되는 경우 수학적 공식을 통합하여 텍스트의 명확성을 높였습니다. TGL은 시간 및 공간 학습을 포함하므로 순환 신경망과 컨볼루션 신경망부터 트랜스포머와 그래프 신경망에 이르기까지 관련 학습 아키텍처를 소개합니다. 또한 TGL을 위한 해석 가능한 학습 솔루션에 영감을 줄 수 있는 고전적인 시계열 예측 방법에 대해서도 논의합니다. [abs|pdf]

[25/129] TTMs: Fast Multi-level Tiny Time Mixers for Improved Zero-shot and Few-shot Forecasting of Multivariate Time Series

Keywords: large_pretrained_models, tiny_pretrained_models, pretrained_models
Abstract: 제로/소수 샷 학습을 위한 대규모 사전 학습 모델은 언어 및 시각 영역에서는 탁월하지만, 공개적으로 사용 가능한 사전 학습 데이터의 다양한 특성과 희소성으로 인해 다변량 시계열(TS)에서는 어려움을 겪습니다. 따라서 최근에는 시계열 예측을 위해 다양한 방식으로 사전 학습된 대규모 언어 모델(LLM)을 활용하는 사례가 급증하고 있습니다. 이러한 접근 방식은 도메인 간 전이 학습을 사용하여 매우 인상적인 결과를 도출합니다. 그러나 이러한 모델은 일반적으로 매우 크고(~10억 개의 파라미터), 실행 속도가 느리며, 채널 간 상관관계를 고려하지 않습니다. 이러한 문제를 해결하기 위해 유니티는 경량 TS믹서 아키텍처에 기반한 훨씬 더 작은 모델인 다단계 타이니 타임 믹서(TTM)를 선보입니다. TTM은 효과적인 전이 학습 기능을 갖춘 퍼블릭 TS 데이터로만 학습된 초소형 사전 학습 모델(≤100만 개의 파라미터)을 개발하는 데 최초로 성공했습니다. 다양한 시간적 해상도를 가진 여러 데이터 세트에 대한 사전 학습의 복잡성을 해결하기 위해 적응형 패치, 다운샘플링을 통한 데이터 세트 증강, 해상도 접두사 튜닝과 같은 몇 가지 새로운 개선 사항을 도입했습니다. 또한 기존 벤치마크에는 없는 중요한 기능인 채널 상관관계를 효과적으로 모델링하고 미세 조정 시 외생적 신호를 통합하기 위해 다단계 모델링 전략을 사용합니다. TTM은 소수/제로 샷 예측에 탁월하여 기존 벤치마크에 비해 상당한 정확도 향상(12-38%)을 보여줍니다. 또한, 모델 파라미터를 14~106배까지 줄여 LLM-TS 벤치마크에 비해 54~65배 빠른 학습/추론이 가능합니다. 실제로 많은 벤치마크에서 TTM의 제로 샷 결과는 종종 숏 샷 결과를 능가하여 이 접근 방식의 효율성을 강조합니다. 코드와 사전 학습된 모델은 오픈 소스로 제공됩니다. [abs|pdf]

[26/129] Rastro-DM: data mining with a trail

Keywords: documenting_data_mining, methodology_documenting_data, data_mining_dm
Abstract: 이 백서에서는 계획된 작업, 완료된 교육, 얻은 결과 및 교훈의 흔적(포르투갈어로 Rastro)을 남기기 위해 생성된 모델이 아니라 그 이면의 프로세스에 초점을 맞춘 데이터 마이닝(DM) 프로젝트 문서화 방법론인 Rastro-DM(트레일 데이터 마이닝)을 제안합니다. 제안된 사례는 DM 프로세스에 대한 방법론 및 패러다임적 프레임워크를 확립하는 CRISP-DM과 같은 DM의 구조화 방법론을 보완합니다. 모범 사례의 적용과 그 이점은 브라질 연방 국고에 대한 손해 조사 과정과 관련된 PDF 문서의 분류를 위해 만들어진 'Cladop'이라는 프로젝트에서 확인할 수 있습니다. 프로젝트의 맥락에서 Rastro-DM 키트를 구축하는 것은 기업 전체에서 추적을 공유하고 사용함으로써 제도적 도약을 이룰 수 있는 작은 단계입니다. [abs|pdf]

[27/129] A Philosophical Introduction to Language Models -- Part I: Continuity With Classic Debates

Keywords: language_models_philosophers, artificial_intelligence_linguistics, language_models_questions
Abstract: GPT-4와 같은 대규모 언어 모델은 광범위한 언어 기반 작업에서 놀라운 숙련도를 달성했으며, 그 중 일부는 전통적으로 인간 지능의 특징과 연관되어 있습니다. 이로 인해 언어 모델에 어떤 종류의 언어적 또는 인지적 능력을 어느 정도까지 의미 있게 부여할 수 있는지에 대한 논란이 계속되고 있습니다. 이러한 질문은 인지 모델로서 인공 신경망의 지위에 대한 오랜 논쟁을 반영하는 깊은 철학적 뿌리를 가지고 있습니다. 두 개의 동반 논문 중 첫 번째 부분인 이 글은 철학자를 위한 언어 모델 입문서이자 철학 인지 과학, 인공지능, 언어학 분야의 고전적 논쟁과 관련하여 언어 모델이 갖는 의미에 대한 의견 조사 역할을 합니다. 우리는 구성성, 언어 습득, 의미 능력, 근거, 세계 모델, 문화 지식의 전달과 같은 주제를 다룹니다. 우리는 언어 모델의 성공이 인공 신경망에 대한 몇 가지 오랜 가정에 도전한다고 주장합니다. 그러나 내부 메커니즘을 더 잘 이해하기 위해서는 추가적인 경험적 조사가 필요하다는 점도 강조합니다. 이는 언어 모델의 내부 작동을 조사하기 위한 새로운 경험적 방법과 최근의 발전으로 촉발된 새로운 철학적 질문을 다루는 동반 논문(2부)의 무대를 마련합니다. [abs|pdf]

[28/129] A Survey on 3D Gaussian Splatting

Keywords: gaussian_splatting_3d, 3d_gs_explicit, 3d_gaussian_splatting
Abstract: 3D 가우시안 스플래팅(3D GS)은 최근 명시적 래디언스 필드와 컴퓨터 그래픽 환경에서 혁신적인 기술로 부상하고 있습니다. 수백만 개의 3D 가우시안 활용을 특징으로 하는 이 혁신적인 접근 방식은 공간 좌표를 픽셀 값에 매핑하기 위해 주로 암시적 좌표 기반 모델을 사용하는 신경 방사장(NeRF) 방법론에서 크게 벗어난 것입니다. 명시적 장면 표현과 차별화된 렌더링 알고리즘을 갖춘 3D GS는 실시간 렌더링 기능을 제공할 뿐만 아니라 전례 없는 수준의 제어 및 편집 기능을 도입했습니다. 따라서 3D GS는 차세대 3D 재구성 및 표현의 잠재적 판도를 바꿀 수 있는 기술로 자리매김하고 있습니다. 본 백서에서는 3D GS 분야의 최근 발전과 중요한 기여에 대한 체계적인 개요를 최초로 제공합니다. 먼저 3D GS의 등장 배경이 된 기본 원리와 원동력에 대해 자세히 살펴봄으로써 그 중요성을 이해할 수 있는 발판을 마련합니다. 논의의 초점은 3D GS의 실제 적용 가능성입니다. 실시간 성능을 촉진함으로써 3D GS는 가상 현실에서 인터랙티브 미디어에 이르기까지 다양한 애플리케이션에 적용될 수 있습니다. 이를 위해 다양한 벤치마크 작업을 통해 평가된 주요 3D GS 모델을 비교 분석하여 성능과 실용성을 강조합니다. 설문조사는 현재의 과제를 파악하고 향후 이 분야의 연구를 위한 잠재적인 방향을 제시하는 것으로 마무리됩니다. 이 설문조사를 통해 신규 연구자와 숙련된 연구자 모두에게 귀중한 리소스를 제공하여 적용 가능하고 명시적인 복사 필드 표현에 대한 추가 탐색과 발전을 촉진하고자 합니다. [abs|pdf]

[29/129] FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

Keywords: llm_computation_memory, heavy_computation_memory, flow_fpgas_flightllm
Abstract: 트랜스포머 기반 대규모 언어 모델(LLM)은 다양한 도메인에 큰 영향을 미쳤습니다. 그러나 LLM의 효율성은 계산과 메모리 오버헤드 모두에서 떨어집니다. 일반적으로 LLM의 계산/메모리 오버헤드와 하드웨어 용량 간의 격차를 완화하기 위해 스파스화 및 양자화와 같은 압축 기술이 사용됩니다. 그러나 기존의 GPU 및 트랜스포머 기반 가속기는 낮은 계산 효율, 활용도가 낮은 메모리 대역폭, 큰 컴파일 오버헤드 등 해결되지 않은 문제들로 인해 압축된 LLM을 효율적으로 처리할 수 없습니다.
이 백서에서는 FPGA에서 완전한 매핑 흐름을 통해 효율적인 LLM 추론을 가능하게 하는 FlightLLM을 제안합니다. FlightLLM에서는 FPGA에 특화된 리소스(예: DSP48 및 이기종 메모리 계층구조)를 활용하여 LLM의 계산 및 메모리 오버헤드를 해결할 수 있는 혁신적인 솔루션을 강조합니다. 우리는 높은 계산 효율로 다양한 스파스 패턴을 지원하기 위해 구성 가능한 스파스 DSP 체인을 제안합니다. 둘째, 혼합 정밀도 지원으로 메모리 대역폭을 향상시키기 위해 상시 칩 디코딩 방식을 제안합니다. 마지막으로, 실제 LLM에서 FlightLLM을 사용할 수 있도록 컴파일 오버헤드를 줄이기 위해 길이 적응형 컴파일 방법을 제안합니다. 자일링스 알베오 U280 FPGA에 구현된 FlightLLM은 하나의 배치 크기에서 vLLM과 SmoothQuant를 사용하는 최신 LLM(예: LLaMA2-7B)에서 상용 GPU(예: NVIDIA V100S) 대비 6.0배 높은 에너지 효율과 1.8배 향상된 비용 효율을 달성합니다. FlightLLM은 최신 Versal VHK158 FPGA를 사용하여 1.2배 더 높은 처리량으로 NVIDIA A100 GPU를 능가합니다. [abs|pdf]

[30/129] Inverse Reinforcement Learning with Sub-optimal Experts

Keywords: inverse_reinforcement_learning, sub_optimal_experts, experts_feasible_reward
Abstract: 역강화 학습(IRL) 기법은 미지의 기본 작업에서 최적으로 행동할 것으로 가정되는 전문가 에이전트의 행동을 설명하는 보상 함수를 추론하는 문제를 다룹니다. 그러나 관심 있는 여러 문제에서는 최적성의 정도가 다른 여러 전문가(예: 아마추어부터 프로까지 다양한 실력을 가진 레이싱 드라이버)의 행동을 관찰할 수 있습니다. 이러한 이유로 이 연구에서는 최적 에이전트의 시연 외에도 여러 차선의 전문가들의 행동을 관찰할 수 있는 문제로 IRL 공식을 확장합니다. 이 문제가 주어지면 먼저 주어진 전문가 집합과 양립할 수 있는 보상 함수 클래스, 즉 실현 가능한 보상 집합의 이론적 특성을 연구합니다. 연구 결과, 차선책 전문가가 여러 명 존재할 경우 양립 가능한 보상 집합이 크게 축소될 수 있음을 보여줍니다. 또한, 생성 모델을 사용하여 실현 가능한 보상 집합을 추정하는 통계적 복잡성을 연구합니다. 이를 위해 차최적 전문가의 성과 수준이 최적 에이전트의 성과 수준에 충분히 근접할 때마다 최소 최적이 되는 균일 샘플링 알고리즘을 분석합니다. [abs|pdf]

[31/129] Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation

Keywords: code_generation_human, python_code_generation, code_generation_tasks
Abstract: 대규모 언어 모델(LLM)을 사용하여 사람의 설명을 통해 코드를 생성하는 방식이 인기를 끌면서 기존 모델과 새로운 모델의 기능을 평가하기 위한 여러 벤치마크가 제안되었습니다. 이 연구에서는 Python 코드 생성에 널리 사용되는 두 가지 벤치마크인 HumanEval과 MBPP에 대한 대규모 인적 평가를 다양성과 난이도에 초점을 맞춰 제시합니다. 연구 결과, 대부분의 개념을 거의 대표하지 않거나 전혀 대표하지 못하는 제한된 수의 프로그래밍 개념에 대한 편향성이 심각하다는 사실이 밝혀졌습니다. 또한 쉬운 프로그래밍 문제의 비율이 지나치게 높아 코드 생성 작업에서 모델 성능을 과대평가할 가능성이 있음을 확인했습니다. [abs|pdf]

[32/129] TIER: Text and Image Encoder-based Regression for AIGC Image Quality Assessment

Keywords: text_image_encoder, text_encoder_image, image_quality_assessment
Abstract: 최근 컴퓨터 비전 분야의 새로운 화두로 AI가 생성한 이미지의 품질을 인간의 인식 관점에서 평가하는 AIGC 이미지 품질 평가(AIGCIQA)가 떠오르고 있습니다. 일반적인 이미지 품질 평가 작업에서 노이즈, 흐림, 압축으로 인해 왜곡된 원본 이미지에서 이미지를 도출하는 것과 달리, AIGCIQA 작업에서는 일반적으로 텍스트 프롬프트를 사용하는 생성 모델에 의해 이미지가 생성됩니다. 지난 몇 년 동안 AIGCIQA를 발전시키기 위해 많은 노력을 기울여 왔습니다. 그러나 대부분의 기존 AIGCIQA 방법은 생성된 개별 이미지에서 직접 예측 점수를 회귀시켜 이미지의 텍스트 프롬프트에 포함된 정보를 간과합니다. 이러한 간과로 인해 이러한 AIGCIQA 방법의 성능이 부분적으로 제한됩니다. 이 문제를 해결하기 위해 저희는 텍스트 및 이미지 인코더 기반 회귀(TIER) 프레임워크를 제안합니다. 구체적으로, 생성된 이미지와 그에 대응하는 텍스트 프롬프트를 입력으로 처리하고, 텍스트 인코더와 이미지 인코더를 활용하여 각각 텍스트 프롬프트와 생성된 이미지에서 특징을 추출합니다. 제안한 TIER 방법의 효과를 입증하기 위해 AGIQA-1K, AGIQA-3K, AIGCIQA2023을 포함한 여러 주요 AIGCIQA 데이터베이스에 대해 광범위한 실험을 수행했습니다. 실험 결과, 우리가 제안한 TIER 방법은 대부분의 경우 기준선에 비해 일반적으로 우수한 성능을 보여줍니다. [abs|pdf]

[33/129] A foundation for exact binarized morphological neural networks

Keywords: convnets_binarization, convnets_binarization_using, binarize_convnets
Abstract: 심층 신경망(NN)을 훈련하고 실행하려면 많은 계산과 에너지 집약적인 특수 하드웨어(예: GPU, TPU...)가 필요한 경우가 많습니다. 계산 및 전력 비용을 줄이는 한 가지 방법은 이진 가중치 NN을 사용하는 것이지만, 부호 함수가 매끄럽지 않은 기울기를 갖기 때문에 훈련하기가 어렵습니다. 특정 조건에서 성능 저하 없이 ConvNet을 이진화할 수 있는 수학적 형태론(MM) 기반 모델을 제시하지만, 이러한 조건은 실제 시나리오에서 충족하기 쉽지 않을 수 있습니다. 이 문제를 해결하기 위해 두 가지 새로운 근사화 방법을 제안하고 MM을 이용한 ConvNet 이진화를 위한 강력한 이론적 프레임워크를 개발합니다. 또한 최적화를 개선하기 위해 정규화 손실을 제안합니다. 우리는 우리의 모델이 복잡한 형태소 네트워크를 학습할 수 있음을 실증적으로 보여주고 분류 작업에서 그 성능을 탐구합니다. [abs|pdf]

[34/129] TeleChat Technical Report

Keywords: large_language_models, pretrained_language_models, language_models
Abstract: 이 기술 보고서에서는 30억, 70억, 120억 개의 파라미터를 가진 대규모 언어 모델(LLM)의 모음인 TeleChat을 소개합니다. 여기에는 사전 학습된 언어 모델뿐만 아니라 사람의 선호도에 맞춰 미세 조정된 채팅 모델도 포함되어 있습니다. 텔레챗은 처음에 수조 개의 토큰을 포함하여 영어와 중국어의 다양한 텍스트 모음이 포함된 광범위한 말뭉치에 대해 사전 학습됩니다. 그 후, 이 모델은 설명하는 자세한 방법론에 따라 사람의 선호도에 맞게 미세 조정됩니다. 언어 이해, 수학, 추론, 코드 생성, 지식 기반 질문 답변 등 다양한 작업에서 TeleChat의 성능을 평가합니다. 연구 결과에 따르면 TeleChat은 광범위한 공개 벤치마크에서 비슷한 규모의 다른 오픈소스 모델과 비슷한 성능을 달성하는 것으로 나타났습니다. 향후 LLM을 활용한 연구 및 애플리케이션을 지원하기 위해, 저희는 코드 및 사전 학습 데이터의 일부와 함께 TeleChat의 7B 및 12B 변형에 대한 미세 조정된 모델 체크포인트를 공개 커뮤니티에 공개합니다. [abs|pdf]

[35/129] Long-term Safe Reinforcement Learning with Binary Feedback

Keywords: guarantee_safety_learning, binary_safety_feedback, safety_learning
Abstract: 안전성은 강화학습(RL)을 실제 문제에 적용하기 위한 필수 요건입니다. 최근 몇 년 동안 안전한 RL 알고리즘이 많이 제안되었지만, 대부분의 기존 연구는 일반적으로 1) 수치화된 안전 피드백 수신에 의존하거나, 2) 학습 과정에서 안전성을 보장하지 않거나, 3) 문제를 선험적으로 알려진 결정론적 전이 역학으로 제한하거나, 4) 모든 상태에 대해 알려진 안전한 정책이 존재한다고 가정합니다. 따라서 위에서 언급한 문제를 해결하기 위해 유니티는 이진 안전 피드백과 미지의 확률적 상태 전이 함수가 있는 제약 마르코프 의사결정 프로세스(CMDP)를 위한 안전한 RL 알고리즘인 장기 바이너리 피드백 안전 RL(Long-term Binaryfeedback Safe RL, LoBiSaRL)을 제안합니다. LoBiSaRL은 에이전트가 각 에피소드에서 높은 확률로 안전한 상태-행동 쌍만 실행하도록 장기적인 안전성을 보장하면서 보상을 최대화하기 위한 정책을 최적화합니다. 구체적으로 LoBiSaRL은 일반화된 선형 모델(GLM)을 통해 이항 안전 함수를 모델링하고, 적절한 가정 하에 미래 안전에 미치는 영향을 추론하면서 모든 시간 단계에서 안전한 행동만을 보수적으로 취합니다. 이론적 결과에 따르면 LoBiSaRL은 높은 확률로 장기적인 안전 제약을 보장합니다. 마지막으로, 경험적 결과는 보상 측면에서 성능을 크게 저하시키지 않으면서도 기존 방법보다 알고리즘이 더 안전하다는 것을 보여줍니다. [abs|pdf]

[36/129] Corn Yield Prediction Model with Deep Neural Networks for Smallholder Farmer Decision Support System

Keywords: random_forest_regressor, forest_regressor, neural_network_regressor
Abstract: 날씨와 토양 변수 간의 상호 작용의 비선형성을 감안하여, 새로운 심층 신경망 회귀 분석(DNNR)을 깊이, 숨겨진 층의 뉴런 수, 최적화를 위한 하이퍼파라미터를 고려하여 신중하게 설계했습니다. 또한, 평균제곱근오차(RMSE)와 평균절대오차(MAE)의 단점을 해결하고 장점을 결합하기 위해 새로운 지표인 절대제곱근오차(ARSE)가 제안되었습니다. ARSE 메트릭을 사용하여 랜덤 포레스트 회귀분석(RFR)과 극한 경사 부스팅 회귀분석(XGBR)을 DNNR과 비교했습니다. RFR과 XGBR의 수율 오차는 각각 0.0000294 t/ha, 0.000792 t/ha로 각각 0.0146 t/ha, 0.0209 t/ha를 달성한 DNNR에 비해 훨씬 작았습니다. 모든 오차가 놀라울 정도로 작았습니다. 그러나 예상치 못한 데이터에 대한 일반화 가능성을 보장하기 위해 설명 변수를 변경했을 때 DNNR이 가장 우수한 성능을 보였습니다. 예측 불가능한 데이터는 눈에 보이는 데이터와 달리 기후 변화로 인한 기상 및 토양 변수의 갑작스럽고 설명할 수 없는 변화를 나타내기 위해 만들어진 용어입니다. 추가 분석 결과, 날씨와 토양 변수 사이에 강력한 상호작용이 존재한다는 사실이 밝혀졌습니다. 수확량과 각각 강한 음의 상관관계와 강한 양의 상관관계가 있는 강수량과 미사를 사용하여 강수량이 감소하고 미사가 증가하면 수확량이 증가하는 것으로 관찰되었으며, 그 반대의 경우도 마찬가지였습니다. [abs|pdf]

[37/129] Contextual Fixed-Budget Best Arm Identification: Adaptive Experimental Design with Policy Learning

Keywords: sampling_policy_learning, adaptive_sampling_policy, policy_learning_recommendation
Abstract: 개별화된 치료법 추천은 증거 기반 의사 결정에서 매우 중요한 작업입니다. 이 연구에서는 이 과제를 상황 정보가 있는 고정 예산 최적 치료군 식별(BAI) 문제로 공식화합니다. 이 설정에서는 여러 치료군이 주어지는 적응형 실험을 고려합니다. 각 라운드에서 의사 결정자는 실험 단위를 특징짓는 컨텍스트(공변량)를 관찰하고 해당 단위를 치료군 중 하나에 할당합니다. 실험이 끝나면 의사 결정자는 컨텍스트에 따라 예상 결과가 가장 높을 것으로 예상되는 치료군(최적 치료군)을 추천합니다. 이 결정의 효과는 최악의 경우 예상되는 단순 후회(정책 후회)의 관점에서 측정되며, 이는 컨텍스트가 주어졌을 때 최상의 치료군과 권장 치료군의 조건부 기대 결과 간의 가장 큰 차이를 나타냅니다. 첫 번째 단계는 최악의 경우 예상되는 단순 후회의 점근 하한을 도출하는 것이며, 이는 이상적인 치료법 할당 규칙을 의미하기도 합니다. 하한값에 따라 적응형 샘플링(AS)-정책 학습 추천(PL) 전략을 제안합니다. 이 전략에서는 각 라운드에서 목표 할당 비율에 따라 무작위로 치료군을 할당합니다. 실험이 끝날 무렵에는 역경험적 정책 값을 최대화하여 주어진 상황에서 치료법을 추천하는 함수인 정책을 학습시킵니다. 연구 결과, AS-PL 전략은 점근적으로 최소 최대 최적이며, 기대 단순 후회의 선행 요인이 우리가 설정한 최악의 경우의 하한에 수렴하는 것으로 나타났습니다. 이 연구는 다양한 영역에서 광범위한 함의를 가지며, 기존 문헌에 비추어 볼 때 우리의 방법은 정책 학습, 정책 학습 또는 적응적 후생 극대화에 적합한 적응적 실험 설계로 인식될 수 있습니다. [abs|pdf]

[38/129] Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection

Keywords: ai_financial_analysis, financial_ai, financial_ai_field
Abstract: 이 백서에서는 역동적인 데이터 기반 금융 시장에서 확장 가능한 주식 선택을 위해 GPT-4의 고급 추론 기능을 활용하는 새로운 AI 기반 프레임워크인 MarketSenseAI를 소개합니다. MarketSenseAI는 저명한 금융 투자팀의 의사 결정 과정을 모방한 시장 가격 역학, 금융 뉴스, 기업 펀더멘털, 거시경제 보고서 등 다양한 데이터 소스를 분석하기 위해 사고의 사슬(Chain of Thought) 및 상황별 학습 방법론을 통합합니다. MarketSenseAI의 개발, 구현, 경험적 검증이 상세히 설명되어 있으며, 설득력 있는 설명으로 뒷받침되는 실행 가능한 투자 신호(매수, 보유, 매도)를 제공하는 기능에 중점을 두고 있습니다. 이 연구에서 주목할 만한 점은 GPT-4를 예측 도구로 사용할 뿐만 아니라 평가 도구로도 사용하여 AI가 생성한 설명이 제안된 투자 신호의 신뢰성과 수용도에 미치는 중요한 영향을 밝혀냈다는 것입니다. S&P 100 종목을 대상으로 한 광범위한 실증 평가에서 MarketSenseAI는 시장과 유사한 위험 프로필을 유지하면서 벤치마크 지수를 13% 초과하여 최대 40%의 수익률을 달성했습니다. 이러한 결과는 복잡한 금융 의사 결정에서 대규모 언어 모델의 효율성을 입증하며, 금융 분석 및 투자 전략에 AI를 통합하는 데 있어 상당한 진전을 이루었습니다. 이 연구는 금융 AI 분야에 혁신적인 접근법을 제시하고 전통적인 금융 분석 투자 방법론을 혁신하는 데 있어 AI의 혁신적 잠재력을 강조하는 데 기여하고 있습니다. [abs|pdf]

[39/129] The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance

Keywords: text_classification_tasks, language_models_llms, wording_prompt
Abstract: 대규모 언어 모델(LLM)은 여러 도메인에 걸쳐 무수히 많은 작업에서 데이터에 레이블을 지정하는 데 정기적으로 사용되고 있습니다. 실무자는 단순히 LLM에 답변을 요청하는 것, 즉 '프롬프트'를 통해 LLM을 사용하여 임의의 작업에 대한 응답을 신속하게 얻을 수 있습니다. 이러한 프롬프트는 프롬프트의 간단한 문구부터 특정 데이터 형식의 출력 요청, 보다 민감한 주제를 다루는 프롬프트의 경우 탈옥에 이르기까지 실무자의 일련의 결정을 통해 이루어집니다. 이 연구에서는 프롬프트가 구성되는 방식에 변화가 생기면 법률가의 최종 결정이 달라질 수 있을까요? 다양한 텍스트 분류 작업에서 일련의 프롬프트 변형을 통해 이 질문에 대한 답을 찾았습니다. 프롬프트 끝에 공백을 추가하는 것과 같은 아주 작은 교란으로도 LLM이 답변을 변경할 수 있다는 사실을 발견했습니다. 또한, XML과 일반적으로 사용되는 탈옥으로 응답을 요청하면 LLM이 레이블을 지정한 데이터에 치명적인 영향을 미칠 수 있다는 사실을 발견했습니다. [abs|pdf]

[40/129] Universal Time-Series Representation Learning: A Survey

Keywords: features_time_series, bodies_learning_representations, learning_representations
Abstract: 시계열 데이터는 하늘의 인공위성부터 인체에 착용하는 웨어러블 기기에 이르기까지 실제 시스템과 서비스의 모든 곳에 존재합니다. 이러한 시계열에서 가치 있는 정보를 추출하고 추론하여 표현을 학습하는 것은 특정 현상의 복잡한 역학을 이해하고 정보에 입각한 의사 결정을 내리는 데 매우 중요합니다. 학습된 표현을 통해 수많은 다운스트림 분석을 보다 효과적으로 수행할 수 있습니다. 여러 접근 방식 중 딥러닝은 수동 피처 엔지니어링 없이도 시계열 데이터에서 숨겨진 패턴과 특징을 추출하는 데 있어 놀라운 성능을 입증했습니다. 이번 조사에서는 먼저 시계열을 위한 최첨단 범용 표현 학습 방법을 설계하는 데 있어 세 가지 기본 요소에 기반한 새로운 분류법을 제시합니다. 제안된 분류법에 따라 기존 연구를 종합적으로 검토하고 이러한 방법이 학습된 표현의 품질을 향상시키는 방법에 대한 직관과 통찰력을 논의합니다. 마지막으로, 향후 연구를 위한 가이드라인으로 일반적으로 사용되는 실험 설정과 데이터 세트를 요약하고 몇 가지 유망한 연구 방향에 대해 논의합니다. 최신 관련 리소스는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[41/129] A Large-scale Empirical Study on Improving the Fairness of Deep Learning Models

Keywords: fairness_deep_learning, enhancing_fairness_deep, fairness_evaluation_metrics
Abstract: 공정성은 실제 실무에서 딥러닝 모델을 채택하는 데 영향을 미치는 중요한 문제였습니다. 모델 공정성을 개선하기 위해 기존의 많은 방법들이 제안되었고 각자의 맥락에서 효과적인 것으로 평가되었습니다. 그러나 아직까지 동일한 맥락에서 종합적으로 비교할 수 있는 체계적인 평가가 이루어지지 않아 이들 간의 성능 차이를 파악하기 어렵고, 이는 연구 발전과 실제 도입에 걸림돌이 되고 있습니다. 본 논문은 이러한 간극을 메우기 위해 현존하는 최첨단 공정성 개선 기법들의 성능을 종합적으로 비교하는 최초의 대규모 실증 연구를 수행하고자 합니다. 특히, 널리 사용되는 이미지 분류 애플리케이션 시나리오를 대상으로 세 가지 데이터 세트와 일반적으로 사용되는 다섯 가지 성능 지표를 활용하여 다양한 범주의 총 13가지 방법을 평가했습니다. 그 결과, 다양한 데이터 세트와 민감한 속성에 따라 각 방법의 성능에 상당한 차이가 있었으며, 이는 기존의 많은 방법들이 특정 데이터 세트에 과도하게 적합하다는 것을 나타냅니다. 또한, 공정성 평가 지표는 각기 다른 초점으로 인해 상당히 다른 평가 결과를 도출합니다. 전반적으로 전처리 방법과 인프로세싱 방법이 후처리 방법보다 성능이 뛰어나며, 전처리 방법이 가장 우수한 것으로 나타났습니다. 유니티의 실증 연구는 딥러닝 모델의 공정성 향상을 위한 포괄적인 권장 사항을 제공합니다. 유니티는 여러 측면에서 문제에 접근하여 일관된 평가 플랫폼을 제공하고 연구자들이 일련의 시사점을 통해 보다 효과적인 공정성 솔루션을 모색하도록 장려합니다. [abs|pdf]

[42/129] GloTSFormer: Global Video Text Spotting Transformer

Keywords: video_text_spotting, text_spotting_transformer, text_spotting
Abstract: 비디오 텍스트 스포팅(VTS)은 비디오에서 텍스트의 궤적과 내용을 예측하는 것을 목표로 하는 기본적인 시각적 작업입니다. 기존 연구들은 주로 국지적 연관성을 수행하고 성능을 높이기 위해 IoU 기반 거리와 복잡한 후처리 절차를 적용하여 VTS의 풍부한 시간적 정보와 형태적 특성을 무시합니다. 이 논문에서는 추적 문제를 글로벌 연관으로 모델링하고 가우시안 바서스타인 거리를 활용하여 프레임 간의 형태학적 상관관계를 안내하는 새로운 글로벌 비디오 텍스트 스포팅 트랜스포머 GloTSFormer를 제안합니다. 우리의 주요 기여는 세 가지로 요약할 수 있습니다. 1). 트랜스포머 기반의 글로벌 트래킹 방법인 GloTSFormer를 제안하여 여러 프레임을 동시에 연관시킵니다. 2). 프레임 간 위치 연관을 수행하는 바서스타인 거리 기반 방법을 소개합니다. 3). 공개 데이터 세트에 대한 광범위한 실험을 수행합니다. ICDAR2015 비디오 데이터 세트에서 GloTSFormer는 기존 SOTA 방식에 비해 4.6의 절대적인 성능 향상으로 56.0 MOTA를 달성했으며, 기존 Transformer 기반 방식에 비해 8.3 MOTA를 크게 능가하는 성능을 보였습니다. [abs|pdf]

[43/129] Assessing AI Detectors in Identifying AI-Generated Code: Implications for Education

Keywords: code_ai_generated, written_code_ai, ai_generated_code
Abstract: 교육자들은 프로그래밍 교육에서 ChatGPT와 같은 대규모 언어 모델(LLM)을 사용하는 것에 대해 점점 더 우려하고 있으며, 특히 인공지능 생성 콘텐츠(AIGC) 탐지기의 결함이 학업 부정행위에 악용될 가능성에 대해 우려하고 있습니다. 이 백서에서는 AIGC 탐지기의 탐지를 우회하려는 시도에 대해 LLM을 조사하는 실증적 연구를 제시합니다. 이는 다양한 변형을 사용하여 주어진 질문에 대한 응답으로 코드를 생성함으로써 이루어집니다. 5,069개의 샘플로 구성된 데이터 세트를 수집했으며, 각 샘플은 코딩 문제에 대한 텍스트 설명과 이에 대응하는 사람이 작성한 Python 솔루션 코드로 구성되었습니다. 이러한 샘플은 Quescol에서 80개, Kaggle에서 3,264개, LeetCode에서 1,725개 등 다양한 출처에서 얻었습니다. 데이터 세트에서 13개의 코드 문제 변형 프롬프트 세트를 생성했으며, 이 프롬프트는 ChatGPT가 출력을 생성하도록 지시하는 데 사용되었습니다. 그 후 5개의 AIGC 탐지기의 성능을 평가했습니다. 그 결과, 기존의 AIGC 탐지기는 사람이 작성한 코드와 AI가 생성한 코드를 구분하는 데 있어 성능이 좋지 않다는 것을 확인할 수 있었습니다. [abs|pdf]

[44/129] Deep Learning for Visual Neuroprosthesis

Keywords: coding_natural_vision, mechanisms_visual_encoding, visual_information_pathway
Abstract: 시각 경로는 시각 정보의 인코딩과 처리에 기여하는 세포와 영역의 복잡한 네트워크를 포함합니다. 시각적 인식의 일부 측면은 이해되고 있지만, 시각적 인코딩의 정확한 메커니즘과 시각 경로를 따라 시각 정보가 조직되는 방식에 대해서는 아직 해결되지 않은 많은 의문이 남아 있습니다. 이 장에서는 시각 지각의 중요성과 시각 정보가 뇌에서 어떻게 부호화되고 표현되는지 이해하는 것과 관련된 도전 과제에 대해 설명합니다. 또한 이 장에서는 신체 기능을 향상시키거나 대체하도록 설계된 장치인 신경보철물의 개념을 소개하고, 이러한 장치를 구현할 때 시각 경로에 대한 계산 모델을 구축하는 것이 중요하다는 점을 강조합니다. 딥러닝 모델을 사용하는 여러 가지 모델에 대해 설명하고, 시각 코딩과 자연 시각을 이해하는 데 있어 이러한 모델이 갖는 가치에 대해 논의합니다. [abs|pdf]

[45/129] Bridging the Skills Gap: Evaluating an AI-Assisted Provider Platform to Support Care Providers with Empathetic Delivery of Protocolized Therapy

Keywords: ai_assisted_provider, virtual_therapy_interface, developed_ai_assisted
Abstract: 정신 건강 질환의 높은 유병률과 부담에도 불구하고 전 세계적으로 정신 건강 서비스 제공자가 부족합니다. 인공지능(AI)은 이러한 인력 부족 문제를 해결하기 위한 방안으로 의료진이 적은 교육으로도 치료를 제공할 수 있도록 지원하는 방법이 제안되고 있습니다. 이를 위해 유니티는 응답 제안 기능이 포함된 텍스트 기반 가상 치료 인터페이스인 AI 지원 제공자 플랫폼(A2P2)을 개발하여 의료진이 프로토콜화된 치료법을 공감각적으로 제공할 수 있도록 지원했습니다. 저희는 정신건강 치료에 대한 전문 지식이 있는 의료진과 없는 의료진을 대상으로 AI 지원 기능이 있는(개입) 플랫폼과 없는(통제) 플랫폼을 사용하여 치료 세션을 제공하도록 연구했습니다. 평가 결과, AI 지원 시스템은 대조군에 비해 두 사용자 그룹 모두에서 반응 시간이 29.34%(p=0.002), 공감적 반응 정확도가 3배(p=0.0001), 목표 추천 정확도가 66.67%(p=0.001) 유의미하게 감소한 것으로 나타났습니다. 두 그룹 모두 시스템의 사용성이 우수하다고 평가했습니다. [abs|pdf]

[46/129] Why Solving Multi-agent Path Finding with Large Language Model has not Succeeded Yet

Keywords: multi_agent_planning, agent_planning_multi, planning_multi_agent
Abstract: ChatGPT 및 GPT-4와 같은 대규모 언어 모델(LLM)의 성공으로 인한 폭발적인 영향력으로 인해 최근 기초 모델을 사용하여 매우 다양한 작업을 해결할 수 있음을 보여주는 광범위한 연구가 진행되었습니다. 그러나 다중 에이전트 계획에 대한 인사이트를 공유하는 연구는 매우 제한적입니다. 다중 에이전트 계획은 다른 영역과 달리 다중 에이전트 조정 및 계획의 난이도가 높고, 필요한 추론을 용이하게 하기 위해 외부 도구를 활용하기가 어렵다는 점이 다릅니다. 본 논문에서는 다중 로봇 경로 계획이라고도 하는 다중 에이전트 경로 탐색(MAPF) 문제에 초점을 맞추고 LLM으로 MAPF를 해결하는 방법을 연구합니다. 먼저 장애물이 없는 빈 방 맵에서 동기 부여가 되는 성공 사례와 약간 더 어려운 방 맵에서 계획에 실패하는 사례를 보여줍니다. LLM으로 직접 MAPF를 푸는 것이 왜 아직까지 성공하지 못했는지에 대한 가설을 제시하고, 다양한 실험을 통해 가설을 뒷받침합니다. [abs|pdf]

[47/129] Machine Learning Applications in Traumatic Brain Injury Diagnosis and Prognosis: A Spotlight on Mild TBI and CT Imaging

Keywords: brain_injury_tbi, deep_learning_dl, ml_deep_learning
Abstract: 외상성 뇌손상(TBI)은 높은 이환율과 사망률을 초래하고 전 세계 의료 시스템에 상당한 경제적 부담을 주는 심각한 글로벌 공중 보건 문제를 야기합니다. TBI의 진단과 예후는 컴퓨터 단층 촬영(CT) 스캐너를 사용하여 얻은 임상 및 영상 데이터의 조합에 의존합니다. TBI로 인한 다각적인 문제를 해결하려면 이 복잡한 질환에 대한 혁신적인 데이터 기반 접근 방식이 필요합니다. 이에 따라 유니티에서는 경증 외상성 뇌손상(mTBI)을 중심으로 임상 및 영상에 적용되는 최신 머신러닝(ML) 및 딥러닝(DL) 기술을 요약하여 제공합니다. 사용되는 다양한 ML 및 DL 기법을 살펴보고 TBI에 미치는 영향을 강조합니다. TBI의 심각도에 따라 ML 및 DL 방법을 분류하고 mTBI 및 중등도-중증 TBI 시나리오에서의 적용 사례를 소개합니다. 마지막으로, 기존 방법으로는 부족한 mTBI 진단에서 ML과 DL의 역할을 강조하고, TBI에서 CT 기반 ML 애플리케이션의 잠재력에 대해 언급합니다. 이 리뷰는 TBI의 진단과 예후를 개선하기 위한 향후 연구 노력에 영감의 원천이 될 수 있습니다. [abs|pdf]

[48/129] Multi-Modal Federated Learning for Cancer Staging over Non-IID Datasets with Unbalanced Modalities

Keywords: learning_ml_cancer, diverse_data_modalities, ml_cancer_staging
Abstract: 의료 이미지 분석을 통한 암 병기 결정에 머신러닝(ML)을 사용하는 것은 의료 분야 전반에서 상당한 관심을 받고 있습니다. 혁신적인 연합 학습(FL) 프레임워크와 함께 사용하면 ML 기법을 통해 환자 데이터 노출과 관련된 개인정보 보호 문제를 더욱 효과적으로 극복할 수 있습니다. 환자 기록에 다양한 데이터 양식이 빈번하게 존재한다는 점을 고려할 때, 멀티모달 학습 프레임워크에서 FL을 활용하면 암 병기 결정에 상당한 잠재력을 발휘할 수 있습니다. 그러나 멀티모달 FL에 대한 기존 연구는 모든 데이터 수집 기관이 모든 데이터 양식에 액세스할 수 있다고 가정하는 경우가 많습니다. 이러한 지나치게 단순화된 접근 방식은 시스템 내에서 데이터 양식의 일부에만 액세스할 수 있는 기관을 무시합니다. 이번 연구에서는 데이터 샘플의 이질성뿐만 아니라 기관 간 데이터 양식의 고유한 이질성/비균일성을 수용하도록 설계된 새로운 FL 아키텍처를 소개합니다. FL 시스템 내 다양한 데이터 양식에서 관찰되는 다양한 융합 속도와 관련된 문제를 조명합니다. 그 후, 멀티 모달 FL에 적합한 분산 그라데이션 블렌딩 및 근접성 인식 클라이언트 가중치 전략을 고안하여 이러한 문제를 해결할 수 있는 솔루션을 제안합니다. 이 방법의 우수성을 입증하기 위해 암 게놈 아틀라스 프로그램(TCGA)의 데이터 레이크를 사용하여 다양한 암 유형과 세 가지 데이터 양식, 즉 mRNA 서열, 조직 병리학적 이미지 데이터, 임상 정보를 고려한 실험을 수행합니다. [abs|pdf]

[49/129] ChatGPT for Conversational Recommendation: Refining Recommendations by Reprompting with Feedback

Keywords: conversational_recommendation_build, conversational_recommendation, recommendation_process_conversation
Abstract: 추천 알고리즘은 압도적인 양의 온라인 콘텐츠를 처리하는 데 중추적인 역할을 해왔습니다. 하지만 이러한 알고리즘은 사용자의 직접적인 입력을 거의 고려하지 않기 때문에 피상적인 상호 작용만 이루어집니다. 대화를 통해 사용자를 추천 프로세스에 직접 참여시키려는 노력이 있었지만, 이러한 시스템 역시 상호 작용이 제한적이었습니다. 최근에는 사용 편의성과 피드백에 반응하면서 다양한 작업에 동적으로 적응할 수 있는 ChatGPT와 같은 대규모 언어 모델(LLM)이 인기를 얻고 있습니다. 이 백서에서는 최상위 대화 추천 시스템으로서 ChatGPT의 효과를 조사합니다. 먼저 사용자에게 지시한 다음 피드백을 통해 일련의 추천을 구체화하는 방식으로 사용자가 추천 모델을 현실적으로 조사하는 방법을 시뮬레이션하기 위해 ChatGPT를 중심으로 엄격한 파이프라인을 구축합니다. 또한 ChatGPT의 추천에 대한 인기도 편향의 영향을 살펴보고 그 성능을 기준 모델과 비교합니다. 그 결과 ChatGPT에 피드백으로 다시 메시지를 표시하는 것이 추천 관련성을 개선하는 효과적인 전략이며, 신속한 엔지니어링을 통해 인기도 편향을 완화할 수 있다는 사실을 발견했습니다. [abs|pdf]

[50/129] InFoBench: Evaluating Instruction Following Ability in Large Language Models

Keywords: efficient_annotator_evaluation, methods_explore_annotation, annotator_evaluation_advanced
Abstract: 이 백서에서는 대규모 언어 모델(LLM)의 지침 준수 능력을 평가하기 위한 새로운 지표인 분해된 요구사항 준수 비율(DRFR)을 소개합니다. 현재 방법론의 격차를 해소하는 DRFR은 복잡한 지침을 더 간단한 기준으로 세분화하여 작업의 다양한 측면에 대한 LLM의 준수 여부를 자세히 분석할 수 있게 해줍니다. 이 지표와 함께 500개의 다양한 지침과 여러 제약 조건 범주에 걸쳐 2,250개의 세분화된 질문으로 구성된 벤치마크인 InFoBench를 제시합니다. 이 실험에서는 DRFR을 기존의 채점 방법과 비교하고 전문가, 크라우드 소싱 작업자, GPT-4를 포함한 주석 소스를 탐색합니다. 그 결과, DRFR의 높은 신뢰성과 비용 효율적인 주석자로 GPT-4를 사용하는 것이 효과적이라는 사실이 입증되었습니다. 이 프레임워크를 사용하여 여러 고급 LLM을 평가한 결과, 특히 복잡한 명령어 추종에서 강점과 개선이 필요한 영역이 드러났습니다. 이 연구는 새로운 지표와 벤치마크를 제시하여 향후 LLM 개발 및 평가에 대한 인사이트를 제공합니다. [abs|pdf]

[51/129] Disentangled Neural Relational Inference for Interpretable Motion Prediction

Keywords: interactive_agents_predict, agents_predict_dynamics, relations_motion_prediction
Abstract: 동적 에이전트의 효과적인 인터랙션 모델링과 동작 예측은 자율 로봇의 인터랙티브 모션 계획에서 중요한 역할을 합니다. 기존의 방법들이 예측 정확도를 향상시켰지만, 예측 모델의 해석 가능성과 분포 외 일반화(OOD) 가능성을 향상시키는 연구는 거의 이루어지지 않았습니다. 본 연구에서는 그래프 기반 표현과 시간 순서 모델을 통합하여 인터랙티브 에이전트 간의 시공간적 관계를 효율적으로 포착하고 그 역학을 예측하는 가변적 자동 인코더 프레임워크를 설계함으로써 이 두 가지 문제를 해결합니다. 유니티의 모델은 상호작용을 특징짓는 해석 가능한 에지 피처로 보강된 잠재 공간에서 동적 상호작용 그래프를 추론합니다. 또한, 엣지 피처의 잠재 공간을 풀어서 모델의 다양성과 견고성을 강화함으로써 OOD 시나리오에서 모델의 해석 가능성과 성능을 향상시키는 것을 목표로 합니다. 유니티는 시뮬레이션 및 실제 데이터 세트에 대한 광범위한 실험을 통해 접근 방식을 검증합니다. 그 결과 시공간 관계 모델링, 동작 예측, 시간 불변 잠재 특징 식별에서 기존 방법보다 우수한 성능을 보였습니다. [abs|pdf]

[52/129] Few-Shot Causal Representation Learning for Out-of-Distribution Generalization on Heterogeneous Graphs

Keywords: graph_shot_learning, heterogeneous_graph_shot, labeled_training_data
Abstract: 다양한 유형의 노드와 에지로 구성된 이기종 그래프(HG)의 라벨 희소성 문제를 해결하기 위해 개발된 것이 이기종 그래프 소수 샷 학습(HGFL)입니다. HGFL의 핵심 개념은 소스 HG의 풍부한 레이블이 있는 클래스에서 지식을 추출하고, 이 지식을 타겟 HG로 전송하여 레이블이 적은 훈련 데이터로 새로운 클래스를 쉽게 학습하고, 마지막으로 레이블이 없는 테스트 데이터에 대한 예측을 수행하는 것입니다. 기존 방법에서는 일반적으로 소스 HG, 훈련 데이터, 테스트 데이터가 모두 동일한 분포를 공유한다고 가정합니다. 그러나 실제로는 (1) 타겟 HG 분포와 일치하는 소스 HG의 가용성이 제한적이고 (2) 타겟 HG의 예측 불가능한 데이터 생성 메커니즘이라는 두 가지 이유로 인해 이 세 가지 유형의 데이터 간에 분포 이동이 불가피합니다. 이러한 분포의 변화는 기존 방법의 비효율적인 지식 전달과 학습 성능 저하를 초래하여 HGFL에서 분포 외 일반화(OOD)라는 새로운 문제를 야기합니다. 이 까다로운 문제를 해결하기 위해 새로운 인과적 OOD 이기종 그래프 소수점 학습 모델, 즉 COHF를 제안합니다. COHF에서는 먼저 구조적 인과 모델을 통해 HG의 분포 변화를 특성화하여 HGFL에서 OOD 일반화를 위한 불변성 원칙을 확립합니다. 그런 다음 이 불변성 원리에 따라 분포 이동의 영향을 완화하기 위해 새로운 변형 자동 인코더 기반 이기종 그래프 신경망을 제안합니다. 마지막으로, 이 네트워크를 새로운 메타러닝 프레임워크와 통합함으로써 COHF는 지식을 목표 HG에 효과적으로 전달하여 레이블이 거의 없는 데이터로 새로운 클래스를 예측합니다. 7개의 실제 데이터 세트에 대한 광범위한 실험을 통해 최신 방법보다 COHF의 우수한 성능이 입증되었습니다. [abs|pdf]

[53/129] Big Data and Deep Learning in Smart Cities: A Comprehensive Dataset for AI-Driven Traffic Accident Detection and Computer Vision Systems

Keywords: accident_detection_datasets, accident_detection_action, traffic_accident_detection
Abstract: 차량과 보행자의 상호작용이 생활의 리듬을 좌우하는 역동적인 도시 환경에서 안전과 효율성을 위한 첨단 기술의 통합은 점점 더 중요해지고 있습니다. 이 연구에서는 교통사고 감지 기능 개선을 통한 공공 안전 강화에 초점을 맞춰 스마트 시티에 첨단 기술을 적용하는 방법을 살펴봅니다. 동작 인식은 시각적 데이터를 해석하고 비디오 시퀀스에서 사람의 포즈 추정과 같은 물체의 움직임을 추적하는 데 중추적인 역할을 합니다. 동작 인식의 과제에는 빠른 동작의 가변성, 제한된 데이터 세트, 날씨, 조명, 폐색과 같은 환경적 요인이 포함됩니다. 이 백서에서는 교통사고 감지를 위한 새로운 종합 데이터 세트를 소개합니다. 이 데이터 세트는 도로 교통 사고를 예측하고 감지하는 컴퓨터 비전 및 행동 인식 시스템을 강화하기 위해 특별히 설계되었습니다. 전 세계의 다양한 데이터 소스, 도로 네트워크, 기상 조건 및 지역의 데이터 세트를 통합했습니다. 이러한 접근 방식은 인구 밀집 지역에서 기술이 어떻게 삶의 질을 향상시킬 수 있는지에 대한 담론에 기여하는 것을 목표로 하는 실증적 연구를 통해 뒷받침됩니다. 이 연구는 스마트 시티의 교통사고 감지를 위해 맞춤화된 최첨단 알고리즘을 활용하는 벤치마크 데이터 세트를 도입하여 기존의 연구 격차를 해소하는 것을 목표로 합니다. 이 데이터 세트는 학술 연구를 발전시키고 실시간 사고 감지 애플리케이션을 향상시켜 스마트 도시 환경의 발전에 크게 기여할 것으로 기대됩니다. 이번 연구는 AI와 머신러닝의 힘을 활용하여 도시 생활을 변화시키는 보다 안전하고 효율적인 스마트 시티를 향한 중추적인 발걸음을 내디뎠습니다. [abs|pdf]

[54/129] Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

Keywords: tts_voices_mindfulness, voices_mindfulness, personalized_voices_phase
Abstract: 마음챙김 기반 요법은 정신 건강을 개선하는 데 효과적인 것으로 나타났으며, 기술 기반 요법은 이러한 요법의 접근성을 확대할 수 있는 잠재력을 가지고 있습니다. 이러한 방법에서 마음챙김 연습을 위한 실시간 개인화 콘텐츠 생성을 가능하게 하려면 언어적 안내를 제공하고 사용자의 수행 능력과 선호도에 반응할 수 있는 고품질 컴퓨터 합성 텍스트 음성 변환(TTS) 음성이 필요합니다. 그러나 감정 표현이 필요한 마음챙김 명상을 관리하기 위해 사용자가 인식하는 최첨단 TTS 음성의 품질은 아직 평가되지 않았습니다. 또한 마음챙김 명상을 위한 TTS 음성의 사용자 인식 품질에 대한 물리적 구현과 개인화의 효과를 연구하는 작업도 아직 이루어지지 않았습니다. 이를 위해 저희는 2단계의 인간 대상 연구를 설계했습니다. 1단계에서는 온라인 대상자 간 연구(N=471)를 통해 원격 참가자를 대상으로 3가지 물리적 구현 환경(상담원 없음, 대화형 상담원, 사회적 보조 로봇)에서 3가지(여성, 남성, 아이 같은) 최첨단 TTS 음성과 2가지(여성, 남성) 인간 치료사의 음성을 비교 평가했습니다. 1단계의 결과를 바탕으로 2단계 피험자 내 대면 연구(N=94)에서는 사용자 선호도에 따라 TTS 음성을 개인화하기 위해 개발한 새로운 프레임워크를 사용하여 1단계에서 가장 높은 평가를 받은 비개인화 음성과 비교하여 사용자가 인지하는 품질을 평가했습니다. 그 결과, 최고 평가를 받은 사람의 목소리가 모든 TTS 음성보다 더 잘 인식되는 것으로 나타났으며, 감정 표현력과 자연스러움은 낮은 평가를 받은 반면, TTS 음성의 선명도에는 만족하는 것으로 나타났습니다. 놀랍게도 사용자가 TTS 음성 기능을 미세 조정할 수 있게 함으로써 사용자가 개인화한 TTS 음성이 사람의 목소리와 거의 비슷한 성능을 낼 수 있었으며, 이는 사용자 개인화가 사용자가 인식하는 TTS 음성의 품질을 개선하는 간단하고 매우 효과적인 도구가 될 수 있음을 시사합니다. [abs|pdf]

[55/129] GLOCALFAIR: Jointly Improving Global and Local Group Fairness in Federated Learning

Keywords: privacy_federated_learned, federated_learning, fairness_aware_clustering
Abstract: 연합 학습(FL)은 데이터 프라이버시를 침해하지 않으면서 클라이언트 간에 공유 모델을 공동으로 학습할 수 있는 유망한 솔루션으로 떠오르고 있습니다. 그러나 연합 학습 모델은 데이터 이질성 및 당사자 선택과 같은 FL의 고유한 특성으로 인해 특정 인구통계 그룹(예: 인종 및 성별 그룹)에 편향되는 경향이 있습니다. 중앙 집중식 학습과 달리, 개인 훈련 데이터 세트와 그 민감한 속성은 일반적으로 직접 액세스할 수 없기 때문에 FL의 편향성을 완화하는 것은 특히 어렵습니다. 이 분야의 선행 연구는 대부분 글로벌 공정성에만 초점을 맞추고 개별 고객의 로컬 공정성은 간과하고 있습니다. 또한, 기존 방식은 클라이언트의 로컬 데이터 세트에 대한 민감한 정보를 공유해야 하는 경우가 많기 때문에 바람직하지 않습니다. 이러한 문제를 해결하기 위해 유니티는 클라이언트의 개인 데이터 세트에 대한 민감한 통계 없이도 글로벌 및 로컬 그룹 공정성을 공동으로 개선할 수 있는 클라이언트-서버 공동 설계 공정성 프레임워크인 GLOCALFAIR를 제안합니다. 구체적으로, 클라이언트 측에서는 제한적 최적화를 활용하여 로컬 공정성을 적용하고, 서버에서는 공정성 인식 클러스터링 기반 집계를 채택하여 높은 활용도를 유지하면서 다양한 민감도 그룹에 걸쳐 글로벌 모델 공정성을 더욱 보장합니다. 다양한 최신 공정성 기준을 적용한 두 개의 이미지 데이터 세트와 하나의 표 형식 데이터 세트에 대한 실험 결과, GLOCALFAIR는 글로벌 및 로컬 데이터 분포 모두에서 향상된 공정성을 달성하면서도 높은 수준의 유틸리티와 클라이언트 공정성을 유지할 수 있음을 보여주었습니다. [abs|pdf]

[56/129] Privacy-Preserving in Blockchain-based Federated Learning Systems

Keywords: blockchain_federated_learning, blockchain_federated, blockchain_preserve_privacy
Abstract: 연합 학습(FL)은 최근 머신러닝 모델의 공동 학습을 위한 혁신적인 접근법으로 부상했습니다. 이 새로운 프레임워크에 따르면, 여러 참가자가 로컬 데이터를 공유하지 않고 중앙 애그리게이터와 협력하여 글로벌 모델을 공동으로 학습합니다. FL이 다양한 영역에서 인기를 얻으면서 이 솔루션의 분산된 특성으로 인해 보안 및 개인정보 보호에 대한 우려가 제기되고 있습니다. 따라서 이 전략을 블록체인 기술과 통합하는 것은 참여자의 프라이버시와 보안을 보장하기 위해 선호되는 선택으로 통합되고 있습니다.
이 백서에서는 블록체인 기반 FL을 채택하는 시나리오에서 프라이버시 솔루션을 정의하기 위해 과학계에서 수행한 연구 노력을 살펴봅니다. FL과 블록체인에 관련된 배경을 종합적으로 정리하고, 이를 통합하기 위한 기존 아키텍처를 평가하며, 이러한 환경에서 프라이버시를 보장하기 위한 주요 공격과 가능한 대응책을 살펴봅니다. 마지막으로 블록체인 기반 FL 접근 방식이 능숙하게 적용된 주요 적용 시나리오를 검토합니다. 이 조사는 학계와 업계 실무자들이 블록체인을 통해 프라이버시 보호를 위한 FL의 성능을 개선하기 위해 어떤 이론과 기술이 존재하며, 이 새롭고 아직 덜 연구된 상황에서 주요 과제와 향후 방향이 무엇인지 이해하는 데 도움이 될 수 있습니다. 저희는 이 연구가 이전 조사에 비해 새로운 공헌을 할 것이며, 블록체인과 연합 학습의 융합에 대한 현재 환경을 탐색하고 관점을 이해하며 발전 또는 개선을 위한 길을 열어주는 귀중한 도구가 될 것이라고 믿습니다. [abs|pdf]

[57/129] Is there really a Citation Age Bias in NLP?

Keywords: trends_citation_amnesia, citation_age_bias, leading_citation_amnesia
Abstract: 인용은 한 논문을 커뮤니티에 발표된 다른 논문과 연관시키는 과학 연구의 핵심 요소입니다. 최근 가장 빠르게 성장하고 있는 AI 하위 분야 중 하나인 자연어 처리(NLP) 커뮤니티에서는 지난 몇 년 동안 NLP 논문의 서지 평균 연령이 점점 젊어지면서 오래된 지식이 점점 잊혀지는 '인용 연령 편향'이 발생하고 있다는 지적이 제기되고 있습니다. 이 연구에서는 2013년부터 2022년까지 유명 프리프린트 서버인 아카이브(Arxiv)에 제출된 15개 과학 분야의 30만 달러 규모의 논문 서지를 분석하여 이러한 주장을 검증했습니다. 그 결과, 모든 AI 하위 분야(특히 cs.AI, cs.CL, cs.CV, cs.LG)에서 지난 10년 동안 평균적으로 참고 문헌의 연도가 약 절반(2013년 12년 이상에서 2022년 7년 이하)으로 줄어드는 유사한 인용 기억상실증 추세를 보이는 것을 발견했습니다. 이러한 패턴을 자연어 처리 커뮤니티의 인용 연령 편향으로 진단하기보다는 새로운 지식이 점점 더 짧은 시간 간격으로 생산되는 연구 분야의 역동성에서 비롯된 결과라고 생각합니다. [abs|pdf]

[58/129] A Heterogeneous RISC-V based SoC for Secure Nano-UAV Navigation

Keywords: nano_uavs, vehicles_nano_uavs, nano_uav
Abstract: 에너지 효율적인 병렬 초저전력(ULP) 마이크로컨트롤러 유닛(MCU)의 급속한 발전으로 자율적인 나노 크기의 무인 항공기(nano-UAV) 개발이 가능해졌습니다. 10cm 미만의 이 드론은 눈에 잘 띄지 않는 차세대 로봇 도우미이자 유비쿼터스 스마트 센서입니다. 그러나 나노-UAV는 전력과 페이로드에 상당한 제약이 있으며, 실시간 머신 러닝(ML) 성능과 범용 및 실시간 OS의 안전한 공존 등 표준 드론과 유사한 고급 컴퓨팅 기능이 필요합니다. 일부 고급 병렬 ULP MCU는 규정된 전력 제한 내에서 필요한 ML 컴퓨팅 기능을 제공하지만, 가상화 또는 보안 기능이 없는 소형 메인 메모리(1MB 미만)와 ucontroller급 CPU에 의존하므로 단순한 베어메탈 런타임만 지원합니다. 이번 작업에서는 22nm FDX 기술로 구현된 9mm2 200mW SoC인 샤힌을 소개합니다. 최신 MCU와 달리 Shaheen은 v1.0 승인 하이퍼바이저 확장을 준수하고 타이밍 채널 보호 기능을 갖춘 Linux 지원 RV64 코어와 최대 512MB의 오프칩 저비용 저전력 하이퍼램을 CPU에 직접 노출하는 저비용 저전력 메모리 컨트롤러를 통합합니다. 동시에 범용 DSP와 저정밀 및 혼합 정밀도 ML에 최적화된 에너지 및 면적 효율성이 뛰어난 RV32 코어로 구성된 완전 프로그래밍 가능한 멀티코어 클러스터를 통합합니다. 저자가 아는 한, 이 제품은 RISC-V ISA를 완전히 기반으로 하는 이기종 호스트+가속기 아키텍처에서 RV64 및 RV32 코어를 결합한 ULP SoC의 첫 번째 실리콘 프로토타입입니다. 나노-UAV 애플리케이션과 관련된 다양한 벤치마크에서 제안된 SoC의 기능을 시연합니다. 이 클러스터는 2비트 정수 커널에서 최대 90GOp/s 및 최대 1.8TOp/s/W를, 16비트 FP 커널에서 최대 7.9GFLOp/s 및 최대 150GFLOp/s/W를 제공할 수 있습니다. [abs|pdf]

[59/129] Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate Format

Keywords: long_token_vocabulary, large_language_models, token_vocabulary
Abstract: 미세 조정된 대규모 언어 모델(예: ChatGPT 및 Qwen-chat)은 사람의 지시에 따라 중국 고전 시를 생성할 수 있습니다. LLM은 내용면에서는 우수한 성능을 보이지만, 각 줄의 글자 수가 너무 많거나 부족한 등 형식이 부족한 경우가 많습니다. 대부분의 SOTA LLM은 토큰 기반이기 때문에 형식의 부정확성은 "토큰 계획" 작업의 난이도, 즉 각 토큰에 포함된 문자 수를 정확히 알고 이를 바탕으로 길이 제어 계획을 수행해야 하기 때문이라고 가정합니다. 이 논문에서는 먼저 기존의 토큰 기반 대규모 언어 모델이 토큰과 문자의 관계에 대한 지식이 제한적이라는 것을 보여줌으로써 우리의 가정을 확인합니다. 스펠링 비 프로빙 절차를 사용하여 Qwen-chat이 거의 15%의 중국어 철자 테스트에서 실패한다는 사실을 발견했습니다. 그런 다음 토큰 기반 모델을 토큰이 없는 모델(중국어의 경우)로 쉽게 맞춤화할 수 있으며, 이를 통해 형식 정확도 문제를 상당 부분 해결할 수 있음을 보여줍니다. 당사의 맞춤화 절차는 어휘에서 긴 토큰을 제거하고 문자 수준 또는 바이트 수준의 토큰만 유지합니다. 이에 대한 기여의 일환으로, 저희는 LLM과 같은 복잡한 명령어(예: 이야기 의역)에 따라 중국 고전 시를 생성할 수 있고 형식에서도 우수한 성능을 발휘하는 미세 조정된 토큰 프리 모델(Qwen-chat-7B 기반)을 출시했습니다. 테스트 세트에서 토큰 기반 모델의 형식 정확도는 0.84, GPT-4의 0.38에 비해 토큰 프리 모델은 0.96의 형식 정확도를 달성했습니다. [abs|pdf]

[60/129] Re:Draw -- Context Aware Translation as a Controllable Method for Artistic Production

Keywords: animated_character_eyes, use_ai_artistic, ai_artistic_creation
Abstract: 유니티는 인페인팅과 이미지 간 번역의 장점을 결합한 새로운 방법인 문맥 인식 번역을 도입하여 기존 방법의 단점인 원본 입력과 문맥적 연관성을 동시에 고려합니다. 이를 통해 애니메이션에서 디지털 아트에 이르기까지 예술 창작 분야에서 AI를 제어 가능한 방식으로 사용할 수 있는 새로운 길을 열었습니다.
유니티는 수작업으로 그린 애니메이션 캐릭터의 눈을 디자인 사양에 따라 다시 그리는 데 이 방법을 적용하고 있습니다. 눈은 시청자의 시선을 사로잡고 다양한 감정을 전달하는 초점 역할을 하지만, 기존 애니메이션의 노동 집약적인 특성으로 인해 눈 디자인의 복잡성과 일관성이 저하되는 경우가 종종 있습니다. 또한 학습을 위해 프로덕션 데이터가 필요하지 않으며, 특정 프로덕션에 대한 미세 조정이 필요하지 않아 기존 작업을 능가하는 새로운 캐릭터 인식 방법을 도입했습니다. 이 사용 사례를 통해 제작 전반에 걸쳐 일관성을 유지하고 제작 비용의 부담 없이 더 대담하고 세밀한 디자인을 선택할 수 있습니다. 사용자 연구에 따르면 문맥 인식 번역이 기존 작업보다 95.16% 더 선호되는 것으로 나타났습니다. [abs|pdf]

[61/129] EAT: Self-Supervised Pre-Training with Efficient Audio Transformer

Keywords: audio_self_supervised, training_paradigm_audio, audio_representations
Abstract: 라벨이 없는 오디오에서 좋은 표현을 학습하는 것을 목표로 하는 오디오 자가 지도 학습(SSL) 사전 훈련은 괄목할 만한 발전을 이루었습니다. 하지만 사전 훈련 시 발생하는 광범위한 계산 요구 사항은 오디오 SSL 모델의 잠재적 적용 및 최적화에 상당한 장애물이 되고 있습니다. 이 백서에서는 이미지 모달리티에서 데이터2vec 2.0과 오디오 모달리티에서 오디오-MAE의 성공에 영감을 받아 오디오 SSL의 효과와 효율성을 더욱 개선하기 위해 효율적인 오디오 트랜스포머(EAT)를 소개합니다. 제안된 EAT는 오디오 도메인에 부트스트랩 자기 지도 학습 패러다임을 채택합니다. 음향 이벤트의 모델링 기능을 향상시키기 위해 새로운 발화-프레임 목표(UFO)가 설계되었습니다. 또한 오디오 SSL 사전 학습에서 마스킹 전략이 중요하며, 큰 역 블록 마스크로 우수한 오디오 표현을 얻을 수 있음을 보여줍니다. 실험 결과에 따르면 EAT는 오디오세트(AS-2M, AS-20K), ESC-50, SPC-2 등 다양한 오디오 관련 작업에서 최첨단(SOTA) 성능을 달성하고 기존 오디오 SSL 모델에 비해 최대 15배까지 사전 학습 속도를 크게 향상시켰습니다. [abs|pdf]

[62/129] Decentralized Federated Policy Gradient with Byzantine Fault-Tolerance and Provably Fast Convergence

Keywords: federated_reinforcement_learning, robust_aggregation_byzantine, byzantine_fault_tolerant
Abstract: 연합 강화 학습(FRL)에서 에이전트는 공통된 작업을 공동으로 학습하는 것을 목표로 하며, 각 에이전트는 원시 궤적을 교환하지 않고 로컬 환경에서 행동합니다. 기존의 FRL 접근 방식은 (1) 에이전트의 오작동에 대한 내결함성 보장을 제공하지 않거나 (2) 업데이트를 집계하기 위해 신뢰할 수 있는 중앙 에이전트(단일 장애 지점)에 의존합니다. 저희는 최초의 탈중앙화 비잔틴 내결함성 FRL 방식을 제공합니다. 이를 위해 먼저 비내결함성 PG에 대한 표준 가정에만 의존하여 기존 방법보다 개선된 새로운 중앙 집중식 비잔틴 내결함성 정책 그라데이션(PG) 알고리즘을 제안합니다. 그런 다음, 강력한 집계와 비잔틴 탄력적 합의 방법을 조합하여 신뢰할 수 있는 중앙 기관의 필요성을 없애는 방법을 보여줍니다. 저희의 결과는 비잔틴 내결함성 분산 연합 비볼록 최적화에 대한 최초의 샘플 복잡도 분석이므로, 저희의 기술적 기여는 독립적인 관심사가 될 수 있습니다. 마지막으로, 일반적인 RL 환경에서 이론적 결과를 실험적으로 검증하여 참여 에이전트 수에 따른 탈중앙화 연합의 속도 향상과 다양한 비잔틴 공격에 대한 복원력을 입증했습니다. [abs|pdf]

[63/129] Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness

Keywords: generate_speech_gestures, speaker_motion_generation, speech_gesture_generation
Abstract: 현재의 말하는 아바타는 대부분 화자의 비언어적 동작을 고려하지 않고 발화의 오디오와 텍스트에 기반하여 동시 음성 제스처를 생성합니다. 또한, 공동 음성 제스처 생성에 관한 기존 연구들은 개별 제스처 데이터 세트를 기반으로 네트워크 구조를 설계했기 때문에 데이터 양이 제한되고 일반화 가능성이 떨어지며 화자의 움직임이 제한됩니다. 이러한 문제를 해결하기 위해 유니티는 우리가 아는 한 자발적(예: 공동 음성 제스처) 및 비 자발적(예: 연단 주변 이동) 화자 동작을 모두 생성할 수 있는 최초의 프레임워크인 FreeTalker를 도입했습니다. 특히 다양한 모션 데이터 세트에서 가져온 이질적인 데이터를 활용하여 음성 기반 제스처와 텍스트 기반 모션의 통합된 표현을 사용하는 화자 모션 생성을 위한 확산 기반 모델을 훈련합니다. 추론 과정에서 분류기 없는 가이드를 활용하여 클립의 스타일을 고도로 제어합니다. 또한 클립 간의 부드러운 전환을 위해 제너레이티브 프리뷰를 활용하고 원활한 모션 블렌딩을 보장하는 방법인 DoubleTake를 활용합니다. 광범위한 실험을 통해 이 방식이 자연스럽고 제어 가능한 화자 움직임을 생성한다는 사실이 입증되었습니다. 코드, 모델, 데모는 url에서 확인할 수 있습니다. [abs|pdf]

[64/129] ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge

Keywords: speech_recognition_icmc, speech_recognition_asr, cockpit_speech_recognition
Abstract: 주행 시나리오에서의 음성 처리 및 인식 연구를 촉진하기 위해, 유니티는 ISCSLP 2022에서 개최된 인텔리전트 콕핏 음성 인식 챌린지(ICSRC)의 성공을 바탕으로 ICASSP 2024 차량 내 멀티채널 자동 음성 인식(ICMC-ASR) 챌린지를 시작합니다. 이 챌린지는 새로운 에너지 차량 내부에서 100시간 이상의 다채널 음성 데이터와 40시간의 소음을 수집하여 데이터 증강을 위한 데이터를 수집합니다. 자동 음성 인식(ASR)과 자동 음성 일기화 및 인식(ASDR) 등 두 가지 트랙이 설정되어 있으며, 각각 문자 오류율(CER)과 연결 최소 순열 문자 오류율(cpCER)을 평가 지표로 사용합니다. 총 98개 팀이 참가하여 두 트랙 모두에서 53개의 유효한 결과를 얻은 ICMC-ASR 챌린지. 최종적으로 1위 팀인 USTCiflytek은 ASR 트랙에서 13.16%, ASDR 트랙에서 21.48%의 CER을 달성하여 챌린지 기준치 대비 각각 13.08%, 51.4%의 절대적인 개선을 보였습니다. [abs|pdf]

[65/129] FurniScene: A Large-scale 3D Room Dataset with Intricate Furnishing Scenes

Keywords: indoor_scene_generation, realistic_indoor_scenes, indoor_scenes
Abstract: 실내 씬 생성은 게임, 가상현실, 인테리어 디자인 등의 분야에서 매우 중요하기 때문에 최근 큰 주목을 받고 있습니다. 현재의 실내 씬 생성 방식은 합리적인 공간 배치를 생성할 수 있지만 다양성과 사실감이 부족한 경우가 많습니다. 이는 주로 기존 데이터 세트의 커버리지가 제한적이고, 일상 생활의 작은 가구는 포함되지 않고 대형 가구만 포함되기 때문입니다. 이러한 문제를 해결하기 위해 유니티는 인테리어 디자인 전문가들의 복잡한 가구 배치 장면이 포함된 대규모 3D 실내 데이터 세트인 FurniScene을 제안합니다. 특히 FurniScene은 대형 침대부터 커피 테이블 위의 작은 찻잔까지 89가지 유형의 11,698개의 방과 39,691개의 고유한 가구 CAD 모델로 구성되어 있습니다. 세분화된 실내 씬 레이아웃 생성에 더욱 적합하도록 새로운 2단계 확산 씬 모델(TSDSM)을 도입하고, FurniScene을 기반으로 다양한 실내 씬 생성에 대한 평가 벤치마크를 진행합니다. 정량적, 정성적 평가를 통해 매우 사실적인 실내 씬을 생성하는 방법의 성능을 입증합니다. 데이터 세트와 코드는 곧 공개될 예정입니다. [abs|pdf]

[66/129] Efficient Test Data Generation for MC/DC with OCL and Search

Keywords: test_data_generation, testing_avionics_software, model_based_testing
Abstract: 항공 전자 공학 소프트웨어 시스템의 시스템 수준 테스트는 DO-178C와 같은 다양한 국제 안전 표준을 준수해야 합니다. 항공 전자 산업에서 중요하게 고려해야 할 사항은 안전 표준에서 제시하는 기준에 따라 테스트 데이터를 자동으로 생성하는 것입니다. DO-178C에서 권장하는 기준 중 하나는 수정된 조건/결정 범위(MC/DC) 기준입니다. 현재 모델 기반 테스트 데이터 생성 접근 방식은 객체 제약 언어(OCL)로 작성된 제약 조건을 사용하고 검색 기법을 적용하여 테스트 데이터를 생성합니다. 이러한 접근 방식은 대규모 항공 전자 시스템의 테스트 데이터를 생성할 때 MC/DC 기준을 지원하지 않거나 성능 문제를 겪습니다. 본 논문에서는 모델 기반 테스트 중 MC/DC 테스트 데이터 생성을 자동화할 수 있는 효과적인 방법을 제안합니다. MC/DC 맞춤형 OCL 제약 조건을 해결하기 위해 설계된 사례 기반 추론(CBR)과 범위 축소 휴리스틱을 활용하는 전략을 개발합니다. CBR, 범위 축소, CBR과 범위 축소를 모두 사용하는 MC/DC 테스트 데이터 생성 전략과 기존 검색 알고리즘, 무작위 검색을 사용하는 전략을 비교하기 위한 실증 연구를 수행했습니다. 또한 기존의 제약 조건 해결 접근 방식과 우리의 전략을 실증적으로 비교했습니다. 그 결과, MC/DC 테스트 데이터 생성을 위한 CBR과 범위 축소가 모두 기준 접근법보다 우수한 성능을 보였습니다. 또한 MC/DC 테스트 데이터 생성을 위한 CBR과 범위 축소의 조합은 기존 제약 조건 해결 방식에 비해 효과적인 접근 방식입니다. [abs|pdf]

[67/129] Maintaining Journalistic Integrity in the Digital Age: A Comprehensive NLP Framework for Evaluating Online News Content

Keywords: credibility_news_articles, assess_quality_news, quality_credibility_news
Abstract: 온라인 뉴스 플랫폼의 급속한 성장으로 인해 뉴스 기사의 품질과 신뢰도를 평가할 수 있는 신뢰할 수 있는 방법에 대한 필요성이 커지고 있습니다. 이 백서에서는 자연어 처리(NLP) 기술, 특히 이 목적을 위해 특별히 훈련된 언어 모델을 다른 잘 정립된 NLP 방법과 함께 사용하여 온라인 뉴스 텍스트를 분석할 수 있는 포괄적인 프레임워크를 제안합니다. 이 프레임워크는 객관성, 균형 및 공정성, 가독성 및 명확성, 선정성 및 클릭베이트, 윤리적 고려 사항, 공익 및 가치, 출처 신뢰성, 관련성 및 시의성, 사실적 정확성, 귀속 및 투명성 등 10가지 저널리즘 표준을 통합하여 뉴스 기사의 품질을 평가합니다. 이러한 기준을 수립함으로써 연구자, 미디어 조직 및 독자는 자신이 소비하고 생산하는 콘텐츠를 더 잘 평가하고 이해할 수 있습니다. 제안된 방법에는 미묘한 편향성을 감지하기 어렵다는 점과 진화하는 언어 패턴에 발맞춰 언어 모델을 지속적으로 업데이트해야 한다는 점 등 몇 가지 한계가 있습니다. [abs|pdf]

[68/129] Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

Keywords: long_context_generation, processing_longer_contexts, long_context_achieves
Abstract: 긴 문맥의 활용은 제한된 문맥 창 길이로 인해 대규모 언어 모델에 큰 도전이 됩니다. 미세 조정을 통해 컨텍스트 창을 확장할 수는 있지만, 이는 훈련과 추론 시간 모두에서 상당한 비용을 초래하고 LLM의 본래 기능에 좋지 않은 영향을 미칩니다. 본 연구에서는 제한된 컨텍스트 창으로 훨씬 더 긴 컨텍스트를 인식할 수 있도록 LLM의 원시 활성화를 보다 간결한 형태로 압축하는 활성화 비콘을 제안합니다. 활성화 비콘은 LLM을 위한 플러그 앤 플레이 모듈로 도입되었습니다. 이 모듈은 짧은 컨텍스트에 대한 LLM의 원래 기능을 완전히 유지하면서 더 긴 컨텍스트 처리에 대한 새로운 기능을 확장합니다. 또한 짧은 슬라이딩 창을 사용하여 긴 컨텍스트를 처리하므로 학습과 추론 모두에서 경쟁력 있는 메모리 및 시간 효율성을 달성할 수 있습니다. 활성화 비콘은 다양한 응축 비율의 비콘을 혼합하여 조건부 자동 회귀 작업을 통해 학습합니다. 이러한 처리 덕분에 단 10K 단계의 짧은 시퀀스 데이터만으로 효율적으로 훈련할 수 있으며, 이는 단일 8xA800 GPU 머신에서 9시간도 채 걸리지 않습니다. 실험 연구에 따르면 활성화 비콘은 라마-2-7B의 컨텍스트 길이를 100배(4K에서 400K로) 확장할 수 있으며, 동시에 긴 컨텍스트 생성 및 이해 작업 모두에서 우수한 결과를 달성할 수 있습니다. 모델과 코드는 BGE 리포지토리에서 확인할 수 있습니다. [abs|pdf]

[69/129] Amplification of Addictive New Media Features in the Metaverse

Keywords: addictive_potential_metaverse, metaverse_use_addiction, media_addiction_designed
Abstract: 인간의 무한한 상호작용을 촉진하는 초현실적 가상 세계로 상상되는 메타버스의 출현은 중독, 창의성, 관계, 사회 양극화에 중대한 영향을 미치며 미디어에 대한 우리의 개념을 혁신적으로 변화시킬 수 있습니다. 이 백서는 메타버스의 몰입감과 인터랙티브 기능으로 인한 중독성 잠재력을 분석하고, 메타버스의 추천 시스템이 창의성과 사회 양극화에 미치는 영향을 면밀히 검토하며, 메타버스의 발전으로 인한 잠재적 결과를 탐구하는 것을 목표로 합니다. 우리는 문헌고찰 방법론을 사용하여 새로운 미디어 플랫폼에 대한 연구와 유사점을 도출하고 역사적 관점에서 미디어의 현실 모방 기능의 발전 과정을 조사하여 이 혁신적인 디지털 영역을 이해했습니다. 연구 결과에 따르면 이러한 몰입형 인터랙티브 기능이 잠재적으로 미디어 중독을 악화시킬 수 있다고 합니다. 설계된 추천 시스템은 개인화와 사용자 참여를 돕는 동시에 사회 양극화에 기여하고 창의적 결과물의 다양성에 영향을 미칠 수 있습니다. 그러나 이러한 결론은 주로 기존 미디어 플랫폼에서 수행된 연구의 이론적 명제에 기반하고 있으며 메타버스에 대한 경험적 뒷받침이 부족합니다. 따라서 이 백서에서는 메타버스 사용과 중독에 초점을 맞춘 실증적 연구와 급성장하는 디지털 세계와 관련된 개인정보 보호, 보안 및 윤리적 영향에 대한 탐색을 통해 추가 연구가 필요한 중요한 격차를 확인합니다. 메타버스의 발전이 가속화됨에 따라 학자, 기술자, 정책 입안자들은 혁신과 사회적 안녕의 균형을 맞추기 위해 메타버스의 다층적 영향을 신중하게 탐색해야 할 의무가 있습니다. [abs|pdf]

[70/129] On Leveraging Large Language Models for Enhancing Entity Resolution

Keywords: entity_resolution, entity_resolution_task, entity_resolution_process
Abstract: 동일한 실체와 관련된 기록을 식별하고 통합하는 작업인 엔티티 식별은 전자상거래, 의료, 법 집행 등 다양한 분야에서 중추적인 역할을 합니다. GPT-4와 같은 대규모 언어 모델(LLM)의 등장은 고급 언어 기능을 활용하여 이 작업에 새로운 차원을 도입했습니다. 이 백서에서는 엔티티 확인 프로세스에서 LLM의 잠재력을 살펴보고, 그 장점과 대규모 매칭과 관련된 계산 복잡성을 조명합니다. 또한, NP-하드 문제로 판명된 최적의 매칭 질문 집합, 즉 MQsSP를 선택하는 등 LLM을 효율적으로 활용하기 위한 전략을 소개합니다. 우리의 접근 방식은 가장 효과적인 매칭 질문을 최적으로 선택하면서 예산 범위 내에서 소비를 제한합니다. 또한 엔티티 해결의 불확실성을 줄이기 위해 LLM으로부터 응답을 받은 후 가능한 파티션의 분포를 조정하는 방법을 제안합니다. 엔트로피를 지표로 삼아 접근 방식의 효과를 평가하고, 실험 결과를 통해 제안한 방법의 효율성과 효과를 입증하여 실제 적용에 대한 가능성을 제시합니다. [abs|pdf]

[71/129] MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition

Keywords: visual_speech_recognition, audio_visual_speech, cross_attention_fusion
Abstract: 자동 음성 인식(ASR) 시스템은 잡음이 많은 환경에서 성능이 크게 저하되는 반면, 시청각 음성 인식(AVSR) 시스템은 잡음에 영향을 받지 않는 시각적 단서로 오디오 스트림을 보완하고 시스템의 견고성을 개선하는 것을 목표로 합니다. 그러나 현재의 연구는 주로 모달리티 특징 학습 시 문맥 관계를 고려하지 않고 모달리티별 인코더의 출력과 같이 잘 학습된 모달리티 특징을 융합하는 데 초점을 맞추고 있습니다. 본 연구에서는 서로 다른 수준의 오디오/비주얼 인코더를 융합하여 각 모달리티의 표현 학습을 촉진하는 다층 교차 주의 융합 기반 AVSR(MLCA-AVSR) 접근법을 제안합니다. MISP2022-AVSR 챌린지 데이터 세트에 대한 실험 결과는 우리가 제안한 시스템의 효율성을 보여주며, 평가 세트에서 30.57%의 연결 최소 순열 문자 오류율(cpCER)을 달성하고 챌린지에서 2위를 차지한 이전 시스템에 비해 최대 3.17%의 상대적 개선 효과를 보였습니다. 여러 시스템을 융합한 후, 우리가 제안한 접근 방식은 이 데이터 세트에서 29.13%의 새로운 SOTA cpCER을 기록하며 1위 시스템을 뛰어넘었습니다. [abs|pdf]

[72/129] Improving Dribbling, Passing, and Marking Actions in Soccer Simulation 2D Games Using Machine Learning

Keywords: robocup_2d_soccer, predicting_teammate_passing, action_dribbling_strategy
Abstract: 1997년에 시작된 로보컵 대회는 가장 오래된 로보컵 리그로 알려져 있습니다. 로보컵 2D 축구 시뮬레이션 리그는 24개의 자율 에이전트가 두 개의 상대 팀에서 경기를 펼치는 확률적이고 부분적으로 관찰 가능한 축구 환경입니다. 이 백서에서는 RoboCup 2021 2D 축구 시뮬레이션 리그 우승팀인 사이러스(CYRUS)의 주요 전략과 기능에 대해 자세히 설명합니다. 이 논문에서 소개하고 논의하는 새로운 기능은 (i) 멀티 액션 드리블, (ii) 패스 예측, (iii) 마킹 결정입니다. 멀티 액션 드리블을 통해 사이러스는 경기 중 드리블 동작을 더 자주 성공하고 더 안전하게 수행할 수 있게 되었습니다. 패스 예측은 팀원의 패스 동작을 예측하고 골을 넣기 위해 에이전트들이 더 잘 협력하도록 함으로써 게임 플레이를 향상시켰습니다. 마지막으로, 마킹 결정은 멀티 에이전트 매칭 문제를 해결하여 상대 선수를 마킹할 수 있는 최적의 솔루션을 찾아내어 사이러스 수비 전략을 개선했습니다. [abs|pdf]

[73/129] Predicting the Skies: A Novel Model for Flight-Level Passenger Traffic Forecasting

Keywords: flight_traffic_prediction, predicting_flight, accurate_prediction_flight
Abstract: 항공편 수준의 승객 트래픽을 정확하게 예측하는 것은 가격 책정부터 노선 최적화에 이르기까지 주요 의사 결정에 영향을 미치는 항공사 운영에서 가장 중요한 요소입니다. 이 연구는 항공편 수준의 승객 트래픽 예측 문제에 대한 새로운 멀티모달 딥러닝 접근 방식을 도입하여 기존 모델에 비해 정확도를 크게 향상시켰습니다. 이 모델은 아메리칸 항공의 방대한 데이터 세트를 활용하여 과거 교통량 데이터, 요금 마감 정보, 각 항공편의 계절별 특성을 수집합니다. 우리가 제안한 신경망은 순환 신경망(RNN)과 컨볼루션 신경망(CNN)의 강점을 통합하여 데이터 내의 시간적 패턴과 공간적 관계를 활용하여 예측 성능을 향상시킵니다. 이 모델의 성공에는 포괄적인 데이터 처리 전략이 결정적인 역할을 합니다. 데이터를 표현하기 위해 3D 텐서를 구축하고, 실제 세계의 역학을 반영하기 위해 신중한 마스킹 전략을 적용하며, 데이터 증강 기술을 사용하여 훈련 세트의 다양성을 강화합니다. 이러한 접근 방식의 효율성은 결과에서도 입증되었습니다. 유니티의 모델은 기존 벤치마크에 비해 평균제곱오차(MSE)가 약 33% 개선된 것으로 나타났습니다. 따라서 이 연구는 항공 교통 예측 분야를 발전시키는 데 있어 딥러닝 기술과 세심한 데이터 처리의 중요한 잠재력을 강조합니다. [abs|pdf]

[74/129] LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward

Keywords: vulnerable_code_developers, developers_code_security, code_vulnerability_analysis
Abstract: 소프트웨어 개발에서 기능에 대한 강조가 보안 문제를 대체하는 경우가 많은데, 이러한 추세는 GitHub Copilot과 같은 AI 기반 자동화 도구로 더욱 탄력을 받고 있습니다. 이러한 도구는 기능적 코드 개발에서 개발자의 효율성을 크게 향상시킵니다. 그럼에도 불구하고 이러한 도구는 주로 취약한 코드가 포함된 공개 리포지토리에 대한 사전 교육으로 인해 안전하지 않은 코드를 생성할 수 있다는 우려도 여전히 남아 있습니다. 게다가 개발자는 코드 보안에 대한 지식이 매우 부족하기 때문에 '보안 사슬의 가장 약한 고리'라고 불립니다. 기존 솔루션은 취약한 코드에 대한 합리적인 해결책을 제공하지만, 보안 문제가 반복되지 않도록 개발자에게 코드 보안에 대한 충분한 설명과 교육이 필요합니다. 따라서 저희는 개발자가 코드 코멘트를 통해 취약점에 대한 완전한 설명과 함께 수정 코드를 식별하고 생성할 수 있도록 지원하는 대규모 언어 모델인 CodeGen2를 기반으로 하는 다목적 코드 취약점 분석 시스템 SecRepair를 도입했습니다. 이 혁신적인 방법론은 강화 학습 패러다임을 사용하여 의미론적 보상 메커니즘으로 강화된 코드 주석을 생성합니다. 사람이 코드 문제를 해결하는 방식에서 영감을 얻어 LLM을 사용한 취약점 분석에 적합한 명령어 기반 데이터 세트를 제안합니다. 또한 깃허브에 있는 6개의 오픈 소스 IoT 운영 체제에서 제로데이 및 N데이 취약점을 식별합니다. 연구 결과에 따르면 의미론적 보상과 결합된 강화 학습을 통합하면 모델의 성능이 향상되어 코드 취약점을 효과적으로 해결할 수 있는 역량을 강화할 수 있습니다. [abs|pdf]

[75/129] The HAPPY HEDGEHOG Project

Keywords: robots_happy_hedgehog, animal_friendly_machines, lawnmower_recognize_hedgehogs
Abstract: 반자율 기계, 자율 기계, 로봇은 폐쇄형, 반폐쇄형, 개방형 환경, 가정과 같은 구조화된 환경, 문화 경관이나 야생과 같은 비구조화된 환경 등 다양한 환경에서 서식합니다. 이러한 환경에서는 가축, 농장 동물, 작업 동물, 야생 동물을 만나게 됩니다. 이러한 동물들은 기계에 의해 방해를 받거나, 쫓겨나거나, 부상을 입거나, 죽임을 당할 수 있습니다. 기계 윤리와 소셜 로보틱스의 맥락에서 경영대학 FHNW는 이러한 학문의 정신에 따라 도덕적, 사회적 기계로 이해될 수 있는 동물 친화적 기계를 위한 여러 가지 디자인 연구와 프로토타입을 개발했습니다. 2019~20년에 주 저자가 이끄는 연구팀은 고슴도치를 인식하여 작업을 중단하고 고슴도치를 보호할 수 있는 프로토타입 로봇 잔디 깎는 기계를 개발했습니다. 매년 전 세계적으로 많은 고슴도치들이 기존의 서비스 로봇으로 인해 죽어가고 있습니다. 이 발명품의 이름인 해피 헤지혹(HHH)은 이 문제에 대한 해결책이 될 수 있습니다. 이 글은 배경을 소개하는 것으로 시작합니다. 그런 다음 기계의 탐색(기계가 인식해야 할 특정 물체를 발견하는 경우)과 열 및 이미지 인식(기계 학습의 도움으로)에 중점을 둡니다. 또한 명백한 약점과 개선 가능성도 제시합니다. 이 결과는 동물 친화적인 기계로 제품을 출시하고자 하는 업계에 도움이 될 수 있습니다. [abs|pdf]

[76/129] An Investigation of Large Language Models for Real-World Hate Speech Detection

Keywords: detecting_hate_speech, detection_hate_speech, detect_hate_speech
Abstract: 혐오 발언은 오늘날 우리 사회 공간을 괴롭히는 주요 문제로 부상했습니다. 이 문제를 해결하기 위한 많은 노력이 있었지만, 기존 방법으로는 온라인에서 혐오 발언을 효과적으로 탐지하는 데 여전히 상당한 한계가 있습니다. 기존 방법의 가장 큰 한계는 혐오 발언 탐지가 고도로 문맥적인 문제이며, 이러한 방법으로는 혐오 발언의 맥락을 충분히 파악하여 정확한 예측을 할 수 없다는 것입니다. 최근 대규모 언어 모델(LLM)은 여러 자연어 작업에서 최첨단 성능을 입증했습니다. LLM은 방대한 양의 자연어 데이터를 사용하여 광범위한 학습을 거쳤기 때문에 복잡한 문맥의 세부 사항을 파악할 수 있습니다. 따라서 문맥을 인식하는 혐오 발언 탐지를 위한 지식 베이스로 사용할 수 있습니다. 그러나 혐오 발언 탐지에 LLM을 사용하는 데 있어 근본적인 문제는 문맥 인식 혐오 발언 탐지를 위해 LLM을 효과적으로 유도하는 방법에 대한 연구가 없다는 것입니다. 이 연구에서는 기존에 구축된 5개의 혐오 발언 데이터 세트를 활용하여 혐오 발언 탐지에 대한 대규모 연구를 수행했습니다. 그 결과, LLM이 혐오 발언을 식별하는 데 있어 현재의 벤치마크 머신러닝 모델의 성능과 일치할 뿐만 아니라 종종 이를 능가한다는 사실을 발견했습니다. 또한 혐오 발언을 탐지할 때 LLM의 사용을 최적화하는 네 가지 다양한 프롬프트 전략을 제안합니다. 연구 결과, 세심하게 설계된 추론 프롬프트는 LLM의 지식 기반을 충분히 활용하여 혐오 발언의 맥락을 효과적으로 포착할 수 있으며, 기존 기법보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다. 또한, LLM이 혐오 발언의 맥락적 탐지를 위한 풍부한 지식 기반을 제공할 수 있지만, 이 지식 기반을 효과적으로 활용하여 효율적으로 탐지하려면 적절한 프롬프트 전략이 중요한 역할을 합니다. [abs|pdf]

[77/129] Rediscovering Ranganathan: A Prismatic View of His Life through the Knowledge Graph Spectrum

Keywords: biographical_knowledge_graph, biographical_knowledge, biographical
Abstract: 본 연구는 도서관 및 정보과학(LIS) 분야의 선구적 인물 중 한 명인 S. R. 랑가나탄 교수에 대한 새로운 전기적 지식그래프(KG)를 제시합니다. 랑가나탄에 관한 대부분의 관련 사실은 책, 에세이, 저널 기사, 웹사이트, 블로그 등 다양한 리소스에 존재하며, 단편적이고 단편적인 방식으로 정보를 제공하고 있는 것으로 밝혀졌습니다. 이 전용 KG(이하 RKG)를 통해 우리는 그의 삶과 업적을 360도로 조망할 수 있기를 바랍니다. 저희가 아는 한, 누구나 공개적으로 액세스하고, 사용/재사용하고, 기여할 수 있도록 최첨단 기술을 사용한 이러한 전용 자료는 그 범위와 범위에서 타의 추종을 불허합니다. 랑가나탄의 이론과 아이디어에서 영감을 얻은 KG는 중요한 전기적 측면의 식별과 존재론적 모델의 개발이라는 두 가지 수준에서 '패싯 기반 방법론'을 사용하여 개발되었습니다. 마지막으로, 이 연구를 통해 우리는 KG를 개선하기 위한 커뮤니티 주도의 노력을 촉구하고, 지속적인 참여를 통해 LIS 영역을 활성화한 도서관학의 아버지에게 100주년을 맞아 경의를 표합니다. [abs|pdf]

[78/129] MTAC: Hierarchical Reinforcement Learning-based Multi-gait Terrain-adaptive Quadruped Controller

Keywords: locomotion_controllers_quadrupeds, gait_terrain_adaptive, locomotion_controllers
Abstract: 도시 수색 및 구조 임무는 인명 손실과 피해를 최소화하기 위해 신속한 초기 대응이 필요합니다. 특히 지진과 같은 대량 사상자 발생 시에는 고르지 않고 거친 지형과 같은 역동적인 작전 조건을 처리해야 하는 인도주의적 로봇이 이러한 노력에 도움을 주는 경우가 많습니다. 4족 보행 로봇은 다목적 설계로 인해 이러한 시나리오에서 도움을 줄 수 있는 잠재력을 가지고 있습니다. 그러나 역동적이고 거친 지형 환경에서 4족 보행 로봇을 제어하는 것은 로봇의 자유도가 높기 때문에 어려운 문제입니다. 현재의 4족 보행 로봇용 로코모션 컨트롤러는 다양한 적응형 걸음걸이를 생성하고 시간과 리소스 효율적인 방식으로 작업을 해결하는 데 한계가 있으며, 지루한 훈련과 수동 튜닝 절차가 필요합니다. 이러한 문제를 해결하기 위해 유니티는 시간과 메모리 효율이 높으면서도 계층적 강화 학습(HRL) 접근 방식을 활용하는 다중 보행 지형 적응형 컨트롤러인 MTAC를 제안합니다. 우리는 제안한 방법이 최첨단 방법과 비슷한 계산 시간으로 다양한 환경으로 잘 확장된다는 것을 보여줍니다. 우리의 방법은 대부분의 작업에서 75% 이상의 성능을 보였으며, 대부분의 테스트 사례에서 이전 작업보다 뛰어난 성능을 보였습니다. [abs|pdf]

[79/129] Attention and Autoencoder Hybrid Model for Unsupervised Online Anomaly Detection

Keywords: anomaly_detection_time, dataset_anomaly_detection, attention_autoencoder
Abstract: 이 백서에서는 시계열에서 비지도 온라인 이상 징후를 탐지하기 위한 하이브리드 주의 및 자동 인코더(AE) 모델을 소개합니다. 자동 인코더는 짧은 임베딩에서 로컬 구조 패턴을 캡처하는 반면, 주의 모델은 장기적인 특징을 학습하여 위치 인코딩을 통한 병렬 컴퓨팅을 용이하게 합니다. 이 접근 방식이 독특하여, 우리가 제안한 하이브리드 모델은 시계열 이상 징후 탐지에서 처음으로 주의와 자동 인코더를 결합합니다. 이 모델은 딥 트랜스포머 모델과 유사한 주의 기반 메커니즘을 사용하며, 오토인코더의 잠재 공간에서 다음 시간 단계 창을 예측하기 위해 주요 아키텍처를 수정합니다. 이 모델은 이상 징후 탐지를 위해 검증 데이터 세트의 임계값을 활용하고 첫 번째 통계적 오류 모멘트 분석을 기반으로 하는 대체 방법을 도입하여 검증 데이터 세트에 의존하지 않고 정확도를 개선합니다. 다양한 실제 벤치마크 데이터 세트에 대한 평가와 잘 정립된 다른 모델과의 비교를 통해 제안한 모델이 이상 징후 탐지에 효과적임을 확인했습니다. [abs|pdf]

[80/129] Comparison of Microservice Call Rate Predictions for Replication in the Cloud

Keywords: predicting_microservice_rates, microservice_gradient_boosting, models_predicting_microservice
Abstract: 오늘날 많은 사용자가 클라우드 머신 클러스터에 다양한 상호 연결이 있는 마이크로서비스 기반 애플리케이션을 배포하고 있으며, 이러한 애플리케이션은 동적인 사용자 요구사항으로 인해 확률적으로 변경될 수 있습니다. 이 문제를 해결하기 위해 마이크로서비스 시간을 기반으로 마이크로서비스 호출률을 예측하고 확장성 요구 사항을 예측하기 위한 세 가지 머신러닝(ML) 모델을 비교합니다. 선형 회귀(LR), 다층 인식(MLP), 그라데이션 부스팅 회귀(GBR) 모델을 알리바바 마이크로서비스 트레이스에 적용했습니다. 예측 결과, LR 모델이 GBR 및 MLP 모델보다 훈련 시간이 더 짧은 것으로 나타났습니다. 그러나 GBR은 평균 절대 오차와 평균 절대 백분율 오차를 LR 및 MLP 모델에 비해 줄였습니다. 또한 예측 결과, 그라데이션 부스팅 모델에 의한 마이크로서비스별 필요 복제본 수는 예측 없이도 실제 테스트 데이터에 근접한 것으로 나타났습니다. [abs|pdf]

[81/129] Malla: Demystifying Real-world Large Language Model Integrated Malicious Services

Keywords: malicious_services_malla, exploitation_llms_cybercriminals, llms_malicious_services
Abstract: 악성 서비스(예: 말라)를 위한 대규모 언어 모델(LLM)의 지하 악용이 증가하면서 사이버 위협 환경이 증폭되고 LLM 기술의 신뢰성에 대한 의문이 제기되고 있습니다. 그러나 이 새로운 사이버 범죄의 규모, 영향력, 기법 측면에서 이를 이해하려는 노력은 거의 이루어지지 않았습니다. 이 백서에서는 212개의 실제 맬라 조직에 대한 최초의 체계적인 연구를 수행하여 지하 시장에서 맬라 조직이 확산되고 있음을 밝히고 그 운영 방식을 폭로합니다. 이 연구는 말라 생태계를 공개하여 오늘날의 퍼블릭 LLM 서비스에 미치는 영향과 상당한 성장세를 보여줍니다. 212개의 말라를 조사하여 말라가 사용하는 8개의 백엔드 LLM과 공개 LLM API의 보호 조치를 우회하는 182개의 프롬프트를 발견했습니다. 또한, 검열되지 않은 LLM의 남용과 탈옥 프롬프트를 통한 공개 LLM API의 악용 등 Mallas가 사용하는 수법을 자세히 설명합니다. 이러한 연구 결과를 통해 사이버 범죄자들이 실제로 LLM을 악용하는 방식을 더 잘 이해할 수 있으며, 이러한 사이버 범죄에 대응할 수 있는 전략에 대한 인사이트를 얻을 수 있습니다. [abs|pdf]

[82/129] Enhancing Context Through Contrast

Keywords: neural_machine_translation, machine_translation_maximizing, semantically_rich_representations
Abstract: 신경망 기계 번역은 의미적으로 풍부한 표현을 통해 이점을 얻을 수 있습니다. 언어 모델링과 대조 학습을 통한 상호 정보 극대화 목표를 통해 이러한 표현을 학습하는 데 상당한 진전을 이루었습니다. 언어 모델링의 언어 의존적 특성으로 인해 학습된 표현의 보편성과 언어 모델링 작업에 대한 모델의 성능 간에 상충 관계가 발생합니다. 대조 학습은 성능을 향상시키지만, 그 성공이 상호 정보에만 기인한다고 볼 수는 없습니다. 따라서 인공신경망 기계 번역의 성능을 향상시키기 위해 바로우 쌍둥이 손실을 사용하여 상호 정보를 극대화하는 새로운 컨텍스트 강화 단계를 제안합니다. 다른 접근 방식과 달리 데이터를 명시적으로 보강하지 않고 언어를 암시적 보강으로 간주하여 의미 정보를 방해할 위험을 제거합니다. 또한, 이 방법은 임베딩을 처음부터 학습하지 않으며 사전 학습된 모든 임베딩 세트에 일반화할 수 있습니다. 마지막으로, 언어 분류를 통해 임베딩의 언어 불가지론을 평가하고 이를 신경망 기계 번역에 사용하여 최첨단 접근 방식과 비교합니다. [abs|pdf]

[83/129] Exploiting Data Hierarchy as a New Modality for Contrastive Learning

Keywords: hierarchical_contrastive_training, weakly_supervised_baseline, modality_weakly_supervised
Abstract: 이 연구는 계층적으로 구조화된 데이터가 신경망이 성당의 개념적 표현을 학습하는 데 어떻게 도움이 되는지 조사합니다. 기본이 되는 위키씬 데이터 세트는 공간적으로 구성된 대성당 구성 요소의 계층적 구조를 제공합니다. 우리는 인코더의 잠재 공간에서 데이터의 공간적 계층 구조를 표현하기 위해 삼중 마진 손실을 활용하는 새로운 계층적 대비 훈련 접근법을 제안합니다. 따라서 제안된 접근 방식은 데이터 세트 구조가 자기 지도 학습에 유용한 정보를 제공하는지 여부를 조사합니다. T-SNE를 적용하여 결과 잠재 공간을 시각화하고 일반적인 다운스트림 분류 작업을 사용하여 다른 데이터 세트별 대조 학습 방법과 비교하여 제안된 접근 방식을 평가합니다. 제안된 방법은 비교 대상인 약한 감독 및 기준 방법보다 우수한 성능을 보였습니다. 우리의 연구 결과는 데이터 세트 구조가 약한 지도 학습에 유용한 방식임을 시사합니다. [abs|pdf]

[84/129] CAVIAR: Co-simulation of 6G Communications, 3D Scenarios and AI for Digital Twins

Keywords: 6g_related_simulators, executing_sar_simulation, sar_simulation_adopt
Abstract: 디지털 트윈은 특히 무선 채널, 3D 장면 및 머신러닝을 동시에 시뮬레이션해야 하는 사용 사례에서 모바일 통신을 발전시키는 데 중요한 기술입니다. 이 연구에서는 이러한 수요에 대한 솔루션을 제공하기 위해 모듈식 공동 시뮬레이션 방법론인 CAVIAR에 대해 설명합니다. 여기서는 메시지 전달 라이브러리를 지원하고 다양한 6G 관련 시뮬레이터를 사용하여 디지털 트윈 시스템의 가상 대응을 가능하게 하도록 CAVIAR를 업그레이드합니다. 이 작업의 주요 기여는 다양한 CAVIAR 아키텍처에 대한 자세한 설명, 무인항공기 기반 수색 및 구조 임무(SAR)의 6G 사용 사례를 평가하기 위한 이 방법론의 구현, 그리고 컴퓨팅 리소스 사용량에 대한 벤치마킹 데이터 생성입니다. SAR 공동 시뮬레이션을 실행하기 위해 물리적 및 링크 수준 네트워크 시뮬레이터인 Sionna, 자율 주행 차량용 시뮬레이터인 AirSim, MIMO 빔 선택을 위한 의사 결정 트리를 훈련하기 위한 scikit-learn, 구조 대상 탐지를 위한 Yolov8, 메시지 전달을 위한 NATS 등 5가지 오픈 소스 솔루션을 채택했습니다. 구현된 SAR 사용 사례의 결과에 따르면 이 방법론은 단일 시스템에서 실행할 수 있으며, 주요 요구되는 리소스는 CPU 처리와 GPU 메모리입니다. [abs|pdf]

[85/129] MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning

Keywords: tuning_reinforcement_learning, reinforcement_learning_high, reinforcement_learning
Abstract: 우리는 현실적인 로봇 작업의 맥락에서 고차원 관찰로부터 강화 학습을 위한 오프라인 사전 훈련과 온라인 미세 조정 문제를 연구합니다. 최근의 오프라인 모델 프리 접근 방식은 온라인 미세 조정을 성공적으로 사용하여 데이터 수집 정책에 대한 에이전트의 성능을 개선하거나 새로운 작업에 적응합니다. 동시에 모델 기반 RL 알고리즘은 샘플 효율성과 해결할 수 있는 작업의 복잡성에서 상당한 진전을 이루었지만, 미세 조정 설정에서는 여전히 활용도가 낮습니다. 본 연구에서는 기존의 모델 기반 오프라인 RL 방법이 분포 이동, 비역학 데이터, 비고정 보상 등의 문제로 인해 고차원 영역에서의 오프라인 대 온라인 미세 조정에 적합하지 않다고 주장합니다. 본 논문에서는 모델 기반 가치 확장 및 정책 정규화를 통해 이전 데이터를 효율적으로 재사용하는 동시에 인식적 불확실성을 제어하여 모델 악용을 방지할 수 있는 온-정책 모델 기반 방법을 제안합니다. 이러한 접근 방식은 메타월드 벤치마크와 프랑카 키친 로봇 조작 환경의 작업을 이미지로부터 완전히 성공적으로 해결했습니다. 우리가 아는 한, 픽셀에서 이러한 환경을 해결하는 방법은 MOTO가 처음입니다. [abs|pdf]

[86/129] Realism in Action: Anomaly-Aware Diagnosis of Brain Tumors from Medical Images Using YOLOv8 and DeiT

Keywords: tumor_detection_classification, detect_tumors_anomaly, classify_brain_tumors
Abstract: 의료 과학 분야에서는 환자 집단 내에서 종양이 드물기 때문에 이미지에서 뇌종양을 안정적으로 탐지하고 분류하는 것이 여전히 어려운 과제로 남아 있습니다. 따라서 적시에 개입하고 환자 예후를 개선하기 위해서는 비정상적인 상황에서 종양을 감지하는 능력이 무엇보다 중요합니다. 이 연구는 딥러닝(DL) 기술을 활용하여 까다로운 상황에서 뇌종양을 탐지하고 분류함으로써 이 문제를 해결합니다. 국립 뇌 매핑 연구소(NBML)의 선별된 데이터 세트는 30명의 종양 환자와 51명의 정상 환자를 포함한 81명의 환자로 구성되어 있습니다. 탐지 및 분류 파이프라인은 두 개의 연속적인 작업으로 분리되어 있습니다. 탐지 단계에서는 포괄적인 데이터 분석과 전처리를 통해 이미지 샘플 수와 각 클래스의 환자 수를 실제 시나리오에 맞게 이상 분포(종양 1개당 정상 9개)로 수정했습니다. 다음으로, 테스트에 대한 일반적인 평가 지표 외에도 모델의 현실적인 평가에 중점을 두고 환자 대 환자(PTP)라는 새로운 성능 평가 방법을 사용했습니다. 탐지 단계에서는 종양 영역을 탐지하기 위해 YOLOv8n 탐지 모델을 미세 조정했습니다. 이후 테스트 및 평가 결과, 공통 평가 지표와 PTP 지표 모두에서 경쟁력 있는 성능을 보였습니다. 또한, 데이터 효율 이미지 트랜스포머(DeiT) 모듈을 사용하여 분류 단계의 교사로서 미세 조정된 ResNet152에서 비전 트랜스포머(ViT) 모델을 추출했습니다. 이 접근 방식은 신뢰할 수 있는 종양 탐지 및 분류에 있어 유망한 진전을 보여줌으로써 실제 의료 영상 시나리오에서 종양 진단의 잠재적 발전을 제공합니다. [abs|pdf]

[87/129] Real Time Human Detection by Unmanned Aerial Vehicles

Keywords: object_detection_tir, tir_object_detection, detection_tir_pictures
Abstract: 컴퓨터 비전과 원격 감지 분야에서 가장 중요한 문제 중 하나는 사진에서 다양한 사물의 특정 범주를 식별하는 객체 감지입니다. 공공 보안을 위한 두 가지 중요한 데이터 소스는 열적외선(TIR) 원격 감지 다중 시나리오 사진과 무인 항공기(UAV)가 촬영한 동영상입니다. 대상의 규모가 작고, 장면 정보가 복잡하며, 가시 영상에 비해 해상도가 낮고, 공개적으로 사용 가능한 라벨이 지정된 데이터 세트와 학습 모델이 부족하기 때문에 물체 감지 절차가 여전히 어렵습니다. 이 연구에서는 사진 및 동영상에 대한 UAV TIR 객체 탐지 프레임워크를 제안합니다. 지상 기반 TIR 사진과 비디오를 수집하는 데 사용되는 전방 적외선(FLIR) 카메라를 사용하여 CNN 아키텍처를 기반으로 하는 '한 번만 보기'(YOLO) 모델을 생성합니다. 그 결과, 검증 작업에서 사람 물체를 감지할 때 YOLOv7(YOLO 버전 7) 최첨단 모델[1]을 사용하면 평균 정밀도는 IOU(Intersection over Union) = 0.5로 72.5%, 감지 속도는 초당 약 161프레임(FPS/초)으로 나타났습니다. YOLO 아키텍처의 유용성은 다양한 UAV의 관찰 각도 측면에서 YOLOv7 모델에 따라 UAV TIR 영상에서 사람의 교차 감지 성능을 평가하는 애플리케이션에서 입증되었습니다. 이 연구를 통해 딥러닝 모델을 사용한 열화상 사진 및 비디오의 객체 검출에 대한 정성적, 정량적 평가가 유리하게 지원됩니다. [abs|pdf]

[88/129] Autonomous Navigation in Complex Environments

Keywords: model_subterranean_rescue, robot_navigation_controller, construct_robot_navigation
Abstract: 이 논문에서는 시뮬레이션 환경 내에서 로봇 내비게이션 컨트롤러를 구축하기 위해 CNN-DNN 네트워크 융합을 적용하는 방법을 살펴봅니다. 시뮬레이션 환경은 지하 구조 상황을 모델링하여 자율 에이전트가 미지의 동굴 시스템 내에서 목표를 찾는 임무를 수행하도록 구성됩니다. 모방 학습을 통해 제어 알고리즘을 훈련시켜 라이다와 카메라 데이터를 사용하여 공간을 탐색하고 목표를 찾도록 합니다. 그런 다음 훈련된 모델은 몬테카를로를 사용하여 견고성을 테스트합니다. [abs|pdf]

[89/129] SeqNAS: Neural Architecture Search for Event Sequence Classification

Keywords: event_sequence_classification, sequence_classification_including, sequence_classification
Abstract: 신경망 아키텍처 검색(NAS) 방법은 사람의 개입을 최소화하면서 고품질의 작업별 솔루션을 얻기 위해 다양한 산업 분야에서 널리 사용되고 있습니다. 이벤트 시퀀스는 이탈 예측 고객 세분화 사기 탐지 및 오류 진단 등 다양한 산업 분야에서 널리 사용되고 있습니다. 이러한 데이터는 불규칙한 타임스탬프가 있는 범주형 및 실수값 구성요소로 이루어져 있습니다. NAS 방법의 유용성에도 불구하고 이전 접근 방식은 이미지 텍스트나 시계열과 같은 다른 영역에만 적용되었습니다. 우리의 연구는 이벤트 시퀀스 분류를 위해 특별히 설계된 새로운 NAS 알고리즘인 SeqNAS를 도입하여 이러한 한계를 해결합니다. 멀티헤드 자기 관심 컨볼루션과 반복 셀 등 이벤트 시퀀스 분류에 일반적으로 사용되는 빌딩 블록을 활용하는 간단하면서도 표현력이 풍부한 검색 공간을 개발합니다. 검색을 수행하기 위해 순차적 베이지안 최적화를 채택하고 이전에 학습된 모델을 교사들의 앙상블로 활용하여 지식 증류를 강화합니다. 연구 결과, 우리의 방법은 시퀀스 분류에 적합한 최첨단 NAS 방법과 널리 사용되는 아키텍처를 능가하며 다양한 산업 응용 분야에서 큰 잠재력을 가지고 있음을 입증했습니다. [abs|pdf]

[90/129] Artificial Intelligence for Operations Research: Revolutionizing the Operations Research Process

Keywords: ai_process_ai4or, integration_ai_process, ai_enhanced_methods
Abstract: 인공지능(AI) 기술의 급속한 발전은 운영 연구(OR)를 포함한 다양한 분야에 혁신을 가져올 새로운 기회를 열어주었습니다. 이 설문조사 보고서는 파라미터 생성, 모델 공식화 및 모델 최적화와 같은 여러 단계에서 효과와 효율성을 향상시키기 위해 OR 프로세스 내에 AI를 통합하는 방법(AI4OR)을 살펴봅니다. 이 백서는 최신 기술에 대한 포괄적인 개요를 제공하고 수술실을 변화시킬 수 있는 AI의 잠재력을 검토함으로써, AI로 향상된 수술 방법 및 도구 개발에 대한 추가 연구와 혁신을 촉진하는 것을 목표로 합니다. AI와 수술실 간의 시너지는 다양한 영역에서 상당한 발전과 새로운 솔루션을 촉진하여 궁극적으로 보다 효과적이고 효율적인 의사결정을 이끌어낼 것입니다. [abs|pdf]

[91/129] Using Large Language Models to Assess Tutors' Performance in Reacting to Students Making Math Errors

Keywords: human_evaluation_tutors, performance_tutors_real, tutoring_dialogues
Abstract: 연구에 따르면 효율성이 낮은 학생의 수학 오류를 해결할 때 튜터는 전략적인 접근 방식을 채택해야 한다고 합니다. 튜터는 오류에 대해 직접적으로 주의를 환기시키기보다는 학생이 스스로 실수를 파악하고 수정할 수 있도록 안내해야 합니다. 튜터 수업에 이러한 교육적 기술이 도입되었지만, 이 전략을 적용하는 튜터에 대한 인적 평가는 힘들고 시간이 많이 소요됩니다. 대규모 언어 모델(LLM)은 실제 튜터링 세션 중에 튜터에게 실시간 평가를 제공할 수 있는 가능성을 보여주지만, 이러한 맥락에서 그 정확성에 대해서는 알려진 바가 거의 없습니다. 이 연구에서는 수학 오류를 범하는 학생에게 대응하는 실제 튜터의 능력을 평가하는 생성형 AI의 역량을 조사합니다. 50개의 실제 튜터링 대화를 분석한 결과, GPT-3.5-Turbo와 GPT-4 모두 오류를 범하는 학생에 대한 대응과 관련된 기준을 평가하는 데 능숙하다는 것을 알 수 있었습니다. 그러나 두 모델 모두 학생이 오류를 범한 사례를 인식하는 데는 한계가 있습니다. 특히, GPT-4는 학생이 오류를 범한 사례를 과도하게 식별하는 경향이 있으며, 종종 학생의 불확실성을 원인으로 돌리거나 인간 평가자가 발견하지 못한 잠재적 오류를 추론하는 경우가 많습니다. 향후 연구에서는 더 큰 규모의 대화 데이터 세트를 평가하고 학습 전이를 평가하여 일반화 가능성을 높이는 데 초점을 맞출 것입니다. 특히, 이 중요한 튜터링 기술에 대한 수업 완료 전후의 학생의 수학 오류에 대응할 때 실제 시나리오에서 튜터의 성과를 분석할 것입니다. [abs|pdf]

[92/129] Convergence Rate Maximization for Split Learning-based Control of EMG Prosthetic Devices

Keywords: split_learning, split_learning_sl, learning_approach_electromyography
Abstract: 분할 학습(SL)은 리소스가 제한된 환경에서도 적용이 가능하기 때문에 근전도(EMG) 기반 보철물 제어 분야에서 유망한 분산 학습 접근 방식입니다. 딥러닝 및 연합 학습(FL)과 같은 다른 학습 접근 방식은 보철 기기의 처리 능력과 배터리 수명이 극도로 제한되어 있기 때문에 차선책으로 솔루션을 제공합니다. 이러한 시나리오에서 SL을 구현할 수 있는 이유는 클라이언트가 더 작은 모델 세그먼트를 실행하는 고유한 모델 파티셔닝 때문입니다. 그러나 부적절한 컷 레이어를 선택하면 SL 시스템에서 훈련 프로세스를 방해합니다. 본 논문에서는 모델의 수렴율을 극대화하는 측면에서 최적의 컷 레이어 선택을 위한 알고리즘을 제시합니다. 성능 평가를 통해 제안한 알고리즘이 보철 장치 제어 개선을 위한 근전도 패턴 인식 작업에서 수렴 속도를 크게 향상시킴을 입증합니다. [abs|pdf]

[93/129] MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image Translation by Prompts Redescription and Beyond

Keywords: reconstructed_image_diffusion, text_image_diffusion, generation_image_restoration
Abstract: 최근 텍스트-이미지 확산 모델은 콘텐츠 생성, 이미지 복원, 이미지-이미지 번역 등 이미지 처리 분야에서 새로운 패러다임으로 자리 잡고 있습니다. 목표 프롬프트가 주어지면 노이즈 제거 확산 확률론적 모델(DDPM)은 사실적이면서도 적합한 이미지를 생성할 수 있습니다. 이 매력적인 속성으로 인해 이미지 번역 작업은 감독을 위한 대상 이미지 샘플이 없어도 될 가능성이 있습니다. 확산 모델은 도메인 적응을 위해 타깃 텍스트 프롬프트를 사용함으로써 제로 샷 이미지 간 번역을 유리하게 구현할 수 있습니다. 그러나 DDPM의 샘플링 및 반전 프로세스는 확률적이기 때문에 반전 프로세스가 입력 콘텐츠를 재구성하지 못하는 경우가 많습니다. 특히, 확산 및 반전 과정에서 변위 효과가 점차 누적되어 재구성된 결과가 원본 영역에서 벗어나게 됩니다. 재구성을 명확히 하기 위해 확산 모델에서 원본과 재구성된 이미지 사이에 거울 효과를 구현하기 위한 신속한 재설명 전략(MirrorDiffusion)을 제안합니다. 보다 구체적으로, 노이즈 제거 확산 암시적 모델(DDIM) 역전의 각 시간 단계에서 텍스트 프롬프트를 잠재 코드와 정렬하여 구조를 보존하는 재구성을 추구하는 신속한 재기술 메커니즘을 조사합니다. 수정된 DDIM 역전을 통해 MirrorDiffusion은 최적화된 텍스트 프롬프트와 잠재 코드를 편집하여 정확한 제로샷 이미지 변환을 실현할 수 있습니다. 광범위한 실험을 통해 미러디퓨전은 제로샷 이미지 번역 벤치마크에서 명확한 마진과 실질적인 모델 안정성을 통해 최첨단 방법보다 우수한 성능을 달성하는 것으로 입증되었습니다. [abs|pdf]

[94/129] Understanding Representation Learnability of Nonlinear Self-Supervised Learning

Keywords: supervised_learning_ssl, self_supervised_learning, nonlinear_supervised_learning
Abstract: 자기 지도 학습(SSL)은 많은 다운스트림 작업에서 데이터 표현 학습 가능성을 경험적으로 보여주었습니다. 데이터 표현 학습 가능성에 대한 이론적 연구는 거의 없으며, 그 중 상당수는 비선형 신경망을 '블랙박스'로 간주하여 최종 데이터 표현에 초점을 맞추고 있습니다. 그러나 신경망의 정확한 학습 결과는 SSL 모델이 학습한 데이터 분포 특징을 설명하는 데 매우 중요합니다. 본 논문은 비선형 SSL 모델의 학습 결과를 정확하게 분석한 최초의 논문입니다. 본 논문에서는 라벨 관련 특징과 숨겨진 특징이라는 두 가지 특징을 포함하는 장난감 데이터 분포를 고려합니다. 폐쇄형 해에 의존하는 기존의 선형 설정 작업과 달리, 경사 하강 알고리즘을 사용하여 특정 초기화 영역을 가진 1계층 비선형 SSL 모델을 학습하고 모델이 국소 최소값으로 수렴함을 증명합니다. 또한 복잡한 반복 분석과 달리 역함수 정리의 정확한 버전을 사용하여 국부 최소값으로 학습된 특징을 정확하게 설명하는 새로운 분석 프로세스를 제안합니다. 이 국부 최소값을 통해 비선형 SSL 모델이 라벨 관련 특징과 숨겨진 특징을 동시에 포착할 수 있음을 증명합니다. 반면, 비선형 지도 학습(SL) 모델은 라벨 관련 특징만 학습할 수 있습니다. 또한 시뮬레이션 실험을 통해 비선형 SSL과 SL 모델의 학습 과정과 결과를 제시합니다. [abs|pdf]

[95/129] SecureReg: A Combined Framework for Proactively Exposing Malicious Domain Name Registrations

Keywords: suspicious_domain_registrations, identifying_suspicious_domains, like_spam_phishing
Abstract: 스팸, 피싱, 드라이브 바이 다운로드와 같은 인터넷 규모의 공격을 위해 매일 수천 개의 새로운 도메인을 등록하는 등 사이버 위협이 증가함에 따라 혁신적인 탐지 방법의 필요성이 강조되고 있습니다. 이 백서에서는 등록 프로세스가 시작될 때 의심스러운 도메인을 식별하기 위한 최첨단 접근 방식을 소개합니다. 함께 제공되는 데이터 파이프라인은 새 도메인과 등록된 도메인을 비교하여 중요한 유사도 점수를 강조함으로써 중요한 특징을 생성합니다. 사전 학습된 송곳니 모델을 포함한 자연어 처리(NLP) 기술과 다층 퍼셉트론(MLP) 모델의 새로운 조합을 활용하여 의미론적 및 수치적 속성을 분석하여 위협을 조기에 탐지할 수 있는 강력한 솔루션을 제공하는 시스템입니다. 이러한 통합적 접근 방식은 취약성 노출 기간을 크게 줄여 잠재적 위협에 대한 방어를 강화합니다. 이번 연구 결과는 통합 접근 방식의 효과를 입증하고 의심스러운 도메인 등록을 조기에 식별하여 불법 온라인 활동과 관련된 위험을 완화하기 위한 사전 예방적 전략을 개발하기 위한 지속적인 노력에 기여합니다. [abs|pdf]

[96/129] MPN: Leveraging Multilingual Patch Neuron for Cross-lingual Model Editing

Keywords: cross_lingual_editing, lingual_editing_capabilities, lingual_editing_tasks
Abstract: 대규모 언어 모델은 방대한 양의 사실적 지식을 인코딩하는 것으로 알려져 있지만, 외부 정보의 시시각각 변하는 특성으로 인해 종종 구식이 되는 경우가 있습니다. 이 문제에 대한 유망한 해결책은 효율적인 방식으로 지식을 업데이트하기 위해 모델 편집 방법을 활용하는 것입니다. 그러나 기존 모델 편집 기법의 대부분은 단일 언어 프레임워크에 국한되어 있어 다국어 모델의 언어 간 지식 동기화라는 중요한 문제를 해결하지 못하고 있습니다. 이 문제를 해결하기 위해 다국어 패치 뉴런을 훈련하여 다국어 지식을 저장하는 간단하면서도 효과적인 방법을 제안합니다. 이 방법은 기존 접근 방식에 쉽게 적용하여 다국어 편집 기능을 향상시킬 수 있습니다. 이 방법을 평가하기 위해 XNLI 데이터 세트와 자체 구축한 XFEVER 데이터 세트를 사용하여 실험을 수행했습니다. 실험 결과, 우리가 제안한 방법은 기존 방법론을 과도하게 수정하지 않고도 언어 간 편집 작업에서 향상된 성능을 달성하여 사용자 친화적인 특성을 보여줍니다. 코드는 곧 공개될 예정입니다. [abs|pdf]

[97/129] Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Keywords: language_models, language_modeling, language_modeling_lm
Abstract: 품사 태깅, 명명된 개체 인식, 기계 번역, 음성 인식, 언어 모델링(LM)과 같은 언어 처리 시스템은 리소스가 많은 언어에서 잘 연구되고 있습니다. 하지만 보고어, 미조어, 나가메어 등 자원이 부족한 몇몇 언어에 대한 이러한 시스템에 대한 연구는 아직 시작되지 않았거나 초기 단계에 머물러 있습니다. 언어 모델은 최신 NLP의 다운스트림 작업에서 중요한 역할을 합니다. 리소스가 많은 언어에 대한 LM에 대한 광범위한 연구가 수행되고 있습니다. 그럼에도 불구하고 보르도어, 라바어, 미싱어와 같은 언어에 대한 연구는 여전히 부족합니다. 이 연구에서는 먼저 보르도어를 위한 언어 모델인 보르도버트를 제시합니다. 우리가 아는 한, 이 연구는 보도를 위한 언어 모델을 개발하기 위한 최초의 노력입니다. 둘째, 보도를 위한 앙상블 DL 기반 POS 태깅 모델을 제시합니다. 이 POS 태깅 모델은 BiLSTM과 CRF의 조합, 그리고 BodoBERT와 BytePairEmbeddings의 스택 임베딩을 기반으로 합니다. 실험에서 여러 언어 모델을 사용하여 POS 태깅 작업에서 얼마나 잘 작동하는지 살펴봅니다. 가장 성능이 좋은 모델은 F1 점수 0.8041을 기록했습니다. 아삼어와 같은 지역에서 사용되는 언어라는 점을 고려하여 아삼어 POS 태거에 대한 비교 실험도 수행했습니다. [abs|pdf]

[98/129] Exploration of Adolescent Depression Risk Prediction Based on Census Surveys and General Life Issues

Keywords: data_predict_depression, detecting_depression_young, detecting_depression
Abstract: 현대 사회에서 삶과 일의 압박이 가중되면서 심리적 장애는 현대인의 건강 문제의 최전선으로 떠올랐으며, 코로나19 팬데믹으로 인해 이 문제는 더욱 부각되고 있습니다. 청소년의 우울증 유병률은 꾸준히 증가하고 있으며, 척도나 인터뷰에 의존하는 기존의 진단 방법은 청소년의 우울증을 발견하는 데 특히 부적합한 것으로 나타났습니다. 이러한 문제를 해결하기 위해 정신 건강 문제를 진단하는 데 도움을 주는 다양한 인공지능 기반 방법이 등장했습니다. 그러나 이러한 방법의 대부분은 척도의 근본적인 문제를 중심으로 하거나 표정 인식과 같은 복합적인 접근 방식을 사용합니다. 일상적인 습관과 행동에 기반한 우울증 위험 진단은 소규모 정성적 연구로 제한되어 왔습니다. 크리테오의 연구는 청소년 인구조사 데이터를 활용하여 아동의 우울증 경험과 일상 생활에 초점을 맞춰 우울증 위험을 예측합니다. 불균형이 심한 고차원 데이터를 관리할 수 있는 방법과 데이터 구조 특성에 맞춘 적응적 예측 접근법을 도입했습니다. 또한 자동 온라인 학습과 데이터 업데이트를 위한 클라우드 기반 아키텍처를 제안했습니다. 이 연구는 2020년부터 2022년까지 약 15만 개의 데이터 항목이 포함된 공개적으로 이용 가능한 NSCH 청소년 인구조사 데이터를 활용했습니다. 기본적인 데이터 분석과 예측 실험을 수행하여 표준 머신러닝 및 딥러닝 알고리즘에 비해 상당한 성능 향상을 입증했습니다. 이를 통해 불균형한 의료 데이터를 처리하는 데 있어 데이터 처리 방법의 광범위한 적용 가능성을 확인했습니다. 일반적인 예측 방법 연구와는 달리, 이 연구는 다양한 사용자 요구를 고려한 포괄적인 아키텍처 솔루션을 제시합니다. [abs|pdf]

[99/129] PosDiffNet: Positional Neural Diffusion for Point Cloud Registration in a Large Field of View with Perturbations

Keywords: point_cloud_registration, 3d_point_cloud, embeddings_point_clouds
Abstract: 포인트 클라우드 등록은 3D 컴퓨터 비전에서 광범위한 애플리케이션에 사용되는 중요한 기술입니다. 그러나 이 작업은 특히 동적 물체, 환경 노이즈 또는 기타 섭동이 있는 넓은 시야에서 어려울 수 있습니다. 이러한 문제를 해결하기 위해 유니티는 PosDiffNet이라는 모델을 제안합니다. 이 접근 방식은 창 수준, 패치 수준, 포인트 수준의 대응을 기반으로 계층적 등록을 수행합니다. 벨트라미 흐름에 기반한 그래프 신경 편미분 방정식(PDE)을 활용하여 포인트 클라우드의 고차원 특징과 위치 임베딩을 얻습니다. 신경 편미분 방정식(ODE)을 기반으로 위치 임베딩을 Transformer 모듈에 통합하여 포인트 내의 패치를 효율적으로 표현합니다. 높은 특징 유사성 점수에서 도출된 다단계 대응을 사용해 포인트 클라우드 간의 정렬을 용이하게 합니다. 그 후, SVD 기반 알고리즘과 같은 등록 방법을 사용해 해당 포인트 쌍을 사용해 변환을 예측합니다. 여러 3D 포인트 클라우드 데이터 세트에서 PosDiffNet을 평가하여 섭동이 있는 넓은 시야에서 포인트 클라우드 등록을 위한 최첨단(SOTA) 성능을 달성하는지 확인했습니다. 실험의 구현 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[100/129] Human as AI Mentor: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving

Keywords: agents_policy_learning, based_deep_reinforcement, deep_reinforcement_learning
Abstract: 자율주행차(AV)의 상당한 발전에도 불구하고, 자율주행차의 안전과 교통 흐름의 효율성을 모두 보장하는 주행 정책의 개발은 아직 충분히 탐구되지 않았습니다. 이 백서에서는 혼합 교통 대열에서 안전하고 효율적인 자율주행을 촉진하는 향상된 휴먼 인더 루프 강화학습 방법, 즉 HAIM-DRL(Human as AI 멘토 기반 심층 강화학습) 프레임워크를 제안합니다. 먼저 인간의 학습 과정에서 영감을 얻어 인간의 지능을 AI에 효과적으로 주입하는 혁신적인 학습 패러다임인 '인간을 AI 멘토로(HAIM)'를 소개합니다. 이 패러다임에서는 인간 전문가가 AI 에이전트의 멘토 역할을 합니다. 인간 전문가는 에이전트가 불확실한 환경을 충분히 탐색할 수 있도록 하면서도 위험한 상황에서 통제력을 발휘하고 잠재적인 사고를 피하기 위한 올바른 행동을 보여줄 수 있습니다. 다른 한편으로는 에이전트가 교통 흐름 방해를 최소화하도록 안내하여 교통 흐름의 효율성을 최적화할 수 있습니다. 구체적으로, HAIM-DRL은 자유 탐색과 부분적인 인간 시연을 통해 수집한 데이터를 두 가지 훈련 소스로 활용합니다. 보상 함수를 수동으로 설계하는 복잡한 과정을 생략하고, 대신 사람의 부분적인 시연을 통해 프록시 상태-행동 값을 직접 도출하여 에이전트의 정책 학습을 유도합니다. 또한 인간 멘토의 인지 부하를 줄이기 위해 최소한의 개입 기법을 사용합니다. 비교 결과에 따르면 HAIM-DRL은 주행 안전성, 샘플링 효율성, 교통 흐름 방해 완화, 보이지 않는 교통 시나리오에 대한 일반화 가능성 측면에서 기존 방식보다 뛰어난 성능을 발휘합니다. 이 백서의 코드와 데모 동영상은 다음 링크에서 확인할 수 있습니다. [abs|pdf]

[101/129] Quartet Logic: A Four-Step Reasoning (QLFR) framework for advancing Short Text Classification

Keywords: fundamental_nlp_tasks, nlp_tasks, nlp_tasks_consequently
Abstract: 짧은 텍스트 분류(STC)는 현대의 디지털 플랫폼에서 널리 퍼져 있는 짧지만 상당한 양의 콘텐츠를 처리하고 이해하는 데 매우 중요합니다. STC는 사전 학습된 기존의 언어 모델에서 나타나는 문제인 의미론적, 구문론적 복잡성을 파악하는 데 어려움을 겪습니다. 그래프 컨볼루션 네트워크는 외부 지식 기반을 통합하여 성능을 향상시키지만, 이러한 방법은 적용되는 지식의 품질과 범위에 따라 제한이 있습니다. 최근에는 대규모 언어 모델(LLM)과 생각의 연쇄(CoT)의 등장으로 복잡한 추론 작업의 성능이 크게 향상되었습니다. 그러나 일부 연구에서는 기본적인 자연어 처리 작업에 적용하는 데 한계가 있다는 점을 강조했습니다. 따라서 본 연구에서는 CoT를 활용하여 STC 과제에서 LLM의 능력을 조사하고자 했습니다. 이 연구에서는 쿼텟 로직을 소개합니다: 4단계 추론(QLFR) 프레임워크를 소개합니다. 이 프레임워크는 주로 구문 및 의미 강화 CoT를 통합하여 STC 과제를 네 가지 단계로 효과적으로 분해합니다: (i) 필수 개념 식별, (ii) 상식적 지식 검색, (iii) 텍스트 재작성, (iv) 분류. 이를 통해 법률전문가의 고유한 지식과 능력을 이끌어내어 STC의 과제를 해결할 수 있습니다. 놀랍게도 QLFR이 더 작은 모델의 성능도 향상시킬 수 있다는 사실을 발견했습니다. 따라서 우리는 LLM에서 더 작은 모델로 지식 이전을 용이하게 하기 위해 CoT 기반 다중 작업 학습(QLFR-CML) 방법을 개발했습니다. 6개의 짧은 텍스트 벤치마크에 대한 광범위한 실험을 통해 제안된 방법의 효능을 검증했습니다. 특히, QLFR은 모든 데이터 세트에서 최첨단 성능을 달성했으며, 특히 오수메드와 태그마이뉴스 데이터 세트에서 상당한 개선이 있었습니다. [abs|pdf]

[102/129] Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents

Keywords: multi_agent_tracking, agent_multi_target, agent_tracking
Abstract: 다중 에이전트 다중 대상 추적은 야생동물 순찰, 보안 감시 또는 환경 모니터링 등 다양한 분야에서 활용되고 있습니다. 이러한 알고리즘은 종종 제한적인 가정을 합니다. 대상의 수 및/또는 초기 위치를 알고 있다고 가정하거나, 환경의 분리된 구역을 모니터링하도록 에이전트를 미리 할당하여 탐색의 부담을 줄일 수 있습니다. 또한 에이전트가 시야에 있는 타깃을 지속적으로 추적할 수 없기 때문에 타깃보다 에이전트 수가 적은 경우에는 적용성이 제한됩니다. 다중 에이전트 추적 알고리즘은 에이전트 간 관찰 동기화 또는 공동 작업을 조정하는 중앙 컨트롤러의 존재를 추가로 가정합니다. 대신 비동기식 에이전트 간 통신을 통해 분산된 다중 에이전트, 다중 대상, 동시 활성 탐색 및 추적을 설정하는 데 중점을 둡니다. 우리가 제안한 알고리즘 DecSTER는 분산형 다중 에이전트 의사 결정을 위해 톰슨 샘플링과 결합된 사후 추론을 위한 확률 가설 밀도 필터의 순차적 몬테카를로 구현을 사용합니다. 목표가 에이전트보다 많은 시나리오에 초점을 맞춰 다양한 행동 선택 정책을 비교합니다. 시뮬레이션을 통해 DecSTER가 신뢰할 수 없는 에이전트 간 통신에 강하고 다양한 목표 수와 다양한 팀 규모에 대한 최적 하위 패턴 할당(OSPA) 메트릭 측면에서 정보 탐욕적인 기준선을 능가한다는 사실을 입증합니다. [abs|pdf]

[103/129] TelTrans: Applying Multi-Type Telecom Data to Transportation Evaluation and Prediction via Multifaceted Graph Modeling

Keywords: geographical_cellular_traffic, traffic_prediction_location, traffic_prediction
Abstract: 위치 기반 감지기를 통한 트래픽 예측의 한계를 해결하기 위해, 이동성 패턴을 포착하기 위해 셀룰러 트래픽의 광범위한 범위를 활용하는 새로운 데이터 소스인 지리적 셀룰러 트래픽(GCT) 흐름을 소개합니다. 크리테오의 광범위한 분석을 통해 교통 분야의 잠재력을 검증합니다. 차량 관련 GCT 흐름 예측에 초점을 맞춰 정확도를 높이기 위해 다변량, 시간적, 공간적 측면을 통합하는 그래프 신경망을 제안합니다. 실험을 통해 이 모델이 특히 장기 예측에서 기준선보다 우월하다는 사실이 밝혀졌습니다. 또한 GCT 흐름을 교통 시스템에 통합할 수 있는 잠재력을 강조합니다. [abs|pdf]

[104/129] SPQR: Controlling Q-ensemble Independence with Spiked Random Model for Reinforcement Learning

Keywords: ensemble_independence_regularization, regularization_loss_ensemble, independence_regularization_spqr
Abstract: 과대 추정 편향을 완화하는 것은 심층 강화 학습이 더 복잡한 작업이나 분포에서 벗어난 데이터가 포함된 오프라인 데이터 세트에서 성공적인 성능을 달성하기 위해 해결해야 할 중요한 과제입니다. 과대 추정 편향을 극복하기 위해 여러 Q 함수의 다양성을 활용하는 Q 학습을 위한 앙상블 방법이 연구되었습니다. 네트워크 초기화가 Q-함수의 다양성을 촉진하기 위한 주된 접근 방식이었기 때문에, 휴리스틱하게 설계된 다양성 주입 방법이 문헌에서 연구되었습니다. 그러나 이전 연구에서는 앙상블에 대한 독립성 보장을 이론적 관점에서 접근하지 않았습니다. 본 논문에서는 랜덤 행렬 이론에 기반한 Q-앙상블 독립성에 대한 새로운 정규화 손실을 도입하여 강화 학습을 위한 스파이크 위샤트 Q-앙상블 독립성 정규화(SPQR)를 제안합니다. 특히, Q-앙상블 독립성에 대한 다루기 어려운 가설 검정 기준을 Q-앙상블의 스펙트럼 분포와 목표 위그너 반원 분포 사이의 추적 가능한 KL 발산으로 수정합니다. 여러 온라인 및 오프라인 앙상블 Q 학습 알고리즘에서 SPQR을 구현했습니다. 실험 결과, SPQR은 온라인 및 오프라인 RL 벤치마크 모두에서 기준 알고리즘을 능가하는 성능을 보였습니다. [abs|pdf]

[105/129] TimeGraphs: Graph-based Temporal Reasoning

Keywords: temporal_reasoning_tasks, temporal_reasoning, hierarchical_temporal_graph
Abstract: 많은 실제 시스템은 복잡한 에이전트 상호 작용의 시계열로 포착되는 시간적, 동적 동작을 보입니다. 시간적 추론을 수행하기 위해 현재의 방법은 주로 간단한 시퀀스 기반 모델을 통해 시간적 역학을 인코딩합니다. 그러나 일반적으로 이러한 모델은 동적 요소가 균일하게 분포되어 있지 않기 때문에 입력된 풍부한 동적 요소의 전체 스펙트럼을 효율적으로 포착하지 못합니다. 특히 중요한 변화가 없거나 새로운 정보가 없는 경우에도 관련 정보를 추출하기 어렵고 모든 개별 시간 단계를 처리하는 데 컴퓨팅 성능이 낭비될 수 있습니다. 이 글에서는 기존의 순차적 표현에서 벗어나 동적 상호작용을 계층적 시간 그래프로 특징짓는 새로운 접근 방식인 TimeGraph를 제안합니다. 이 접근 방식은 간결한 그래프 기반 표현을 사용하여 상호작용을 모델링함으로써 다양한 시간 척도에 걸쳐 적응형 추론을 가능하게 합니다. 자기 감독 방식을 채택한 TimeGraphs는 시간적 입력으로부터 다단계 이벤트 계층을 구성한 다음, 불균등하게 분산된 역학 관계를 효율적으로 추론하는 데 사용합니다. 이 구성 프로세스는 스트리밍 데이터를 수용할 수 있도록 확장 가능하고 점진적입니다. 축구 시뮬레이터, 레지스탕스 게임, MOMA 인간 활동 데이터 세트 등 복잡하고 동적인 에이전트 상호 작용이 있는 여러 데이터 세트에서 타임그래프를 평가했습니다. 그 결과 다양한 시간적 추론 작업에서 TimeGraph의 견고성과 효율성을 모두 입증했습니다. 우리의 접근 방식은 최첨단 성능을 확보하고 이벤트 예측 및 인식 작업에서 기존 접근 방식에 비해 최대 12.2%의 성능 향상을 가져옵니다. 또한 실험을 통해 제로 샷 일반화, 데이터 희소성의 경우의 견고성, 스트리밍 데이터 흐름에 대한 적응성 등 다양한 기능을 입증했습니다. [abs|pdf]

[106/129] A Physics-guided Generative AI Toolkit for Geophysical Monitoring

Keywords: seismic_waveform_data, seismic_wave_image, seismic_waveform
Abstract: 전체 파형 반전(FWI)은 지구과학에서 해저를 탐사하는 데 중요한 역할을 합니다. 이 기술은 지진파를 활용하여 지하 속도 지도를 이미지화합니다. 머신러닝(ML) 기술이 발전함에 따라, 기존의 물리학 기반 방식에 비해 정확도는 향상되고 계산 비용은 절감되는 데이터 기반 접근 방식이 FWI 작업에 등장했습니다. 그러나 지구과학의 일반적인 문제인 권한이 없는 데이터는 ML의 효과를 심각하게 제한합니다. 이 문제는 환경적 복잡성으로 인해 지구과학에서 필수적인 단계인 모델 가지치기 과정에서 더욱 심각해집니다. 이 문제를 해결하기 위해 유니티는 물리학 원리에 따른 확산 기반 모델을 사용하여 충실도가 높은 속도 맵을 생성하는 EdGeo 툴킷을 소개합니다. 이 툴킷은 음파 방정식을 사용하여 해당 지진 파형 데이터를 생성함으로써 가지치기된 ML 모델의 미세 조정을 용이하게 합니다. 그 결과, 다양한 가지치기 비율에 걸쳐 SSIM 점수가 크게 향상되고 MAE와 MSE가 모두 감소한 것으로 나타났습니다. 특히 EdGeo에서 생성된 데이터를 사용하여 미세 조정된 ML 모델은 특히 특권이 없는 지형을 표현하는 데 있어 기존의 다른 방법보다 우수한 품질의 속도 맵을 생성합니다. [abs|pdf]

[107/129] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Keywords: code_models_benchmark, execution_evaluation_benchmark, generating_execution_benchmark
Abstract: 800개의 Python 함수(3~13줄)로 구성된 벤치마크인 CRUXEval(코드 추론, 이해 및 실행 평가)을 소개합니다. 각 함수는 입출력 쌍으로 구성되어 있어 입력 예측과 출력 예측이라는 두 가지 작업을 자연스럽게 수행하게 됩니다. 먼저, 향후 벤치마크의 변형을 만드는 데 사용할 수 있는 실행 벤치마크를 생성하는 일반적인 방법을 제안합니다. 둘째, 벤치마크에서 20개의 코드 모델을 평가한 결과, 최근 HumanEval에서 높은 점수를 받은 많은 모델이 우리 벤치마크에서 동일한 개선 효과를 보이지 않는다는 사실을 발견했습니다. 셋째, 간단한 CoT와 미세 조정 방식으로 벤치마크에서 성능을 개선할 수는 있지만 문제를 해결하기에는 아직 멀었다는 것을 보여줍니다. 가장 좋은 설정인 생각의 사슬(CoT)을 사용한 GPT-4는 입력 및 출력 예측에서 각각 75%와 81%의 통과율(pass@1)을 달성합니다. 이와 대조적으로 Code Llama 34B는 입력 및 출력 예측에서 각각 50%와 46%의 합격률(pass@1)을 달성하여 오픈 소스 모델과 클로즈드 소스 모델 간의 격차를 강조합니다. 어떤 모델도 CRUXEval을 능가할 수 없으므로, 간단한 프로그램에서 일관된 GPT-4 실패 사례를 통해 코드 추론 능력과 개선이 필요한 부분을 살펴볼 수 있습니다. [abs|pdf]

[108/129] Reliability-Optimized User Admission Control for URLLC Traffic: A Neural Contextual Bandit Approach

Keywords: qos_aware_ue, estimate_qos_urllc, qos_requirements_cell
Abstract: 매우 안정적인 저지연 통신(URLLC)은 차세대 무선 네트워크에서 새롭게 등장하는 다양한 서비스를 위한 초석입니다. URLLC는 기본적으로 URLLC 트래픽을 지원하기에 충분한 리소스를 사용할 수 있는지 여부를 사전에 판단하여 소위 셀 과부하를 방지하는 네트워크의 기능에 의존합니다. 그럼에도 불구하고 URLLC 사용자 장비(UE)에 대한 정확한 서비스 품질(QoS) 예측을 달성하고 셀 과부하를 방지하는 것은 매우 까다로운 작업입니다. 이는 QoS 지표(지연 시간 및 안정성)가 트래픽 및 채널 통계, 사용자의 이동성, UE 간 상호 의존적인 성능에 의존하기 때문입니다. 이 백서에서는 URLLC UE를 셀에 연결하기 전에 사전에 QoS를 예측하고 이에 따라 셀 과부하를 유발하지 않는 UE의 하위 집합만 허용하는 새로운 QoS 인식 UE 허용 제어 방식을 개발합니다. 이를 위해 UE의 QoS 요구 사항과 셀 수준 부하 역학을 인식하여 효율적인 UE 허용 제어 정책을 찾기 위한 최적화 문제가 공식화됩니다. 이 문제를 해결하기 위해 비선형 밴딧 문제를 처리하는 데 적합한 프레임워크인 (심층) 신경 컨텍스트 밴딧을 기반으로 하는 새로운 머신 러닝 기반 방법이 제안됩니다. 실제로 UE 어드미션 컨트롤러는 일련의 네트워크 측정값(컨텍스트)을 관찰하고 컨텍스트에 따른 QoS(보상) 예측을 기반으로 어드미션 제어 결정을 내리는 밴딧 에이전트로 취급됩니다. 시뮬레이션 결과에 따르면 제안된 방식은 최적에 가까운 성능을 달성하고 셀 수준 서비스 안정성 및 효율적인 리소스 활용 측면에서 상당한 이득을 얻을 수 있습니다. [abs|pdf]

[109/129] AccidentGPT: Large Multi-Modal Foundation Model for Traffic Accident Analysis

Keywords: traffic_accident_analysis, accident_analysis, accident_analysis_incorporates
Abstract: 교통사고 분석은 공공 안전을 강화하고 도로 규정을 개발하는 데 있어 매우 중요합니다. 기존의 접근 방식은 널리 사용되고 있지만 수동 분석 프로세스, 주관적인 결정, 단일 모드 출력, 민감한 데이터와 관련된 개인 정보 보호 문제 등으로 인해 제약을 받는 경우가 많습니다. 이 논문에서는 멀티모달 입력 데이터를 통합하여 사고 과정 영상을 동역학 세부 정보로 자동 재구성하고, 나아가 멀티모달 출력으로 멀티태스크 분석을 제공하는 교통사고 분석의 기반 모델인 AccidentGPT의 아이디어를 소개합니다. 사고GPT의 설계는 작업 중심 적응성을 위한 피드백이 포함된 멀티모달 프롬프트, 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 활용하는 하이브리드 학습 스키마, 데이터 프라이버시를 위한 에지 클라우드 분할 구성으로 강화되었습니다. 이 모델의 기능을 완벽하게 구현하기 위해 몇 가지 연구 기회를 제안합니다. 이 논문은 교통사고 분석에 대한 기존 접근 방식의 공백을 메우고, 자동적이고 객관적이며 개인정보를 보호하는 교통사고 분석에 대한 연구계의 관심을 끌기 위한 디딤돌 역할을 할 것입니다. [abs|pdf]

[110/129] The Rise of Diffusion Models in Time-Series Forecasting

Keywords: series_forecasting_diffusion, forecasting_diffusion, forecasting_diffusion_models
Abstract: 이 설문조사에서는 시계열 예측에서 확산 모델의 적용에 대해 자세히 살펴봅니다. 확산 모델은 다양한 제너레이티브 AI 분야에서 최첨단 결과를 보여주고 있습니다. 이 백서에는 확산 모델에 대한 포괄적인 배경 정보가 포함되어 있으며, 확산 모델의 컨디셔닝 방법을 자세히 설명하고 시계열 예측에서의 사용을 검토합니다. 분석은 11개의 특정 시계열 구현, 그 이면에 있는 직관과 이론, 다양한 데이터 세트에서의 효과, 그리고 서로 간의 비교를 다룹니다. 이 연구의 주요 기여는 시계열 예측에서 확산 모델의 응용에 대한 철저한 탐구와 이러한 모델에 대한 시간순으로 정리된 개요입니다. 또한 이 논문은 이 분야의 최신 기술에 대한 통찰력 있는 논의를 제공하고 향후 잠재적인 연구 방향을 개괄적으로 제시합니다. 이 백서는 AI 및 시계열 분석 분야의 연구자에게 유용한 리소스로서 확산 모델의 최신 발전과 미래 잠재력을 명확하게 보여줍니다. [abs|pdf]

[111/129] Bridging Modalities: Knowledge Distillation and Masked Training for Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion Recognition

Keywords: modal_emotion_recognition, recognizing_emotions_speech, multi_modal_emotion
Abstract: 이 백서에서는 다중 모드 감정 인식 모델을 보다 실용적이고 자원 효율적인 단일 모드로 변환하는 데 따르는 문제를 해결하기 위한 혁신적인 접근 방식을 제시하며, 특히 음성 전용 감정 인식에 초점을 맞춥니다. 음성 신호에서 감정을 인식하는 것은 인간과 컴퓨터의 상호 작용, 정서 컴퓨팅, 정신 건강 평가 등의 애플리케이션에서 매우 중요한 작업입니다. 그러나 기존의 최첨단 모델은 종종 얼굴 표정이나 제스처와 같은 여러 소스의 정보를 통합하는 다중 모드 입력에 의존하는데, 이는 실제 시나리오에서 쉽게 사용할 수 없거나 실현 가능하지 않을 수 있습니다. 이 문제를 해결하기 위해 유니티는 지식 증류와 마스킹 트레이닝 기법을 활용하는 새로운 프레임워크를 제안합니다. [abs|pdf]

[112/129] Blar-SQL: Faster, Stronger, Smaller NL2SQL

Keywords: tasks_nl2sql_study, language_sql_tasks, tasks_nl2sql
Abstract: 대규모 언어 모델(LLM)은 자연어 대 SQL 작업(NL2SQL) 분야에서 상당한 명성을 얻고 있습니다. 이 연구에서는 작업 분해를 통해 데이터베이스 이해와 쿼리 생성에서 LLM이 SQL 쿼리로 사람의 질문에 답하는 데 어떻게 큰 이점을 얻을 수 있는지 보여줍니다.
각 모델의 핵심 역량을 활용하여 최종 SQL 쿼리의 정확도를 더욱 높이기 위해 두 가지 작업 중 하나에 집중하도록 각각 지정된 두 가지 모델을 결합하여 오픈 소스 모델, 특히 Llama-2와 Code Llama를 미세 조정했습니다.
제한된 컨텍스트에 더 많은 정보를 맞추기 위해 스키마를 청크로 분할하는 새로운 프레임워크를 제안합니다. 우리의 결과는 GPT-4에 비해 135배 더 작고, 90배 더 빠르며, 100배 이상 저렴하면서 동시에 GPT-4에서 얻은 결과와 비슷합니다. [abs|pdf]

[113/129] CANAMRF: An Attention-Based Model for Multimodal Depression Detection

Keywords: multimodal_depression_detection, multimodal_depression, multimodal_recurrent_fusion
Abstract: 멀티모달 우울증 감지는 멀티모달 데이터를 사용하여 인간의 정신 상태를 예측하는 것을 목표로 하는 중요한 연구 주제입니다. 기존의 방법들은 서로 다른 모달리티를 동등하게 취급하고 모달리티 간의 상대적 중요도를 측정하지 않은 채 단순한 수학적 연산으로 각 모달리티를 융합하기 때문에 다운스트림 우울증 작업에 적합한 다중 모달 표현을 얻을 수 없습니다. 앞서 언급한 문제를 해결하기 위해 멀티모달 우울증 감지를 위한 적응형 멀티모달 반복 융합을 지원하는 크로스모달 주의 네트워크(CANAMRF)를 제시합니다. CANAMRF는 멀티모달 특징 추출기, 적응형 멀티모달 반복 융합 모듈, 하이브리드 주의 모듈로 구성됩니다. 두 가지 벤치마크 데이터 세트에 대한 실험을 통해 CANAMRF는 최첨단 성능을 입증하여 제안된 접근 방식의 효율성을 강조합니다. [abs|pdf]

[114/129] Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

Keywords: chat_ais_empirical, chat_ai_efficacy, multiple_chat_ais
Abstract: 대화형 AI 연구에서는 ChatGPT와 같은 모델에서 볼 수 있듯이 매개변수 수가 많은 모델을 개발하는 경향이 두드러지게 나타나고 있습니다. 이러한 확장형 모델은 점점 더 나은 채팅 응답을 생성하는 경향이 있지만, 상당한 컴퓨팅 리소스와 메모리를 필요로 합니다. 이 연구는 관련 질문을 탐구합니다: 여러 개의 작은 모델을 조합하여 하나의 큰 모델과 비교하여 비슷한 수준의 성능을 달성하거나 향상된 성능을 달성할 수 있을까요? 여러 채팅 AI를 통합하는 간단하면서도 효과적인 방법인 '블렌딩'이라는 접근 방식을 소개합니다. 경험적 증거에 따르면 특정 소규모 모델을 시너지 효과를 내며 블렌딩하면 훨씬 더 큰 모델의 성능을 능가하거나 그에 상응하는 성능을 낼 수 있습니다. 예를 들어, 중간 크기(6B/13B 매개변수)의 모델 세 개만 통합하면 ChatGPT(175B 이상의 매개변수)와 같은 훨씬 더 큰 모델의 성능 지표에 필적하거나 이를 능가할 수 있습니다. 이 가설은 30일에 걸쳐 Chai 연구 플랫폼의 대규모 사용자 기반을 대상으로 A/B 테스트 방법론을 사용하여 엄격하게 테스트되었습니다. 이 연구 결과는 '블렌딩' 전략이 컴퓨팅 수요의 급증 없이 채팅 AI의 효율성을 향상시킬 수 있는 실행 가능한 접근법이라는 점을 강조합니다. [abs|pdf]

[115/129] Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion

Keywords: retrieval_based_augmentations, retrieval_representations_language, concatenating_retrievals
Abstract: 외부 데이터베이스의 지식을 언어 모델에 통합하는 것을 목표로 하는 검색 기반 증강은 질문 답변 및 텍스트 생성과 같은 다양한 지식 집약적(KI) 작업에서 큰 성공을 거두었습니다. 그러나 텍스트 분류와 같은 비지식 집약적(NKI) 작업에서 검색을 통합하는 것은 여전히 어려운 과제입니다. 기존 작업은 프롬프트 기반 입력을 형성하기 위해 검색 결과를 입력에 컨텍스트로 연결하는 데 중점을 둡니다. 하지만 이러한 방법을 사용하려면 언어 모델에 긴 텍스트를 처리할 수 있는 기능이 필요합니다. 게다가 이렇게 연결된 데이터를 추론하려면 상당한 양의 컴퓨팅 리소스가 소모됩니다.
이러한 문제를 해결하기 위해, 본 논문에서는 신경 구조 검색을 통해 계산 효율이 높은 Re 검색 표현 Fusion을 제안합니다. 주요 아이디어는 검색 표현을 언어 모델에 직접 융합하는 것입니다. 구체적으로, 먼저 유사한 문장의 표현을 검색하는 온라인 검색 모듈을 제안합니다. 그런 다음 검색 표현을 숨겨진 상태와 융합하기 위해 두 가지 효과적인 랭킹 체계, 즉 재랭커 기반 체계와 정렬 마스크 기반 체계를 포함하는 검색 융합 모듈을 제시합니다. 또한 신경 아키텍처 검색(NAS)을 사용하여 여러 계층에 걸쳐 최적의 융합 구조를 찾습니다. 마지막으로 종합적인 실험을 수행한 결과, ReFusion이 다양한 NKI 작업에서 우수하고 강력한 성능을 달성할 수 있음을 입증했습니다. [abs|pdf]

[116/129] Advanced Unstructured Data Processing for ESG Reports: A Methodology for Structured Transformation and Enhanced Analysis

Keywords: sustainability_analyzing_unstructured, corporate_sustainability_analyzing, ecology_corporate_sustainability
Abstract: 진화하는 기업 지속가능성 분야에서 구조화되지 않은 환경, 사회, 거버넌스(ESG) 보고서를 분석하는 것은 다양한 형식과 복잡한 내용으로 인해 복잡한 과제입니다. 이 연구에서는 '비정형 핵심 라이브러리'를 활용한 혁신적인 방법론을 소개하며, 특히 ESG 보고서를 정형화된 분석 가능한 형식으로 변환하여 이러한 과제를 해결하도록 맞춤화되었습니다. 이러한 접근 방식은 고정밀 텍스트 정리, 이미지에서 텍스트의 능숙한 식별 및 추출, 보고서 내 표의 표준화를 제공함으로써 기존 연구를 크게 발전시켰습니다. 텍스트, 이미지, 표 등 다양한 데이터 유형을 처리할 수 있는 기능을 강조하는 이 방법은 산업별로 서로 다른 페이지 레이아웃과 보고서 스타일의 미묘한 차이를 능숙하게 관리합니다. 이 연구는 산업 생태학 및 기업 지속가능성 평가 분야에 크게 기여하여 기업 지배구조 및 지속가능성 분석에 고급 NLP 기술과 대규모 언어 모델을 적용할 수 있는 길을 열었습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[117/129] GLIDE-RL: Grounded Language Instruction through DEmonstration in RL

Keywords: learning_rl_agents, grounded_language_instruction, training_rl_agent
Abstract: 복잡한 인간과 AI의 협업 시스템을 개발하는 데 있어 마지막 관문 중 하나는 AI 에이전트가 자연어를 이해하고 그에 따라 작업을 수행하는 능력입니다. 그러나 자연어에 기반한 효율적인 강화 학습(RL) 에이전트를 훈련시키는 것은 언어의 복잡성과 모호성, 보상의 희소성 등의 요인으로 인해 오랫동안 해결해야 할 과제였습니다. 강화 학습, 커리큘럼 학습, 지속적 학습, 언어 모델의 여러 발전은 다양한 환경에서 기반 에이전트를 효과적으로 훈련하는 데 독립적으로 기여해 왔습니다. 이러한 발전을 활용하여 이전에 볼 수 없었던 언어 지시를 일반화할 수 있는 자연어 지시를 따를 수 있는 RL 에이전트를 훈련하기 위한 교사-강사-학생 커리큘럼 학습 프레임워크를 도입한 새로운 알고리즘인 GLIDE-RL(Grounded Language Instruction through DEmonstration in RL)을 선보입니다. 이 다중 에이전트 프레임워크에서는 교사와 학생 에이전트가 학생의 현재 기술 수준에 따라 동시에 학습합니다. 또한 학생 에이전트를 한 명이 아닌 여러 명의 교사 에이전트로 훈련해야 할 필요성을 입증합니다. 복잡한 희소 보상 환경에서의 실험을 통해 제안된 접근 방식의 효과를 검증합니다. [abs|pdf]

[118/129] Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

Keywords: entity_representations_models, entity_representations, language_models_images
Abstract: 사전 학습된 모델의 등장은 자연어 처리(NLP)와 컴퓨터 비전에서 관계형 데이터 세트에 이르기까지 큰 영향을 미쳤습니다. 전통적으로 이러한 모델은 미세 조정된 다운스트림 작업을 통해 평가됩니다. 그러나 이러한 모델을 보다 효율적이고 효과적으로 평가하는 방법에 대한 의문이 제기됩니다. 이 연구에서는 각 엔티티와 관련된 메타 특징을 세상 지식의 원천으로 활용하고 모델의 엔티티 표현을 사용하는 새로운 접근 방식을 살펴봅니다. 이러한 표현과 메타 특징 간의 일관성을 사전 학습된 모델을 평가하는 지표로 사용할 것을 제안합니다. 이 방법은 관계형 데이터 세트가 포함된 모델, 대규모 언어 모델, 이미지 모델 등 다양한 도메인에서 그 효과가 입증되었습니다. [abs|pdf]

[119/129] Identification of Regulatory Requirements Relevant to Business Processes: A Comparative Study on Generative AI, Embedding-based Ranking, Crowd and Expert-driven Methods

Keywords: regulatory_documents_evaluation, regulatory_documents_requirements, embedding_based_nlp
Abstract: 조직은 다양한 규제 문서에서 점점 더 많은 요구사항을 준수해야 하는 과제에 직면해 있습니다. 어떤 요건이 관련성이 있는지는 조직의 지리적 위치, 도메인, 규모, 비즈니스 프로세스 등의 측면에 따라 달라집니다. 이러한 맥락적 요소를 고려하여 첫 번째 단계로 관련 문서(예: 법률, 규정, 지침, 정책)를 식별한 다음, 식별된 문서의 어느 부분이 특정 비즈니스 프로세스의 어느 단계와 관련이 있는지를 보다 상세하게 분석합니다. 오늘날 비즈니스 프로세스와 관련된 규제 요건을 식별하는 작업은 대부분 도메인 및 법률 전문가가 수작업으로 수행하며, 특히 자주 변경될 수 있는 수많은 규제 문서에 대해서는 엄청난 노력이 필요합니다. 따라서 이 연구에서는 법률 및 도메인 전문가가 관련 요구사항을 평가할 때 어떻게 도움을 받을 수 있는지 살펴봅니다. 이를 위해 임베딩 기반 자연어 처리(NLP) 랭킹 방법, GPT-4를 사용한 생성형 AI 방법, 크라우드소싱 방법을 전문가가 관련성 레이블을 생성하는 순수 수작업 방법과 비교합니다. 제안된 방법은 도메인 전문가와 함께 만든 호주 보험 사례와 SAP 시그나비오의 국제 가이드라인 워크플로우 예시를 적용한 글로벌 뱅킹 사용 사례라는 두 가지 사례 연구를 기반으로 평가됩니다. BPMN2.0 프로세스 모두에 대한 황금 표준이 만들어지고 여러 규제 문서의 실제 텍스트 요구사항과 일치합니다. 평가와 토론을 통해 적용 가능성, 자동화, 투명성, 재현성과 관련하여 각 방법의 장단점에 대한 인사이트를 제공하고 프로세스 사용, 영향, 애플리케이션 시나리오의 역학 등 주어진 특성에 따라 어떤 방법 조합이 이점을 극대화할 수 있는지에 대한 지침을 제공합니다. [abs|pdf]

[120/129] Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education

Keywords: application_ai_education, application_ai, ai_promise_education
Abstract: 인공 지능(AI)의 급속한 발전, 특히 대규모 언어 모델(LLM)과 생성 AI의 발전은 다양한 분야에 걸쳐 새로운 응용의 길을 열었지만, 비즈니스 교육에서의 역할은 아직 충분히 연구되지 않은 상태입니다. 이 연구는 경영대학원 입학 과정의 핵심 시험인 GMAT에서 7가지 주요 LLM인 OpenAI의 모델(GPT-3.5 터보, GPT-4, GPT-4 터보), Google의 모델(PaLM 2, 제미니 1.0 프로), Anthropic의 모델(클로드 2, 클로드 2.1)의 성능을 평가한 첫 번째 벤치마크를 소개합니다. 분석 결과, 대부분의 LLM이 일반 응시자보다 우수한 성적을 거둔 것으로 나타났으며, GPT-4 Turbo는 다른 모델보다 우수한 성적을 거뒀을 뿐만 아니라 최고 경영대학원 대학원생들의 평균 점수도 뛰어넘는 것으로 나타났습니다. 이 연구는 사례 연구를 통해 답안 설명, 답안 평가, 오류 식별, 맞춤형 지시, 대체 시나리오 생성에 대한 GPT-4 Turbo의 능력을 살펴봅니다. 최신 LLM 버전인 GPT-4 터보, 클로드 2.1, 제미니 1.0 프로는 이전 버전에 비해 추론 작업에서 현저한 향상을 보여 복잡한 문제 해결에 대한 잠재력을 보여줍니다. 교육, 평가, 과외 분야에서 AI의 가능성은 분명하지만, 아직 해결해야 할 과제도 남아 있습니다. 이번 연구는 법학 석사의 학문적 잠재력을 조명할 뿐만 아니라 교육 분야에서 AI의 신중한 개발과 적용이 필요하다는 점을 강조합니다. AI 기술이 발전함에 따라 AI 상호작용을 위한 프레임워크와 프로토콜을 확립하고, AI가 생성한 콘텐츠의 정확성을 검증하며, 다양한 학습자가 전 세계에서 접근할 수 있도록 보장하고, AI가 인간의 전문성을 지원하는 교육 환경을 조성하는 것이 필수적입니다. 이 연구는 교육 경험을 풍부하게 하고 시험 준비 및 평가 방법을 개선하기 위해 AI를 책임감 있게 사용하는 방법에 대해 더 깊이 탐구할 수 있는 발판을 마련합니다. [abs|pdf]

[121/129] Large Language Models in Mental Health Care: a Scoping Review

Keywords: llms_mental_health, outcomes_mental_health, mental_health_care
Abstract: 목표: 대규모 언어 모델(LLM)의 사용이 증가함에 따라 정신 건강 관리 맥락에서의 적용과 결과에 대한 종합적인 검토가 필요해졌습니다. 이 범위 검토는 정신 건강 관리 분야에서 LLM의 기존 개발 및 적용 사례를 비판적으로 분석하여 성공을 강조하고 이러한 전문 분야에서의 과제와 한계를 식별하는 것을 목표로 합니다. 자료 및 방법: 2023년 11월에 6개의 데이터베이스(PubMed, Web of Science, Google Scholar, arXiv, medRxiv, PsyArXiv)를 사용하여 2020년 버전의 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목(PRISMA) 가이드라인에 따라 광범위한 문헌 검색을 수행했습니다. 처음에 총 313개의 출판물이 확인되었고, 연구 포함 기준을 적용한 후 최종 검토 대상으로 34개의 출판물이 선정되었습니다. 결과: 진단, 치료, 환자 참여도 향상 등 정신 건강 관리에서 LLM이 다양하게 활용되고 있음을 확인했습니다. 주요 과제로는 데이터 가용성과 신뢰성, 미묘한 정신 상태의 처리, 효과적인 평가 방법 등이 있었습니다. 정확성과 접근성 개선의 성공에도 불구하고 임상 적용 가능성 및 윤리적 고려 사항의 격차가 분명해 강력한 데이터, 표준화된 평가, 학제 간 협업이 필요하다는 점이 지적되었습니다. 결론: LLM은 진단 및 환자 지원 분야에 적용되어 정신 건강 관리를 발전시킬 수 있는 유망한 잠재력을 보여줍니다. 지속적인 발전은 프레임워크 개선, 엄격한 데이터 세트 개발, 기술 개선, 윤리적 통합에 초점을 맞춘 다학제적 협력 노력에 달려 있으며, 이를 통해 정신 건강 관리에서 LLM을 효과적이고 안전하게 적용할 수 있습니다. [abs|pdf]

[122/129] BIBench: Benchmarking Data Analysis Knowledge of Large Language Models

Keywords: business_intelligence_bi, business_intelligence, bi_knowledge_application
Abstract: 대규모 언어 모델(LLM)은 다양한 작업에서 인상적인 기능을 입증해 왔습니다. 그러나 데이터 분석, 특히 데이터 기반 사고에 중점을 둔 전문 영역에서의 숙련도와 신뢰성은 아직 불확실합니다. 이러한 격차를 해소하기 위해 비즈니스 인텔리전스(BI)의 맥락에서 LLM의 데이터 분석 역량을 평가하도록 설계된 종합적인 벤치마크인 BIBench를 소개합니다. BIBench는 세 가지 측면에서 LLM을 평가합니다: 1) 모델의 수치 추론 능력과 재무 개념에 대한 친숙도를 평가하는 BI 기초 지식, 2) 텍스트 정보를 빠르게 이해하고 다양한 관점에서 분석 질문을 생성하는 모델의 능력을 판단하는 BI 지식 응용, 3) 실제 데이터 분석 문제를 해결하기 위한 모델의 기술 지식 사용 능력을 검사하는 BI 기술 능력. BIBench는 분류, 추출, 생성의 세 가지 작업 유형에 걸쳐 11개의 하위 작업으로 구성되어 있습니다. 또한, 백만 개 이상의 데이터 포인트가 포함된 도메인별 데이터 세트인 BIChat을 개발하여 LLM을 미세 조정할 수 있습니다. Url{이 https URL}에서 BIBenchmark, BIChat 및 평가 스크립트를 공개할 예정입니다. 이 벤치마크는 LLM 능력에 대한 심층 분석을 위한 척도를 제공하고 데이터 분석 분야에서 LLM의 발전을 촉진하는 것을 목표로 합니다. [abs|pdf]

[123/129] Fine-tuning and Utilization Methods of Domain-specific LLMs

Keywords: financial_news_automated, sentiment_analysis_financial, analysis_financial_news
Abstract: 최근 사전 학습된 대규모 언어 모델(LLM)이 출시되면서 상당한 주목을 받고 있지만, 도메인별 LLM의 미세 조정 및 활용에 대한 연구는 여전히 부족합니다. 이 연구에서는 도메인별 LLM을 미세 조정하고 활용하기 위한 접근 방식을 조사하여 LLM의 동향, 기초 모델, 도메인별 사전 학습 방법을 중점적으로 살펴봅니다. 금융 부문에 초점을 맞춰 데이터 세트 선택, 전처리, 모델 선택, 금융 분야에서의 LLM 미세 조정에 중요한 고려 사항을 자세히 설명합니다. 금융 데이터의 고유한 특성을 다루면서 도메인별 어휘의 구성과 보안 및 규정 준수를 위한 고려 사항을 살펴봅니다. LLM 미세 조정의 실제 적용에서는 금융 분야에서 도메인별 LLM을 생성하는 절차와 구현에 대해 설명합니다. 주가 예측, 금융 뉴스의 감정 분석, 문서 처리 자동화, 리서치, 정보 추출, 고객 서비스 향상 등 다양한 금융 사례를 예로 들어 설명합니다. 이 연구는 금융 영역에서 자연어 처리의 잠재력을 탐색하고, 한계를 파악하며, 개선 방향을 제시함으로써 향후 연구에 유용한 인사이트를 제공합니다. 궁극적으로는 비즈니스에서 자연어 처리 기술을 발전시켜 산업 전반의 금융 서비스에서 적극적인 LLM 활용을 제안합니다. [abs|pdf]

[124/129] Are we describing the same sound? An analysis of word embedding spaces of expressive piano performance

Keywords: semantic_embeddings_play, information_retrieval_embedding, semantic_embeddings
Abstract: 시맨틱 임베딩은 자연어 기반 정보 검색에서 중요한 역할을 합니다. 임베딩 모델은 단어와 문맥을 대규모 텍스트 말뭉치에서 단어의 분포로부터 공간적 구성을 도출한 벡터로 표현합니다. 이러한 표현은 일반적으로 매우 강력하지만, 세분화된 도메인별 뉘앙스를 설명하지 못할 수도 있습니다. 이 글에서는 표현적인 피아노 연주에 대한 특성화 영역에서 이러한 불확실성을 조사합니다. 자유 텍스트 연주 특성화에 대한 음악 연구 데이터 세트와 주석을 클러스터로 분류하는 후속 연구를 사용하여 도메인별 의미적 유사성 구조에 대한 기준 진실을 도출합니다. 5가지 임베딩 모델과 그 유사성 구조가 기준 진실과 일치하는지 테스트합니다. 또한 문맥화 프롬프트, 허브 감소, 교차 모드 유사성, K-평균 클러스터링의 효과를 평가합니다. 임베딩 모델의 품질은 이 작업과 관련하여 큰 변동성을 보였으며, 보다 일반적인 모델이 도메인에 적합한 모델보다 더 나은 성능을 보였고 최상의 모델 구성은 인간 수준의 합의에 도달했습니다. [abs|pdf]

[125/129] Learning from a Generative AI Predecessor -- The Many Motivations for Interacting with Conversational Agents

Keywords: engagement_generative_conversational, conversational_ai, generative_conversational_ai
Abstract: 제너레이티브 AI가 성공하려면 대화 에이전트의 참여도가 얼마나 높아야 할까요? 거의 60년 동안 일부 대화형 에이전트는 어떤 질문이나 의견에도 응답하여 대화를 이어나갔습니다. 최근 몇 년 동안 테이, 샤오이스, 조, 허깅 페이스, 쿠키, 레플리카 등 머신 러닝이나 정교한 언어 처리를 활용하는 에이전트들이 등장했습니다. 이들은 제너레이티브 AI와 달리 전문 지식이 아닌 참여에 초점을 맞췄습니다. 수백만 명의 사람들이 이들과 소통하고자 하는 동기를 부여받았습니다. 어떤 점이 매력적이었을까요? 제너레이티브 AI가 똑같이 참여도를 높이면 더 좋은 성과를 낼 수 있을까요, 아니면 참여도를 낮춰야 할까요? 제너레이티브 AI가 등장하기 전, 수백만 명의 사람들이 '가상 동반자'인 Microsoft의 Zo에 참여하게 된 동기를 알아보기 위해 대규모의 정량적 및 정성적 분석을 실시했습니다. 익명으로 처리된 2,000명의 전체 채팅 로그를 조사했습니다. 그 결과 사람들이 이 소프트웨어와 상호 작용하는 동기를 12가지 이상 파악할 수 있었습니다. 디자이너들은 참여도를 높이기 위한 다양한 방법을 배웠습니다. 생성형 대화형 AI는 아직 높은 비용을 해결할 수 있는 명확한 수익 모델이 없습니다. 생산성과 창의성을 지원하면서도 참여도를 높일 수 있다면 더 많은 이점을 얻을 수 있을 것입니다. 크리테오의 연구와 분석은 기회와 과제를 제시합니다. [abs|pdf]

[126/129] Trace and Edit Relation Associations in GPT

Keywords: entity_relationships_gpt, relationships_gpt_models, relationships_gpt
Abstract: 이 연구에서는 ROME의 엔티티 중심 방식에서 벗어나 GPT 모델에서 엔티티 관계를 분석하고 수정하는 새로운 접근 방식을 소개합니다. 언어 모델 계산이 관계 판단에 미치는 영향을 이해하기 위한 관계 추적 기법을 개발합니다. FewRel 데이터 세트를 사용하여 관계 정보를 처리하는 데 있어 MLP 모듈과 주의 메커니즘의 주요 역할을 파악합니다. 새로운 데이터 세트에서 ROME을 대상으로 테스트한 결과, 이 방법은 특이성과 일반화의 균형이 개선되어 모델 이해도와 정확도를 높이기 위해 초기 계층 모듈을 조작할 수 있는 잠재력이 있음을 보여줍니다. [abs|pdf]

[127/129] Efficacy of Utilizing Large Language Models to Detect Public Threat Posted Online

Keywords: individual_posts_threat, public_threats_posted, posts_threat
Abstract: 이 백서에서는 온라인에 게시된 공개 위협을 탐지하는 데 대규모 언어 모델(LLM)을 활용하는 것이 얼마나 효과적인지 살펴봅니다. 위협적인 수사의 확산과 폭력에 대한 사전 고지에 대한 우려가 커지고 있는 가운데, 자동화된 콘텐츠 분석 기법이 이를 조기에 식별하고 조정하는 데 도움이 될 수 있습니다. 한국의 유명 온라인 커뮤니티에서 500개의 비위협적 사례와 20개의 위협적 사례로 구성된 게시물 제목을 수집하기 위해 맞춤형 데이터 수집 도구가 개발되었습니다. 다양한 머신러닝 모델(GPT-3.5, GPT-4, PaLM)이 개별 게시물을 "위협" 또는 "안전" 중 하나로 분류하도록 유도했습니다 통계 분석 결과, 모든 모델이 위협 및 비위협 식별 모두에서 카이제곱 적합도 테스트를 통과하며 강력한 정확성을 보여주었습니다. GPT-4는 비위협 정확도 97.9%, 위협 정확도 100%로 전반적으로 가장 우수한 성능을 보였습니다. 경제성 분석에서도 PaLM API 가격은 매우 비용 효율적인 것으로 나타났습니다. 이 연구 결과에 따르면 PaLM은 대규모로 사람의 콘텐츠 검토 기능을 효과적으로 보강하여 새로운 온라인 위험을 완화하는 데 도움이 될 수 있습니다. 그러나 편향성, 투명성, 윤리적 감독은 실제 구현에 앞서 여전히 중요한 고려 사항으로 남아 있습니다. [abs|pdf]

[128/129] Deep Anomaly Detection in Text

Keywords: deep_anomaly_detection, supervised_anomaly_detectors, supervised_unsupervised_anomaly
Abstract: 최근 몇 년 동안 스택형 자동 인코더, 변형 자동 인코더, 생성적 적대 신경망과 같은 방법이 크게 발전하면서 심층 이상 징후 탐지 방법이 점점 더 인기를 얻고 있습니다. 다른 방법은 신경망을 사용하여 적절한 커널 함수를 학습함으로써 고전적인 모델(예: 원 클래스 서포트 벡터 머신)을 보강하는 데 의존합니다. 최근 자기 감독에 의한 표현 학습의 발전은 이상 징후 탐지의 맥락에서 매우 유용한 것으로 입증되고 있습니다. 이 논문은 컴퓨터 비전 분야에서 자기 지도 학습을 이용한 이상 징후 탐지의 발전에서 영감을 받아 텍스트 코퍼스에 맞는 구실 작업을 활용하여 이상 징후를 탐지하는 방법을 개발하는 것을 목표로 합니다. 이 접근법은 반지도 및 비지도 이상 탐지 모두에서 20뉴스그룹과 AG 뉴스의 두 데이터셋에 대한 최신 기술을 크게 개선하여 자연어 처리 분야에서 자가지도 이상 탐지기의 잠재력을 입증했습니다. [abs|pdf]

[129/129] Automated Localization of Blood Vessels in Retinal Images

Keywords: vessels_retina_images, vessel_localization_methods, blood_vessels_retina
Abstract: 혈관 구조는 망막에서 가장 중요한 부분 중 하나로, 의사는 혈관 특징을 분석하여 많은 질병을 발견할 수 있습니다. 망막 이미지에서 혈관의 위치를 파악하는 것은 의료 이미지 분석에서 중요한 과정입니다. 이 과정은 밝고 어두운 병변이 존재할 경우 더욱 까다로워집니다. 이 논문에서는 건강한 망막 이미지와 건강하지 않은(병적인) 망막 이미지를 모두 처리할 수 있는 두 가지 자동화된 혈관 국소화 방법을 분석합니다. 각 방법은 크게 두 단계로 구성되며 두 번째 단계는 두 방법에서 동일합니다. 첫 번째 단계에서는 밝은 병변의 영향을 줄이기 위해 알고리즘이 사용됩니다. 방법 1에서 이 알고리즘은 K-평균 분할을 기반으로 하고, 방법 2에서는 정규화 절차를 기반으로 합니다. 두 방법의 두 번째 단계에서는 다중 스케일 라인 연산자를 사용하여 선 모양의 혈관 구조를 찾아내고 일반적으로 불규칙한 패턴을 가진 것으로 간주되는 어두운 병변은 무시합니다. 두 가지 방법을 소개한 후, 공개적으로 사용 가능한 두 가지 데이터 세트인 DRIVE와 STARE의 이미지에 대한 분할 결과를 바탕으로 두 방법과 문헌의 최신 솔루션에 대한 자세한 정량적 및 정성적 비교를 보고합니다. 그 결과 두 방법이 다른 솔루션과 매우 유사하다는 것이 입증되었습니다. [abs|pdf]