프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-18]

다각 2024. 2. 16. 20:13

[1/82] Knowledge Pyramid: A Novel Hierarchical Reasoning Structure for Generalized Knowledge Augmentation and Inference

Keywords: knowledge_pyramid_improved, knowledge_pyramid, proposed_knowledge_pyramid
Abstract: 지식 그래프(KG) 기반 추론은 시맨틱 네트워크 분석에 효과적인 수단으로 여겨져 왔으며 정보 검색, 추천, 의사 결정, 인간과 기계의 상호작용 등의 분야에서 매우 유용합니다. 추천, 의사 결정, 질의응답, 검색 및 기타 분야에서 널리 사용되고 있습니다. 하지만 기존 연구들은 주로 KG의 저수준 지식을 추론에 사용했기 때문에 일반화가 부족하고 추론의 견고성이 떨어질 수 있습니다. 이에 본 논문에서는 KG의 일반화 능력을 향상시키기 위해 새로운 지식 증강 전략을 활용한 새로운 추론 접근법을 제안합니다. 이 프레임워크는 낮은 수준의 지식에서 높은 수준의 피라미드형 지식을 추출하고 이를 다단계 계층적 KG(본 논문에서는 지식 피라미드라고 함)의 추론에 적용합니다. 제안된 접근 방식을 사용하여 일부 의료 데이터 세트를 테스트했으며, 실험 결과 제안된 지식 피라미드가 더 나은 일반화와 함께 지식 추론 성능을 향상시켰음을 보여줍니다. 특히 훈련 샘플 수가 적을수록 추론 정확도를 크게 향상시킬 수 있었습니다. [abs|pdf]

[2/82] LLMs for Relational Reasoning: How Far are We?

Keywords: inductive_logic_programming, reasoning_benchmarks, reasoning_benchmarks_adopted
Abstract: 대규모 언어 모델(LLM)은 광범위한 다운스트림 작업에서 최첨단 성능을 달성함으로써 자연어 처리, 소프트웨어 엔지니어링 등 여러 분야에 혁신을 가져왔습니다. 강력하고 일반적인 인공 지능을 목표로 LLM의 추론 능력을 조사하는 데 대한 관심이 급증하고 있습니다. 기존 연구에서 채택한 텍스트 및 수치 추론 벤치마크는 다소 얕고 단순하기 때문에 이러한 벤치마크에서 긍정적인 결과를 얻었다는 것만으로 LLM이 강력한 추론 능력을 가지고 있다고 단정하기는 어렵습니다. 최근 강화학습 벤치마크에서의 성능을 평가하여 상식적인 계획이 필요한 순차적 의사결정 문제를 푸는 데는 LLM이 취약하다는 것이 입증되었습니다. 본 연구에서는 논리 프로그램 유도/합성 시스템을 평가하는 대표적이고 까다로운 측정으로 널리 알려진 귀납적 논리 프로그래밍(ILP) 벤치마크를 기반으로 여러 최신 LLM의 추론 능력을 심층적으로 평가합니다. 이 벤치마크는 독립적이고 동일하게 분포된(IID) 테스트 샘플과 분산되지 않은(OOD) 테스트 샘플에 대한 강력한 추론을 달성하기 위해 엄격한 원인-결과 논리를 유도해야 하기 때문에 논리 프로그램 유도/합성 시스템을 평가하는 대표적이고 까다로운 측정으로 널리 인식되고 있습니다. 우리의 평가에 따르면 모델 크기가 훨씬 작은 신경 프로그램 유도 시스템에 비해 최첨단 LLM은 자연어 프롬프트 또는 진리값 행렬 프롬프트를 사용하여 훨씬 낮은 성능과 일반화를 달성함으로써 추론 능력 측면에서 훨씬 열악한 것으로 나타났습니다. [abs|pdf]

[3/82] Continuous Time Continuous Space Homeostatic Reinforcement Learning (CTCS-HRRL) : Towards Biological Self-Autonomous Agent

Keywords: learns_homeostatic_behaviour, learned_homeostatic_behavior, agent_learns_homeostatic
Abstract: 항상성은 생명체가 내부 균형을 유지하는 생물학적 과정입니다. 이전 연구에 따르면 항상성은 학습된 행동이라고 합니다. 최근에 도입된 항상성 조절 강화 학습(HRRL) 프레임워크는 드라이브 감소 이론과 강화 학습을 연결하여 이러한 학습된 항상성 행동을 설명하려고 시도합니다. 이러한 연결은 불연속적인 시공간에서는 입증되었지만 연속적인 시공간에서는 입증되지 않았습니다. 본 연구에서는 HRRL 프레임워크를 연속 시공간 환경으로 발전시켜 CTCS-HRRL(연속 시간 연속 공간 HRRL) 프레임워크를 검증합니다. 이를 위해 실제 생물학적 작용제의 항상성 메커니즘을 모방한 모델을 설계했습니다. 이 모델은 해밀턴-야코비안 벨만 방정식과 신경망 및 강화 학습에 기반한 함수 근사치를 사용합니다. 시뮬레이션 기반 실험을 통해 이 모델의 효율성을 입증하고, 지속적으로 변화하는 내부 상태 환경에서 항상성을 선호하는 정책을 동적으로 선택할 수 있는 에이전트의 능력과 관련된 증거를 발견합니다. 실험 결과, 에이전트가 CTCS 환경에서 항상성 행동을 학습한다는 사실이 입증되어 CTCS-HRRL이 동물의 역학 및 의사 결정을 모델링하는 데 유망한 프레임워크가 될 것으로 기대됩니다. [abs|pdf]

[4/82] DeLF: Designing Learning Environments with Foundation Models

Keywords: reinforcement_learning_rl, reinforcement_learning, learning_rl
Abstract: 강화 학습(RL)은 기본적인 순차적 의사 결정 문제를 해결할 수 있는 유능하고 직관적인 구조를 제공합니다. 인상적인 혁신에도 불구하고, 많은 간단한 애플리케이션에서 RL을 실제로 적용하는 것은 여전히 어려울 수 있습니다. 이 백서에서는 사용자가 의도한 특정 애플리케이션을 위해 RL 환경의 구성 요소를 설계하는 방법을 소개함으로써 이 문제를 해결하고자 합니다. 우리는 관찰 및 행동 공간에 대한 좋은 표현을 설계하는 데 집중하는 RL 구성 요소 설계 문제에 대한 초기 공식화를 제공합니다. 대규모 언어 모델을 사용하여 사용자가 의도한 학습 시나리오를 설계하고 코딩하는 'DeLF: 기초 모델을 사용한 학습 환경 설계'라는 방법을 제안합니다. 네 가지 학습 환경에서 이 방법을 테스트하여 DeLF가 해당 RL 문제에 대한 실행 가능한 환경 코드를 얻을 수 있음을 입증합니다. [abs|pdf]

[5/82] Contribution Functions for Quantitative Bipolar Argumentation Graphs: A Principle-based Analysis

Keywords: bipolar_argumentation_graphs, quantitative_bipolar_argumentation, argumentation_graphs_quantify
Abstract: 한 인수의 다른 인수에 대한 기여도를 정량화하는 정량적 양극 논증 그래프의 기여도 함수에 대한 원리 기반 분석을 제시합니다. 도입된 원칙은 다양한 기여 함수의 기초가 되는 직관과 일반적으로 기여 함수의 동작에 대해 기대하는 바를 공식화합니다. 모든 원칙을 만족하는 기여 함수는 존재하지 않으므로, 이러한 분석은 주어진 사용 사례의 요구사항에 따라 가장 적합한 함수를 선택할 수 있는 도구로 사용될 수 있습니다. [abs|pdf]

[6/82] MMToM-QA: Multimodal Theory of Mind Question Answering

Keywords: mind_question_answering, large_multimodal_models, models_large_multimodal
Abstract: 사람의 마음을 이해하는 능력인 마음의 이론(ToM)은 인간 수준의 사회적 지능을 갖춘 기계를 개발하는 데 필수적인 요소입니다. 최근의 머신러닝 모델, 특히 대규모 언어 모델은 ToM 이해의 일부 측면을 보여주는 것으로 보입니다. 하지만 기존의 ToM 벤치마크는 비디오 또는 텍스트와 같은 단일 모달 데이터 세트를 사용합니다. 반면에 휴먼 ToM은 비디오나 텍스트를 이해하는 것 그 이상입니다. 사람들은 시각적 단서, 언어적 내러티브 또는 두 가지 모두를 포함하는 사용 가능한 모든 데이터에서 추출한 개념적 표현(예: 목표, 신념, 계획)을 기반으로 다른 사람의 마음을 유연하게 추론할 수 있습니다. 이를 해결하기 위해 멀티모달 이론 기반 질문 답변(MMToM-QA) 벤치마크를 소개합니다. MMToM-QA는 멀티모달 데이터와 가정 환경에서의 개인 활동에 대한 다양한 종류의 유니모달 데이터 모두에서 기계 ToM을 종합적으로 평가합니다. 멀티모달 ToM 용량을 엔지니어링하기 위해 새로운 방법인 BIP-ALM(언어 모델에 의한 베이지안 역계획 가속화)을 제안합니다. BIP-ALM은 멀티모달 데이터에서 통합된 표현을 추출하고 확장 가능한 베이지안 역 계획을 위해 언어 모델을 활용합니다. 우리는 인간의 성능, BIP-ALM, 그리고 GPT-4를 포함한 최신 모델을 체계적으로 비교했습니다. 실험 결과, 대규모 언어 모델과 대규모 멀티모달 모델에는 여전히 강력한 ToM 용량이 부족하다는 것이 입증되었습니다. 반면에 BIP-ALM은 모델 기반 정신 추론과 언어 모델의 힘을 모두 활용하여 유망한 결과를 보여줍니다. [abs|pdf]

[7/82] Enabling Collaborative Clinical Diagnosis of Infectious Keratitis by Integrating Expert Knowledge and Interpretable Data-driven Intelligence

Keywords: knowledge_guided_diagnosis, ai_medical_image, ai_based_biomarkers
Abstract: 의료 영상 진단에서 데이터 기반 인공지능(AI)은 실리코에서 인상적인 성능을 보였지만, 해석 가능성이 부족해 임상의의 워크플로우에 '블랙박스'를 통합하는 데 어려움을 겪었습니다. 데이터에서 학습한 진단 패턴을 임상의가 이해할 수 있도록 하기 위해 유니티는 AI 기반 바이오마커와 동일한 진단 패턴을 가진 검색된 사례를 포함하는 시각화된 추론 프로세스를 제공하는 해석 가능한 모델인 지식 기반 진단 모델(KGDM)을 개발했습니다. 이 모델은 인간과 AI의 상호 작용을 통해 해석된 추론에 임상의의 프롬프트를 수용하여 잠재적으로 향상된 안전성과 더 정확한 예측을 이끌어냅니다. 이 연구는 각막 실명의 주요 원인인 감염성 각막염(IK)의 진단에 있어 KGDM의 성능, 해석 가능성, 임상적 유용성을 조사합니다. 전향적 검증 데이터 세트, 외부 테스트 데이터 세트, 공개적으로 사용 가능한 테스트 데이터 세트에 대해 KGDM의 분류 성능을 평가합니다. 해석된 AI 기반 바이오마커의 진단 오즈비(DOR)는 3.011~35.233으로 효과적이며, 임상 경험에 따라 일관된 진단 패턴을 보여줍니다. 또한 인간-AI 협업 진단 테스트를 실시한 결과, 협업 참여자가 인간과 AI를 모두 능가하는 성과를 달성했습니다. 이 연구는 해석 가능성과 상호 작용의 시너지 효과를 통해 임상의의 전문 지식과 데이터 기반 지능의 융합을 촉진합니다. 경험이 부족한 안과 의사가 AI 기반 바이오마커의 도움을 받고, 숙련된 의사가 개입하여 AI의 예측력을 높인 이번 연구는 KGDM을 활용한 감염성 각막염 진단 패러다임이 유망하다는 것을 보여주며, 숙련된 의료진이 제한적이고 AI의 안전성이 우려되는 다른 질환으로 확장할 수 있는 가능성을 제시합니다. [abs|pdf]

[8/82] Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges

Keywords: generation_intelligent_education, online_education_platforms, based_question_answering
Abstract: 인터넷을 활용하여 교육 리소스를 배포하는 온라인 교육 플랫폼은 편리한 교육을 제공하고자 하지만 학생들과의 실시간 소통에는 부족한 경우가 많습니다. 또한 학생들이 학습 과정에서 직면하는 다양한 장애물을 해결해야 하는 어려움으로 인해 개인화된 교육 리소스를 제공하는 데 어려움을 겪는 경우가 많습니다. 최근 ChatGPT와 같은 대규모 언어 모델(LLM)의 등장으로 개별 요청을 이해함으로써 이 문제를 해결할 수 있는 가능성이 열렸습니다. 다양한 분야에서 LLM이 성공적으로 활용되고 있지만, 다양한 교육 기술이 필요하기 때문에 LLM 기반 교육 시스템을 구축하는 것은 여전히 어려운 과제입니다. 본 논문에서는 수학, 글쓰기, 프로그래밍, 추론, 지식기반 질의응답 등 교육역량과 관련하여 최근에 등장한 LLM 연구들을 검토하여 차세대 지능형 교육 시스템 구축에 있어 그 가능성을 모색하고자 한다. 현재 개발 현황을 바탕으로 LLM 기반 교육 시스템에 대한 두 가지 접근 방식, 즉 통합 접근 방식과 전문가 혼합 접근 방식에 대해 자세히 설명합니다. 마지막으로, 교육에 LLM을 적용하는 데 있어 새로운 연구 기회와 관점을 제공하면서 당면 과제와 향후 방향을 모색합니다. [abs|pdf]

[9/82] An Integrated Imitation and Reinforcement Learning Methodology for Robust Agile Aircraft Control with Limited Pilot Demonstration Data

Keywords: agile_aircraft_simulator, construct_maneuver_generation, parameters_maneuver_generation
Abstract: 이 백서에서는 다양한 트림 조건과 항공기 모델 파라미터에 걸쳐 일반화할 수 있는 민첩한 항공기를 위한 데이터 기반 기동 생성 모델을 구축하는 방법론을 제시합니다. 기동 생성 모델은 항공기 프로토타입의 테스트 및 평가에서 중요한 역할을 하며, 항공기의 기동성과 민첩성에 대한 인사이트를 제공합니다. 그러나 모델을 구축하려면 일반적으로 방대한 양의 실제 파일럿 데이터가 필요하며, 이를 확보하는 데 많은 시간과 비용이 소요될 수 있습니다. 또한 제한된 데이터로 구축된 모델은 원본 데이터 세트에서 다루는 특정 비행 조건을 넘어 일반화하기 어려운 경우가 많습니다. 이러한 문제를 해결하기 위해 유니티는 소스 모델이라고 하는 시뮬레이션 모델을 활용하는 하이브리드 아키텍처를 제안합니다. 이 오픈소스 애자일 항공기 시뮬레이터는 대상 항공기와 유사한 동역학을 공유하며, 프록시 기동 생성 모델을 구축하기 위한 데이터를 무제한으로 생성할 수 있습니다. 그런 다음 제한된 양의 실제 파일럿 데이터를 사용하여 이 모델을 대상 항공기에 맞게 미세 조정합니다. 이러한 목표를 달성하기 위해 모방 학습, 전이 학습, 강화 학습의 기술을 결합한 접근 방식을 사용합니다. 방법론을 검증하기 위해 터키 항공우주산업(TAI)에서 제공하는 실제 애자일 파일럿 데이터를 활용합니다. F-16을 소스 모델로 사용하여 추가적인 실제 파일럿 데이터 없이도 다양한 트림 조건과 항공기 매개변수에 걸쳐 일반화할 수 있는 기동 생성 모델을 구축할 수 있음을 보여줍니다. 이 결과는 민첩한 항공기를 위한 강력하고 적응력 있는 모델을 개발하는 데 있어 우리의 접근 방식이 효과적이라는 것을 보여줍니다. [abs|pdf]

[10/82] Gemini Pro Defeated by GPT-4V: Evidence from Education

Keywords: multimodal_educational_tasks, visual_question_answering, multimodal_educational
Abstract: 이 연구는 교육 현장에서 Gemini Pro와 GPT-4V의 분류 성능을 비교했습니다. 이 연구에서는 시각적 질문 답변(VQA) 기법을 사용하여 텍스트 기반 루브릭을 읽고 과학 교육에서 학생이 그린 모델을 자동으로 채점하는 두 모델의 능력을 조사했습니다. 학생들이 그린 과학 모델에서 추출한 데이터 세트를 사용하여 정량적 분석과 정성적 분석을 모두 수행했으며, 이미지 피드백을 위한 표기 강화 루브릭(NERIF) 프롬프트 방법을 사용했습니다. 연구 결과, 채점 정확도와 이차 가중치 카파 측면에서 GPT-4V가 Gemini Pro를 훨씬 능가하는 것으로 나타났습니다. 정성적 분석에 따르면 이러한 차이는 이미지의 세분화된 텍스트를 처리하는 모델의 능력과 전반적인 이미지 분류 성능에 기인하는 것으로 나타났습니다. 입력 이미지의 크기를 더 줄여 NERIF 접근 방식을 적용하더라도 Gemini Pro는 GPT-4V만큼의 성능을 발휘하지 못하는 것으로 보입니다. 이 연구 결과는 복잡한 멀티모달 교육 작업을 처리하는 데 있어 GPT-4V의 뛰어난 능력을 시사합니다. 이 연구는 두 모델 모두 AI의 발전을 대표하지만, GPT-4V의 성능이 더 뛰어나기 때문에 멀티모달 데이터 해석과 관련된 교육 애플리케이션에 더 적합한 도구라는 결론을 내렸습니다. [abs|pdf]

[11/82] Vlogger: Make Your Dream A Vlog

Keywords: generation_task_vlog, videographer_vlogger_generating, generate_vlogs_explainable
Abstract: 본 연구에서는 사용자 설명이 포함된 1분 분량의 동영상 블로그(즉, 브이로그)를 생성하기 위한 일반적인 인공지능 시스템인 Vlogger를 소개합니다. 브이로그는 몇 초 분량의 짧은 동영상과 달리 다양한 장면으로 구성된 복잡한 스토리를 담고 있는 경우가 많기 때문에 기존의 동영상 생성 방식으로는 생성하기 어렵습니다. 이러한 병목 현상을 극복하기 위해 브이로거는 대규모 언어 모델(LLM)을 감독으로 스마트하게 활용하고 브이로그라는 긴 동영상 생성 작업을 네 가지 주요 단계로 분해하여 (1) 스크립트, (2) 배우, (3) 쇼메이커, (4) 보이스 등 브이로그 전문가의 중요한 역할을 수행하는 다양한 기반 모델을 호출합니다. 이러한 인간을 모방한 설계를 통해 브이로거는 하향식 기획과 상향식 촬영의 설명 가능한 협력을 통해 브이로그를 제작할 수 있습니다. 또한, 브이로거에서 비디오그래퍼 역할을 하는 새로운 동영상 확산 모델인 쇼메이커를 도입하여 각 촬영 장면의 동영상 스니펫을 생성합니다. 스크립트와 액터를 텍스트 및 시각적 프롬프트로 세심하게 통합하여 스니펫의 공간적-시간적 일관성을 효과적으로 향상시킬 수 있습니다. 또한 쇼메이커를 위한 간결한 혼합 훈련 패러다임을 설계하여 T2V 생성 및 예측 역량을 강화했습니다. 마지막으로, 광범위한 실험을 통해 당사의 방법이 제로 샷 T2V 생성 및 예측 작업에서 최첨단 성능을 달성한다는 것을 입증했습니다. 더 중요한 것은 대본과 배우의 비디오 일관성을 잃지 않고 오픈월드 설명에서 5분 이상의 브이로그를 생성할 수 있다는 점입니다. 코드와 모델은 모두 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[12/82] Through the Looking-Glass: Transparency Implications and Challenges in Enterprise AI Knowledge Systems

Keywords: knowledge_systems_transparency, systems_transparency, systems_identify_transparency
Abstract: 지식은 사람과 분리될 수 없습니다. AI 지식 시스템이 방대한 양의 업무 관련 데이터를 마이닝함에 따라, 추출되어 드러나는 지식은 본질적으로 이를 생성하고 사용하는 사람과 연결되어 있습니다. 이러한 시스템이 조직 환경에 도입되면 전면으로 부각되는 정보와 주변으로 밀려나는 정보가 개인이 서로를 바라보는 방식과 직장에서 자신을 바라보는 방식에 영향을 미칠 수 있습니다. 이 백서에서는 투시창 은유를 제시하고 이를 사용하여 AI 지식 시스템을 반영하고 왜곡하는 시스템으로 개념화하여 투명성 요건, 시사점 및 과제에 대한 관점을 확장합니다. 우리는 투명성을 시스템의 능력과 한계, 행동을 드러내는 '시스템 들여다보기'와 조직 내 다른 사람들과 자신의 기여에 대한 직원들의 인식을 형성하는 '시스템 관통하기' 등 다양한 시각을 형성하는 핵심 매개체로 공식화합니다. 이러한 시스템의 사회기술적 특성을 인식하고, AI 지식 시스템의 가치를 실현하는 데 필요한 세 가지 투명성 차원, 즉 시스템 투명성, 절차적 투명성, 결과의 투명성을 파악합니다. 이러한 형태의 투명성 구현을 방해하는 주요 과제에 대해 논의하고, 더 넓은 사회기술적 격차를 조명하며, 향후 컴퓨터 지원 협동 작업(CSCW) 연구의 방향을 제시합니다. [abs|pdf]

[13/82] Transcending Controlled Environments Assessing the Transferability of ASRRobust NLU Models to Real-World Applications

Keywords: transferability_automatic_speech, leveraging_urdubert_model, speech_recognition_asr
Abstract: 이 연구는 자동 음성 인식(ASR) 기반의 강력한 자연어 이해(NLU) 모델이 통제된 실험 조건에서 실용적인 실제 애플리케이션으로 이전될 수 있는지를 조사합니다. 우르두어로 된 스마트 홈 자동화 명령에 초점을 맞춘 이 연구는 다양한 노이즈 프로필, 언어적 변화 및 ASR 오류 시나리오에서 모델 성능을 평가합니다. 이 연구는 우르두어버트 모델을 활용하여 실제 데이터 수집, 교차 검증, 전이 학습, 잡음 변화 연구 및 도메인 적응을 포함하는 체계적인 방법론을 사용합니다. 평가 지표에는 작업별 정확도, 지연 시간, 사용자 만족도, ASR 오류에 대한 견고성 등이 포함됩니다. 이 연구 결과는 통제된 환경을 초월하여 ASR에 강한 NLU 모델의 과제와 적응성에 대한 인사이트를 제공합니다. [abs|pdf]

[14/82] Neural Contractive Dynamical Systems

Keywords: autoencoder_learns_dynamics, learns_dynamics, variational_autoencoder_learns
Abstract: 완전 자율 로봇이 바람직하지 않거나 잠재적으로 유해한 행동을 취하지 않도록 하려면 안정성 보장이 중요합니다. 안타깝게도 데이터를 통해 학습된 동적 시스템, 특히 학습된 동적 시스템이 신경망에 의해 제어되는 경우에는 전역적 안정성 보장이 어렵습니다. 유니티는 신경 구조가 수축을 보장하여 글로벌 안정성을 보장하는 신경 수축 동역학 시스템을 학습하는 새로운 방법론을 제안합니다. 이 방법을 고차원 동적 시스템으로 효율적으로 확장하기 위해, 우리는 디코딩 후에도 수축 안정성을 유지하면서 저차원 잠재 표현 공간에서 역학을 학습하는 변형 자동 인코더를 개발합니다. 또한 거짓말 회전 그룹에서 수축 시스템을 학습하는 접근 방식을 확장하여 풀 포즈 엔드 이펙터 동적 모션을 설명합니다. 그 결과 장애물 회피 기능과 함께 수축 안정성을 보장하는 최초의 매우 유연한 학습 아키텍처가 탄생했습니다. 경험적으로, 우리의 접근 방식이 안정성이 덜 보장되는 현재의 최신 기술보다 원하는 동역학을 더 정확하게 인코딩한다는 것을 입증했습니다. [abs|pdf]

[15/82] SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

Keywords: knowledge_grounded_3d, grounding_language_3d, 3d_vision_language
Abstract: 언어를 3D 물리적 환경에 맞추는 데 중점을 두는 3D 시각 언어 접지는 구현된 에이전트 개발의 초석입니다. 2D 영역의 최근 발전과 비교할 때, 3D 장면의 언어 기반은 (i) 다양한 객체 구성, 풍부한 속성, 복잡한 관계로 인한 3D 장면의 고유한 복잡성, (ii) 기반 학습을 지원하기 위한 쌍을 이루는 3D 비전-언어 데이터의 부족, (iii) 기반 3D 데이터에서 지식을 추출하기 위한 통합 학습 프레임워크의 부재라는 몇 가지 중요한 과제에 직면해 있습니다. 이 연구에서는 실내 환경에서 3D 시각 언어 학습을 체계적으로 업스케일링할 수 있는 가능성을 검토함으로써 3D 시각 언어의 이 세 가지 주요 과제를 해결하는 것을 목표로 합니다. 유니티는 약 68만 개의 3D 실내 장면을 포함하고 사람의 주석과 확장 가능한 장면 그래프 기반 생성 방식에서 파생된 250만 개의 시각 언어 쌍으로 구성된 최초의 백만 개 규모 3D 시각 언어 데이터 세트인 SceneVerse를 소개합니다. 유니티는 이러한 확장을 통해 3D 시각 언어 학습을 위한 통합 사전 훈련 프레임워크인 GPS(Grounded Pre-training for Scenes)를 구현할 수 있음을 보여줍니다. 광범위한 실험을 통해 현존하는 모든 3D 비주얼 그라운딩 벤치마크에서 최첨단 성능을 달성함으로써 GPS의 효과를 입증합니다. 고난이도 3D 시각 언어 과제에서 제로 샷 전송 실험을 통해 SceneVerse와 GPS의 방대한 잠재력이 드러납니다. 프로젝트 웹사이트: 이 https URL . [abs|pdf]

[16/82] Large Language Models Are Neurosymbolic Reasoners

Keywords: agents_symbolic_reasoning, automated_agents_symbolic, symbolic_reasoners
Abstract: 다양한 실제 애플리케이션은 기호적 특성을 특징으로 하기 때문에 기호적 추론을 위한 강력한 기능이 필요합니다. 이 백서에서는 기호 추론자로서의 대규모 언어 모델(LLM)의 잠재적 적용 가능성을 살펴봅니다. 특히 수학, 지도 읽기, 분류, 텍스트 기반 세계에서 상식 적용과 같은 상징적 작업에서 자연어 능력을 갖춘 에이전트의 중요한 벤치마크인 텍스트 기반 게임에 초점을 맞춥니다. 유니티는 이러한 에이전트를 지원하기 위해 상징적 과제를 해결하고 게임 내 목표를 달성하도록 설계된 LLM 에이전트를 제안합니다. 먼저 LLM 에이전트를 초기화하고 에이전트의 역할을 알려줍니다. 그런 다음 에이전트는 특정 심볼 모듈과 함께 텍스트 기반 게임에서 관찰 사항과 유효한 액션 세트를 수신합니다. 이러한 입력을 바탕으로 LLM 에이전트는 동작을 선택하고 게임 환경과 상호 작용합니다. 실험 결과에 따르면 이 방법은 상징적 추론을 위한 자동화된 에이전트로서 LLM의 기능을 크게 향상시키며, 상징적 작업이 포함된 텍스트 기반 게임에서 LLM 에이전트가 모든 작업에서 평균 88%의 성능을 달성하는 등 효과적이었습니다. [abs|pdf]

[17/82] FIT-SLAM -- Fisher Information and Traversability estimation-based Active SLAM for exploration in 3D environments

Keywords: slam_new_exploration, optimizing_slam_accuracy, optimizing_slam
Abstract: 액티브 비주얼 SLAM은 지상 로봇을 위해 GNSS가 지원되지 않는 서브지형 환경과 실외 환경에서 폭넓게 활용될 수 있습니다. 강력한 로컬라이제이션과 매핑 정확도를 달성하려면 탐사 임무 중 목표 선택과 목표에 대한 경로 계획에 인식 고려 사항을 통합하는 것이 필수적입니다. 본 연구에서는 무인 지상 차량(UGV)이 3D 환경을 탐사하기 위한 새로운 탐사 방법인 피셔 정보 및 횡단 가능성 추정 기반 액티브 슬램(FIT-SLAM)을 제안합니다. 이 접근 방식은 효율적인 탐사 속도를 유지하면서 SLAM 정확도를 최적화하는 두 가지 목표를 위해 고안되었습니다. 먼저 탐색 가능성과 관련된 환경 제약을 설명하는 글로벌 탐색 가능성 맵을 추정합니다. 그 후, 강력한 로컬라이제이션과 성공적인 경로 실행을 위해 SLAM 백엔드에서 사용하는 랜드마크가 제공하는 정보를 고려한 목표 후보 선택 방법과 함께 이 목표를 향한 경로 계획 방법을 제안합니다. 전체 알고리즘은 먼저 시뮬레이션된 3D 세계에서 테스트 및 평가한 후 실제 환경에서 기존의 탐색 방법과 비교합니다. 이 평가에서 얻은 결과는 로컬라이제이션 공분산을 효과적으로 최소화하면서 탐색 속도가 크게 향상되었음을 보여줍니다. [abs|pdf]

[18/82] T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

Keywords: foley_sound_synthesis, sound_synthesis_foley, foley_temporal
Abstract: 동영상과 동시에 삽입되는 오디오 콘텐츠인 폴리 사운드는 멀티미디어 콘텐츠의 사용자 경험에서 중요한 역할을 합니다. 최근 딥 제너레이티브 모델의 발전을 활용하여 폴리 사운드 합성에 대한 연구가 활발히 진행되고 있습니다. 하지만 이러한 연구는 주로 단일 사운드 클래스나 텍스트 사운드 설명을 복제하는 데 초점을 맞추고 있어 폴리 사운드의 실제 적용에서 중요한 시간적 정보를 무시하고 있습니다. 본 논문에서는 폴리 사운드 합성을 위한 시간적 이벤트 유도 파형 생성 모델인 T-Foley를 소개합니다. T-Foley는 사운드 클래스와 템포럴 이벤트 기능이라는 두 가지 조건을 사용하여 고품질 오디오를 생성합니다. 템포럴 컨디셔닝을 위해서는 템포럴 이벤트 피처와 블록-필름이라는 새로운 컨디셔닝 기법을 고안했습니다. T-Foley는 객관적인 평가 지표와 주관적인 평가 지표 모두에서 우수한 성능을 달성하고 템포럴 이벤트와 잘 동기화된 폴리 사운드를 생성합니다. 또한, 특히 템포럴 이벤트 제어를 위한 보컬 모방과 관련된 시나리오에서 T-Foley의 실제 적용 사례를 소개합니다. 데모는 동반 웹 사이트에서 확인할 수 있습니다. [abs|pdf]

[19/82] Deployable Reinforcement Learning with Variable Control Rate

Keywords: reinforcement_learning_rl, controllers_trained_reinforcement, policy_variable_control
Abstract: 강화 학습(RL)으로 훈련된 컨트롤러를 실제 로봇에 배포하는 것은 어려울 수 있습니다: RL은 본질적으로 불연속적인 시간 경과를 가정하는 마르코프 의사 결정 프로세스(MDP)로 모델링되는 에이전트의 정책에 의존합니다. MDP를 사용하면 거의 모든 RL 기반 제어 시스템이 일반적으로 개발자의 경험이나 애플리케이션 환경의 특정 특성에 따라 선택되는 기간(또는 시간 단계)을 가진 고정 속도 제어 전략을 사용하게 됩니다. 안타깝게도 안정성을 보장하기 위해 시스템은 최악의 경우 가장 높은 주파수로 제어되어야 하며, 이는 상당한 컴퓨팅 및 에너지 리소스를 요구하고 온보드 하드웨어에서 컨트롤러의 배포 가능성을 저해할 수 있습니다. 반응형 프로그래밍의 원칙을 준수하여 필요한 경우에만 제어 동작을 적용하면 더 간단한 하드웨어를 사용할 수 있고 에너지 소비를 줄일 수 있을 것으로 예상합니다. 우리는 가변 제어율을 가진 RL의 변형을 제안함으로써 고정 주파수 가정에 도전합니다. 이 접근 방식에서는 정책이 에이전트가 수행해야 하는 작업과 해당 작업과 관련된 시간 단계의 지속 시간을 결정합니다. 새로운 설정에서는 가변 제어율로 최적의 정책을 계산하기 위해 소프트 액터 크리틱(SAC)을 확장하여 소프트 엘라스틱 액터 크리틱(SEAC) 알고리즘을 도입합니다. 뉴턴 운동학으로 에이전트를 구동하는 개념 증명 시뮬레이션을 통해 SEAC의 효율성을 보여줍니다. 실험 결과 고정 비율 정책과 비교했을 때 평균 수익률이 더 높고, 작업 완료 시간이 단축되며, 컴퓨팅 리소스가 절감되는 것으로 나타났습니다. [abs|pdf]

[20/82] 3D Scene Geometry Estimation from 360$^\circ$ Imagery: A Survey

Keywords: spherical_panoramic_images, concepts_spherical_camera, view_stereo_structure
Abstract: 이 백서에서는 전방향 광학 장치로 캡처한 단일, 2개 또는 다수의 이미지를 기반으로 한 선구적인 최첨단 3D 장면 형상 추정 방법론에 대한 포괄적인 조사를 제공합니다. 먼저 구형 카메라 모델의 기본 개념을 살펴보고, 전방향성(360$^\circ$, 구형 또는 파노라마라고도 함) 이미지 및 비디오에 적합한 가장 일반적인 촬영 기술과 표현 형식을 검토합니다. 그런 다음 구형 데이터에 적합한 학습 기반 솔루션의 최근 발전을 강조하면서 단안 레이아웃과 깊이 추론 접근법을 조사합니다. 그런 다음 구형 영역에서 고전적인 스테레오 매칭을 수정하여 희소하고 밀집된 특징을 감지하고 설명하는 방법론이 중요해지는 구형 영역에 대해 설명합니다. 그런 다음 스테레오 매칭 개념을 라이트 필드, 멀티뷰 스테레오, 모션으로부터의 구조(또는 시각적 동시 로컬라이제이션 및 매핑) 등으로 분류하여 멀티뷰 카메라 설정에 대해 추정합니다. 또한 각 목적에 따라 일반적으로 채택되는 데이터 세트와 장점에 대해 정리하고 논의하며, 완성도를 위해 최근의 결과를 나열합니다. 마지막으로 현재와 미래의 동향을 짚어보면서 이 백서를 마무리합니다. [abs|pdf]

[21/82] DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning

Keywords: dataset_offline_demonstrations, online_physical_robots, robot_learning_tasks
Abstract: 로봇 학습 작업은 매우 컴퓨팅 집약적이고 하드웨어에 따라 달라집니다. 따라서 로봇 조작 에이전트를 훈련하는 데 사용할 수 있는 다양한 오프라인 데모 데이터 세트를 사용하여 이러한 문제를 해결할 수 있는 방법은 매우 매력적입니다. 훈련-오프라인-테스트-온라인(TOTO) 벤치마크는 대부분 전문가 데이터로 구성된 오프라인 훈련을 위한 잘 선별된 오픈소스 데이터 세트와 일반적인 오프라인-RL 및 행동 복제 에이전트의 벤치마크 점수를 제공합니다. 이 논문에서는 확산 기반 정책 학습을 통해 향상된 행동 복제 에이전트의 오프라인 알고리즘인 DiffClone을 소개하고, 실제 온라인 물리 로봇을 대상으로 테스트 시점의 효과를 측정했습니다. 이 논문은 NeurIPS 2023에서 주최한 훈련-오프라인-테스트-온라인(TOTO) 벤치마크 챌린지에 공식 제출한 논문이기도 합니다. 사전 학습된 시각적 표현과 에이전트 정책을 모두 실험했습니다. 실험 결과, 미세 조정된 다른 시각적 표현과 비교했을 때 MOCO로 미세 조정된 ResNet50이 가장 우수한 성능을 보였습니다. 목표 상태 컨디셔닝과 전환에 대한 매핑을 통해 성공률과 평균 보상이 미세하게 증가했습니다. 에이전트 정책의 경우, 조건부 확산을 사용하여 개선된 행동 복제 에이전트인 DiffClone을 개발했습니다. [abs|pdf]

[22/82] A Blockchain-based Model for Securing Data Pipeline in a Heterogeneous Information System

Keywords: securing_data_pipelines, security_features_blockchain, securing_data
Abstract: 디지털 세상에서 개인 및 공공 데이터에 대한 액세스는 보안 및 개인정보 보호 측면에서 까다로운 문제가 되고 있습니다. 현대의 정보 시스템은 본질적으로 이기종이며, 연결된 엔드포인트 간의 보안되지 않은 통신 데이터 파이프라인으로 인해 데이터 가로채기 및 데이터 수정에 취약한 보안 취약성을 내재하고 있습니다. 본 재검색 논문에서는 통합 다중 위험 조기 경보 시스템(MHEWS)을 사례로 이기종 정보시스템의 데이터 파이프라인 보안을 위한 블록체인 기반 모델을 제시합니다. 제안된 모델은 블록체인 기술의 고유한 보안 기능을 활용하여 데이터 파이프라인에서 발생하는 보안 및 개인정보 보호 문제를 해결합니다. 이 모델은 탈중앙화된 방식으로 데이터 무결성, 기밀성, 신뢰성을 보장하도록 설계되었습니다. 이 모델은 하이브리드 환경에서 프로토타입 구현과 시뮬레이션 실험을 통해 기밀 원장을 사용하여 데이터 신뢰성과 무결성을 위한 변조 방지 및 변경 불가능한 데이터 파이프라인에 대한 기존 접근 방식에 비해 이점을 입증하는 결과를 통해 평가됩니다. [abs|pdf]

[23/82] DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery

Keywords: vision_haptic_dataset, training_deep, data_driven_deep
Abstract: 최소 침습 로봇 수술(MIRS)에서 안전한 상호작용이 이루어지는 동안 접촉력을 정확하게 측정하는 것은 여전히 미해결 연구 과제입니다. 수술 비디오의 수술 후 정성적 분석에서 영감을 얻은 크로스 모달리티 데이터 기반 심층 신경망 모델의 사용은 센서리스 힘 추세를 예측하기 위한 최신 접근법 중 하나입니다. 그러나 이러한 방법은 현재 사용할 수 없는 크고 다양한 데이터 세트가 필요합니다. 이 논문에서는 심층 신경 모델 학습을 위해 가변적인 소프트 환경을 갖춘 새로운 시각-햅틱 데이터 세트(DaFoE)를 제시합니다. 단일 데이터 세트의 편향을 줄이기 위해 이전에 검증된 다양한 설정의 데이터 세트를 사용하여 혼합 데이터 세트 학습을 위해 다양한 비전 및 상태 데이터 입력을 일반화하는 파이프라인을 제시합니다. 마지막으로 단일 입력 또는 입력 시퀀스를 사용하여 복강경 도구가 수행하는 힘을 예측하기 위한 가변 인코더-디코더 아키텍처를 제시합니다. 입력 시퀀스의 경우 접두사 R이 붙은 리커런트 디코더와 새로운 시간 샘플링을 사용하여 도구의 가속도를 표현합니다. 훈련 과정에서 단일 데이터 세트 훈련은 훈련 데이터 영역에 과적합하는 경향이 있지만 새로운 영역으로 결과를 변환하는 데는 어려움이 있음을 입증했습니다. 그러나 데이터 세트 혼합은 반복 모델과 비반복 모델에서 각각 평균 5%와 12%의 상대적 추정력 오차를 보이며 우수한 번역 결과를 보여줍니다. 또한 이 방법은 사용 가능한 데이터의 양이 150% 증가함에 따라 힘 추정을 위한 트랜스포머의 효율성이 최대 ~15%까지 약간 증가합니다. 결론적으로, 우리는 MIRS에서 시각 상태 힘 추정을 위한 실험 설정을 혼합하는 것이 문제의 일반적인 해결을 위한 가능한 접근 방식임을 입증했습니다. [abs|pdf]

[24/82] A Characterization Theorem for Equivariant Networks with Point-wise Activations

Keywords: rotation_equivariant_networks, exactly_equivariant_networks, equivariant_networks
Abstract: 등변량 신경망은 대칭 영역에서 향상된 성능, 표현력, 샘플 복잡도를 보여주었습니다. 그러나 일부 특정 대칭, 표현, 좌표 선택의 경우 ReLU와 같은 가장 일반적인 점 단위 활성화는 등변량이 아니므로 등변량 신경망의 설계에 사용할 수 없습니다. 이 논문에서 제시하는 정리는 유한 차원 표현, 좌표 선택, 점 단위 활성화의 가능한 모든 조합을 설명하여 정확히 등변량 층을 얻고 기존의 특성을 일반화 및 강화합니다. 실용적인 관련성이 있는 주목할 만한 사례는 상관관계로 논의됩니다. 실제로, 우리는 회전 등변량 네트워크가 연결된 콤팩트 그룹에 대해 등변량인 모든 네트워크에서 발생하는 것처럼 불변량일 수 있음을 증명합니다. 그런 다음 정확히 등변수인 네트워크의 중요한 사례에 적용했을 때 우리의 연구 결과가 갖는 함의를 논의합니다. 첫째, 점 단위 비선형성을 갖는 불변 그래프 네트워크와 그 기하학적 대응을 갖는 순열 등식 네트워크와 같은 순열 등식 네트워크를 완전히 특성화하여 표현력과 성능이 아직 알려지지 않은 수많은 모델을 강조합니다. 둘째, 얽힘이 풀린 합성곱 신경망의 특징 공간이 사소한 표현임을 보여줍니다. [abs|pdf]

[25/82] Preparing Lessons for Progressive Training on Language Models

Keywords: training_deep, training_low_layers, training_deep_models
Abstract: 인공지능 분야에서 트랜스포머가 빠르게 발전하면서 모델 크기가 커짐에 따라 자원 소비와 온실가스 배출이 증가하는 대가를 치르고 있습니다. 이전 연구에서는 학습 효율성을 높이기 위해 사전 학습된 작은 모델을 사용하는 것이 제안되었지만, 이 접근 방식은 새로운 모델 구조에는 적합하지 않을 수 있습니다. 반면에 처음부터 학습하는 것은 느릴 수 있으며, 점진적으로 레이어를 쌓아 올리는 방식은 상당한 가속을 달성하지 못하는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 낮은 레이어를 훈련하는 동안 높은 레이어 함수를 학습함으로써 높은 레이어에 대한 학습을 준비하는 새로운 방법인 아폴로(Apollo)를 제안합니다. 우리의 접근 방식은 저가치 우선 샘플링(LVPS)을 통해 다양한 깊이를 훈련하고 가중치 공유를 통해 효율적인 확장을 용이하게 합니다. 또한 안정적인 모델 깊이 확장을 위한 보간 방법도 도입했습니다. 실험 결과 Apollo는 사전 훈련된 모델을 사용하는 방법과도 경쟁할 수 있는 최첨단 가속 비율을 달성하여 시간, 재정, 환경 비용을 줄이면서 심층 모델을 훈련할 수 있는 범용적이고 효율적인 솔루션임을 입증했습니다. [abs|pdf]

[26/82] What makes for a 'good' social actor? Using respect as a lens to evaluate interactions with language agents

Keywords: dialogue_agents, dialogue_agents_based, ensure_behaviour_ethical
Abstract: 대규모 언어 모델(LLM)에 기반한 대화 에이전트의 인기가 높아지면서, 대화 에이전트의 행동이 윤리적이고 적절하도록 보장하는 방법을 찾는 데 긴급한 관심이 쏠리고 있습니다. 이는 크게 'HHH' 기준, 즉 보다 유용하고 정직한 결과물을 만들고 해로운(편향적이거나 유해하거나 부정확한) 문장을 피하는 것으로 해석할 수 있습니다. 이러한 의미론적 초점은 LLM 에이전트를 단순한 정보 전달 매체로 보는 관점에서는 유용하지만, 다양한 사회적 상황에서 동일한 발언이 다소 불쾌하거나 재치가 없어 보일 수 있는 실용적 요인을 설명하지 못합니다. 우리는 사회적 행위자로서 시스템이 (일련의) 상호작용에서 개인을 정중하게 대하는 것이 무엇을 의미하는지를 탐구하면서 관계와 상황적 요인에 보다 중점을 둔 윤리 접근법을 제안합니다. 우리의 연구는 상황적 상호작용의 수준에서 거의 알려지지 않은 일련의 위험을 예상하고, LLM 기술이 '선한' 사회적 행위자로서 행동하고 사람들을 존중하는 데 도움이 되는 실질적인 제안을 제공합니다. [abs|pdf]

[27/82] GPT in Sheep's Clothing: The Risk of Customized GPTs

Keywords: chatgpt_gpts_using, versions_chatgpt_gpts, chatgpt_gpts
Abstract: 2023년 11월, OpenAI는 사용자가 특정 지침과 지식을 사용하여 모델의 행동을 안내하는 사용자 지정 버전의 ChatGPT(GPT)를 만들 수 있는 새로운 서비스를 도입했습니다. 저희는 GPT가 악의적으로 사용되어 사용자에게 개인정보 보호 및 보안 위험을 초래할 수 있다는 사실에 대한 인식을 높이는 것을 목표로 합니다. [abs|pdf]

[28/82] Code Simulation Challenges for Large Language Models

Keywords: simulate_programs, simulate_programs_contain, program_simulation
Abstract: 대규모 언어 모델(LLM)이 컴퓨터 코드와 알고리즘의 실행을 어느 정도까지 시뮬레이션할 수 있는지 조사합니다. 먼저 직선 프로그램을 살펴보고, 현재의 LLM은 이러한 간단한 프로그램에서도 성능이 좋지 않으며 코드의 길이에 따라 성능이 급격히 저하된다는 것을 보여줍니다. 그런 다음 중요 경로와 중복 명령어가 포함된 프로그램을 시뮬레이션하는 LLM의 기능을 조사합니다. 또한 정렬 알고리즘과 중첩 루프를 사용한 직선 프로그램 시뮬레이션을 넘어 루틴의 계산 복잡도가 LLM의 실행 시뮬레이션 능력에 직접적인 영향을 미친다는 것을 보여줍니다. 우리는 LLM이 짧은 프로그램이나 표준 절차에 대해서만 낮은 오차 범위로 순차적으로 명령을 실행하는 것을 관찰했습니다. LLM의 코드 시뮬레이션은 패턴 인식 및 암기 능력과 긴장 관계에 있습니다. 암기가 불리한 작업에서는 코드 실행을 한 줄씩 시뮬레이션하는 새로운 프롬프트 방법을 제안합니다. 경험적으로, 새로운 시뮬레이션 체인(CoSm) 방식은 암기의 함정을 피함으로써 표준 사고망 프롬프트 방식을 개선합니다. [abs|pdf]

[29/82] Fixed-Budget Differentially Private Best Arm Identification

Keywords: differential_privacy_constraints, regime_privacy_constraints, linear_bandits_fixed
Abstract: 우리는 차등 프라이버시 제약 하에서 고정 예산 체제에서 선형 도둑의 최적 팔 식별(BAI)을 연구하는데, 이때 팔 보상이 단위 간격으로 지원됩니다. 유한 예산 $T$와 프라이버시 매개변수 $\epsilon > 0$이 주어지면, 의사 결정자의 정책이 특정 $\epsilon$-differential privacy ($\epsilon$-DP) 제약 조건을 만족한다는 제약 조건 하에 $T$ 샘플링 라운드 후 평균이 가장 큰 군을 찾을 때 오류 확률을 최소화하는 것이 목표입니다. 최대 절대 결정자}의 원리를 제안하여 $\epsilon$-DP 제약 조건을 만족하는 정책(DP-BAI라고 함)을 구축하고, maximum absolute determinants을 도출합니다. 또한 오차 확률의 최소 하한을 도출하고, 하한과 상한이 $T$에서 기하급수적으로 붕괴하며, 두 경계의 지수가 (a) 팔의 하위 최적성 격차에서 순서대로 일치함을 증명합니다, (b) $\epsilon$, (c) 프라이버시 제약이 없는 표준 고정 예산 BAI의 복잡성을 나타내는 두 항과 $\epsilon$-DP 제약 조건을 설명하는 두 항의 합으로 표현할 수 있는 문제 복잡성입니다. 또한 오류 확률의 하한을 도출하는 데 도움이 되는 몇 가지 보조 결과를 제시합니다. 이러한 결과는 독립적인 관심사가 될 수 있으며, 다른 여러 밴디트 문제에서 오류 확률의 하한을 증명하는 데 도움이 될 수 있다고 생각합니다. 기존 연구에서는 프라이버시 제약이 없는 고정 예산 체제 또는 프라이버시 제약이 있는 고정 신뢰 체제에서 BAI에 대한 결과를 제공한 반면, 본 연구에서는 $\epsilon$-DP 제약 하에서 고정 예산 체제에서 BAI에 대한 결과를 제공함으로써 문헌의 공백을 메웠습니다. [abs|pdf]

[30/82] Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering

Keywords: graph_spectral_filtering, graph_spectral_filters, spectral_graph_neural
Abstract: 스펙트럼 그래프 신경망(GNN)은 이론적으로는 스펙트럼 영역에서 잘 구축되어 있지만, 실제로는 다항식 근사에 의존하기 때문에 공간 영역과의 깊은 연관성을 의미합니다. 이전 연구에서는 스펙트럼 GNN을 공간적 관점에서 검토한 경우가 거의 없었기 때문에 스펙트럼 GNN이 공간 영역에서 본질적으로 인코딩하는 정보가 무엇인지 등 공간 영역의 해석 가능성은 여전히 파악하기 어렵습니다 이 논문에서는 이 질문에 답하기 위해 스펙트럼 필터링과 공간 집계 사이의 이론적 연관성을 확립하고, 스펙트럼 필터링이 암묵적으로 원래 그래프를 공간 집계를 위해 명시적으로 계산된 적응된 새 그래프로 유도하는 내재적 상호 작용을 밝힙니다. 이론적 및 경험적 조사 결과, 적응된 새 그래프는 비지역성을 나타낼 뿐만 아니라 노드 간의 라벨 일관성을 반영하기 위해 부호화된 에지 가중치를 수용하는 것으로 나타났습니다. 이러한 연구 결과는 공간 영역에서 스펙트럼 GNN의 해석 가능한 역할을 강조하며, 글로벌 정보를 무시하는 고정차 다항식을 넘어서는 그래프 스펙트럼 필터에 대해 다시 생각하게 합니다. 이론적 발견을 바탕으로 최첨단 스펙트럼 GNN을 재검토하고, 보조적인 비로컬 집계를 위해 스펙트럼 필터링으로 조정된 새로운 그래프를 활용하는 새로운 공간 적응형 필터링(SAF) 프레임워크를 제안합니다. 특히, 우리가 제안한 SAF는 글로벌 관점에서 노드 유사성과 비유사성을 모두 포괄적으로 모델링하여 장거리 종속성 및 그래프 이질성과 관련된 GNN의 고질적인 결함을 완화합니다. 13개의 노드 분류 벤치마크에 대한 광범위한 실험을 통해 우리가 제안한 프레임워크가 최첨단 모델보다 우수하다는 것을 입증했습니다. [abs|pdf]

[31/82] DTMM: Deploying TinyML Models on Extremely Weak IoT Devices with Pruning

Keywords: pruning_optimizations_runtime, execution_pruning_optimizations, tiny_machine_learning
Abstract: DTMM은 마이크로컨트롤러 유닛(MCU)과 같이 성능이 약한 IoT 기기에서 머신러닝 모델을 효율적으로 배포하고 실행할 수 있도록 설계된 라이브러리입니다. DTMM을 설계하게 된 동기는 유비쿼터스 인텔리전스를 달성하기 위해 머신 러닝의 범위를 여러 저사양 IoT 장치로 확장하는 방법을 모색하는 초소형 머신 러닝(TinyML)이라는 새로운 분야에서 비롯되었습니다. 임베디드 디바이스의 성능이 약하기 때문에 배포하기 전에 충분한 가중치를 제거하여 모델을 압축해야 합니다. 가지치기는 많은 컴퓨팅 플랫폼에서 광범위하게 연구되어 왔지만, 가지치기 방법의 두 가지 주요 문제, 즉 정확도를 크게 저하시키지 않으면서 모델을 압축해야 하고 가지치기 후에도 효율적으로 작동해야 한다는 점이 MCU에서 더욱 악화됩니다. 현재의 솔루션은 이러한 목표 중 하나만 달성할 뿐 두 가지 모두를 달성하지는 못합니다. 이 백서에서는 가지치기를 거친 모델이 MCU에 효율적으로 배포하고 실행할 수 있는 큰 잠재력을 가지고 있음을 발견했습니다. 따라서 본 논문에서는 프루닝 유닛 선택, 실행 전 프루닝 최적화, 런타임 가속, 실행 후 저비용 스토리지를 통해 프루닝된 모델의 효율적인 배포와 실행을 위한 격차를 메울 수 있는 DTMM을 제안합니다. 실제 배포를 위해 상용 ML 프레임워크에 통합할 수 있으며, 프로토타입 시스템도 개발되었습니다. 다양한 모델에 대한 광범위한 실험을 통해 최첨단 방법과 비교했을 때 유망한 이점을 보여줍니다. [abs|pdf]

[32/82] Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding

Keywords: catastrophic_forgetting_trained, forgetting_layer_wise, forgetting_trained_sequential
Abstract: 심층 신경망은 순차적인 작업을 학습할 때 치명적인 망각에 취약합니다. 다양한 지속적 학습(CL) 방법은 모델 안정성과 가소성의 균형을 맞추기 위해 예시 버퍼 또는 네트워크 확장에 의존하는 경우가 많지만, 이는 개인정보 보호 및 메모리 문제로 인해 실용적 가치가 떨어집니다. 대신 이 논문에서는 이전 작업의 훈련 데이터를 사용할 수 없고 순차적 훈련 중에 모델 크기가 상대적으로 일정하게 유지되는 엄격하면서도 현실적인 설정을 고려합니다. 이러한 조건을 달성하기 위해 본 논문에서는 계층별 파라미터 덮어쓰기와 그로 인한 의사 결정 경계 왜곡을 잊어버림에 기인하는 개념적으로 간단하면서도 효과적인 방법을 제안합니다. 이는 두 가지 핵심 구성 요소 간의 시너지 효과에 의해 달성됩니다: HSIC-병목 직교화(HBO)는 직교 공간에서 힐버트-슈미트 독립성 기준에 의해 매개되는 덮어쓰지 않는 파라미터 업데이트를 구현하고, 등각 임베딩(EAE)은 사전 정의된 기저 벡터를 통해 이전 작업과 새로운 작업 간의 결정 경계 적응을 향상시킵니다. 광범위한 실험을 통해 이 방법이 예시 버퍼가 0이고 기본 모델의 1.02배에 달하는 절대적인 우월성에도 불구하고 경쟁력 있는 정확도 성능을 달성한다는 것이 입증되었습니다. [abs|pdf]

[33/82] UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User Experiences in Recommender Systems

Keywords: grained_exploration_user, exploration_strategy_users, exploration_user_groups
Abstract: 강화 학습(RL)은 사용자의 관심사를 효과적으로 탐색하여 추천 시스템에서 사용자의 장기적인 경험을 향상시키기 위해 주목받고 있습니다. 하지만 최신 추천 시스템은 수천만 개의 항목 사이에서 뚜렷한 사용자 행동 패턴을 보이기 때문에 탐색의 난이도가 높아집니다. 예를 들어, 활동 수준이 다른 사용자 행동은 다양한 강도의 탐색이 필요하지만, 기존 연구에서는 이러한 측면을 간과하고 모든 사용자에게 획일적인 탐색 전략을 적용하는 경우가 많아 장기적으로 사용자 경험에 악영향을 미칩니다. 이러한 문제를 해결하기 위해 사용자 그룹 간의 세분화된 탐색을 촉진하는 새로운 접근 방식인 사용자 지향 탐색 정책(UOEP)을 제안합니다. 먼저, 다양한 활동 수준을 가진 사용자 그룹을 대표하는 사용자들의 누적 보상 피드백의 다양한 사분위수 수준에서 정책을 최적화할 수 있는 분포 비평을 구축합니다. 이 비평자의 안내에 따라 각 사용자 그룹 내에서 효과적이고 세분화된 탐색을 목표로 하는 별개의 행위자 집단을 고안합니다. 탐색 과정에서 다양성과 안정성을 동시에 향상시키기 위해 모집단 수준의 다양성 정규화 용어와 감독 모듈을 추가로 도입합니다. 공개 추천 데이터 세트에 대한 실험 결과, 우리의 접근 방식이 장기적인 성능 측면에서 다른 모든 기준선보다 우수한 것으로 나타나 사용자 중심의 탐색 효과가 입증되었습니다. 한편, 추가 분석을 통해 활동성이 낮은 사용자에 대한 성능 향상과 사용자 간의 공정성 향상이라는 접근 방식의 이점을 확인할 수 있었습니다. [abs|pdf]

[34/82] Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumor Grading

Keywords: modality_fusion_methods, modality_fusion, modal_learning_dual
Abstract: 뇌종양은 전 세계적으로 가장 치명적인 암 중 하나이며, 어린이와 노인에게 매우 흔하게 발생합니다. 초기 단계에서 종양의 종류와 등급을 정확하게 파악하는 것은 정확한 치료 계획을 선택하는 데 중요한 역할을 합니다. 서로 다른 시퀀스의 자기공명영상(MRI) 프로토콜은 임상의에게 종양 부위를 식별하는 데 중요한 모순 정보를 제공합니다. 그러나 수동 평가는 방대한 양의 데이터와 다양한 뇌종양 유형으로 인해 시간이 많이 걸리고 오류가 발생하기 쉽습니다. 따라서 MRI 자동 뇌종양 진단에 대한 미충족 수요가 존재합니다. 단일 모달리티 모델의 예측 능력은 제한적이고 모달리티에 따라 성능이 크게 다르며, 일반적으로 사용되는 모달리티 융합 방법은 잠재적 노이즈를 유발하여 성능이 크게 저하되는 것으로 관찰되었습니다. 이러한 문제를 극복하기 위해 우리는 MRI 뇌종양 등급 분류 작업을 처리하기 위한 새로운 교차 모달리티 안내 지원 다중 모달 학습을 제안합니다. 모델 효율성과 유효성 사이의 균형을 맞추기 위해 특징 추출을 위한 백본 네트워크로 ResNet 믹스 컨볼루션을 사용합니다. 또한 공간 및 슬라이스 차원에서의 의미론적 상호 의존성을 각각 포착하기 위해 이중 주의가 적용됩니다. 모달리티 간의 정보 상호 작용을 촉진하기 위해 훈련 과정에서 기본 모달리티가 다른 보조 모달리티를 안내하는 교차 모달리티 안내 지원 모듈을 설계하여 서로 다른 MRI 모달리티의 상호 보완적인 정보를 효과적으로 활용하는 동시에 가능한 노이즈의 영향을 완화할 수 있습니다. [abs|pdf]

[35/82] Change Detection Between Optical Remote Sensing Imagery and Map Data via Segment Anything Model (SAM)

Keywords: multimodal_change_detection, unsupervised_multimodal_change, change_detection
Abstract: 비지도 다중 모드 변화 탐지는 시간에 민감한 작업과 포괄적인 다중 시간 지구 모니터링에 매우 중요합니다. 이 연구에서는 두 가지 주요 원격 감지 데이터 소스, 즉 광학 고해상도 이미지와 오픈스트리트맵(OSM) 데이터 간의 비지도 다중 모드 변화 탐지에 대해 살펴봅니다. 특히, 이 과제를 해결하기 위해 비전 기반 모델인 세그멘테이션 애니씽 모델(SAM)을 활용할 것을 제안합니다. SAM의 뛰어난 제로샷 전송 기능을 활용하면 광학 이미지의 고품질 세분화 지도를 얻을 수 있습니다. 따라서 소위 세분화 영역에서 이 두 가지 이질적인 데이터 형식을 직접 비교할 수 있습니다. 그런 다음 SAM의 세분화 프로세스를 안내하는 두 가지 전략, 즉 '프롬프트 없음' 및 '박스/마스크 프롬프트' 방법을 소개합니다. 이 두 가지 전략은 각각 일반적인 시나리오에서 토지피복 변화를 감지하고 기존 배경 내에서 새로운 토지피복 객체를 식별하기 위해 고안되었습니다. 세 가지 데이터 세트에 대한 실험 결과는 제안된 접근 방식이 대표적인 비지도 다중 모드 변화 감지 방법에 비해 더 경쟁력 있는 결과를 얻을 수 있음을 보여줍니다. [abs|pdf]

[36/82] Inductive Models for Artificial Intelligence Systems are Insufficient without Good Explanations

Keywords: explanations_just_predictions, suggests_ai_progress, ai_progress
Abstract: 이 논문에서는 복잡한 함수를 근사화하는 데는 효과적이지만 투명성과 설명력이 부족한 경우가 많은 머신러닝(ML), 특히 심층 인공신경망(ANN)의 한계에 대해 설명합니다. 이 논문은 '귀납의 문제', 즉 과거의 관찰이 반드시 미래의 사건을 예측할 수 없다는 철학적 문제를 강조하며, 이는 보이지 않는 새로운 데이터를 접할 때 ML 모델이 직면하는 문제입니다. 이 논문은 단순히 예측을 하는 것뿐만 아니라 현재 모델이 종종 제공하지 못하는 좋은 설명을 제공하는 것의 중요성에 대해 주장합니다. 이 논문은 AI가 발전하기 위해서는 예측뿐 아니라 인사이트와 설명을 제공하는 모델을 찾아야 한다고 제안합니다. [abs|pdf]

[37/82] Hybrid of DiffStride and Spectral Pooling in Convolutional Neural Networks

Keywords: downsampling_learnable_stride, strided_convolution, strided_convolution_method
Abstract: 보폭은 필터가 입력을 가로질러 이동할 때 인접한 필터 위치 사이의 거리를 결정합니다. 보폭이 고정되어 있으면 이미지에 포함된 중요한 정보를 포착할 수 없어 중요한 정보가 분류되지 않습니다. 따라서 이전 연구에서는 자체 보폭 값을 학습할 수 있는 보폭 컨볼루션 방법, 즉 DiffStride 방법을 적용했습니다. 최대 풀링 다운샘플링 방법에서는 심각한 양자화와 보존 정보에 대한 제약 하한이 발생합니다. 스펙트럴 풀링은 주파수 영역에서 표현을 차단하여 보존 정보의 제약 하한을 줄입니다. 본 연구에서는 역전파에 의한 다운샘플링 학습 가능한 보폭 기법과 스펙트럴 풀링 기법을 결합한 CNN 모델을 제안합니다. 디프스트라이드와 스펙트럴 풀링 기법은 영상에 포함된 대부분의 정보를 유지할 수 있을 것으로 기대됩니다. 이 연구에서는 스펙트럴 풀링과 디프스트라이드의 결합 구현인 하이브리드 기법과 레스넷 18에서 디프스트라이드 구현인 베이스라인 기법을 비교합니다. 스펙트럴 풀링과 DiffStride를 결합한 정확도 결과는 기준 방법인 DiffStride보다 0.0094 향상되었습니다. 이는 하이브리드 방식이 주파수 영역의 표현을 잘라내어 대부분의 정보를 유지하고, 역전파를 통해 학습 결과의 보폭을 결정할 수 있음을 보여줍니다. [abs|pdf]

[38/82] Augmenting Math Word Problems via Iterative Question Composing

Keywords: language_models_llms, large_language_models, language_models
Abstract: 최근 대규모 언어 모델(LLM)의 수학적 추론 능력 향상에 진전이 있었음에도 불구하고, 오픈소스 LLM에서 외부 도구를 사용하지 않고 대회 수준의 수학 문제를 푸는 것은 여전히 어려운 과제입니다. 이 연구에서는 처리된 웹 데이터와 합성 질문-응답 쌍이 혼합된 MMIQC 데이터 세트를 도입하여 기본 모델에 더 나은 수학적 추론 능력을 갖추도록 합니다. Mistral-7B(arXiv:2310.06825)를 MMIQC에서 미세 조정하여 얻은 모델인 Mistral-7B-MMIQC는 MATH(arXiv:2103.03874)에서 36.0% 정확도를 달성하여 이전 (모델 크기 $\sim$7B) SOTA보다 5.8% 더 높습니다. 실험 결과, 이러한 개선의 상당 부분은 주어진 시드 문제에서 새로운 문제를 구성하도록 LLM에 반복적으로 요청하고 다른 LLM에서 거부 샘플링을 수행하는 새로운 증강 방법인 IQC(Iterative Question Composing)에 기인하는 것으로 나타났습니다. MMIQC는 이제 이 https URL에서 공개되었습니다. [abs|pdf]

[39/82] MicroNAS: Zero-Shot Neural Architecture Search for MCUs

Keywords: mcus_edge_computing, edge_computing_micronas, neural_architecture_search
Abstract: 신경 아키텍처 검색(NAS)은 특히 정확도 최적화를 위해 새로운 컨볼루션 신경망(CNN) 아키텍처를 효과적으로 발견합니다. 하지만 기존의 접근 방식은 슈퍼 네트워크에 대한 리소스 집약적인 훈련이나 광범위한 아키텍처 평가가 필요하기 때문에 실제 적용이 제한되는 경우가 많습니다. 이러한 문제를 해결하기 위해 엣지 컴퓨팅의 마이크로컨트롤러 유닛(MCU)을 위해 설계된 하드웨어 인식 제로샷 NAS 프레임워크인 MicroNAS를 제안합니다. MicroNAS는 검색 중에 대상 하드웨어 최적화를 고려하고, 특수 성능 지표를 활용하여 높은 계산 비용 없이 최적의 신경 아키텍처를 식별합니다. 이전 작업과 비교하여 MicroNAS는 검색 효율을 최대 1104배 향상시키고 비슷한 정확도를 유지하면서 3.23배 이상 빠른 MCU 추론으로 모델을 발견합니다 [abs|pdf]

[40/82] A GAN-based data poisoning framework against anomaly detection in vertical federated learning

Keywords: gan_specifically_malicious, poisoning_framework_gan, produce_adversarial
Abstract: 수직 연합 학습(VFL)에서는 상업적 주체가 데이터 프라이버시를 보호하면서 공동으로 모델을 훈련합니다. 하지만 악의적인 참여자의 포이즌 공격으로 인해 이 협업 모델의 성능이 저하될 수 있습니다. 포이즌 공격의 가장 큰 문제는 서버 측 최상위 모델에 대한 접근 권한이 없어 악의적인 참여자가 명확한 목표 모델을 찾지 못한다는 점입니다. 이러한 문제를 해결하기 위해 혁신적인 엔드투엔드 포이즈닝 프레임워크인 P-GAN을 도입했습니다. 구체적으로, 악의적인 참여자는 처음에 반지도 학습을 사용하여 대리 표적 모델을 학습시킵니다. 그 후, 이 참여자는 GAN 기반 방법을 사용하여 적대적 섭동을 생성하여 대리 표적 모델의 성능을 저하시킵니다. 마지막으로, 생성기를 획득하여 VFL 중독에 맞게 조정합니다. 또한 딥 오토 인코더(DAE)를 기반으로 이상 탐지 알고리즘을 개발하여 VFL 시나리오에 대한 강력한 방어 메커니즘을 제공합니다. 광범위한 실험을 통해 P-GAN과 DAE의 효능을 평가하고 성능에 영향을 미치는 요인을 추가로 분석합니다. [abs|pdf]

[41/82] FedLoGe: Joint Local and Generic Federated Learning under Long-tailed Data

Keywords: tailed_learning_fed, personalized_federated_learning, federated_learning
Abstract: 분산된 로컬 클라이언트에서 수집된 데이터를 통해 전 세계적으로 널리 퍼져 있는 롱테일 분포를 파악하는 패러다임인 연합 롱테일 학습(Fed-LT)은 최근 상당한 주목을 받고 있습니다. Fed-LT와 관련하여 기존 연구들은 주로 데이터 불균형 문제를 해결하여 일반적인 글로벌 모델의 효율성을 높이는 데 집중한 반면, 로컬 수준에서의 성능은 소홀히 다루었습니다. 반면, 기존의 개인화 연합 학습(pFL) 기법은 주로 균형 잡힌 글로벌 데이터 분포를 전제로 개인화된 로컬 모델을 최적화하기 위해 고안되었습니다. 이 백서에서는 신경 붕괴 프레임워크 내에서 표현 학습과 분류기 정렬의 통합을 통해 로컬 모델과 일반 모델 성능을 모두 향상시키는 Fed-LT의 연합 로컬 및 일반 모델 훈련(FedLoGe)이라는 접근법을 소개합니다. 이번 조사를 통해 중요한 글로벌 트렌드를 포착하기 위한 기본 프레임워크로 공유 백본을 사용하는 동시에 개별화된 분류기를 사용하여 각 고객의 지역적 특징에서 비롯된 고유한 세분화를 캡슐화하는 것이 가능하다는 사실이 밝혀졌습니다. 이러한 발견을 바탕으로, 불필요한 노이즈 피처를 자연스럽게 제거하고 강력한 데이터 표현을 확보하는 신경 붕괴 원리에서 영감을 얻은 정적 스파스 등축 타이트 프레임 분류기(SSE-C)를 구축했습니다. 또한, 불균형 신경 붕괴의 분류기 규범 패턴에서 얻은 인사이트를 활용하여 보조 글로벌 분류기와 개인화된 유클리드 규범 변환을 통해 글로벌 및 로컬 적응형 특징 재조정(GLA-FR)을 개발하여 글로벌 특징을 고객 선호도에 맞게 조정합니다. CIFAR-10/100-LT, ImageNet, iNaturalist에 대한 광범위한 실험 결과는 최첨단 pFL 및 Fed-LT 접근 방식에 비해 이 방법의 장점을 입증합니다. [abs|pdf]

[42/82] OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality

Keywords: augmented_reality_placement, objects_augmented_reality, automatic_object_placement
Abstract: 증강 현실의 핵심 과제 중 하나는 가상 콘텐츠를 자연스러운 위치에 배치하는 것입니다. 기존의 대부분의 자동화된 기술은 닫힌 어휘의 고정된 객체 집합에서만 작동할 수 있습니다. 이 백서에서는 최근 발전한 개방형 어휘 비전 언어 모델을 사용하여 객체를 자동으로 배치하는 몇 가지 방법을 소개하고 평가합니다. 다각적인 평가를 통해 새로운 최첨단 방법인 OCTO+를 확인합니다. 또한 증강 현실에서 가상 객체의 배치를 자동으로 평가하는 벤치마크를 도입하여 많은 비용이 드는 사용자 연구의 필요성을 완화합니다. 이를 통해 사람의 평가와 더불어 OCTO+가 70% 이상 유효한 영역에 오브젝트를 배치하여 다양한 지표에서 다른 방법보다 우수한 성능을 보인다는 사실을 확인했습니다. [abs|pdf]

[43/82] From User Surveys to Telemetry-Driven Agents: Exploring the Potential of Personalized Productivity Solutions

Keywords: personalized_productivity_agent, powered_personalized_productivity, personalization_privacy_ai
Abstract: 저희는 AI 기반 생산성 에이전트의 선호도를 파악하고 사용자의 니즈에 맞는 맞춤형 솔루션을 개발하기 위한 포괄적인 사용자 중심 접근 방식을 제시합니다. 먼저 2단계 방법을 활용하여 363명의 참가자를 대상으로 설문조사를 실시하여 생산성, 커뮤니케이션 스타일, 상담원 접근 방식, 성격 특성, 개인화 및 개인 정보 보호에 대한 다양한 측면을 조사했습니다. 설문조사에서 얻은 인사이트를 바탕으로 정보 근로자로부터 Viva Insights를 통해 수집한 원격 측정 데이터를 활용하여 맞춤형 지원을 제공하는 GPT-4 기반의 개인 맞춤형 생산성 에이전트를 개발했습니다. 40명의 참가자를 대상으로 한 연구에서 대시보드 및 내러티브와 같은 다른 생산성 지원 도구와 그 성능을 비교했습니다. 연구 결과는 사용자 중심의 디자인, 적응성, 그리고 AI 지원 생산성 도구에서 개인화와 개인정보 보호 사이의 균형이 중요하다는 점을 강조합니다. 이번 연구를 통해 도출된 인사이트를 바탕으로 향후 생산성 솔루션을 더욱 개선하기 위한 연구를 지원하고 안내하여 궁극적으로 정보 근로자에게 최적화된 효율성과 사용자 경험을 제공할 수 있을 것으로 믿습니다. [abs|pdf]

[44/82] Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback

Keywords: rewards_optimize_ranking, reward_ranking, reward_ranking_metric
Abstract: 확률적 학습을 통한 순위 지정(LTR)은 순위 지표를 최적화하는 데 주로 사용되어 왔지만, 장기적인 보상을 극대화할 수는 없습니다. 추천을 순차적 의사결정 문제로 공식화하여 사용자의 장기적 보상을 극대화하는 강화 학습 모델이 제안되었지만, 온라인 상호작용의 부재와 랭킹의 특성으로 인해 LTR에 비해 정확도가 떨어질 수밖에 없었습니다. 본 논문에서는 통합된 기대-최대화(EM) 프레임워크에서 사용자의 장기 보상을 극대화하는 동시에 오프라인에서 랭킹 메트릭을 최적화하여 샘플 효율성을 개선할 수 있는 새로운 정책 외 가치 랭킹(VR) 알고리즘을 제안합니다. EM 프로세스가 미래 보상과 랭킹 메트릭의 통합으로 인한 이점을 누리고 온라인 상호작용 없이도 학습할 수 있도록 린 정책을 안내한다는 것을 이론적, 경험적으로 보여줍니다. 광범위한 오프라인 및 온라인 실험을 통해 이러한 방법의 효과를 입증했습니다. [abs|pdf]

[45/82] SWBT: Similarity Weighted Behavior Transformer with the Imperfect Demonstration for Robotic Manipulation

Keywords: offline_imitation_learning, imitation_learning, imitation_learning_il
Abstract: 전문가의 데모를 통해 최적의 제어 정책을 학습하는 모방 학습(IL)은 로봇 조작 작업에 효과적인 방법 중 하나입니다. 하지만 기존의 IL 방법은 고가의 전문가 데모만 사용하고 불완전한 데모를 생략하거나 환경과의 상호작용과 온라인 경험으로부터의 학습에 의존했습니다. 로봇 조작의 맥락에서 우리는 위의 두 가지 과제를 극복하고 유사성 가중 행동 트랜스포머(SWBT)라는 새로운 프레임워크를 제안하고자 합니다. SWBT는 환경과의 상호작용 없이도 전문가의 시연과 불완전한 시연 모두에서 효과적으로 학습합니다. 우리는 순방향 및 역방향 역학처럼 쉽게 구할 수 있는 불완전한 데모가 유익한 정보를 학습함으로써 네트워크를 크게 향상시킨다는 사실을 밝혀냈습니다. 우리가 아는 한, 불완전한 데모를 로봇 조작 작업을 위한 오프라인 모방 학습 환경에 통합하려는 시도는 이번이 처음입니다. 고충실도 사피엔 시뮬레이터와 실제 로봇 조작 작업을 기반으로 구축된 ManiSkill2 벤치마크에 대한 광범위한 실험을 통해 제안된 방법이 더 나은 특징을 추출하고 모든 작업의 성공률을 향상시킬 수 있음을 입증했습니다. 논문이 승인되면 코드가 공개될 예정입니다. [abs|pdf]

[46/82] CEL: A Continual Learning Model for Disease Outbreak Prediction by Leveraging Domain Adaptation via Elastic Weight Consolidation

Keywords: mitigate_catastrophic_forgetting, catastrophic_forgetting, model_continual_learning
Abstract: 모델이 이전 지식을 잊지 않고 시간이 지남에 따라 학습하여 새로운 데이터에 적응할 수 있는 능력인 지속적 학습은 질병 발생 예측과 같은 역동적인 분야에서 가장 중요한 요소입니다. 심층 신경망, 즉 LSTM은 치명적인 망각으로 인해 오류가 발생하기 쉽습니다. 이 연구에서는 탄력적 가중치 통합(EWC)을 통한 도메인 적응을 활용하여 지속적 학습을 위한 새로운 CEL 모델을 소개합니다. 이 모델은 도메인 점진적 설정에서 치명적 망각 현상을 완화하는 것을 목표로 합니다. 중요한 매개변수, 즉 중요한 이전 지식의 변경에 불이익을 주는 정규화 용어를 개발하기 위해 피셔 정보 매트릭스(FIM)를 EWC로 구성합니다. CEL의 성능은 인플루엔자, 천연두, 홍역이라는 세 가지 질병에 대해 서로 다른 지표를 사용하여 평가됩니다. 평가 및 재평가 시 높은 R-제곱 값은 여러 상황에서 다른 최신 모델을 능가하며, 이는 CEL이 점진적 데이터에 잘 적응한다는 것을 나타냅니다. CEL의 견고성과 신뢰성은 기존 벤치마크 연구에 비해 최소 65%의 망각률과 18% 높은 메모리 안정성을 통해 입증되었습니다. 이 연구는 시간적 패턴으로 진화하는 데이터를 다루는 CEL의 질병 발생 예측에 대한 다용도성을 강조합니다. 이 모델은 정확하고 시기적절한 예측을 통해 사전 예방적 질병 통제를 위한 유용한 모델을 제공합니다. [abs|pdf]

[47/82] Learning to detect cloud and snow in remote sensing images from noisy labels

Keywords: labels_cloud_snow, detection_clouds_snow, cloud_snow_detection
Abstract: 원격 감지 이미지에서 구름과 눈을 감지하는 것은 원격 감지 이미지의 필수적인 전처리 작업입니다. 이전의 연구는 컴퓨터 비전의 시맨틱 분할 모델에서 영감을 얻었으며, 대부분의 연구는 탐지 성능을 향상시키기 위해 모델 아키텍처를 개선하는 데 중점을 두었습니다. 그러나 자연 이미지와 달리 원격 감지 이미지의 경우 장면의 복잡성과 구름 유형의 다양성으로 인해 구름 및 눈 감지 데이터 세트에 부정확한 레이블이 많이 생겨 훈련 및 테스트 프로세스에 불필요한 노이즈가 발생합니다. 새로운 데이터 세트를 구축하고 커리큘럼 학습 패러다임으로 새로운 훈련 전략을 제안함으로써 모델이 노이즈 라벨에 대한 과적합을 줄이도록 유도합니다. 또한 노이즈 레이블로 인한 성능 평가 편향을 완화하는 보다 적절한 모델 성능 평가 방법을 설계합니다. 유니넷과 세그포머로 모델에 대한 실험을 수행하여 제안한 방법의 효과를 검증했습니다. 이 논문은 원격 감지 이미지에서 구름과 눈을 감지할 때 라벨 노이즈가 미치는 영향을 고려한 최초의 논문입니다. [abs|pdf]

[48/82] 3D Human Pose Analysis via Diffusion Synthesis

Keywords: pose_analysis_diffusion, learned_pose_prior, human_pose_data
Abstract: 확산 모델은 제너레이티브 모델링에서 괄목할 만한 성공을 거두었습니다. 이 백서에서는 통합 파이프라인을 통해 3D 인체 포즈 분석의 다양한 문제를 해결하기 위해 고안된 새로운 프레임워크인 PADS(Pose Analysis by Diffusion Synthesis)를 제안합니다. PADS의 핵심은 두 가지 독특한 전략, 즉 i) 확산 합성 프로세스를 사용하여 작업에 구애받지 않는 포즈 프리를 학습하여 인체 포즈 데이터의 운동학적 제약을 효과적으로 포착하는 것과 ii) 추정, 완성, 노이즈 제거 등과 같은 여러 포즈 분석 작업을 역문제 인스턴스로 통합하는 것입니다. 학습된 포즈 선행은 작업별 제약 조건을 부과하는 정규화로 처리되어 일련의 조건부 노이즈 제거 단계를 통해 최적화 프로세스를 안내합니다. PADS는 역문제 프레임워크 내에서 일반적인 3D 인체 포즈 분석을 처리하기 위한 최초의 확산 기반 프레임워크입니다. 다양한 벤치마크에서 성능이 검증되어 이 파이프라인의 적응성과 견고함이 입증되었습니다. [abs|pdf]

[49/82] Bridging State and History Representations: Understanding Self-Predictive RL

Keywords: self_predictive_representations, predictive_representations_states, self_predictive_abstraction
Abstract: 표현은 마르코프 결정 과정(MDP)과 부분 관측 가능한 마르코프 결정 과정(POMDP) 모두에 대한 모든 심층 강화 학습(RL) 방법의 핵심입니다. 효과적인 표현을 구성하는 요소를 이해하기 위해 많은 표현 학습 방법과 이론적 프레임워크가 개발되었습니다. 그러나 이러한 방법들 사이의 관계와 방법들 간의 공유 속성은 여전히 불분명합니다. 이 논문에서는 국가 및 역사 추상화를 위한 겉으로 보기에 서로 다른 방법과 프레임워크가 사실은 자기 예측적 추상화라는 공통된 아이디어에 기반하고 있음을 보여줍니다. 또한, 자기 예측적 표현을 학습하는 데 있어 스톱-그래디언트 기법과 같이 널리 채택된 목표와 최적화에 대한 이론적 인사이트를 제공합니다. 이러한 연구 결과를 종합하여 상태와 히스토리에 대한 자가 예측 표현을 학습하는 최소한의 알고리즘을 개발했습니다. 이 알고리즘을 표준 MDP, 방해 요소가 있는 MDP, 희소 보상이 있는 POMDP에 적용하여 이론을 검증합니다. 이러한 연구 결과는 RL 실무자를 위한 일련의 실용적인 가이드라인으로 이어집니다. [abs|pdf]

[50/82] CFASL: Composite Factor-Aligned Symmetry Learning for Disentanglement in Variational AutoEncoder

Keywords: aligned_symmetry_learning, symmetry_learning, learning_composite_symmetry
Abstract: 입력 벡터와 잠재 벡터의 대칭성은 VAE의 얽힘 풀기 학습에 중요한 통찰력을 제공해 왔지만, 비지도 방식으로 제안된 연구는 소수에 불과하며 이마저도 훈련 데이터에 알려진 요인 정보가 필요합니다. 본 논문에서는 데이터 세트 요인 정보에 대한 지식 없이도 비지도 학습에서 대칭 기반 얽힘 해소를 학습할 수 있는 새로운 방법인 복합 요인 정렬 대칭 학습(CFASL)을 제안하며, CFASL은 대칭 기반 얽힘 해소를 학습하기 위해 세 가지 새로운 기능을 통합합니다: 1) 귀납적 편향을 주입하여 잠재 벡터 차원을 명시적으로 학습 가능한 대칭 코드북 내의 요인 정렬 대칭에 정렬 2) 코드북 내에서 요인 정렬 대칭을 학습하여 두 무작위 샘플 간의 알려지지 않은 요인 변화를 표현하기 위한 복합 대칭 학습 3) 두 가지 조건으로 VAE를 훈련할 때 그룹 등변량 인코더와 디코더를 유도합니다. 또한, VAE의 얽힘 해제 평가와 비교하여 다중 요인 변화에 대한 확장된 평가 지표를 제안합니다. 정량적 및 심층적인 정성적 분석에서 CFASL은 단일 요인 변화 및 다중 요인 변화 조건에서 최첨단 방법과 비교하여 얽힘 해소를 크게 개선한 것으로 나타났습니다. [abs|pdf]

[51/82] NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription

Keywords: distant_speaker_diarization, conversational_speech_recognition, far_field_audio
Abstract: 첫 번째 '원거리 오디오 녹음 환경에서의 자연스러운 오피스 화자'(이하 'NOTSOFAR-1') 챌린지를 데이터 세트 및 기준 시스템과 함께 소개합니다. 이 챌린지는 단일 채널 및 알려진 지오메트리 다중 채널 트랙을 사용하는 원거리 회의 시나리오에서 원거리 화자 일기화 및 자동 음성 인식(DASR)에 초점을 맞추고 있으며, 두 가지 새로운 데이터 세트의 출시 플랫폼 역할을 합니다: 첫째, 평균 6분씩 315개의 회의로 구성된 벤치마킹 데이터 세트로, 실제 음향 조건과 대화 역학에 대한 광범위한 스펙트럼을 포착합니다. 이 데이터는 4~8명의 참석자와 총 35명의 독특한 발표자가 있는 30개의 회의실에 걸쳐 녹음되었습니다. 둘째, 1000시간의 시뮬레이션 훈련 데이터 세트는 실제 일반화를 위해 15,000개의 실제 음향 전달 함수를 통합하여 사실성을 높인 상태로 합성되었습니다. 이 작업은 멀티채널 디바이스가 항상 동일한 알려진 지오메트리를 공유하는 단일 디바이스 DASR에 중점을 둡니다. 이는 실제 회의실의 일반적인 설정과 일치하며 다중 장치 작업과 관련된 기술적 복잡성을 피할 수 있습니다. 또한 지오메트리별 솔루션을 개발할 수 있습니다. NOTSOFAR-1 챌린지는 원거리 대화형 음성 인식 분야의 연구를 발전시켜 데이터 기반 방법의 잠재력을 발휘할 수 있는 핵심 리소스를 제공하는 것을 목표로 하며, 현재 포괄적인 고품질 훈련 및 벤치마킹 데이터 세트의 부재로 인해 제약을 받고 있다고 판단됩니다. [abs|pdf]

[52/82] DCRMTA: Unbiased Causal Representation for Multi-touch Attribution

Keywords: estimation_contributions_advertising, contributions_advertising_touchpoint, conversion_prediction_models
Abstract: 멀티터치 어트리뷰션(MTA)은 현재 각 광고 터치포인트의 전환 행동에 대한 기여도를 공정하게 추정하는 데 중추적인 역할을 하며, 예산 할당과 광고 추천에 깊은 영향을 미치고 있습니다. 기존의 멀티터치 어트리뷰션 방식은 우선 과거 데이터를 통해 터치포인트 시퀀스와 사용자 구매 행동 사이의 내재적 관계를 학습하여 전환 예측 모델을 구축합니다. 이를 기반으로 원래의 시퀀스 하위 집합에서 사실과 다른 터치포인트 시퀀스를 구성하고, 예측 모델을 사용하여 전환을 추정하여 광고 기여도를 계산합니다. 이러한 방법의 은밀한 가정은 전환 예측 모델의 편향되지 않은 특성입니다. 그러나 사용자 선호도, 과거 쇼핑 기록에 따른 광고 추천의 동질화 등 인터넷 추천 메커니즘에서 발생하는 교란 변수로 인해 관찰 데이터로 학습된 전환 예측 모델에 편향이 쉽게 발생할 수 있습니다. 이 백서에서는 사용자 추천이 전환에 미치는 인과적 영향을 재정의하고 새로운 엔드투엔드 접근 방식인 심층 인과적 표현(DCRMTA)을 제안합니다. 이 모델은 혼란 변수를 제거하면서 사용자로부터 전환과 인과 관계가 있는 특징을 추출합니다. 또한, 합성 데이터와 실제 크리테오 데이터에 대한 광범위한 실험을 통해 다양한 데이터 분포에서 전환 예측을 수행하며, 다양한 광고 채널에서 효과적으로 가치를 어트리뷰션하는 DCRMTA의 뛰어난 성능을 입증했습니다 [abs|pdf]

[53/82] Robust Localization of Key Fob Using Channel Impulse Response of Ultra Wide Band Sensors for Keyless Entry Systems

Keywords: neural_networks_localization, localization_classification, localization_key_fob
Abstract: 신경망을 사용하여 차량 내부 및 주변에서 키 없는 차량 출입을 위한 보안 기능으로 키 포브의 위치를 파악하는 것이 빠르게 부상하고 있습니다. 이 논문에서는 다음과 같이 연구합니다: 1) 실험의 기준이 되는 신경망 기반 UWB(초광대역) 로컬라이제이션 분류의 사전 계산된 특징의 성능. 2) 다양한 신경망의 내재적 견고성을 조사하기 위해 적대적 훈련이 없는 적대적 예제의 견고성 연구를 이 작업에 포함시켰습니다. 3) 적대적 훈련 없이도 기준 신경망을 능가하는 다중 헤드 자기 지도 신경망 아키텍처를 제안합니다. 모델의 성능은 특정 범위의 적대적 크기에서 빠른 경사 부호 방법의 경우 67%, 기본 반복 방법과 예상 경사 하강 방법의 경우 각각 37% 향상되었습니다. [abs|pdf]

[54/82] REValueD: Regularised Ensemble Value-Decomposition for Factorisable Markov Decision Processes

Keywords: deepmind_control, optimal_actions_dimensions, reinforcement_learning_tackle
Abstract: 이산 액션 강화 학습 알고리즘은 가능한 액션의 수가 방대하기 때문에 고차원의 이산 액션 공간이 있는 작업에서 종종 어려움을 겪습니다. 이러한 문제를 해결하기 위해 다중 에이전트 강화 학습의 개념인 가치 분해를 활용하는 최근의 발전이 있습니다. 이 연구에서는 이러한 가치 분해의 효과를 심층적으로 분석하여, Q러닝 알고리즘에 내재된 과대 추정 편향은 줄이면서 목표 분산은 증폭시킨다는 사실을 밝혀냈습니다. 이에 대응하기 위해 목표 편차를 완화하기 위한 비평의 앙상블을 제시합니다. 또한 한 차원에서의 탐색적 행동이 다른 차원의 최적 행동의 가치에 미칠 수 있는 영향을 완화하는 데 도움이 되는 정규화 손실을 도입합니다. 딥마인드 컨트롤 스위트 작업의 이산화된 버전에서 테스트한 새로운 알고리즘인 REValueD는 특히 까다로운 휴머노이드 및 개 작업에서 뛰어난 성능을 보여줍니다. 또한 정규화 손실의 중요성과 차원별 하위 행동이 증가함에 따라 REValueD의 확장성을 평가하면서 REValueD의 성능에 영향을 미치는 요인을 자세히 분석합니다. [abs|pdf]

[55/82] Learning from Sparse Offline Datasets via Conservative Density Estimation

Keywords: offline_reinforcement_learning, offline_reinforcement, learning_policies
Abstract: 오프라인 강화 학습(RL)은 환경과의 추가적인 상호작용 없이도 미리 수집된 데이터 세트에서 정책을 학습할 수 있는 유망한 방향을 제시합니다. 그러나 기존 방식은 특히 희소 보상이나 희소한 데이터 환경에서 분포 외(OOD) 추정 오류를 처리하는 데 어려움을 겪습니다. 이 논문에서는 상태-행동 점유 고정 분포에 명시적으로 제약을 가함으로써 이 문제를 해결하는 보수적 밀도 추정(CDE)이라는 새로운 훈련 알고리즘을 제안합니다. CDE는 한계 중요도 샘플링의 지지 불일치 문제를 해결함으로써 고정 분포 보정 방법과 같은 기존 접근법의 한계를 극복합니다. 이 방법은 D4RL 벤치마크에서 최첨단 성능을 달성합니다. 특히, CDE는 보상이 희박하거나 데이터가 충분하지 않은 까다로운 작업에서 기준선을 지속적으로 능가하여 오프라인 RL의 외삽 오차 문제를 해결하는 데 있어 우리 접근법의 장점을 입증했습니다. [abs|pdf]

[56/82] Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive

Keywords: integrate_adversarial_supervision, adversarial_supervision, diffusion_generator_pixel
Abstract: 최근 대규모 확산 모델의 발전에도 불구하고 레이아웃-이미지(L2I) 합성 작업은 거의 진전을 이루지 못했습니다. 현재의 L2I 모델은 텍스트를 통한 편집성이 떨어지거나 생성된 이미지와 입력 레이아웃 간의 정렬이 약합니다. 이로 인해 실제 사용성이 제한됩니다. 이러한 문제를 완화하기 위해 적대적 감독을 기존 L2I 확산 모델(ALDM)의 훈련 파이프라인에 통합할 것을 제안합니다. 구체적으로, 노이즈 제거 이미지와 입력 레이아웃 사이의 픽셀 수준 정렬에 대해 확산 생성기에 명시적인 피드백을 제공하는 세분화 기반 판별기를 사용합니다. 샘플링 단계에 걸쳐 입력 레이아웃이 일관되게 유지되도록 하기 위해 다단계 언롤링 전략을 추가로 도입했습니다. 단일 시간 단계를 살펴보는 대신 몇 단계를 재귀적으로 언롤링하여 추론 과정을 모방하고, 판별자에게 특정 시간 동안 노이즈 제거 이미지와 레이아웃의 정렬을 평가하도록 요청합니다. 실험 결과, ALDM은 생성된 이미지의 레이아웃을 충실하게 유지하면서 텍스트 프롬프트를 통해 폭넓은 편집이 가능함을 보여줍니다. 또한 텍스트 제어를 통해 목표 분포 샘플을 합성함으로써 시맨틱 분할 모델의 도메인 일반화를 큰 폭(~12mIoU 포인트)으로 개선하는 등 실제 애플리케이션에 대한 유용성을 보여줬습니다. [abs|pdf]

[57/82] Fixed Point Diffusion Models

Keywords: diffusion_based_generative, improves_image_generation, models_imagenet
Abstract: 이미지 생성에 대한 새로운 접근 방식인 고정점 확산 모델(FPDM)은 확산 기반 생성 모델링의 프레임워크에 고정점 해법의 개념을 통합한 것입니다. 이 접근 방식은 확산 모델의 노이즈 제거 네트워크에 암시적 고정점 해결 계층을 내장하여 확산 프로세스를 밀접하게 관련된 일련의 고정점 문제로 변환합니다. 새로운 확률적 훈련 방법과 결합된 이 접근 방식은 모델 크기를 크게 줄이고 메모리 사용량을 줄이며 훈련 속도를 높입니다. 또한 샘플링 효율성을 개선하는 두 가지 새로운 기법, 즉 시간 간격에 걸쳐 계산을 재할당하고 시간 간격 사이에 고정점 솔루션을 재사용하는 기법을 개발할 수 있습니다. 유니티는 이미지넷, FFHQ, 셀럽에이치큐, LSUN-처치에서 최첨단 모델로 광범위한 실험을 수행하여 성능과 효율성이 크게 향상되었음을 입증했습니다. 최신 DiT 모델과 비교했을 때 FPDM은 파라미터 수가 87% 더 적고, 훈련 시 메모리 사용량이 60% 더 적으며, 샘플링 계산이나 시간이 제한된 상황에서 이미지 생성 품질이 향상됩니다. 코드와 사전 훈련된 모델은 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[58/82] EgoGen: An Egocentric Synthetic Data Generator

Keywords: egocentric_representation_3d, creating_realistic_egocentric, egocentric_visual_inputs
Abstract: 증강 현실(AR)에서는 1인칭 시점으로 세상을 이해하는 것이 기본입니다. 이 몰입형 시점은 3인칭 시점에 비해 극적인 시각적 변화와 고유한 과제를 가져옵니다. 합성 데이터는 3인칭 시점의 시각 모델을 강화했지만, 자기 중심적 지각 작업을 구현하는 데 적용하는 데는 아직 미개척 분야로 남아 있습니다. 중요한 과제는 구현된 카메라가 3D 세계의 자기 중심적 표현을 충실히 캡처하도록 효과적으로 조종하는 자연스러운 인간의 움직임과 행동을 시뮬레이션하는 것입니다. 이러한 과제를 해결하기 위해 유니티는 자기 중심적 인식 작업을 위한 정확하고 풍부한 실사 훈련 데이터를 생성할 수 있는 새로운 합성 데이터 생성기인 EgoGen을 도입했습니다. EgoGen의 핵심은 가상 사람의 자기 중심적 시각 입력을 직접 활용하여 3D 환경을 감지하는 새로운 인간 모션 합성 모델입니다. 충돌 방지 모션 기본 요소와 2단계 강화 학습 접근 방식을 결합한 유니티의 모션 합성 모델은 구현된 가상 인간의 인식과 움직임이 원활하게 결합되는 폐쇄 루프 솔루션을 제공합니다. 이전 작업과 비교하여 유니티의 모델은 사전 정의된 전역 경로가 필요하지 않으며 동적 환경에 바로 적용할 수 있습니다. 유니티는 사용하기 쉽고 확장 가능한 데이터 생성 파이프라인과 결합하여 헤드 마운트 카메라의 매핑 및 로컬라이제이션, 자기 중심 카메라 추적, 자기 중심 뷰에서 휴먼 메시 복구 등 세 가지 작업에서 EgoGen의 효율성을 입증했습니다. EgoGen은 완전히 오픈 소스로 제공되며, 현실적인 자기 중심 훈련 데이터를 생성하기 위한 실용적인 솔루션을 제공하고 자기 중심 컴퓨터 비전 연구에 유용한 도구가 되는 것을 목표로 합니다. 프로젝트 페이지(https URL)를 참조하세요. [abs|pdf]

[59/82] AgentMixer: Multi-Agent Correlated Policy Factorization

Keywords: multi_agent_reinforcement, centralized_decentralized_policies, correlated_joint_policy
Abstract: 분산 실행을 통한 중앙 집중식 훈련(CTDE)은 훈련 중에 중앙 집중식 가치 함수를 활용하여 부분적으로 관찰 가능한 다중 에이전트 강화 학습(MARL)을 안정화하기 위해 널리 사용됩니다. 하지만 기존 방식은 일반적으로 에이전트가 각자의 로컬 관찰을 기반으로 독립적으로 의사 결정을 내린다고 가정하기 때문에 충분한 조정을 통해 상호 연관된 공동 정책으로 이어지지 않을 수 있습니다. 본 논문에서는 상관 균형의 개념에서 영감을 얻어 에이전트가 정책을 상호 연관시킬 수 있는 메커니즘을 제공하기 위해 _strategy modification_을 도입할 것을 제안합니다. 구체적으로, 우리는 완전히 관측 가능한 공동 정책을 부분적으로 관측 가능한 개별 정책의 비선형 조합으로 구성하는 새로운 프레임워크인 에이전트믹서(AgentMixer)를 제시합니다. 탈중앙화된 실행을 가능하게 하기 위해 공동 정책을 모방하여 개별 정책을 도출할 수 있습니다. 안타깝게도 이러한 모방 학습은 공동 정책과 개별 정책 정보 간의 불일치로 인해 '비대칭 학습 실패'를 초래할 수 있습니다. 이 문제를 완화하기 위해 공동 정책과 개별 정책을 공동으로 학습하고 중앙 집중식 정책과 분산식 정책 간의 모드 일관성을 보장하기 위해 _Individual-Global-Consistency_를 도입합니다. 그런 다음 에이전트 믹서가 $\epsilon$에 가까운 상관 균형에 수렴한다는 것을 이론적으로 증명합니다. 세 가지 MARL 벤치마크에 대한 강력한 실험적 성능은 우리 방법의 효과를 입증합니다. [abs|pdf]

[60/82] MA2GCN: Multi Adjacency relationship Attention Graph Convolutional Networks for Traffic Prediction using Trajectory data

Keywords: predicting_traffic, attention_graph_convolutional, predicting_traffic_congestion
Abstract: 교통 혼잡 문제는 막대한 경제적 손실을 초래할 뿐만 아니라 도시 환경도 심각하게 위협합니다. 교통 혼잡을 예측하는 것은 실용적으로 중요한 의미를 갖습니다. 지금까지 대부분의 연구는 특정 도로 구간의 교통 혼잡 상태를 분석하기 위해 여러 도로에 설치된 센서의 과거 데이터를 기반으로 미래의 교통 흐름과 속도를 예측했습니다. 하지만 센서의 위치가 고정되어 있기 때문에 새로운 정보를 발굴하기가 어렵습니다. 반면, 차량 궤적 데이터는 보다 유연하고 필요에 따라 교통 정보를 추출할 수 있습니다. 따라서 새로운 교통 혼잡 예측 모델인 다중 인접 관계 주의 그래프 컨볼루션 네트워크(MA2GCN)를 제안했습니다. 이 모델은 차량 궤적 데이터를 격자 형태의 그래프 구조 데이터로 변환하고, 서로 다른 격자 간의 이동성을 기반으로 차량 진입 및 이탈 행렬을 제안했습니다. 동시에 모델의 성능을 향상시키기 위해 본 논문에서는 새로운 적응형 인접 행렬 생성 방법과 인접 행렬 주의 모듈도 구축했습니다. 이 모델은 주로 게이트형 시간 컨볼루션과 그래프 컨볼루션을 사용하여 각각 시간 및 공간 정보를 추출했습니다. 여러 기준선과 비교했을 때, 이 모델은 상하이 택시 GPS 궤적 데이터 세트에서 가장 우수한 성능을 보였습니다. 코드는 이 https URL 트래픽 벤치마크에서 확인할 수 있습니다. [abs|pdf]

[61/82] A Telerehabilitation System for the Selection, Evaluation and Remote Management of Therapies

Keywords: telerehabilitation_systems_knowledge, kinect_based_telerehabilitation, telerehabilitation_systems_support
Abstract: 어디서나 물리 치료 세션을 지원하는 원격 재활 시스템은 의료 비용을 절감하는 동시에 재활이 필요한 사용자의 삶의 질을 개선하는 데 도움이 될 수 있습니다. 이 백서의 주요 기여는 혁신적인 키넥트 기반 원격 재활 시스템(KiReS)이 지원하는 모든 기능을 전체적으로 제시하는 것입니다. 현재 시스템에서 제공하는 기능 외에도 차세대 원격 재활 시스템으로 한 걸음 더 나아가기 위해 시스템에 통합할 수 있는 두 가지 새로운 기능을 다룹니다. 지식 추출 기능은 환자의 재활에 적합한 운동을 선택하기 위해 환자의 물리 치료 기록과 치료 프로토콜에 대한 지식을 TRHONT라는 온톨로지에 설명되어 있는 지식을 처리합니다. 원격 몰입 기능은 양방향 실시간 멀티미디어 통신을 통해 원격 재활을 수행할 때 편리하고 효과적이며 사용자 친화적인 경험을 제공합니다. 온톨로지에는 약 2300개의 클래스와 100개의 속성이 포함되어 있으며, 이 시스템은 다양한 네트워크 조건에 적응할 수 있는 키넥트 비디오 깊이, 오디오 및 골격 데이터를 안정적으로 전송할 수 있습니다. 또한 이 시스템은 어깨 질환이나 고관절 전치환술을 받은 환자를 대상으로 테스트를 거쳤습니다. [abs|pdf]

[62/82] Selecting Subsets of Source Data for Transfer Learning with Applications in Metal Additive Manufacturing

Keywords: manufacturing_transfer_learning, source_data_selection, transfer_learning
Abstract: 금속 적층 제조(AM)의 데이터 부족을 고려하여 소스 도메인(예: 완성된 프린팅)에서 지식을 추출하여 타겟 도메인(예: 새로운 프린팅)의 모델링 성능을 개선하기 위해 전이 학습(TL)이 채택되었습니다. 현재 애플리케이션은 소스 데이터와 타깃 데이터 간의 유사성에 관계없이 접근 가능한 모든 소스 데이터를 TL에서 직접 사용합니다. 본 논문에서는 제한된 타깃 도메인 데이터 집합에 대해 소스 데이터와 타깃 데이터 집합 간의 유사성을 기반으로 적절한 소스 데이터의 하위 집합을 찾는 체계적인 방법을 제안합니다. 이러한 유사성은 공간 및 모델 거리 메트릭에 의해 특징지어집니다. 두 개의 유사도 거리 메트릭으로 정의된 파레토 프론티어에 위치한 소스 데이터를 반복적으로 선택하는 파레토 프론티어 기반 소스 데이터 선택 방법이 개발되었습니다. 이 방법은 인스턴스 기반 TL 방법(의사 결정 트리 회귀 모델)과 모델 기반 TL 방법(미세 조정 인공 신경망)으로 통합됩니다. 그런 다음 두 모델을 금속 적층 가공의 여러 회귀 작업에 대해 테스트합니다. 비교 결과, 1) 소스 데이터 선택 방법은 일반적이며 다양한 TL 방법 및 거리 메트릭과의 통합을 지원하며, 2) 모든 소스 데이터를 사용하는 것과 비교하여 제안된 방법은 다양한 공정과 기계가 관련된 금속 AM 회귀 작업에서 더 나은 TL 성능을 가진 동일한 도메인의 소스 데이터의 작은 하위 집합을 찾을 수 있으며, 3) 여러 소스 도메인이 존재하는 경우 소스 데이터 선택 방법은 모든 소스 도메인의 데이터를 사용하여 구축된 모델과 비슷하거나 더 나은 TL 성능을 얻기 위해 하나의 소스 도메인에서 하위 집합을 찾을 수 있음을 입증했습니다. [abs|pdf]

[63/82] Training program on sign language: social inclusion through Virtual Reality in ISENSE project

Keywords: learning_sign_language, teaching_sign_language, sign_language_recognition
Abstract: 수화에서는 시각적 동작과 기호를 통합한 구조화된 손동작이 사용됩니다. 수화는 청각 장애가 있거나 언어 장애가 있는 사람들에게는 일상적인 의사소통의 중요한 수단이지만, 청인들 사이에서는 여전히 드물고 수화를 이해할 수 있는 사람들도 적습니다. 교육적 맥락에서 부모와 교사는 어린 시절부터 청각장애 학생들이 수화를 쉽게 배울 수 있도록 지원하는 데 중요한 역할을 합니다. 지난 몇 년 동안 수화 학습에 유용한 여러 교육 도구 중에서 가상현실(VR)은 학습 과정에서 유지력, 기억력, 주의력을 향상시키는 것으로 입증되면서 그 사용이 증가하고 있습니다. ISENSE 프로젝트는 학문적 맥락에서 청각 장애인 커뮤니티에 수화를 가르칠 수 있는 다양한 기술 도구를 제안함으로써 청각 장애를 가진 학생들의 학업 생활을 돕기 위해 만들어졌습니다. ISENSE 프로젝트의 일환으로 진행되는 이번 연구는 VR 환경을 활용하여 포괄적인 수화 데이터베이스를 빠르고 쉽게 생성하는 스페인어 및 이탈리아어 수화 인식 애플리케이션과 글자부터 문장까지 정적 및 동적 수화를 정확하게 분류하고 인식하는 인공지능(AI) 기반 소프트웨어를 개발하는 것을 목표로 합니다. [abs|pdf]

[64/82] Assistant, Parrot, or Colonizing Loudspeaker? ChatGPT Metaphors for Developing Critical AI Literacies

Keywords: discussing_metaphors_ai, metaphors_ai, metaphors_imply_ai
Abstract: 이 연구에서는 AI에 대한 은유를 논의하는 것이 어떻게 AI 시스템, 특히 ChatGPT와 같은 대규모 언어 모델(LLM)에 대한 우리의 이해를 형성하는 프레임에 대한 인식을 구축하는 데 도움이 되는지 살펴봅니다. '비판적 AI 리터러시'를 가르쳐야 하는 시급한 필요성을 고려할 때 은유에 대한 토론은 뉘앙스, 장난기, 비평의 여지가 있는 질문과 대화의 기회를 제공합니다. 우리는 협력적 민족지학적 방법론을 사용하여 다양한 출처의 은유를 분석하고, 7가지 질문에 따라 개별적으로 성찰한 다음, 서로 만나서 해석을 논의했습니다. 그런 다음 우리의 성찰이 셀버의 다중 문식성 프레임워크에서 설명하는 세 가지 종류의 문식성, 즉 기능적, 비판적, 수사적 문식성에 어떻게 기여했는지 분석했습니다. 이를 통해 AI와 관련된 윤리, 형평성, 접근성 문제를 분석할 수 있었습니다. 우리는 각 은유가 의인화를 조장하는지 여부와 그러한 은유가 AI가 지각이 있음을 어느 정도 암시하는지에 따라 각 은유를 탐색했습니다. 우리의 연구 결과는 AI에 대한 미묘한 이해를 촉진하는 데 있어 은유 반영의 역할을 강조하며, 의인화 및 다문학의 차원에서 AI 은유를 플롯하는 휴리스틱 모델뿐만 아니라 우리의 협력적인 자가인류학적 접근 방식이 비판적 AI 리터러시를 발전시키는 데 있어 교육자와 연구자에게 유용할 수 있음을 시사합니다. [abs|pdf]

[65/82] On Image Search in Histopathology

Keywords: pathology_images_histopathology, image_search_methods, images_histopathology
Abstract: 조직 병리학 이미지는 카메라가 장착된 현미경이나 전체 슬라이드 스캐너를 통해 얻을 수 있습니다. 이러한 이미지를 기반으로 유사도 계산을 활용하여 환자를 매칭하는 것은 연구 및 임상 상황에서 상당한 잠재력을 가지고 있습니다. 최근 검색 기술의 발전으로 다양한 조직 유형에서 세포 구조의 미묘한 차이를 정량화할 수 있게 되어, 진단 및 치료 사례의 선별된 데이터베이스와 비교하여 새로운 환자의 진단, 예후 및 예측에 대한 추론이 용이해졌습니다. 이 백서에서는 조직병리학을 위한 이미지 검색 기술의 최신 발전을 종합적으로 검토하여 효과적이고 빠르며 효율적인 이미지 검색 방법을 찾고 있는 컴퓨터 병리학 연구자를 위한 간결한 개요를 제공합니다. [abs|pdf]

[66/82] Hierarchical Source-to-Post-Route QoR Prediction in High-Level Synthesis with GNNs

Keywords: fpga_hls, high_level_synthesis, prediction_approach_fpga
Abstract: 하이레벨 합성(HLS)은 RTL 프로그래밍을 피함으로써 하드웨어 설계 프로세스의 속도를 획기적으로 높여줍니다. 하지만 최적화 과정에서 경로 후 결과 품질(QoR)을 고려하면 HLS의 처리 시간이 크게 늘어납니다. 이 문제를 해결하기 위해 키사이트는 다음과 같은 특징을 가진 계층적 경로 후 QoR 예측 접근 방식을 FPGA HLS에 제안합니다: (1) C/C++ 프로그램에서 지연 시간과 경로 후 리소스 사용량을 직접 추정하는 모델링 흐름, (2) 소스 코드의 제어 및 데이터 흐름 그래프와 HLS 프래그마의 효과를 효과적으로 표현하는 그래프 구성 방법, (3) 루프 계층의 영향을 포착할 수 있는 계층적 GNN 훈련 및 예측 방법을 특징으로 합니다. 실험 결과, 우리의 방법은 다양한 유형의 QoR 메트릭에 대해 10% 미만의 예측 오차를 보였으며, 이는 최첨단 GNN 방법과 비교했을 때 엄청난 개선이 이루어졌음을 보여줍니다. 제안된 방법론을 채택하면 HLS에서 디자인 공간 탐색을 위한 런타임이 수십 분으로 단축되고 달성된 ADRS는 평균 6.91%로 감소합니다. [abs|pdf]

[67/82] Combining Confidence Elicitation and Sample-based Methods for Uncertainty Quantification in Misinformation Mitigation

Keywords: language_models_misinformation, nlp_misinformation_mitigation, reliability_large_language
Abstract: 대규모 언어 모델은 잘못된 정보 완화 문제를 해결할 수 있는 유력한 후보로 떠올랐습니다. 그러나 기존의 접근 방식은 환각과 과신 예측으로 인해 어려움을 겪고 있습니다. 저희는 직접 신뢰도 도출과 샘플 기반 일관성 방법을 모두 활용하여 NLP 오정보 완화 솔루션에 더 나은 보정을 제공하는 불확실성 정량화 프레임워크를 제안합니다. 먼저 샘플 크기와 확률적 수준에서 일관성의 뚜렷한 특징을 활용하는 샘플 기반 일관성 방법의 보정을 조사합니다. 다음으로, 단일 단계와 2단계 신뢰도 도출 절차에 걸쳐 강력한 숫자 언어화 프롬프트의 성능과 분포 변화를 평가합니다. 또한 동일한 프롬프트의 성능을 다양한 버전의 GPT와 다양한 수치 척도로 비교합니다. 마지막으로, 샘플 기반 일관성과 언어화 방법을 결합하여 GPT 모델에 대해 더 나은 불확실성 추정을 산출하는 하이브리드 프레임워크를 제안합니다. 전반적으로, 우리의 연구는 잘못된 정보 완화 애플리케이션에서 대규모 언어 모델의 신뢰성을 개선할 수 있는 새로운 불확실성 정량화 방법을 제안합니다. [abs|pdf]

[68/82] Zero-Shot RTL Code Generation with Attention Sink Augmented Large Language Models

Keywords: rtl_code_generation, design_optimization_hardware, code_generation
Abstract: 하드웨어의 설계와 최적화는 전통적으로 상당한 전문 지식과 기존 설계 자동화 도구에 대한 의존도를 요구하는 리소스 집약적인 작업이었습니다. 이 백서에서는 하드웨어 설계에서 코드 생성 프로세스를 간소화하기 위해 대규모 언어 모델을 활용할 수 있는 가능성에 대해 논의합니다. 이전 연구와 달리 이 논문에서는 단일 프롬프트를 통해 높은 수준의 설계 사양을 수용하는 대규모 언어 모델을 사용하여 해당 레지스터-트랜스퍼 레벨(RTL) 코드를 생성하는 것을 목표로 합니다. RTL 코드 생성에 대규모 언어 모델을 사용하면 설계 반복 주기를 단축할 수 있을 뿐만 아니라 기존 기술로는 계산상 문제가 있는 설계 공간의 탐색도 용이해집니다. 이번 평가를 통해 기존 주의 메커니즘의 단점을 입증하고, 새로운 주의 메커니즘을 사용할 경우 기능적이고 최적화된 업계 표준을 준수하는 RTL 코드를 생성하는 언어 모델의 능력을 제시합니다. 이러한 연구 결과는 하드웨어 설계에서 아키텍처 탐색 및 자동화의 미래 환경을 형성하는 데 있어 대규모 언어 모델의 역할이 확대되고 있음을 강조합니다. [abs|pdf]

[69/82] Concept Alignment

Keywords: value_alignment_humans, alignment_humans_ai, discussion_ai_alignment
Abstract: AI 정렬(인간과 AI 시스템 간의 정렬)에 대한 논의는 가치 정렬에 초점을 맞춰 왔으며, 넓게는 인간의 가치를 공유하는 AI 시스템을 만드는 것을 의미합니다. 유니티는 가치 정렬을 시도하기 전에 AI 시스템과 인간이 세상을 이해하는 데 사용하는 개념을 정렬하는 것이 필수적이라고 주장합니다. 유니티는 철학, 인지과학, 딥러닝의 아이디어를 통합하여 인간과 기계 간의 가치 정렬뿐 아니라 개념 정렬의 필요성을 설명합니다. 현재 인간과 기계가 개념을 학습하는 방식에 대한 기존의 설명을 요약하고, 개념 공유를 향한 여정에서 기회와 과제를 간략히 설명합니다. 마지막으로, 인지 과학과 AI 연구에서 이미 개발 중인 도구를 활용하여 개념 정렬을 향한 진전을 가속화하는 방법을 설명합니다. [abs|pdf]

[70/82] Deep Reinforcement Learning for Multi-Truck Vehicle Routing Problems with Multi-Leg Demand Routes

Keywords: deep_reinforcement_learning, reinforcement_learning_rl, deep_reinforcement
Abstract: 심층 강화 학습(RL)은 특히 인코더-디코더 주의 메커니즘에 의해 생성된 정책을 사용할 때 일부 차량 라우팅 문제(VRP)에 대한 근사 솔루션을 생성하는 데 효과적인 것으로 나타났습니다. 이러한 기법은 비교적 간단한 문제 사례에서는 꽤 성공적이지만, 효과적인 RL 방법이 입증되지 않은 매우 복잡한 VRP 변형에 대해서는 아직 연구가 미흡한 상태입니다. 이 연구에서는 여러 대의 트럭과 다구간 라우팅 요구사항이 포함된 VRP 변형 중 하나에 초점을 맞춥니다. 이러한 문제에서는 시작 노드에서 끝 노드까지만 이동하는 것이 아니라 일련의 노드를 따라 이동해야 하는 수요가 필요합니다. 유니티는 실제 산업 규모의 공급망 물류에서 딥 RL을 실행 가능한 전략으로 만들기 위해 기존 인코더-디코더 주의 모델을 새롭게 확장하여 여러 대의 트럭과 여러 노드의 라우팅 요구사항을 처리할 수 있도록 개발했습니다. 이 모델은 소수의 트럭과 노드에 대해 훈련한 다음 대규모 공급망에 내장하여 더 많은 수의 트럭과 노드에 대한 솔루션을 제공할 수 있다는 장점이 있습니다. 우리는 일본 자동차 부품 제조업체인 아이신 코퍼레이션의 운영에서 발생하는 실제 공급망 환경에서 우리의 접근 방식을 테스트한 결과, 우리의 알고리즘이 아이신의 이전 최고 솔루션보다 더 나은 성능을 발휘한다는 것을 발견했습니다. [abs|pdf]

[71/82] End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023

Keywords: end_planning_autonomous, planning_autonomous_driving, end_end_planning
Abstract: 이 백서는 현재 업계와 학계에서 보고되고 있는 기술을 포함한 방법을 간략하게 검토하는 것을 목표로 합니다. 특히 이 백서에서는 Tesla FSD V12, 모멘타 2023, 호라이즌 로보틱스 2023, 모션 로보택시 2022, 우븐 플래닛(Toyota), 그리고 엔비디아를 포함한 엔드투엔드 계획을 검토합니다: 어반 드라이버, 엔비디아 등이 있습니다. 또한 자율 주행의 엔드 투 엔드 계획을 연구하는 최첨단 학술 연구도 검토합니다. 이 백서는 독자들에게 2022~2023년까지의 최첨단 엔드투엔드 계획에 대한 간결한 구조와 빠른 학습을 제공합니다. 이 백서는 업계 및 학계에서 자율주행의 최첨단 엔드투엔드 계획에 대해 처음 접하는 입문자를 위한 입문서이자 고급 연구자를 위한 보충 자료로서 의미 있는 개요를 제공합니다. [abs|pdf]

[72/82] SAiD: Speech-driven Blendshape Facial Animation with Diffusion

Keywords: speech_driven_3d, lip_movements_speech, facial_animation_challenging
Abstract: 음성 기반 3D 얼굴 애니메이션은 많은 연구에도 불구하고 대규모 시각-청각 데이터 세트의 부족으로 인해 어려운 과제입니다. 일반적으로 최소자승법을 사용하여 소규모 데이터 세트에서 회귀 모델을 학습하는 데 초점을 맞춘 대부분의 선행 연구는 음성에서 다양한 입술 움직임을 생성하는 데 어려움을 겪고 있으며, 생성된 결과물을 다듬는 데 상당한 노력이 필요합니다. 이러한 문제를 해결하기 위해 본 논문에서는 입술 동기화를 향상시키기 위해 오디오와 비주얼 간의 교차 모달리티 정렬 편향이 있는 경량 트랜스포머 기반 U-Net인 확산 모델(SAiD)을 사용한 음성 기반 3D 얼굴 애니메이션을 제안합니다. 또한 공공 자원의 부족 문제를 해결하기 위해 음성 오디오 쌍과 블렌드 셰이프 얼굴 모델의 파라미터로 구성된 벤치마크 데이터 세트인 BlendVOCA를 소개합니다. 실험 결과, 제안된 접근 방식이 기준선과 비슷하거나 더 우수한 입술 동기화 성능을 달성하고, 더 다양한 입술 움직임을 보장하며, 애니메이션 편집 프로세스를 간소화한다는 것을 입증했습니다. [abs|pdf]

[73/82] MLCommons Cloud Masking Benchmark with Early Stopping

Keywords: cloud_masking_benchmark, masking_benchmark_mlcommons, implementation_cloud_masking
Abstract: 이 백서에서는 클라우드 마스킹 벤치마크에 대한 MLCommons 과학 워킹 그룹의 작업에 대해 보고합니다. MLCommons는 AI 개발에 도움이 되는 여러 과학 벤치마크를 개발하고 유지하는 컨소시엄입니다. 이 벤치마크는 뉴욕대학교와 버지니아대학교의 고성능 컴퓨팅(HPC) 클러스터와 일반 데스크톱에서 수행됩니다. 클라우드 마스킹 벤치마크에 대한 설명과 함께 유니티가 수행한 벤치마크 실험에 대해 MLCommons에 제출한 요약본을 제공합니다. 여기에는 클라우드 마스킹 벤치마크의 참조 구현을 수정하여 조기 중지를 가능하게 하는 내용이 포함되어 있습니다. 이 벤치마크는 배치 큐잉 시스템을 통해 다양한 실험을 실행하는 동시에 훈련된 에포크 수를 변경할 수 있는 사용자 지정 배치 스크립트를 통해 NYU HPC에서 실행됩니다. 제출물에는 수정된 코드, 에포크 수정을 위한 사용자 지정 배치 스크립트, 문서, 벤치마크 결과가 포함되어 있습니다. NYU HPC Greene에서 달성한 최고 정확도(과학적 지표)와 훈련 및 추론에 소요된 평균 시간(성능 지표)을 보고합니다. 또한 한 시대에 대한 벤치마크를 실행하여 서로 다른 시스템 간의 컴퓨팅 성능을 비교한 결과도 제공합니다. 제출된 자료는 ML커먼스 과학 워킹 그룹에서 액세스할 수 있는 Globus 리포지토리에서 확인할 수 있습니다. [abs|pdf]

[74/82] Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement Learning

Keywords: diversity_search_gradient, policy_gradient_variation, enhance_policy_gradient
Abstract: 지능의 근본적인 특성은 주어진 문제를 해결하거나 예상치 못한 상황에 적응하기 위해 새롭고 창의적인 솔루션을 찾는 것입니다. 이를 반영한 품질 다양성 최적화는 다양하고 성능이 우수한 솔루션 모음을 생성하는 진화 알고리즘 제품군입니다. 이 중 MAP-Elites는 진화 로봇을 비롯한 다양한 분야에 성공적으로 적용된 대표적인 예입니다. 하지만 MAP-Elites는 유전 알고리즘에서 비롯된 무작위 돌연변이로 발산 검색을 수행하므로 저차원 솔루션의 진화 집단에 제한적으로 적용될 수 있습니다. PGA-MAP-Elites는 대규모 신경망의 진화를 가능하게 하는 심층 강화 학습에서 영감을 얻은 그래디언트 기반 변형 연산자를 사용하여 이러한 한계를 극복합니다. 많은 환경에서 높은 성능을 발휘하지만, 그라디언트 기반 변화 연산자의 수렴적 탐색이 다양성을 저해하는 몇 가지 작업에서 PGA-MAP-Elites는 실패합니다. (1) 다양성 탐색과 기울기 기반 방법을 조화시키는 설명자 조건부 비평으로 정책 기울기 변화 연산자를 개선하고, (2) 행위자 비평 훈련을 활용하여 추가 비용 없이 설명자 조건부 정책을 학습함으로써 모집단의 지식을 다양한 행동을 실행할 수 있는 하나의 다목적 정책으로 추출하고, (3) 네트워크 아키텍처의 차이에도 불구하고 설명자 조건부 행위자를 모집단에 주입하여 이를 활용합니다. 우리의 방법인 DCG-MAP-Elites는 7가지 까다로운 연속 제어 보행 작업에서 모든 기준선과 비교하여 동일하거나 더 높은 QD 점수와 커버리지를 달성합니다. [abs|pdf]

[75/82] Wake-Sleep Consolidated Learning

Keywords: sleep_consolidated_learning, hippocampus_sleep_phase, hippocampus_sleep
Abstract: 유니티는 지속적인 학습 환경에서 시각 분류 작업을 위한 심층 신경망의 성능을 향상시키기 위해 보완적 학습 시스템 이론과 인간 두뇌의 각성-수면 단계를 활용하는 학습 전략인 WSCL(Wake-Sleep Consolidated Learning)을 제안합니다. 이 방법은 각기 다른 각성 단계와 수면 단계 간의 동기화를 통해 지속적으로 학습합니다. 각성 단계에서는 모델이 감각 입력에 노출되어 표현을 조정하고, 동적 매개변수 고정 메커니즘을 통해 안정성을 보장하며, 해마에서 일어나는 것과 유사하게 단기 임시 기억에 에피소드 기억을 저장합니다. 수면 단계에서 훈련 과정은 NREM과 REM 단계로 나뉩니다. NREM 단계에서는 단기 및 장기 기억에서 재생된 샘플을 사용하여 모델의 시냅스 가중치를 통합하고 시냅스 가소성 메커니즘을 활성화하여 중요한 연결은 강화하고 중요하지 않은 연결은 약화시킵니다. REM 단계에서는 모델이 이전에 보지 못했던 현실적인 시각적 감각 경험에 노출되고, 꿈꾸는 과정이 활성화되어 잠재적인 특징 공간을 탐색함으로써 미래 지식에 대한 시냅스를 준비합니다. 세 가지 벤치마크 데이터 세트에 대한 접근 방식의 효과를 평가합니다: CIFAR-10, Tiny-ImageNet, FG-ImageNet입니다. 모든 경우에서 우리의 방법은 기준선 및 이전 작업보다 성능이 뛰어나며, 지속적인 시각적 분류 작업에서 상당한 성능 향상을 가져옵니다. 또한, 모든 처리 단계의 유용성과 긍정적인 전방 전이를 가능하게 하는 드림의 중요성을 입증합니다. [abs|pdf]

[76/82] MATE-Pred: Multimodal Attention-based TCR-Epitope interaction Predictor

Keywords: receptors_epitopes_binding, epitopes_binding_affinity, receptors_epitope_sequences
Abstract: T세포 수용체와 에피토프 간의 정확한 결합 친화도 예측은 성공적인 면역 치료 전략을 개발하는 데 결정적인 기여를 합니다. 일부 최신 계산 방법은 진화적 특징을 통합하여 세포 수용체와 에피토프 서열의 아미노산 잔기를 수치로 변환하는 딥러닝 기법을 구현하는 반면, 일부 다른 방법은 사전 학습된 언어 모델을 사용하여 아미노산 잔기 수준에서 임베딩 벡터를 요약하여 서열별 표현을 얻습니다.
여기서는 T세포 수용체와 에피토프 결합 친화도에 대한 다중 모드 주의 기반 예측을 수행하는 신뢰성 높은 새로운 방법인 MATE-Pred를 제안합니다. MATE-Pred는 T세포 수용체와 에피토프의 다중 모드 표현을 활용하는 다른 딥러닝 모델과 비교 및 벤치마킹됩니다. 제안된 방법에서 단백질의 텍스트 표현은 사전 훈련된 양방향 인코더 모델에 포함되며, 두 가지 추가 양식, 즉 a) 선택된 물리화학적 특성의 포괄적인 세트, b) 서열의 아미노산 잔기 사이의 3D 거리를 추정하는 예측된 접촉 지도와 결합됩니다.
MATE-Pred는 최첨단 성능(기준선 대비 +8.4% MCC, +5.5% AUC)을 달성하고 아미노산 잔기에서 맥락적, 물리화학적, 구조적 정보를 효율적으로 포착하는 데 있어 멀티모달 모델의 잠재력을 보여줍니다. MATE-Pred의 성능은 다양한 신약 개발 체계에서 잠재적인 적용 가능성을 보여줍니다. [abs|pdf]

[77/82] SAM4UDASS: When SAM Meets Unsupervised Domain Adaptive Semantic Segmentation in Intelligent Vehicles

Keywords: semantic_segmentation_driving, segmentation_driving_scenes, unsupervised_domain_adaptation
Abstract: 시맨틱 세분화는 지능형 차량이 주변 환경을 이해하는 데 중요한 역할을 합니다. 그러나 딥러닝 기반 방법은 일반적으로 학습을 위한 레이블이 지정된 데이터가 부족하기 때문에 도메인 이동 시나리오에서 성능이 저하됩니다. 다양한 주행 장면 간의 격차를 해소하고 레이블이 지정되지 않은 대상 환경에서 모델 성능을 향상시키기 위해 비지도 도메인 적응(UDA) 기술이 등장했습니다. 자가 학습 UDA 방법은 최첨단 결과를 달성했지만, 정확한 의사 라벨을 생성해야 하는 과제는 여전히 남아 있습니다. 이러한 유사 레이블은 다수의 클래스를 선호하는 경향이 있어 결과적으로 드문 클래스나 신호등, 표지판과 같은 작은 오브젝트의 성능이 저하됩니다. 이러한 문제를 해결하기 위해 유니티는 의사 레이블을 개선하기 위한 자가 학습 UDA 방법에 세그먼트 애니띵 모델(SAM)을 통합하는 새로운 접근 방식인 SAM4UDASS를 도입했습니다. 여기에는 UDA 의사 라벨을 사용해 라벨이 없는 SAM 마스크에 시맨틱 라벨을 할당하는 시맨틱 가이드 마스크 라벨링이 포함됩니다. 또한 SAM 마스크와 타깃 도메인 간의 의미적 세분성 불일치를 완화하기 위한 융합 전략을 고안합니다. SAM4UDASS는 주행 장면에서 의미론적 세분화를 위해 SAM과 UDA를 혁신적으로 통합하고 기존의 자가 학습 UDA 방법론을 원활하게 보완합니다. 합성-실제 및 정상-역주행 데이터 세트에 대한 광범위한 실험을 통해 그 효과가 입증되었습니다. DAFormer를 사용하면 GTA5에서 도시 풍경으로, 합성에서 도시 풍경으로, 도시 풍경에서 ACDC로 3% 이상의 mIoU 향상을 가져오고 MIC를 사용하면 SOTA를 달성할 수 있습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[78/82] Automatic extraction and 3D reconstruction of split wire from point cloud data based on improved DPC algorithm

Keywords: cloud_data_split, cloud_data_splitting, reconstruction_point_cloud
Abstract: DPC 알고리즘으로 개선된 포인트 클라우드 데이터 분할 문제를 해결하기 위해 포인트 클라우드 데이터 분할선의 자동 분리 및 3차원 재구성에 대한 연구를 제안합니다. 첫째, 클라우드 포인트 내 각 점의 상대 좌표를 계산합니다. 둘째, 클라우드 콘텐츠의 모든 부분을 결정하기 위해 분리선 수를 분석하기 위한 상대 앙상블 기반 DPC 군집 알고리즘을 개발할 계획입니다. 마지막으로 최소 제곱법을 사용하여 각 분리선을 맞춥니다. 결과 분할 서브 컨덕터의 클라우드 포인트는 명확한 경계선을 가지며 인접한 분할 서브 컨덕터 사이의 거리는 정사각형의 네 꼭지점으로 나눈 0.45m입니다. [abs|pdf]

[79/82] From Conceptual Spaces to Quantum Concepts: Formalising and Learning Structured Conceptual Models

Keywords: spaces_conceptual_representations, conceptual_spaces_cognition, conceptual_spaces
Abstract: 이 글에서는 개념 공간의 범주 이론적 일반화를 사용하여 구조화된 개념에 대한 새로운 모델링 프레임워크를 제시하고, 매우 다른 두 가지 인스턴스, 즉 클래식과 퀀텀을 사용하여 데이터로부터 개념 표현을 자동으로 학습하는 방법을 보여줍니다. 이 연구의 가장 큰 공헌은 우리 프레임워크의 철저한 범주 이론적 형식화입니다. 우리는 범주 이론의 사용, 특히 양자 프로세스를 설명하기 위해 스트링 다이어그램을 사용하는 것이 우리 접근 방식의 가장 중요한 특징 중 일부를 설명하는 데 도움이 된다고 주장합니다. 우리는 볼록 공간을 사용하여 인식을 기하학적으로 모델링하고, 이를 다시 도메인이라는 더 단순한 공간으로 분해하는 가든포스의 고전적인 개념적 공간 프레임워크를 기반으로 합니다. 우리는 모양, 색상, 크기, 위치 영역의 개념을 고전적 구현에서는 가우시안으로, 양자 구현에서는 양자 효과로 표현되는 단순한 도형의 이미지에서 어떻게 개념을 학습할 수 있는지 보여줍니다. 클래식의 경우 개념의 베타-VAE 모델에서 영감을 받았지만 언어와 더 밀접하게 연결되도록 설계된 새로운 모델을 개발하여 개념의 이름이 그래픽 모델의 일부를 형성하도록 했습니다. 퀀텀의 경우, 개념은 개념 분류를 수행하도록 훈련된 하이브리드 클래식-퀀텀 네트워크에 의해 학습되며, 여기서 클래식 이미지 처리는 컨볼루션 신경망에 의해 수행되고 양자 표현은 매개변수화된 양자 회로에 의해 생성됩니다. 마지막으로, 개념의 양자 모델이 가든포스의 의미에서 개념 공간으로 간주될 수 있는지에 대한 문제를 고려합니다. [abs|pdf]

[80/82] Nahid: AI-based Algorithm for operating fully-automatic surgery

Keywords: detect_endometriosis_surgery, trained_detect_endometriosis, detect_endometriosis
Abstract: 이 논문에서는 소프트웨어와 컴퓨터 비전 기술을 기반으로 완전 자동화된 수술을 제공할 수 있는 방법을 처음으로 제시합니다. 그런 다음 의료 수술의 컴퓨터화의 장점과 과제를 살펴봅니다. 마지막으로, 고립된 난소 자궁내막증 질환과 관련된 수술을 살펴보고, 제시된 방법을 기반으로 수술 중 자궁내막증을 감지하도록 U-넷을 학습시키는 제안된 방법의 증거로서 수술 중 이 질환을 자동으로 진단하고 치료할 수 있는 보다 상세한 알고리즘을 제시한다. [abs|pdf]

[81/82] Temporal Embeddings: Scalable Self-Supervised Temporal Representation Learning from Spatiotemporal Data for Multimodal Computer Vision

Keywords: multimodal_learning_geospatial, geospatial_activity_temporal, areas_temporal_embeddings
Abstract: 지리공간 활동의 시간적 패턴과 토지 이용 유형 사이에는 상관관계가 존재합니다. 이동성 활동 시계열을 기반으로 지형을 계층화하기 위한 새로운 자기 지도 방식이 제안됩니다. 먼저 시계열 신호를 주파수 영역으로 변환한 다음, 시계열에서 관찰되는 주기적 시간 패턴을 보존하는 수축 자동 인코더를 통해 작업에 구애받지 않는 시간적 임베딩으로 압축합니다. 픽셀 단위의 임베딩은 이미지와 같은 채널로 변환되어 심층 시맨틱 세분화를 사용하여 다운스트림 지리공간 작업의 작업 기반 멀티모달 모델링에 사용할 수 있습니다. 실험 결과, 시간적 임베딩은 시계열 데이터의 의미론적으로 의미 있는 표현이며 주거 지역과 상업 지역 분류와 같은 다양한 작업에 효과적이라는 것이 밝혀졌습니다. 시간적 임베딩은 순차적인 시공간적 모션 궤적 데이터를 의미론적으로 의미 있는 이미지와 같은 텐서 표현으로 변환하고, 이를 이미지와 같은 텐서 표현으로 변환할 수 있는 다른 데이터 양식(예: RBG 이미지, 도로망의 그래프 임베딩, SAR과 같은 수동적으로 수집된 이미지 등)과 결합(멀티모달 융합)하여 지리공간 컴퓨터 비전에서 멀티모달 학습을 용이하게 해줍니다. 멀티모달 컴퓨터 비전은 지리공간 특징 감지를 위한 머신러닝 모델을 훈련하여 지리공간 매핑 서비스를 실시간으로 최신 상태로 유지하는 데 매우 중요하며, 사용자 경험과 무엇보다도 사용자 안전을 크게 개선할 수 있습니다. [abs|pdf]

[82/82] Curve-based Neural Style Transfer

Keywords: parametric_style_transfer, imagenet_sketch_enhancing, neural_style_transfer
Abstract: 이 연구에서는 커브 기반 디자인 스케치를 위해 특별히 설계된 새로운 파라메트릭 스타일 전송 프레임워크를 소개합니다. 이 연구에서는 바이너리 스케치 변환을 처리할 때 신경 스타일 전송 방식이 직면했던 기존의 문제를 파라메트릭 모양 편집 규칙, 효율적인 곡선-픽셀 변환 기법, ImageNet-Sketch에서 VGG19의 미세 조정을 통해 효과적으로 해결하여 정밀한 스타일 추출을 위한 피처 피라미드 네트워크로서의 역할을 향상시켰습니다. 이 연구는 직관적인 곡선 기반 이미지와 규칙 기반 편집을 조화시킴으로써 디자인 표현력을 크게 향상시키고 제품 디자인 영역에서 스타일 전달 방식을 개선할 수 있는 잠재력을 지니고 있습니다. [abs|pdf]