프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-23]

다각 2024. 2. 16. 22:04

[1/137] On-Time Delivery in Crowdshipping Systems: An Agent-Based Approach Using Streaming Data

Keywords: parcel_delivery_crowds, delivery_modes_crowdshipping, crowdshipping_time_sensitive
Abstract: 소포 배송에서 소포 허브에서 고객까지의 '라스트 마일'은 특히 도착 후 몇 시간 내에 완료해야 하는 시간에 민감한 배송 작업의 경우 많은 비용이 발생합니다. 최근 크라우드 배송이 기존 배송 방식의 새로운 대안으로 주목받고 있습니다. 크라우드 배송에서는 개인 시민('군중')이 일상에서 잠시 시간을 내어 소정의 인센티브를 받고 택배 배송에 기여합니다. 하지만 크라우드가 매우 역동적이고 자율적이고 이기적인 개인들로 구성되어 있기 때문에 바람직한 크라우드 행동을 유도하는 것은 쉽지 않습니다. 시간에 민감한 배송에 크라우드 배송을 활용하는 것은 여전히 미해결 과제로 남아 있습니다. 이 백서에서는 군중을 이용한 정시 택배 배송에 대한 에이전트 기반 접근 방식을 제시합니다. 저희 시스템은 택배기사의 스마트폰 센서 데이터에 대한 데이터 스트림 처리를 수행하여 배송 지연을 예측합니다. 지연이 예측될 때마다 시스템은 현재 배송업체에서 근처에 있는 더 유망한 배송업체로 소포를 이전하기 위한 계약을 체결하려고 시도합니다. 실험 결과, 정확한 지연 예측과 의도적인 작업 이관을 통해 이러한 접근 방식 없이도 발생할 수 있는 많은 지연을 방지할 수 있는 것으로 나타났습니다. [abs|pdf]

[2/137] Considerations on Approaches and Metrics in Automated Theorem Generation/Finding in Geometry

Keywords: discovery_geometric_theorems, interestingness_geometric_theorems, produce_interesting_theorems
Abstract: 자동화된 추론 프로그램이 새롭고 흥미로운 정리를 생성하고 발견할 수 있도록 식별할 수 있는 속성이 무엇인지 탐구하는 것은 흥미로운 연구 목표입니다(말장난의 의도). 새로운 정리를 자동으로 발견하는 것은 그 자체로 하나의 목표이며, 다양한 방법으로 특정 영역에서 다루어져 왔습니다. 흥미롭지 않고 사소한 사실인 '잡초'와 새롭고 흥미로운 사실인 '밀'을 분리하는 것은 훨씬 더 어렵지만, 여러 저자가 다양한 접근 방식을 사용하여 다루고 있습니다. 이 백서에서는 기하학에 초점을 맞출 것입니다. 기하학적 정리(및 특성)의 자동 발견을 위한 다양한 접근 방식과 생성된 모든 정리 중에서 흥미로운 정리를 찾기 위한 다양한 메트릭을 제시하고 논의합니다. 이러한 설명 후에 이 글의 첫 번째 결과인 정리를 생성하는 모든 가능한 튜링 머신에 대해 흥미로운 정리도 생성할 수 있는지 여부를 결정하는 알고리즘 절차를 갖는 것이 결정 불가능한 문제임을 증명하는 결정 불가능성 결과를 소개합니다. 따라서 정리 증명자가 흥미로운 정리를 생성할 수 있는지 여부를 판단하는 것은 비결정적인 작업이며, 기껏해야 휴리스틱 기준에 따라 알고리즘에 기반한 프로그램으로 해결할 수 있는 작업이라고 주장할 것입니다. 따라서 인간으로서 이 과제를 해결하기 위해서는 흥미로운 기하학적 정리의 정리 증명자/발견자가 무엇인지 밝히는 전문가 설문조사와 이러한 분석을 가능하게 하는 기하학적 정리의 흥미도와 관련된 지표 및 접근법을 명확히 하는 다른 설문조사가 필요합니다. 이 글의 결론에서는 이러한 설문조사 중 두 가지 조사(이 글의 두 번째 결과)의 구조를 소개하고 향후 작업에 대해 논의할 것입니다. [abs|pdf]

[3/137] Automation of Triangle Ruler-and-Compass Constructions Using Constraint Solvers

Keywords: triangle_construction_solver, construction_solver_argotrics, construction_solver
Abstract: 이 논문에서는 유한 도메인 제약 조건 솔버를 사용하여 삼각형 자 및 나침반 구성 문제를 자동으로 해결하는 방법을 제시합니다. 제약 조건 모델은 MiniZinc 모델링 언어로 설명되며, 자동화된 계획에 기반합니다. 이러한 목적으로 전용 도구를 개발하는 대신 일반 제약 조건 솔버를 사용할 때의 주요 이점은 솔버 내에서 이미 구현된 효율적인 검색에 의존하여 문제의 기하학적 측면에 집중할 수 있다는 것입니다. 또한 솔버에 내장된 최적화 기능을 사용하여 가능한 가장 짧은 구조를 검색할 수도 있습니다. 베르닉 목록에서 74개의 풀 수 있는 문제에 대해 우리의 접근 방식을 평가하고 전용 삼각형 구성 솔버인 ArgoTriCS와 비교했습니다. 그 결과 우리의 접근 방식은 전용 도구와 비슷하면서도 구현하는 데 훨씬 적은 노력이 필요하다는 것을 알 수 있었습니다. 또한 우리 모델은 제약 조건 솔버가 제공하는 최적화 기능 덕분에 더 짧은 구조를 찾는 경우가 많습니다. [abs|pdf]

[4/137] Automated Completion of Statements and Proofs in Synthetic Geometry: an Approach based on Constraint Solving

Keywords: incomplete_proofs_framework, conjectures_incomplete_proofs, proofs_framework
Abstract: 추측과 정리의 증명은 수학적 활동의 중심에 있는 활동으로 분리하기 어렵습니다. 이 논문에서는 불완전한 추측과 불완전한 증명을 완성하기 위한 프레임워크를 제안합니다. 이 프레임워크는 가정이 누락되고 목표가 명확하지 않은 추측을 적절한 정리로 바꿀 수 있습니다. 또한, 제안된 프레임워크는 증명 스케치를 사람이 읽을 수 있고 기계가 검사할 수 있는 증명으로 완성하는 데 도움이 될 수 있습니다. 우리의 접근 방식은 합성 기하학에 초점을 맞추고 있으며 일관된 논리와 제약 조건 해결을 사용합니다. 제안된 접근 방식은 세 가지 종류의 작업 모두에 대해 균일하고 유연하며, 우리가 알기로는 이러한 접근 방식이 유일합니다. [abs|pdf]

[5/137] Toward Semantic Interoperability of Electronic Health Records

Keywords: ontology_ehr_related, ontology_ehr, canonical_ontology_ehr
Abstract: 많은 연구자들이 전자 건강 기록(EHR)의 의미론적 상호운용성을 달성하려는 목표를 추구하고 있지만, 아직 달성하지 못하고 있습니다. 본 논문에서는 이러한 목표 달성에 한 걸음 더 다가갈 수 있는 제안을 제시합니다. 특히 본 연구는 의료 진단서에 초점을 맞추고 있습니다. 온톨로지 기반 제안의 주요 기여를 요약하면 다음과 같습니다. 첫째, EHR 관련 용어가 의미론적 측면에 초점을 맞춘 표준 온톨로지를 포함합니다. 그 결과, 그 설명은 여러 조직에서 EHR을 표현하기 위해 사용하는 언어 및 기술 측면과 독립적입니다. 또한 이러한 용어는 잘 알려진 의학 용어의 해당 코드와 관련이 있습니다. 둘째, 독점적인 의료 정보 시스템 모델에 의해 관리되는 EHR 정보의 풍부한 온톨로지 표현을 얻을 수 있는 모듈을 다룹니다. 특정 모듈의 특징이 참고 자료로 제시됩니다. 셋째, 소위 경로 매핑으로 강화된 온톨로지 용어 간에 필요한 매핑 공리를 고려합니다. 이 기능은 이기종 EHR 표현 간의 구조적 차이를 완화하여 정보를 적절히 정렬할 수 있도록 합니다. [abs|pdf]

[6/137] ExtruOnt: An ontology for describing a type of manufacturing machine for Industry 4.0 systems

Keywords: ontologies_describing_manufacturing, extruder_scope_ontology, extruont_ontology_provide
Abstract: 기계가 해석할 수 있는 코드로 제공되는 제조 기계에 대한 의미론적으로 풍부한 설명은 인더스트리 4.0 시나리오에서 흥미로운 이점을 제공할 수 있습니다. 그러나 이러한 유형의 설명이 부족한 것은 분명합니다. 이 백서에서는 제조 기계 유형, 더 정확하게는 압출 공정(압출기)을 수행하는 유형을 설명하기 위해 ExtruOnt라는 온톨로지를 구축하기 위해 수행한 개발 노력을 소개합니다. 이 온톨로지의 범위는 구체적인 도메인으로 제한되어 있지만, 인더스트리 4.0 시나리오에서 제조 기계를 설명하기 위한 다른 온톨로지 개발을 위한 모델로 사용될 수 있습니다. 익스트루온트 온톨로지의 용어는 압출기와 관련된 다양한 유형의 정보를 제공하며, 이는 온톨로지를 구성하는 개별 모듈에 반영됩니다. 따라서 여기에는 압출기의 구성 요소, 공간 연결, 특징 및 해당 구성 요소의 3D 표현, 마지막으로 이러한 유형의 기계 성능에 대한 지표를 캡처하는 데 사용되는 센서에 대한 설명을 표현하는 클래스와 속성이 포함되어 있습니다. 온톨로지 개발 프로세스는 도메인 전문가와의 긴밀한 협업을 통해 수행되었습니다. [abs|pdf]

[7/137] From Knowledge Organization to Knowledge Representation and Back

Keywords: knowledge_organization_ko, organization_ko_knowledge, knowledge_organization
Abstract: 지식 조직(KO)과 지식 표현(KR)은 각각 정보 과학 커뮤니티와 인공 지능 커뮤니티에서 지식 모델링의 두 가지 주류 방법론으로 자리 잡았습니다. KO의 패싯 분석적 전통은 지식을 조직하고 관리할 때 품질을 보장하기 위한 철저한 지침을 개발했지만, 서지학적 지식 세계를 넘어 그 범위와 서비스를 확장하기 위한 기술 중심의 활동이라는 측면에서 여전히 제한적입니다. 반면, KR은 지식의 모든 개체를 모델링하거나 전체 지식 유니버스의 모든 서비스로 확장할 수 있는 강력한 기술 생태계와 기술 중심의 서비스 설계를 자랑합니다. 이 논문에서는 패싯 분석적 KO 방법론과 KR 방법론을 자세히 설명하고 두 방법론 간의 기능적 매핑을 제공합니다. 이 논문은 매핑을 통해 KO 방법론의 모든 표준 구성 요소와 KR 접근 방식이 제공하는 고급 기술을 갖춘 통합된 KR 강화 KO 방법론을 제안합니다. 방법론 통합의 실질적인 이점은 이탈리아 트렌토 대학교의 디지털 대학교의 대표적 적용 사례를 통해 입증되었습니다. [abs|pdf]

[8/137] Taxi dispatching strategies with compensations

Keywords: taxi_assignment_customers, algorithm_taxi_assignment, taxi_assignment
Abstract: 대도시에서는 도시 이동성 효율성이 가장 중요합니다. 택시 차량은 일상적인 교통 활동의 핵심 요소입니다. ICT 및 지리적 위치추적 시스템의 발전은 보다 정보에 입각한 지능형 배차를 통해 승객의 대기 시간, 운전자의 비용과 시간, 교통 밀도, CO2 배출량 등의 측면에서 택시 차량의 효율성을 개선할 수 있는 새로운 기회를 창출했습니다. 하지만 대도시에서 승객과 택시를 연결하는 문제의 명시적인 공간적, 시간적 요소와 규모, 특히 역동성은 표준 할당 문제를 해결하기 위한 기존의 접근 방식을 쓸모없게 만들고 도메인별 휴리스틱에 기반한 지능형 근사화 전략이 필요합니다. 게다가 택시 기사들은 종종 자율적인 행위자이기 때문에 전체적으로 효율적이기는 하지만 개별적으로는 충분히 이득이 되지 않을 수 있는 할당에 동의하지 않을 수 있습니다. 이 논문에서는 고객에게 택시를 배정하는 새로운 휴리스틱 알고리즘을 제시하고, 이를 통해 전체적으로 더 나은 솔루션으로 이어질 수 있는 경우 택시 재배정을 고려합니다. 또한 이러한 새로운 배정은 개별 운전자의 기대 수익을 감소시킬 수 있으므로, 개별적으로 합리적인 운전자가 배정된 고객의 변경 제안에 동의하도록 하는 경제적 보상 체계를 제안합니다. 일반적으로 사용되는 몇 가지 배정 전략을 휴리스틱 알고리즘의 세 가지 다른 인스턴스와 비교하는 일련의 실험을 수행했습니다. 그 결과, 우리의 제안이 자율주행 택시 차량의 고객 대기 시간을 줄일 수 있는 잠재력이 있으며 경제적 관점에서도 이득이 된다는 것을 알 수 있었습니다. [abs|pdf]

[9/137] Abstract Weighted Based Gradual Semantics in Argumentation Theory

Keywords: gradual_semantics_acceptability, argument_weights_acceptability, weighted_gradual_semantics
Abstract: 가중 점진적 의미론은 각 논증에 대해 논증의 강도를 나타내는 수용 가능성 정도를 제공하며, 이는 논증에 대한 배경 증거를 포함한 요소를 기반으로 계산되고 이 논증과 다른 논증 간의 상호작용을 고려합니다. 점진적 의미론과 수용 가능성 정도를 연결하는 네 가지 중요한 문제를 소개합니다. 첫째, 논증 프레임워크의 논증 가중치를 파악하여 특정 최종 수용 가능성 정도를 도출하는 역문제를 재검토합니다. 둘째, 인수 가중치와 수용 가능성 정도 사이의 함수 매핑이 주입식인지 아니면 그 이미지에 대한 동형인지 묻습니다. 셋째, 인자의 수용 가능성 정도가 아닌 선호도를 고려할 때 인자 가중치를 찾을 수 있는지 여부를 묻습니다. 넷째, 유효한 수용가능도 공간의 위상을 고려하여 이 공간에 틈이 존재하는지 여부를 묻습니다. 문헌에서 다양한 점진적 의미론이 제안되었지만, 본 논문에서는 추상적 가중치 기반 점진적 의미론이라고 하는 대규모의 가중치 기반 점진적 의미론 계열을 식별합니다. 이는 고유한 고정점으로의 수렴과 같은 바람직한 특성을 유지하면서 기존의 많은 의미론을 일반화합니다. 또한 추상 가중 (Lp, 람다, 뮤, A) 기반 점진적 의미론이라고 불리며 잘 알려진 의미론을 포함하는 가중 점진적 의미론의 하위 계열이 앞서 언급한 네 가지 문제를 모두 해결한다는 것을 보여 줍니다. [abs|pdf]

[10/137] TypeDance: Creating Semantic Typographic Logos from Image through Personalized Generation

Keywords: semantic_typographic_logos, semantic_typographic_logo, typographic_logos_harmoniously
Abstract: 의미론적 타이포그래피 로고는 서체와 이미지를 조화롭게 혼합하여 가독성을 유지하면서 의미론적 개념을 표현합니다. 공간 구성과 형태 치환을 사용하는 기존 방식은 기하학적으로 서로 다른 서체와 의미 사이의 완벽한 공간적 융합을 달성해야 하는 상충되는 요구 사항으로 인해 어려움을 겪었습니다. 최근의 발전으로 의미론적 타이포그래피의 AI 생성이 가능해졌지만, 이러한 엔드투엔드 접근 방식은 디자이너의 개입을 배제하고 개인화된 디자인을 무시합니다. 이 백서에서는 개인화된 시맨틱 타이포그래피 로고 디자인을 위한 생성 모델에 디자인 논리를 통합한 AI 지원 도구인 TypeDance를 소개합니다. 이 도구는 업로드된 이미지 예시에서 추출한 조합 가능한 디자인 전제를 활용하고 다양한 구조적 세분성에서 유형-이미지 매핑을 지원하여 유연한 제어로 다양한 미적 디자인을 구현합니다. 또한 아이디어 발상, 선택, 생성, 평가, 반복을 포함한 포괄적인 디자인 워크플로우를 타입댄스에서 인스턴스화합니다. 모방과 생성을 포함한 두 가지 작업의 사용자 평가를 통해 다양한 사용 시나리오에서 TypeDance의 디자인 유용성을 확인했습니다 [abs|pdf]

[11/137] MacroSwarm: A Field-based Compositional Framework for Swarm Programming

Keywords: swarm_behaviour_engineering, expressing_swarm_behaviour, idea_expressing_swarm
Abstract: 군집 행동 공학은 패턴 형성, 집단 이동, 클러스터링, 분산 감지 등 복잡한 글로벌 목표를 달성하기 위해 단순한 에이전트 그룹 내에서 계산과 행동을 조율하는 방법과 기술을 연구하는 분야입니다. 최근 드론, 로봇, 차량 등의 스웜 분석 및 엔지니어링에 대한 진전에도 불구하고, 복잡한 스웜 동작을 원칙적인 방식으로 정의하는 데 사용할 수 있는 일반적인 설계 및 구현 방법과 도구가 여전히 필요합니다. 이 글에서는 집단 연산과 조정을 포함하는 재사용 가능하고 완전히 컴포저블한 기능 블록의 관점에서 스웜 동작을 설계하고 프로그래밍하는 새로운 필드 기반 조정 방식인 매크로스웜(MacroSwarm)을 제안합니다. 매크로스웜은 집합 컴퓨팅의 매크로 프로그래밍 패러다임을 기반으로 각 스웜 행동 블록을 감지 필드를 동작 목표 필드(예: 이동 벡터 포함)에 매핑하는 순수 함수로 표현하는 아이디어를 기반으로 합니다. 집단 지성을 위한 프레임워크로서 매크로스웜의 표현력, 구성성, 실용성을 입증하기 위해 유니티는 군집, 형태 형성, 집단 의사 결정의 일반적인 패턴을 다루는 다양한 시뮬레이션을 수행합니다. [abs|pdf]

[12/137] Even-if Explanations: Formal Foundations, Priorities and Complexity

Keywords: explanations_based_preferences, personalize_explanations_based, personalize_explanations
Abstract: 설명 가능한 AI는 최근 몇 년 동안 큰 주목을 받고 있습니다. 머신러닝 모델은 의사 결정 과정을 지원하면서도 설명 가능성과 투명성이 부족한 블랙박스처럼 작동하는 경우가 많습니다. 로컬 사후 설명가능성 쿼리는 특정 모델에서 개별 입력이 특정 방식으로 분류되는 이유에 대한 답변을 시도합니다. 반사실적 설명에 대한 중요한 연구가 진행되어 왔지만, 반사실적 설명에 대한 관심은 상대적으로 적었습니다. 이 논문에서는 준사실적 '만약'의 사고에서 국소적인 사후 설명 가능성 쿼리와 다양한 모델 클래스 간의 계산 복잡성에 초점을 맞추고, 선형 및 트리 기반 모델이 신경망보다 엄밀히 말해 해석 가능성이 더 높다는 것을 보여줍니다. 그런 다음, 준사실과 반사실 모두에서 사용자가 자신의 선호도에 따라 설명을 개인화할 수 있는 선호도 기반 프레임워크를 소개하여 해석 가능성과 사용자 중심성을 향상시킵니다. 마지막으로, 제안된 선호도 기반 프레임워크에서 여러 해석 가능성 문제의 복잡성을 살펴보고 다항식 사례에 대한 알고리즘을 제공합니다. [abs|pdf]

[13/137] A Review of Findings from Neuroscience and Cognitive Psychology as Possible Inspiration for the Path to Artificial General Intelligence

Keywords: architectures_cognitive_categorization, symbolic_architectures_cognitive, cognitive_architectures
Abstract: 이 리뷰는 신경과학과 인지심리학에서 영감을 얻을 수 있는 방법을 살펴봄으로써 인공 일반 지능에 대한 탐구에 기여하는 것을 목표로 합니다. 딥러닝 모델은 다양한 영역에서 인상적인 발전을 이루었음에도 불구하고 추상적 추론과 인과관계 이해에는 여전히 단점이 있습니다. 이러한 기능은 궁극적으로 인공지능 시스템에 통합되어 데이터 중심의 한계를 뛰어넘고 인간 지능과 더 유사한 방식으로 의사결정을 지원해야 합니다. 이 연구는 저수준의 생물학적 뉴런, 스파이크 신경망, 뉴런 앙상블부터 뇌 해부학, 벡터 기호 아키텍처, 인지 및 범주화 모델, 인지 아키텍처와 같은 고수준 개념에 이르기까지 뇌 기능에 대한 광범위한 탐구를 시도하는 수직적 검토입니다. 이러한 개념이 인공 지능의 솔루션에 대한 통찰력을 제공할 수 있기를 바랍니다. [abs|pdf]

[14/137] Retrieval-Guided Reinforcement Learning for Boolean Circuit Minimization

Keywords: logic_synthesis_unearthing, logic_synthesis_pivotal, logic_synthesis
Abstract: 칩 설계의 중추적인 단계인 로직 합성은 Verilog와 같은 하드웨어 설명 언어로 인코딩된 칩 사양을 부울 논리 게이트를 사용하여 고효율 구현으로 최적화하는 작업입니다. 이 과정에는 논리 최소화 휴리스틱('합성 레시피')을 순차적으로 적용하는 작업이 포함되며, 그 배열은 면적 및 지연과 같은 중요한 지표에 큰 영향을 미칩니다. 과거 설계의 변형(예: 가산기 및 승수)부터 완전히 새로운 구성(예: 혁신적인 프로세서 명령어)에 이르기까지 광범위한 설계 복잡성으로 인해 발생하는 문제를 해결하려면 인간의 전문성과 직관에 기반한 미묘한 '합성 레시피'가 필요합니다. 이 연구에서는 논리 합성을 위한 학습 및 검색 기법을 철저히 조사하여 사전 훈련을 받은 에이전트가 완전히 새로운 설계에 직면했을 때 경로를 이탈하여 검색 궤도에 악영향을 미칠 수 있다는 놀라운 사실을 발견했습니다. 저희는 검색 프로세스 중에 사전 학습된 에이전트의 추천을 능숙하게 조정하는 세심하게 조정된 $\alpha$ 매개변수인 ABC-RL을 소개합니다. 훈련 데이터 세트에서 가장 가까운 이웃 검색을 통한 유사성 점수를 기반으로 계산되는 ABC-RL은 다양한 하드웨어 설계에 맞는 우수한 합성 레시피를 생성합니다. 유니티의 연구 결과에 따르면 합성 회로의 결과 품질(QoR)이 크게 향상되어 최첨단 기술 대비 최대 24.8%까지 개선된 것으로 나타났습니다. 또한 ABC-RL은 현재의 최신 방법론과 비교했을 때 런타임을 최대 9배까지 단축(iso-QoR)하는 놀라운 성과를 달성했습니다. [abs|pdf]

[15/137] Unsupervised Machine Learning for the Classification of Astrophysical X-ray Sources

Keywords: astrophysical_sources_classification, extracting_astrophysical_information, stellar_objects_distinguishing
Abstract: X-선 검출의 자동 분류는 편집된 천체 물리학 소스 카탈로그에서 천체 물리학 정보를 추출하는 데 필요한 단계입니다. 분류는 개별 천체 연구, 집단 연구를 위한 통계뿐만 아니라 이상 현상 탐지, 즉 일시적 및 스펙트럼이 극단적인 광원을 포함한 새로운 미탐사 현상을 식별하는 데 유용합니다. 이 작업의 중요성에도 불구하고, X선 천문학에서 분류는 광학 대응 물체와 대표 훈련 세트의 부족으로 인해 여전히 어려운 과제입니다. 저희는 비지도 머신 러닝 접근법을 사용하여 광학 및 적외선 카탈로그의 보조 정보 없이 제한된 수의 레이블이 지정된 찬드라 광원 카탈로그 광원에 확률적 클래스를 제공하는 대안적 방법론을 개발했습니다. 우리는 총 14,507개의 검출로 구성된 8,756개의 천체에 대한 확률적 클래스 카탈로그를 제공하고, 이 방법이 젊은 항성 천체에서 나오는 방출을 식별하고 소규모 및 대규모 콤팩트 어클레터를 상당한 수준의 신뢰도로 구별하는 데 성공했음을 입증합니다. 우리는 분류된 천체들 사이의 특징 분포와 통합 AGN 모델과 같이 잘 정립된 천체물리학 가설 사이의 일관성을 조사합니다. 이를 통해 확률론적 분류기에 해석 가능성을 제공합니다. 코드와 표는 GitHub를 통해 공개적으로 사용할 수 있습니다. 독자들이 최종 분류를 살펴볼 수 있는 웹 놀이터(https://umlcaxs-playground.streamlit.app)도 제공합니다. [abs|pdf]

[16/137] OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

Keywords: manipulation_ok_robot, recognition_navigation_grasping, ok_robot_achieves
Abstract: 최근 몇 년 동안 시각, 언어, 로봇 공학 분야에서 괄목할 만한 발전이 있었습니다. 이제 언어 쿼리를 기반으로 물체를 인식할 수 있는 비전 모델, 모바일 시스템을 효과적으로 제어할 수 있는 내비게이션 시스템, 다양한 물체를 다룰 수 있는 파악 모델을 갖추게 되었습니다. 이러한 발전에도 불구하고 로봇공학의 범용 애플리케이션은 인식, 탐색, 파악이라는 기본적인 기능에 의존하고 있음에도 불구하고 여전히 뒤처져 있습니다. 이 백서에서는 시스템 우선 접근 방식을 채택하여 OK-Robot이라는 새로운 개방형 지식 기반 로봇 프레임워크를 개발합니다. 물체 감지를 위한 비전-언어 모델(VLM), 이동을 위한 내비게이션 기본 요소, 물체 조작을 위한 잡기 기본 요소를 결합하여 OK-Robot은 별도의 교육 없이도 픽 앤 드롭 작업을 위한 통합 솔루션을 제공합니다. 성능을 평가하기 위해 10개의 실제 가정 환경에서 OK-Robot을 실행했습니다. 그 결과 OK-Robot은 개방형 픽 앤 드롭 작업에서 58.5%의 성공률을 달성하여 이전 작업 대비 약 1.8배의 성능으로 개방형 어휘 모바일 조작(OVMM)의 새로운 지평을 열었습니다. 깔끔하고 정돈된 환경에서는 OK-Robot의 성능이 82%까지 향상됩니다. 그러나 OK-Robot을 통해 얻은 가장 중요한 인사이트는 VLM과 같은 오픈 지식 시스템을 로봇 모듈과 결합할 때 미묘한 디테일의 역할이 중요하다는 점입니다. 실험 동영상은 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[17/137] Text Embedding Inversion Attacks on Multilingual Language Models

Keywords: attacks_monolingual_counterparts, lingual_inversion_attacks, inversion_attacks_monolingual
Abstract: 텍스트 정보를 실제 번호가 매겨진 임베딩으로 표현하는 것은 NLP의 표준이 되었습니다. 게다가 대규모 언어 모델(LLM)에 대한 대중의 관심이 높아지면서 서비스형 임베딩(EaaS)이 비즈니스 모델로 빠르게 주목받고 있습니다. 이전 연구에 따르면 임베딩을 생성한 기본 모델에 대한 지식이 없어도 임베딩에서 민감한 데이터를 재구성할 수 있다는 사실이 입증되었기 때문에 보안 위험이 전혀 없는 것은 아닙니다. 그러나 이러한 작업은 영어에만 초점을 맞추기 때문에 다른 모든 언어는 악의적인 공격자의 공격에 취약할 수밖에 없습니다. 많은 다국적 기업이 EaaS를 활용함에 따라 다국어 LLM 보안에 대한 연구가 절실히 요구되고 있습니다. 이를 위해 본 연구에서는 다국어 임베딩 반전이라는 관점에서 LLM 보안에 대해 살펴봅니다. 구체적으로, 도메인 간 시나리오를 중심으로 블랙박스 다국어 및 언어 간 반전 공격의 문제를 정의합니다. 연구 결과에 따르면 다국어 모델이 단일 언어 모델보다 잠재적으로 역전 공격에 더 취약한 것으로 나타났습니다. 이는 기본 언어를 미리 알 수 없는 환경에서 비슷한 수준의 역전 성능을 달성하기 위한 데이터 요구 사항이 줄어들기 때문입니다. 우리가 알기로는 이 연구가 역전 공격의 맥락에서 다국어에 대해 조사한 최초의 연구이며, 연구 결과는 NLP 보안 분야에서 추가 조사와 강화된 방어가 필요하다는 점을 강조합니다. [abs|pdf]

[18/137] WARM: On the Benefits of Weight Averaged Reward Models

Keywords: averaged_reward_models, reward_models, reward_models_warm
Abstract: 강화 학습(RLHF)을 통해 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 것은 보상 해킹으로 이어질 수 있는데, LLM이 보상 모델(RM)의 오류를 악용하여 기본 목표를 달성하지 않고 겉보기에 높은 보상을 달성하는 것입니다. 유니티는 보상 해킹을 완화하기 위해 RM을 설계할 때 두 가지 주요 과제, 즉 RL 프로세스 중 분포의 변화와 사람 선호도의 불일치를 파악합니다. 이에 대한 해결책으로 먼저 여러 개의 RM을 미세 조정한 다음 가중치 공간에서 평균을 내는 가중평균 보상 모델(WARM)을 제안합니다. 이 전략은 동일한 사전 훈련을 공유할 때 미세 조정된 가중치가 선형적으로 연결된 상태를 유지한다는 관찰에 따른 것입니다. 가중치를 평균화함으로써 WARM은 기존의 예측 앙상블에 비해 효율성을 개선하는 동시에 분포 변화에 따른 신뢰성과 선호도 불일치에 대한 견고성을 향상시킵니다. 베스트 오브 N 및 RL 방법을 사용한 요약 작업에 대한 실험 결과, WARM은 LLM 예측의 전반적인 품질과 정렬을 개선하는 것으로 나타났습니다. 예를 들어, WARM으로 미세 조정된 정책 RL은 단일 RM으로 미세 조정된 정책 RL에 비해 79.4%의 승률을 보였습니다. [abs|pdf]

[19/137] Universal Neurons in GPT2 Language Models

Keywords: neurons_likely_interpretable, universality_individual_neurons, universal_neurons
Abstract: 새롭게 떠오르는 기계론적 해석 가능성 분야의 기본적인 질문은 신경망이 동일한 기본 메커니즘을 학습하는 정도입니다. 다시 말해, 신경 메커니즘이 여러 모델에 걸쳐 보편적인가 하는 것입니다 이 연구에서는 보편적인 뉴런은 해석 가능할 가능성이 높다는 가설에 착안하여, 서로 다른 초기 무작위 시드로부터 훈련된 GPT2 모델에서 개별 뉴런의 보편성을 연구합니다. 특히, 5개의 서로 다른 시드에 걸쳐 모든 뉴런 쌍에 대해 1억 개 이상의 토큰에 대한 뉴런 활성화의 쌍별 상관관계를 계산하여 1~5%의 뉴런이 보편적 뉴런, 즉 동일한 입력에서 일관되게 활성화되는 뉴런 쌍이라는 것을 발견했습니다. 그런 다음 이러한 보편 뉴런을 자세히 연구하여 일반적으로 명확한 해석을 가지고 있음을 발견하고 소수의 뉴런 군으로 분류합니다. 뉴런 가중치의 패턴을 연구하여 주의 집중 헤드 비활성화, 다음 토큰 분포의 엔트로피 변화, 다음 토큰이 특정 집합에 속할지 아닐지 예측하는 등 간단한 회로에서 뉴런의 몇 가지 보편적인 기능적 역할을 확립하는 것으로 결론을 내립니다. [abs|pdf]

[20/137] DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Keywords: text_music_diffusion, music_diffusion_models, music_diffusion
Abstract: 우리는 초기 노이즈 잠복을 최적화하여 추론 시간에 사전 훈련된 텍스트-음악 확산 모델을 제어하기 위한 범용 프레임워크인 확산 추론 시간 T-최적화(DITTO)를 제안합니다. 이 방법은 목표(양식화된) 출력을 달성하기 위해 차별적인 특징 매칭 손실을 통해 최적화하는 데 사용할 수 있으며 메모리 효율성을 위해 그라데이션 체크포인트를 활용합니다. 기본 모델을 미세 조정하지 않고도 인페인팅, 아웃페인팅, 루핑은 물론 강도, 멜로디, 음악 구조 제어 등 음악 생성을 위한 놀랍도록 광범위한 애플리케이션을 시연합니다. 관련 트레이닝, 안내 및 최적화 기반 방법과 비교했을 때 DITTO는 제어 가능성, 오디오 품질 및 계산 효율성 측면에서 비교 가능한 접근 방식을 능가하는 등 거의 모든 작업에서 최첨단 성능을 달성하여 고품질의 유연하고 트레이닝이 필요 없는 확산 모델 제어의 문을 열었습니다. 사운드 예제는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[21/137] In-Context Learning for Extreme Multi-Label Classification

Keywords: classification_program_optimized, classification_problems_thousands, optimized_separately_task
Abstract: 언어 모델(LM)이 정확한 클래스나 클래스 할당 방법에 대한 사전 지식이 부족할 수 있고, 일반적으로 모든 클래스를 프롬프트에서 시연하는 것은 불가능하기 때문에 수천 개의 클래스가 있는 다중 레이블 분류 문제는 문맥 내 학습만으로는 해결하기 어렵습니다. 우리는 이러한 문제를 효율적으로 해결하기 위해 LM과 검색기 간의 다단계 상호작용을 정의하는 일반 프로그램인 $Infer--Retrieve--Rank$를 제안합니다. 우리는 선언적 방식으로 컨텍스트 내 시스템을 지정하는 $DSPy$ 프로그래밍 모델을 사용해 이 프로그램을 구현하고, $DSPy$ 최적화 도구를 사용해 수십 개의 짧은 예제만 부트스트랩하여 특정 데이터 세트에 맞게 프로그램을 조정합니다. 각 작업에 대해 개별적으로 최적화된 기본 극한 분류 프로그램은 세 가지 벤치마크(HOUSE, TECH, TECHWOLF)에서 최첨단 결과를 달성합니다. 우리는 동일한 프로그램을 매우 다른 특성을 가진 벤치마크(바이오덱스)에도 적용하여 경쟁력 있는 성능을 달성했습니다. 우리가 제안한 솔루션은 이전 작업과 달리 미세 조정이 필요 없고, 새로운 작업에 쉽게 적용할 수 있으며, 신속한 엔지니어링이 가능하고, 라벨링된 예제 수십 개만 있으면 됩니다. 이 https URL에서 코드를 공개합니다. [abs|pdf]

[22/137] Broiler-Net: A Deep Convolutional Framework for Broiler Behavior Analysis in Poultry Houses

Keywords: tracking_individual_chickens, chicken_detection_utilizing, chicken_detection
Abstract: 양계장의 이상 행동을 감지하는 것은 닭의 건강 상태를 최적으로 유지하고 경제적 손실을 최소화하며 수익성을 강화하는 데 매우 중요합니다. 이 백서에서는 케이지가 없는 가금류 사육장에서 닭의 행동을 실시간으로 분석하여 이상 행동을 감지하는 새로운 프레임워크를 제시합니다. 특히 이 연구에서는 비활동성 육계와 허들링 행동이라는 두 가지 중요한 이상 행동에 대해 조사합니다. 제안하는 프레임워크는 크게 세 단계로 구성됩니다: (1) 최첨단 딥러닝 모델을 활용한 닭 감지, (2) 패스트 트래커 모듈로 연속된 프레임에서 개별 닭 추적, (3) 비디오 스트림 내에서 이상 행동 감지. 닭의 행동을 정확하게 평가하는 데 있어 제안된 알고리즘의 효율성을 평가하기 위해 실험 연구를 수행했습니다. 그 결과, 프레임워크가 실시간 이상 행동 감지를 위한 정확하고 효율적인 솔루션을 제공하여 닭의 건강을 유지하고 양계장의 전반적인 생산성을 향상시키기 위한 적시 개입을 용이하게 한다는 것을 보여줍니다. 깃허브: 이 https URL [abs|pdf]

[23/137] Natural Strategic Ability in Stochastic Multi-Agent Systems

Keywords: coalition_restricted_deterministic, restricted_deterministic_strategies, deterministic_strategies
Abstract: 공식적인 방법을 사용하여 합성된 전략은 복잡할 수 있으며 종종 무한한 메모리를 필요로 하기 때문에 다중 에이전트 시스템(MAS)을 모델링할 때 예상되는 행동과 일치하지 않을 수 있습니다. 이러한 행동을 포착하기 위해 최근에 제안된 자연 전략은 에이전트의 메모리 전략 능력과 모델 확인 복잡성 사이의 균형을 맞추기 위한 프레임워크이지만, 지금까지는 완전히 결정론적인 설정으로 제한되어 있었습니다. 이 논문에서는 처음으로 자연 전략(각각 NatPATL 및 NatPATL) 하에서 확률적 시간 논리 PATL과 PATL을 고려합니다. 주요 결과로서, 확률적 MAS에서 활성 연합이 결정론적 전략으로 제한될 때 NatPATL 모델 검사가 NP-완전하다는 것을 보여줍니다. 또한 동일한 제한을 적용했을 때 NatPATL에 대해 2NEXPTIME 복잡도 결과를 제공합니다. 제한이 없는 경우, NatPATL의 경우 EXPSPACE 복잡도를, NatPATL의 경우 3EXPSPACE 복잡도를 제공합니다. [abs|pdf]

[24/137] Dynamic Semantic Compression for CNN Inference in Multi-access Edge Computing: A Graph Reinforcement Learning-based Autoencoder

Keywords: cnn_architecture_aecnn, offloading_cnn_inference, cnns_compress_intermediate
Abstract: 본 논문에서는 동적 멀티 액세스 에지 컴퓨팅(MEC) 네트워크에서 CNN 추론의 계산 오프로딩에 대해 연구합니다. 통신 시간과 계산 자원 가용성의 불확실성을 해결하기 위해 부분 오프로딩에서 효과적인 의미 추출 및 압축을 위한 새로운 의미 압축 방법인 자동 인코더 기반 CNN 아키텍처(AECNN)를 제안합니다. 시맨틱 인코더에서는 CNN의 채널 주의 메커니즘에 기반한 특징 압축 모듈을 도입하여 가장 유익한 특징을 선별하여 중간 데이터를 압축합니다. 시맨틱 디코더에서는 수신된 압축 데이터로부터 학습을 통해 중간 데이터를 재구성하는 경량 디코더를 설계하여 정확도를 높입니다. 통신, 연산, 추론 정확도를 효과적으로 절충하기 위해 보상 함수를 설계하고, 장기적으로 평균 추론 정확도와 처리량을 극대화하는 것을 목표로 CNN 추론의 오프로딩 문제를 최대화 문제로 공식화합니다. 이 최대화 문제를 해결하기 위해 본 논문에서는 다양한 동적 시나리오에서 기존 연구인 DROO-AECNN, GRL-BottleNet++, GRL-DeepJSCC보다 뛰어난 성능을 보이는 그래프 강화학습 기반 AECNN(GRL-AECNN) 방법을 제안합니다. 이는 동적 MEC에서 의사 결정을 오프로드하는 데 있어 GRL-AECNN의 장점을 강조합니다. [abs|pdf]

[25/137] Semi-supervised segmentation of land cover images using nonlinear canonical correlation analysis with multiple features and t-SNE

Keywords: remote_sensing, label_remote_sensing, remote_sensing_data
Abstract: 이미지 세분화는 각 픽셀에 클러스터 레이블을 할당하는 클러스터링 작업입니다. 원격 감지 데이터는 일반적으로 의미적으로 의미 있는 토지 피복 하위 영역이 존재하는 여러 대역의 스펙트럼 이미지로 구성되며, 가능한 경우 LIDAR(Light Detection And Ranging) 데이터와 같은 다른 소스 데이터와 공동 등록됩니다. 이는 픽셀 간의 공간적 상관관계를 설명하기 위해 각 픽셀과 연관된 특징 벡터가 여러 대역을 나타내는 벡터화된 텐서일 수도 있고 로컬 패치가 적절하게 사용될 수도 있음을 시사합니다. 마찬가지로, 픽셀의 로컬 패치를 기반으로 하는 여러 유형의 텍스처 피처는 대량의 지상 실측 데이터를 픽셀 단위로 라벨링한 다음 지도 모델을 훈련할 필요 없이 국소적으로 통계 정보와 공간적 변화를 인코딩하는 데 유용할 수 있지만, 이는 때로는 비현실적입니다. 이 연구에서는 소량의 픽셀에만 레이블을 지정하여 새로운 반지도형 세분화 접근법을 제안합니다. 먼저 모든 픽셀에 대해 고차원 특징 공간에서 이미지 데이터 행렬을 생성합니다. 그런 다음 t-SNE는 고차원 데이터를 3D 임베딩에 투영합니다. 레이블이 지정된 데이터 샘플을 중심으로 사용하는 방사형 기저 함수를 입력 피처로 사용하여 출력 클래스 레이블과 쌍을 이루면, 작은 레이블이 지정된 데이터 세트를 통해 관련 투영 행렬을 학습하는 수정된 표준 상관관계 분석 알고리즘(RBF-CCA)이 도입됩니다. 전체 이미지에 대해 얻은 연관된 표준 변수는 K-평균 클러스터링 알고리즘에 의해 적용됩니다. 제안된 반지도 RBF-CCA 알고리즘은 원격으로 감지된 여러 다중 스펙트럼 이미지에 구현되어 우수한 분할 결과를 보여주었습니다. [abs|pdf]

[26/137] Evaluation of QCNN-LSTM for Disability Forecasting in Multiple Sclerosis Using Sequential Multisequence MRI

Keywords: ms_disability_benchmarked, compared_qcnn_lstm, classification_ms_disability
Abstract: 소개 다발성 경화증(MS) 환자의 MRI에서 각 시점에 대한 순차적 관계를 제공하기 위해 양자 컨볼루션 신경망(QCNN)-장단기 기억(LSTM) 모델을 연구했습니다. 이 파일럿 연구에서는 고전적인 신경망 아키텍처를 벤치마킹한 MS 장애의 이진 분류를 위한 세 가지 QCNN-LSTM 모델을 비교했습니다. 우리의 가설은 양자 모델이 경쟁력 있는 성능을 제공할 것이라는 것입니다. 방법 매트릭스 곱 상태(MPS), 역다상태 얽힘 정규화 안사츠(MERA), 트리-텐서 네트워크(TTN) 회로를 LSTM 계층과 결합하여 다발성 경화증 진단을 받은 환자의 거의 연간 MRI 데이터를 처리했습니다. 이를 비주얼 지오메트리 그룹(VGG)-LSTM과 비디오 비전 트랜스포머(ViViT)와 비교하여 벤치마킹했습니다. 예측된 로짓은 이진 교차 엔트로피 손실을 사용하여 각 환자의 확장 장애 중증도 점수(EDSS)의 실측값 레이블과 비교하여 측정되었습니다. 훈련/검증/홀드아웃 테스트는 총 60:20:20의 분할로 5배 교차 검증을 사용하여 분할되었습니다. 통계적 차이를 측정하기 위해 분산 분산 검정을 사용했고, 쌍을 이룬 모델의 평균 차이를 측정하기 위해 학생의 t-검정을 사용했습니다. 결과 MPS-LSTM, 역 MERA-LSTM, TTN-LSTM의 홀드아웃 테스트 ROC-AUC는 각각 0.70, 0.77, 0.81이었습니다(p-값 0.915). VGG16-LSTM과 ViViT는 각각 0.73과 0.77의 ROC-AUC로 비슷한 성능을 보였습니다(p-값 0.631). 전체 분산과 평균은 통계적으로 유의미하지 않았지만(p-값 0.713), 훈련 시간은 QCNN-LSTM이 훨씬 빨랐습니다(각각 224초와 218초 대비 39.4초, p-값 <0.001). 결론 QCNN-LSTM 모델은 훈련 시간에서 더 높은 효율성으로 기존 모델에 비해 경쟁력이 있습니다. 임상적으로, 이는 의료 영상에 기반한 시간에 따른 질병 진행의 딥러닝 예측에 효율성 측면에서 가치를 더할 수 있습니다. [abs|pdf]

[27/137] Extracting Formulae in Many-Valued Logic from Deep Neural Networks

Keywords: logic_deep_relu, relu_networks, relu_networks_presented
Abstract: 부울 논리의 다값(MV) 일반화인 루카시에비치 무한값 논리의 회로에 대응하는 딥 ReLU 네트워크에 대한 새로운 관점, 즉 부울 논리의 다값(MV) 일반화를 제안합니다. 심층 ReLU 네트워크에서 MV 로직의 공식을 추출하는 알고리즘이 제시됩니다. 이 알고리즘은 일반, 특히 실수값 가중치를 가진 네트워크에 적용되므로 데이터로 훈련된 심층 ReLU 네트워크에서 논리 공식을 추출하는 데 사용할 수 있습니다. [abs|pdf]

[28/137] West-of-N: Synthetic Preference Generation for Improved Reward Modeling

Keywords: language_model_alignment, improve_reward_model, reward_model_training
Abstract: 언어 모델 정렬에서 인간 피드백을 통한 강화 학습(RLHF)의 성공 여부는 기본 보상 모델의 품질에 따라 크게 좌우됩니다. 이 백서에서는 합성 선호도 데이터를 생성하여 학습 데이터 세트를 정책상의 고품질 선호도 쌍으로 보강함으로써 보상 모델 품질을 개선하는 새로운 접근 방식을 제시합니다. 언어 모델 학습에서 Best-of-N 샘플링 전략의 유망한 결과에서 영감을 받아 이를 보상 모델 학습으로 확대 적용합니다. 이를 통해 주어진 쿼리에 대한 응답 풀에서 최고 및 최악의 후보를 선택하여 선호도 쌍을 생성하는 자가 학습 전략이 탄생합니다. 경험적으로 이 접근 방식은 모든 보상 모델의 성능을 향상시키며, 비슷한 양의 인간 선호도 데이터를 추가하는 것과 비슷한 효과를 발휘합니다. 이 연구는 보상 모델링 문제에 대한 해결책으로 합성 선호도 생성을 제공함으로써 언어 모델 정렬을 위한 RLHF를 개선하기 위한 새로운 연구의 길을 열었습니다. [abs|pdf]

[29/137] Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Keywords: spotting_machine_text, detecting_text, detecting_text_generated
Abstract: 최신 대규모 언어 모델에서 생성된 텍스트를 감지하는 것은 어려운 것으로 알려져 있는데, 이는 언어 모델과 사람 모두 다양하고 복잡한 동작을 보일 수 있기 때문입니다. 그러나 밀접하게 관련된 두 언어 모델을 대조하여 점수를 매기면 사람이 생성한 텍스트와 기계가 생성한 텍스트를 매우 정확하게 구분할 수 있습니다. 이 메커니즘을 기반으로 사전 학습된 한 쌍의 LLM을 사용해 간단한 계산만 하면 되는 새로운 LLM 탐지기를 제안합니다. 바이노큘러스라고 불리는 이 방법은 학습 데이터 없이도 최첨단 정확도를 달성합니다. 이 방법은 모델별 수정 없이도 다양한 최신 LLM에서 기계 텍스트를 찾아낼 수 있습니다. 다양한 텍스트 소스와 다양한 상황에서 바이노큘러스를 종합적으로 평가합니다. 광범위한 문서 유형에 걸쳐, 바이노큘러스는 ChatGPT 데이터에 대해 학습하지 않았음에도 불구하고 0.01%의 오탐률로 ChatGPT(및 기타 LLM)에서 생성된 샘플의 90% 이상을 감지합니다. [abs|pdf]

[30/137] CloSe: A 3D Clothing Segmentation Dataset and Model

Keywords: clothing_modeling_datasets, 3d_clothing_segmentation, clothing_segmentation
Abstract: 3D 의류 모델링과 데이터 세트는 엔터테인먼트, 애니메이션, 디지털 패션 산업에서 중요한 역할을 합니다. 기존 작업은 상세한 의미론적 이해가 부족하거나 합성 데이터세트를 사용하는 경우가 많아 사실감과 개인화가 부족합니다. 이러한 문제를 해결하기 위해 유니티는 먼저 18개의 서로 다른 의류 클래스를 아우르는 3167개의 스캔으로 구성된 3D 의류 세분화가 포함된 새로운 대규모 데이터 세트인 CloSe-D를 소개합니다. 또한 컬러 포인트 클라우드에서 세분화된 세분화를 위한 최초의 학습 기반 3D 의류 세분화 모델인 CloSe-Net을 제안합니다. CloSe-Net은 로컬 포인트 특징, 신체-의류 상관관계, 의류 클래스 및 포인트 특징 기반 주의 모듈을 사용하여 기준선 및 이전 작업보다 성능을 개선합니다. 제안된 주의 모듈을 통해 모델은 데이터로부터 외형과 지오메트리에 따른 의복을 미리 학습할 수 있습니다. 또한 옷을 입은 사람들의 공개적으로 사용 가능한 데이터 세트를 성공적으로 세분화하여 접근 방식의 효율성을 검증합니다. 또한 세분화 레이블을 구체화하기 위한 3D 대화형 도구인 CloSe-T를 소개합니다. 지속적인 학습 설정에서 이 도구와 CloSe-T를 결합하면 실제 데이터에 대한 일반화가 개선된다는 것을 보여줍니다. 데이터 세트, 모델, 도구는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[31/137] MINT: A wrapper to make multi-modal and multi-image AI models interactive

Keywords: multimodal_information_including, incorporate_multimodal_information, multimodal_information
Abstract: 진단 과정에서 의사는 영상과 병력 등 다양한 정보를 통합하며, 이와 마찬가지로 의료용 AI 개발도 점점 더 복합적으로 이루어지고 있습니다. 이 백서에서는 의사가 가장 관련성이 높은 정보만을 얻기 위해 대상 병력을 취하는 것처럼, AI도 같은 작업을 수행할 수 있도록 하려면 어떻게 해야 할까라는 보다 미묘한 과제를 다룹니다 유니티는 각 단계에서 어떤 정보가 가장 가치 있는지를 자동으로 판단하고 가장 유용한 정보만 요청하는 MINT(Make your model INTeractive)라는 래퍼 방법을 개발했습니다. 여러 이미지와 25달러짜리 표준 메타데이터 질문(예: 구조화된 병력)에 대한 선택적 답변 세트를 멀티모달 딥 네트워크에서 사용하여 감별 진단을 제공하는 피부 질환 예측 모델을 래핑하는 MINT의 효과를 입증합니다. 우리는 MINT가 메타데이터 입력이 필요한지, 필요하다면 다음에 어떤 질문을 해야 하는지 식별할 수 있음을 보여줍니다. 또한 여러 이미지를 수집할 때 추가 이미지가 도움이 될지, 도움이 된다면 어떤 유형의 이미지를 캡처할지 식별할 수 있음을 보여줍니다. 예측 성능은 유지하면서 필요한 메타데이터와 이미지 입력 수를 각각 82%와 36.2% 줄인다는 것을 보여주었습니다. 실제 AI 피부과 시스템 데이터를 사용하여, 더 적은 입력이 필요하면 시스템 제출을 완료하지 못하고 진단 없이 이탈할 수 있는 사용자를 유지할 수 있음을 보여줍니다. 정성적 사례를 통해 MINT가 임상 워크플로우의 단계별 의사 결정 프로세스를 면밀히 모방할 수 있으며, 간단한 케이스와 어렵고 모호한 케이스의 경우 어떻게 다른지 보여줍니다. 마지막으로, MINT가 다양한 기본 다중 모델 분류기에 대해 어떻게 견고하며 상당한 모델 재교육 없이도 사용자 요구사항에 쉽게 적응할 수 있는지를 보여줍니다. [abs|pdf]

[32/137] Multimodal Visual-Tactile Representation Learning through Self-Supervised Contrastive Pre-Training

Keywords: material_classification_grasping, grasping_prediction, classification_grasping
Abstract: 빠르게 진화하는 로봇 공학 분야에서는 다양한 양식을 쉽게 융합할 수 있는 방법이 필요합니다. 특히 유형의 물체와 상호 작용할 때 시각 및 촉각 감각 데이터를 효과적으로 결합하는 것은 물리적 세계의 복잡한 역학을 이해하고 탐색하여 변화하는 환경에 보다 미묘하고 적응력 있게 대응할 수 있는 핵심 요소입니다. 그럼에도 불구하고 이 두 가지 감각 양식을 통합하는 초기 작업의 대부분은 사람이 레이블을 지정한 데이터 세트를 활용하는 감독 방식에 의존해 왔습니다. 이 백서에서는 대조 학습을 활용하여 시각과 촉각 감각을 자체 감독 방식으로 통합하는 새로운 방법론인 MViTac을 소개합니다. 두 가지 감각 입력을 모두 활용함으로써 MViTac은 학습 표현을 위해 모달리티 내 및 모달리티 간 손실을 활용하여 물성 분류를 개선하고 더 능숙하게 물체를 파악할 수 있도록 예측합니다. 일련의 실험을 통해 유니티는 이 방법론의 효과와 기존의 최첨단 자체 감독 및 감독 기법 대비 우월성을 입증했습니다. 방법론을 평가할 때, 우리는 재료 분류와 파악 성공 예측이라는 두 가지 작업에 중점을 둡니다. 그 결과, MViTac은 선형 프로빙 평가에서 입증된 바와 같이 보다 강력한 표현을 제공하는 향상된 모달리티 인코더의 개발을 용이하게 하는 것으로 나타났습니다. [abs|pdf]

[33/137] Robustness to distribution shifts of compressed networks for edge devices

Keywords: robustness_compressed_networks, compressed_networks, efficient_dnns_deployed
Abstract: 컴퓨팅 리소스가 제한된 엣지 디바이스에 배포되는 효율적인 DNN을 개발해야 합니다. 하지만 압축 네트워크는 원래 네트워크가 학습된 소스 도메인과 다른 타깃 도메인에서 새로운 작업을 실행하는 경우가 많습니다. 도메인 이동과 적대적 섭동이라는 두 가지 유형의 데이터 분포 이동에서 압축 네트워크의 견고성을 조사하는 것이 중요합니다. 이 연구에서는 압축 모델이 원래 네트워크보다 분포 이동에 덜 견고하다는 사실을 발견했습니다. 흥미롭게도 큰 네트워크는 작은 네트워크와 비슷한 크기로 압축된 경우에도 작은 네트워크보다 견고성을 잃는 데 더 취약합니다. 또한, 지식 증류로 얻은 압축 네트워크는 가지치기된 네트워크보다 분포 이동에 훨씬 더 강합니다. 마지막으로, 훈련 후 정량화는 분포 이동에 대해 상당한 강건성을 달성할 수 있는 신뢰할 수 있는 방법이며, 강건성 측면에서 가지치기 모델과 증류 모델 모두보다 뛰어난 성능을 보입니다. [abs|pdf]

[34/137] Tensor-view Topological Graph Neural Network

Keywords: tensor_view_graph, topological_graph_neural, topological_deep_learning
Abstract: 그래프 분류는 그래프 구조의 데이터에 대한 중요한 학습 과제입니다. 그래프 신경망(GNN)은 최근 그래프 학습 분야에서 점점 더 많은 관심을 받고 있으며, 많은 중요한 그래프 문제에서 상당한 개선을 보이고 있습니다. 하지만 기존 GNN은 최첨단 성능에도 불구하고 각 노드 주변의 매우 제한된 지역 정보만 사용하기 때문에 다중 모드 정보의 손실과 과도한 계산 오버헤드가 발생한다는 단점이 있습니다. 이러한 문제를 해결하기 위해 유니티는 지속적 상동성, 그래프 컨볼루션, 텐서 연산을 기반으로 하는 간단하면서도 효과적인 토폴로지 딥러닝인 새로운 텐서 뷰 토폴로지 그래프 신경망(TTG-NN)을 제안합니다. 이 새로운 방법은 텐서 학습을 통합하여 로컬 및 글로벌 수준에서 텐서 뷰 토폴로지(TT)와 텐서 뷰 그래프(TG) 구조 정보를 동시에 캡처합니다. 계산적으로 그래프 토폴로지와 구조를 완전히 활용하기 위해 텐서 집계와 변환을 풀고 더 적은 계산으로 멀티모달 구조를 보존하는 방법을 학습하는 두 가지 유연한 TT 및 TG 표현 학습 모듈을 제안합니다. 이론적으로 제안한 텐서 변환 레이어(TTL)의 표본 외 및 표본 내 평균 제곱 근사화 오차에 대한 높은 확률 바운드를 도출합니다. 실제 데이터 실험 결과, 제안된 TTG-NN은 다양한 그래프 벤치마크에서 20개의 최신 방법보다 우수한 성능을 보였습니다. [abs|pdf]

[35/137] Bridging Evolutionary Algorithms and Reinforcement Learning: A Comprehensive Survey

Keywords: evolutionary_reinforcement_learning, eas_reinforcement_learning, evolutionary_reinforcement
Abstract: 최적화를 위해 진화 알고리즘(EA)과 강화 학습(RL)을 통합하는 진화적 강화 학습(ERL)은 괄목할 만한 성능 향상을 보여주었습니다. 두 접근 방식의 강점을 융합함으로써 ERL은 유망한 연구 방향으로 부상했습니다. 이 설문조사는 ERL의 다양한 연구 분야에 대한 포괄적인 개요를 제공합니다. 특히 관련 알고리즘의 최근 발전을 체계적으로 요약하고 세 가지 주요 연구 방향을 파악합니다: EA를 이용한 RL의 최적화, RL을 이용한 EA의 최적화, EA와 RL의 시너지 최적화. 이후 각 연구 방향에 대한 심층 분석을 수행하여 여러 연구 분과를 구성합니다. 각 연구 분야가 해결하고자 하는 문제와 EA와 RL의 통합이 이러한 과제를 어떻게 해결할 수 있는지 설명합니다. 결론적으로 다양한 연구 방향에 걸쳐 잠재적 과제와 향후 연구 방향에 대해 논의합니다. [abs|pdf]

[36/137] CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

Keywords: discipline_multimodal_understanding, collected_multimodal_questions, multi_discipline_multimodal
Abstract: 대형 멀티모달 모델(LMM)의 기능이 계속 발전함에 따라 LMM의 성능을 평가하는 것이 점점 더 필요해지고 있습니다. 또한 중국어와 같은 비영어권 상황에서 LMM의 고급 지식과 추론 능력을 평가하는 데는 더 큰 격차가 존재합니다. 저희는 중국어 맥락에서 대학 수준의 주제 지식과 신중한 추론이 요구되는 과제에서 LMM을 평가하기 위해 고안된 새로운 중국어 다분야 다중 이해 벤치마크인 CMMMU를 소개합니다. CMMMU는 MMMU의 주석 및 분석 패턴에서 영감을 얻었으며 이를 엄격하게 따릅니다.
CMMMU에는 대학 시험, 퀴즈, 교과서에서 수작업으로 수집한 6가지 핵심 분야를 아우르는 12,000개의 복합형 문제가 포함되어 있습니다: 예술 및 디자인, 비즈니스, 과학, 보건 및 의학, 인문 및 사회과학, 기술 및 공학은 동반자인 MMMU와 마찬가지로 6개 핵심 분야입니다. 30개 주제에 걸쳐 차트, 다이어그램, 지도, 표, 악보, 화학 구조 등 39개의 매우 이질적인 이미지 유형으로 구성된 문제가 출제됩니다.
CMMMU는 중국어 맥락에서 도메인별 지식을 바탕으로 복잡한 지각과 추론에 중점을 둡니다. 11개의 오픈소스 LLM과 하나의 독자적인 GPT-4V(ision)를 평가합니다. GPT-4V의 정확도도 42%에 불과해 개선의 여지가 큰 것으로 나타났습니다. CMMMU는 커뮤니티를 활성화하여 전문가 수준의 인공 지능을 지향하는 차세대 LMM을 구축하고 다양한 언어 컨텍스트를 제공함으로써 LMM의 민주화를 촉진할 것입니다. [abs|pdf]

[37/137] Large receptive field strategy and important feature extraction strategy in 3D object detection

Keywords: 3d_object_detection, 3d_target_detection, feature_fusion
Abstract: 3D 물체 감지 기능의 향상은 자율주행에서 정확한 환경 인식과 향상된 작업 수행 능력을 위해 필수적입니다. 정확한 깊이 정보를 제공하는 라이더 포인트 클라우드는 이를 위한 중요한 정보 역할을 합니다. 이번 연구는 3D 목표물 탐지의 주요 과제에 초점을 맞췄습니다. 3D 컨볼루션 커널의 수신 필드를 확장하는 문제를 해결하기 위해 동적 특징 융합 모듈(DFFM)을 도입했습니다. 이 모듈은 3D 컨볼루션 커널의 수용 필드를 적응형으로 확장하여 확장된 영역과 허용 가능한 계산 부하의 균형을 맞춥니다. 이러한 혁신을 통해 작업을 줄이고, 수용 필드를 확장하며, 모델이 다양한 물체 요구 사항에 맞게 동적으로 조정할 수 있습니다. 동시에 3D 피처에서 중복되는 정보를 식별합니다. 특징 선택 모듈(FSM)을 사용하면 중요하지 않은 특징을 정량적으로 평가하고 제거하여 출력 박스 피팅과 특징 추출을 분리할 수 있습니다. 이러한 혁신을 통해 디텍터는 중요한 특징에 집중할 수 있어 모델 압축, 계산 부담 감소, 후보 프레임 간섭 최소화를 실현할 수 있습니다. 광범위한 실험을 통해 DFFM과 FSM 모두 특히 작은 표적 탐지에서 현재 벤치마크를 향상시킬 뿐만 아니라 네트워크 성능도 가속화한다는 사실이 확인되었습니다. 중요한 것은 이러한 모듈이 효과적인 상호 보완성을 보인다는 점입니다. [abs|pdf]

[38/137] Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts for Open-Domain QA?

Keywords: generated_contexts_evidenced, generated_retrieved_contexts, generated_contexts
Abstract: 보조 정보는 대규모 언어 모델(LLM)을 향상시키는 핵심 요소로 자리 잡았지만, LLM이 이러한 문맥, 특히 생성 및 검색된 문맥을 얼마나 잘 통합하는지에 대해서는 상대적으로 거의 알려지지 않았습니다. 이를 연구하기 위해 생성된 문맥과 검색된 문맥을 통합하여 도출된 답변이 생성된 문맥 또는 검색된 문맥 중 어느 쪽에 귀속되는지를 식별하는 작업을 공식화합니다. 이 작업을 지원하기 위해 각 질문이 생성된 문맥과 검색된 문맥 모두와 짝을 이루지만 그 중 하나만 정답을 포함하는 상충되는 문맥을 가진 데이터 세트를 구성하는 방법론을 개발합니다. 실험 결과, 최신 개방형(Llama2-7b/13b) 및 폐쇄형(GPT 3.5/4) 시스템에서 확인된 바와 같이 생성된 컨텍스트에 대한 LLM의 상당한 편향성이 드러났습니다. 또한 이러한 편향에 기여하는 두 가지 주요 요인을 확인했습니다. i) LLM에 의해 생성된 문맥은 일반적으로 문항과 더 높은 유사성을 보여 선택 가능성을 높이며, ii) 검색된 문맥에 사용된 세분화 프로세스가 문맥의 완전성을 방해하여 LLM에서 문맥을 최대한 활용하는 데 방해가 된다는 점입니다. 크리테오의 분석은 LLM이 다양한 컨텍스트를 통합하는 방식에 대한 이해를 높이고, 현재 LLM의 증강 방법을 발전시키는 데 유용한 인사이트를 제공합니다. [abs|pdf]

[39/137] Solving with GeoGebra Discovery an Austrian Mathematics Olympiad problem: Lessons Learned

Keywords: geogebra_discovery_problem, geogebra_discovery, reasoning_tools_geogebra
Abstract: 오스트리아 수학 올림피아드 2023의 지역 예선에서 출제된 문제를 지오지브라 디스커버리의 자동화된 추론 도구를 통해 해결합니다. 이 문제를 풀려고 하면 네 가지 종류의 피드백을 받게 됩니다. 제안된 문제의 거의 즉각적인 자동화된 해결 방법, 최근의 일부 제안에 따르면 문제의 복잡성 측정, 문제에 언급된 것보다 더 일반적인 다각형에 대해 동일한 진술이 참임을 보여주는 주어진 진술의 일반화 자동 발견, 이 문제에서 LocusEquation 명령을 사용할 때 나타나는 놀랍고 관련된 많은 수의 퇴행 사례 분석과 관련된 어려움입니다. 이 커뮤니케이션에서는 이러한 다양한 문제를 설명하고 반영하여 GeoGebra Discovery의 장점, 문제점 및 현재 개발 중인 분야를 보여주는 모범적인 역할을 강화할 것입니다. [abs|pdf]

[40/137] Showing Proofs, Assessing Difficulty with GeoGebra Discovery

Keywords: geogebra_discovery_confirm, geogebra_discovery, geogebra_discovery_providing
Abstract: 이 기고문에서는 지오지브라 디스커버리에서 개발된 자동 추론 도구와 관련하여 현재 진행 중인 몇 가지 개선 사항을 설명하고, 이러한 새로운 기능의 성능에 대한 다양한 예를 제공합니다. 특정 진술을 확인하기 위해 지오지브라 디스커버리가 수행하는 여러 단계의 순서와 주장의 난이도 또는 관심도를 평가하기 위한 숫자를 모두 출력하는 새로운 ShowProof 명령에 대해 설명합니다. 가설의 조합으로서 논제(또는 결론)의 표현을 비교하는 이 평가 방법의 제안이 개발될 것입니다. [abs|pdf]

[41/137] PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

Keywords: agent_psychology_framework, dangerous_behaviors_agents, agent_psychology_discover
Abstract: LLM(대규모 언어 모델)으로 강화된 다중 에이전트 시스템은 집단 지성을 위한 상당한 역량을 보여줍니다. 하지만 이러한 지능이 악의적인 목적으로 오용될 경우 상당한 위험을 초래할 수 있습니다. 현재까지 다중 에이전트 시스템과 관련된 안전 문제에 대한 종합적인 연구는 제한적입니다. 상담원 심리학의 관점에서 볼 때 상담원의 어두운 심리 상태가 심각한 안전 문제로 이어질 수 있음을 발견했습니다. 이러한 문제를 해결하기 위해 유니티는 상담원 심리학에 기반한 포괄적인 프레임워크를 제안합니다. 이 프레임워크에서는 에이전트의 어두운 성격 특성이 어떻게 위험한 행동으로 이어질 수 있는지 파악하고, 이러한 위험을 완화하기 위한 방어 전략을 설계하며, 심리적 및 행동적 관점에서 다중 에이전트 시스템의 안전성을 평가하는 세 가지 측면에 중점을 둡니다. 실험을 통해 에이전트 간의 집단적 위험 행동, 위험한 행동을 할 때 자기 성찰을 하는 에이전트의 성향, 에이전트의 심리적 평가와 위험 행동 간의 상관관계 등 몇 가지 흥미로운 현상을 발견할 수 있었습니다. 저희의 프레임워크와 관찰 결과가 다중 에이전트 시스템의 안전성에 대한 추가 연구에 귀중한 인사이트를 제공할 것으로 기대합니다. 데이터와 코드는 https:/github.com/AI4Good24/PsySafe에서 공개적으로 액세스할 수 있도록 할 예정입니다. [abs|pdf]

[42/137] Improving Small Language Models' Mathematical Reasoning via Mix Thoughts Distillation

Keywords: enhance_reasoning_performance, mathematical_reasoning_capabilities, reasoning_abilities_slms
Abstract: 이 연구는 성능 저하 없이 수학적 추론 기능을 10억 개 미만의 매개변수 소규모 언어 모델(SLM)로 압축하여 고급 대규모 언어 모델(LLM)을 대중화해야 하는 과제를 해결합니다. 추론 과정을 방정식 기반 표현으로 캡슐화하여 SLM을 미세 조정할 수 있는 EoTD 데이터 세트를 구축하는 새로운 기술인 방정식 증류(Equation-of-Thought Distillation, EoTD)를 소개합니다. 또한 SLM의 추론 성능을 향상시키기 위해 혼합 사고 증류(MTD) 프레임워크를 제안합니다. 여기에는 여러 사고 프로세스가 포함된 추론 데이터 세트를 생성하고 이를 미세 조정에 사용하는 것이 포함됩니다. 실험 결과에 따르면 EoTD는 SLM의 추론 능력을 크게 향상시키는 반면, MTD는 이러한 모델이 최첨단 추론 성능을 달성할 수 있게 해줍니다. [abs|pdf]

[43/137] A Review of Physics-Informed Machine Learning Methods with Applications to Condition Monitoring and Anomaly Detection

Keywords: piml_condition_monitoring, driven_learning_piml, complexities_condition_monitoring
Abstract: 이 연구는 상태 모니터링의 맥락에서 PIML 기술에 대한 포괄적인 개요를 제시합니다. PIML을 이끄는 핵심 개념은 알려진 물리적 법칙과 제약 조건을 머신러닝 알고리즘에 통합하여 물리적 원리와 일관성을 유지하면서 사용 가능한 데이터로부터 학습할 수 있도록 하는 것입니다. 도메인 지식과 데이터 기반 학습을 융합함으로써 PIML 방법은 순수한 데이터 기반 접근 방식에 비해 향상된 정확성과 해석 가능성을 제공합니다. 이 포괄적인 조사에서는 알려진 물리적 원리를 머신러닝 프레임워크에 통합하는 방법론과 상태 모니터링 내 특정 작업에 대한 적합성에 대해 자세히 조사합니다. 물리적 지식을 머신러닝 모델에 통합하는 것은 다양한 방법으로 실현될 수 있으며, 각 방법에는 고유한 장단점이 있습니다. 계산 효율성, 모델 해석 가능성, 상태 모니터링 및 장애 감지 시 다양한 시스템에 대한 일반화 가능성 등의 요소를 고려하여 데이터 기반 모델에 물리학을 통합하는 각 방법론의 뚜렷한 장점과 한계를 자세히 설명합니다. 이 새로운 개념을 활용한 여러 사례 연구와 문헌을 통해 상태 모니터링 애플리케이션에서 PIML의 효과를 입증합니다. 검토된 문헌을 통해 상태 모니터링에서 PIML의 다양성과 잠재력을 확인할 수 있습니다. 새로운 PIML 방법은 상태 모니터링의 복잡성과 관련 과제를 해결하기 위한 혁신적인 솔루션을 제공합니다. 이 포괄적인 설문조사는 향후 이 분야의 작업 기반을 형성하는 데 도움이 됩니다. 기술이 계속 발전함에 따라 PIML은 엔지니어링 시스템의 유지보수 전략, 시스템 신뢰성 및 전반적인 운영 효율성을 향상시키는 데 중요한 역할을 할 것으로 기대됩니다. [abs|pdf]

[44/137] The Right Model for the Job: An Evaluation of Legal Multi-Label Classification Baselines

Keywords: label_classification_mlc, multi_label_classification, legal_datasets
Abstract: 다중 레이블 분류(MLC)는 법률 문서에 둘 이상의 레이블을 할당할 수 있는 법률 영역에서 흔히 사용되는 작업입니다. 전통적인 ML 접근 방식부터 최신 Transformer 기반 아키텍처에 이르기까지 다양한 방법을 적용할 수 있습니다. 이 연구에서는 두 개의 공개 법률 데이터세트인 POSTURE50K와 EURLEX57K를 사용하여 다양한 MLC 방법을 평가합니다. 훈련 데이터의 양과 레이블의 수를 변화시킴으로써 데이터 세트의 속성과 관련하여 다양한 접근 방식이 제공하는 비교 우위를 살펴봅니다. 연구 결과, DistilRoBERTa와 LegalBERT는 합리적인 계산 요구사항이 있는 법률 MLC에서 일관되게 우수한 성능을 발휘하는 것으로 나타났습니다. 또한 T5는 라벨 세트가 변경되는 상황에서 생성 모델로서의 장점을 제공하면서 비슷한 성능을 보여줍니다. 마지막으로, 계산 비용이 증가하기는 하지만 CrossEncoder가 매크로 F1 점수를 눈에 띄게 개선할 수 있는 잠재력이 있음을 보여줍니다. [abs|pdf]

[45/137] BETA: Binarized Energy-Efficient Transformer Accelerator at the Edge

Keywords: binary_transformers_promising, binary_transformers_improve, efficient_transformer_accelerator
Abstract: 기존의 바이너리 트랜스포머는 모델 크기가 작고 계산 복잡성이 낮으며 추론 정확도가 상당히 높기 때문에 엣지 배포에 유망합니다. 그러나 바이너리 트랜스포머를 배포할 경우 양자화된 행렬 곱셈(QMM)의 비효율적인 실행과 다중 정밀도 활성화로 인한 에너지 소비 오버헤드로 인해 이전 프로세서에서 어려움을 겪게 됩니다. 이러한 문제를 해결하기 위해 먼저 바이너리 트랜스포머를 위한 계산 흐름 추상화 방법을 개발하여 계산 순서를 최적화함으로써 QMM 실행 효율을 개선합니다. 또한 엣지에서의 효율적인 배포를 위해 에너지 효율이 높은 바이너리 트랜스포머 가속기, 즉 BETA를 제안합니다. 특히, BETA는 구성 가능한 QMM 엔진을 갖추고 있어 바이너리 트랜스포머의 다양한 활성화 정밀도를 수용하고 뛰어난 에너지 효율로 QMM에 높은 병렬성과 빠른 속도를 제공합니다. ZCU102 FPGA에서 평가한 실험 결과에 따르면 BETA는 이전 FPGA 기반 가속기보다 1.76~21.92배 높은 평균 174 GOPS/W의 에너지 효율을 달성하여 에지 트랜스포머 가속에 대한 BETA의 우수한 잠재력을 보여주었습니다. [abs|pdf]

[46/137] Self-Labeling the Job Shop Scheduling Problem

Keywords: self_supervised, self_supervised_training, propose_self_supervised
Abstract: 이 연구에서는 조합 문제를 위해 특별히 설계된 자기 지도 훈련 전략을 제안합니다. 이러한 문제에 지도형 패러다임을 적용하는 데 있어 가장 큰 장애물 중 하나는 비용이 많이 드는 정확한 솔버를 사용하여 생성된 실측값을 목표 솔루션으로 사용해야 한다는 점입니다. 반지도 학습과 자기지도 학습에서 영감을 얻어, 여러 솔루션을 샘플링하고 문제 목표에 따라 가장 적합한 솔루션을 의사 레이블로 사용하여 생성 모델을 쉽게 훈련할 수 있음을 보여줍니다. 이러한 방식으로 최적성 정보의 필요성을 완전히 제거한 채 자기 감독에만 의존하여 모델 생성 기능을 반복적으로 개선합니다. 강화학습 커뮤니티에서 많은 관심을 받고 있는 복잡한 조합 문제인 작업장 스케줄링(JSP)에서 이러한 자가 라벨링 전략의 효과를 증명합니다. 우리는 잘 알려진 포인터 네트워크에 기반한 생성 모델을 제안하고 이 전략으로 훈련합니다. 두 가지 유명 벤치마크에 대한 실험을 통해 결과 모델이 건설적 휴리스틱과 현재의 최신 강화 학습 제안보다 뛰어난 성능을 보임으로써 이 접근법의 잠재력을 입증했습니다. [abs|pdf]

[47/137] Adaptive Fusion of Multi-view Remote Sensing data for Optimal Sub-field Crop Yield Prediction

Keywords: predict_crop, multi_view_learning, approach_predict_crop
Abstract: 정확한 작물 수확량 예측은 농업 분야에서 정보에 입각한 의사결정을 내리고 농부 및 업계 이해관계자를 지원하는 데 있어 가장 중요한 요소입니다. 그러나 이 작업은 복잡하고 환경 조건, 토양 특성, 관리 관행 등 여러 요인에 따라 달라집니다. 이기종 데이터 뷰를 결합하면 예측 작업에 대한 뷰별 기여도를 파악하는 것과 같은 융합 과제가 발생합니다. 우리는 다양한 작물(대두, 밀, 유채)과 지역(아르헨티나, 우루과이, 독일)의 작물 수확량을 예측하기 위한 새로운 멀티뷰 학습 접근법을 제시합니다. 멀티뷰 입력 데이터에는 작물 재배 기간 동안의 동적 특징인 Sentinel-2 위성의 다중 스펙트럼 광학 이미지와 날씨 데이터가 포함되며, 토양 특성 및 지형 정보와 같은 정적 특징이 보완됩니다. 데이터를 효과적으로 융합하기 위해 전용 뷰 인코더와 게이트 유닛(GU) 모듈로 구성된 멀티뷰 게이트 퓨전(MVGF) 모델을 도입했습니다. 뷰 인코더는 뷰별 표현을 학습하여 다양한 시간적 해상도를 가진 데이터 소스의 이질성을 처리합니다. 이러한 표현은 가중치 합계를 통해 적응형으로 융합됩니다. 융합 가중치는 뷰 표현의 연결을 사용하여 GU가 각 샘플에 대해 계산합니다. MVGF 모델은 10m 해상도 픽셀로 서브필드 수준에서 훈련됩니다. 평가 결과, MVGF는 동일한 작업에서 기존 모델보다 성능이 뛰어나며, 문헌의 일반적인 융합 결과와 달리 모든 데이터 소스를 통합하여 최상의 결과를 달성했습니다. 아르헨티나의 경우, MVGF 모델은 하위 필드 수확량 예측에서 0.68의 R2 값을 달성한 반면, 필드 수준 평가(필드 평균 비교)에서는 여러 국가에 걸쳐 약 0.80에 달했습니다. GU 모듈은 예측 작업에 대한 각 데이터 소스의 변수 중요도에 따라 국가와 작물 유형에 따라 서로 다른 가중치를 학습했습니다. [abs|pdf]

[48/137] Learning to Approximate Adaptive Kernel Convolution on Graphs

Keywords: graph_laplacian_learning, graph_convolution_nodal, graph_neural_networks
Abstract: 다양한 그래프 신경망(GNN)이 비유클리드 공간의 데이터를 분석하는 데 성공했지만, 숨겨진 레이어의 수가 증가함에 따라 정보가 과도하게 평균화되는 오버스무딩과 같은 한계가 있습니다. 이 문제는 기존 그래프 컨볼루션의 본질적인 공식에서 비롯되는데, 노드 특징이 그래프의 전체 노드에 걸쳐 레이어별 직접 이웃에서 집계되는 방식입니다. 노드당 숨겨진 레이어의 수를 다르게 설정하는 것은 불가능하기 때문에, 최근의 연구에서는 확산 커널을 활용하여 그래프 구조를 재정의하고 더 먼 노드의 정보를 통합합니다. 하지만 이러한 접근 방식은 라플라시안 그래프의 대각선화가 심하거나 큰 변환 행렬을 학습해야 하는 어려움이 있습니다. 이러한 문제를 해결하기 위해 특징 집합의 범위가 확산 커널의 크기에 의해 제어되는 확산 학습 프레임워크를 제안합니다. 효율적인 계산을 위해 스케일에 대한 그래프 컨볼루션 근사치의 폐쇄형 도함수를 도출하여 노드별 범위를 적응적으로 학습할 수 있도록 합니다. 다운스트림 분류기를 사용하면 전체 프레임워크가 엔드투엔드 방식으로 학습할 수 있습니다. 이 모델은 노드 단위 분류를 위한 다양한 표준 데이터 세트에서 테스트되어 최첨단 성능을 발휘하며, 그래프 분류를 위한 실제 뇌 네트워크 데이터에서도 검증되어 알츠하이머 분류에 대한 실용성을 입증합니다. [abs|pdf]

[49/137] SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese

Keywords: reasoning_abilities_chinese, chinese_mathematical_reasoning, mathematical_reasoning_benchmarks
Abstract: 중국어 모델의 수학적 추론 능력을 평가하기 위한 새로운 벤치마크 데이터 세트인 SuperCLUE-Math6(SC-Math6)를 소개합니다. SC-Math6는 난이도, 다양성, 적용 범위가 강화된 업그레이드된 중국어 버전의 GSM8K 데이터셋으로 설계되었습니다. 다단계 추론이 필요하고 자연어 솔루션을 제공하는 2000개 이상의 수학 단어 문제로 구성되어 있습니다. 우리는 추론 단계가 다른 문제에 대한 성능을 기반으로 대규모 모델의 추론 능력을 정량화할 수 있는 혁신적인 체계를 제안합니다. 12개의 대표적인 중국 모델에 대한 실험 결과, 추론 단계가 명확하게 계층화되어 있으며 GPT-4와 같은 상위 모델이 우수한 성능을 보였습니다. SC-Math6는 중국어 수학적 추론 벤치마크의 격차를 메우고 중국어 모델의 지능을 향상시킬 수 있는 포괄적인 테스트베드를 제공합니다. [abs|pdf]

[50/137] Hallucination is Inevitable: An Innate Limitation of Large Language Models

Keywords: computable_functions_hallucinate, complexity_hallucination, computable_ground_truth
Abstract: 환각은 대규모 언어 모델(LLM)의 중요한 단점으로 널리 알려져 왔습니다. 환각의 정도를 줄이려는 많은 연구가 있었습니다. 이러한 노력은 지금까지 대부분 경험적 연구로, 환상을 완전히 제거할 수 있는지에 대한 근본적인 질문에 답하지 못했습니다. 본 논문에서는 이 문제를 공식화하여 LLM에서 환각을 제거하는 것이 불가능하다는 것을 보여줍니다. 구체적으로, 우리는 환각을 계산 가능한 LLM과 계산 가능한 기준 진실 함수 사이의 불일치로 정의하는 형식적 세계를 정의합니다. 학습 이론의 결과를 사용하여 LLM이 계산 가능한 모든 함수를 학습할 수 없으므로 항상 환각을 일으킨다는 것을 보여줍니다. 형식 세계는 훨씬 더 복잡한 실제 세계의 일부이기 때문에 실제 세계 LLM에서도 환각은 피할 수 없습니다. 또한 증명 가능한 시간 복잡성의 제약을 받는 현실 세계 LLM의 경우, 환각이 발생하기 쉬운 작업을 설명하고 우리의 주장을 경험적으로 검증합니다. 마지막으로, 공식적인 세계 프레임워크를 사용하여 기존 환각 완화제의 가능한 메커니즘과 효과, 그리고 LLM의 안전한 배포에 대한 실질적인 의미에 대해 논의합니다. [abs|pdf]

[51/137] Symbrain: A large-scale dataset of MRI images for neonatal brain symmetry analysis

Keywords: brain_symmetry_neonatal, analyzing_brain_symmetry, brain_symmetry_study
Abstract: 이 논문은 뇌 대칭성 연구 분야를 발전시키기 위해 고안된 뇌 MRI 이미지의 주석이 달린 데이터 세트를 소개합니다. 자기공명영상(MRI)은 신생아의 뇌 대칭을 분석하는 데 관심이 높아졌지만, 태아와 성인의 뇌는 크기 차이가 크기 때문에 여전히 난제로 남아 있습니다. 뇌 구조적 MRI의 분류 방법은 척도와 시각적 단서를 사용하여 반구 대칭을 평가하며, 이는 뇌의 반구와 관심 있는 해부학적 영역을 비교하여 신생아 환자를 진단하는 데 도움이 될 수 있습니다. 이 연구는 인간 커넥톰 프로젝트 데이터 세트를 사용하여 임상 평가를 위해 선택된 관심 부위에서 슬라이스로 추출한 뇌 이미지로 구성된 데이터 세트를 제공합니다. 추출된 모든 이미지에는 뇌의 정중선이 주석으로 표시됩니다. 추출된 모든 이미지에는 뇌의 중앙선이 주석으로 표시됩니다. 대칭성의 감소가 가능한 임상 병리와 직접적인 관련이 있다는 가정 하에, 이 데이터 세트는 컴퓨터 비전을 통해 출생 후 영아 스캔에서 신생아 뇌 MRI 이상 검출에 적용되는 딥러닝 모델을 훈련하는 데 사용할 수 있으므로 보다 정밀한 진단에 기여할 수 있습니다. 이러한 모델은 의료용 MRI 이미지에서 잠재적인 비대칭 패턴을 식별하여 이상을 식별하고 분류하는 방법을 학습합니다. 또한, 이 데이터 세트는 중요한 진단 및 치료 계획을 위해 두 뇌 반구의 상대적 대칭성을 이용하는 방법의 연구 개발에 기여할 수 있습니다. [abs|pdf]

[52/137] Generalization and Informativeness of Conformal Prediction

Keywords: bounds_base_predictor, cp_prediction_sets, generalization_error_bounds
Abstract: 머신러닝 모듈을 의사 결정 프로세스에 안전하게 통합하려면 불확실성을 정량화하는 능력에 달려 있습니다. 이 목표를 달성하기 위해 널리 사용되는 기술은 임의의 기본 예측자를 커버리지가 보장되는 집합 예측자로 변환하는 적합 예측(CP)입니다. CP는 예측 집합이 사용자 정의 허용 오차 범위 내에서 목표 수량을 포함하도록 인증하지만, 예측 집합의 평균 크기, 즉 예측의 정보성에 대한 제어는 제공하지 않습니다. 이 연구에서는 기본 예측자의 일반화 특성과 결과 CP 예측 집합의 정보성 사이에 이론적 연결 고리를 설정합니다. 이를 위해 기본 예측자의 일반화 오차 한계를 기반으로 CP 집합 예측자의 예상 크기에 대한 상한을 도출합니다. 도출된 상한선은 캘리브레이션 데이터의 양, 목표 신뢰도, 기본 예측자의 일반화 성능에 대한 CP 집합 예측자의 평균 크기 의존성에 대한 인사이트를 제공합니다. 이론적 인사이트는 간단한 수치 회귀 및 분류 작업을 통해 검증됩니다. [abs|pdf]

[53/137] Knowledge Distillation on Spatial-Temporal Graph Convolutional Network for Traffic Prediction

Keywords: gnns_traffic_prediction, traffic_prediction_crucial, time_traffic_prediction
Abstract: 효율적인 실시간 교통량 예측은 운송 시간을 단축하는 데 매우 중요합니다. 교통 상황을 예측하기 위해 시공간 그래프 신경망(ST-GNN)을 사용하여 실시간 교통 데이터를 시간적 그래프로 모델링합니다. 이러한 기능에도 불구하고 실제 교통 데이터에 대한 효율적인 실시간 예측을 제공하는 데는 종종 어려움이 있습니다. 실시간 데이터의 동적 특성으로 인해 적시 예측의 중요성을 인식하고, 트래픽 예측을 위한 ST-GNN의 실행 시간을 향상시키기 위한 솔루션으로 지식 증류(KD)를 사용합니다. 이 논문에서는 복잡한 네트워크(교사)에서 증류된 데이터를 사용하여 더 적은 수의 파라미터로 네트워크(학생)를 학습시키면서도 정확도는 교사와 비슷하게 유지할 수 있도록 설계된 비용 함수를 소개합니다. 우리는 지식 증류를 사용하여 교사 네트워크의 공간적-시간적 상관관계를 통합함으로써 학생이 교사가 인식하는 복잡한 패턴을 학습할 수 있도록 합니다. 그러나 학생 네트워크 구조를 무심코 고려하지 않고 결정할 때 문제가 발생합니다. 이 문제를 해결하기 위해 본 논문에서는 비용 함수를 활용하여 가지치기 점수를 계산하는 알고리즘을 제안하여 작은 네트워크 아키텍처 탐색 문제를 해결하고, 각 가지치기 단계의 결과인 네트워크를 KD를 사용하여 공동으로 미세 조정합니다. 마지막으로 두 개의 실제 데이터 세트인 PeMSD7과 PeMSD8에 대해 제안한 아이디어를 평가합니다. 그 결과, 우리의 방법은 네트워크 파라미터의 3%만 유지해도 학생의 정확도를 교사의 정확도에 가깝게 유지할 수 있음을 보여줍니다. [abs|pdf]

[54/137] Safe and Generalized end-to-end Autonomous Driving System with Reinforcement Learning and Demonstrations

Keywords: autonomous_driving_sgads, intelligent_driving, prediction_future_driving
Abstract: 지능형 주행 시스템은 시스템의 보안과 신뢰성을 보장하면서 현재 환경과 차량 상태에 따라 적절한 주행 전략을 동적으로 수립할 수 있어야 합니다. 하지만 강화 학습과 모방 학습에 기반한 기존 방식은 낮은 안전성, 낮은 일반화율, 비효율적인 샘플링 등의 문제를 안고 있습니다. 또한 미래 주행 궤적을 정확하게 예측할 수 없으며, 미래 주행 궤적의 정확한 예측은 최적의 의사결정을 내리기 위한 전제 조건입니다. 이러한 문제를 해결하기 위해 본 논문에서는 복잡하고 다양한 시나리오를 위한 안전하고 일반화된 엔드투엔드 자율주행 시스템(SGADS)을 소개합니다. SGADS는 정규화 흐름과 함께 변형 추론을 통합하여 지능형 차량이 미래의 주행 궤적을 정확하게 예측할 수 있도록 합니다. 또한 강력한 안전 제약 조건의 공식화를 제안합니다. 또한 강화 학습과 데모를 결합하여 에이전트의 검색 프로세스를 강화합니다. 실험 결과는 SGADS가 기존 방식에 비해 복잡한 도시 시나리오에서 안전 성능을 크게 향상시키고 강력한 일반화를 보여주며 지능형 차량의 학습 효율을 높일 수 있음을 보여줍니다. [abs|pdf]

[55/137] LightDiC: A Simple yet Effective Approach for Large-scale Digraph Representation Learning

Keywords: existing_graph_neural, graph_neural, graph_neural_networks
Abstract: 기존의 대부분의 그래프 신경망(GNN)은 비지향 그래프로 제한되어 있으며, 캡처된 관계 정보의 범위가 제한되어 있어 실제 시나리오에서 표현 능력과 배포에 장애가 됩니다. 방향성 그래프(디그래프)는 방향성 그래프에 비해 교통 및 금융 네트워크 구성과 같이 노드 간의 더 복잡한 관계를 포착하여 더 복잡한 토폴로지 시스템을 모델링하고자 하는 수요에 적합합니다. 일부 방향성 GNN이 도입되기는 했지만, 주로 딥 러닝 아키텍처에서 영감을 얻었기 때문에 복잡성과 계산이 중복되어 대규모 데이터베이스에는 적용할 수 없습니다. 이러한 문제를 해결하기 위해 유니티는 자기 라플라시안 기반의 확장 가능한 디그래프 컨볼루션 변형인 LightDiC를 제안합니다. 토폴로지 관련 계산은 오프라인 전처리 과정에서만 수행되기 때문에 LightDiC는 뛰어난 확장성을 달성하여 재귀적 계산 비용 없이도 다운스트림 예측을 별도로 훈련할 수 있습니다. 이론적 분석에 따르면 LightDiC는 디그래프 신호 노이즈 제거의 관점에서 디리클레 에너지 최적화 함수의 근위 경사 하강 프로세스에 해당하는 복소 필드에 기반한 메시지 전달을 위해 방향 정보를 활용하여 표현력을 보장하는 것으로 나타났습니다. 실험 결과에 따르면 LightDiC는 학습 가능한 파라미터 수가 적고 학습 효율이 높으며 다양한 다운스트림 작업에서 다른 SOTA 방법과 비슷하거나 더 나은 성능을 발휘합니다. 특히, 가장 대표적인 대규모 데이터베이스(ogbn-papers100M)에서 만족스러운 결과를 제공한 최초의 DiGNN이 바로 LightDiC입니다. [abs|pdf]

[56/137] FedGTA: Topology-aware Averaging for Federated Graph Learning

Keywords: federated_graph_learning, graph_learning_fgl, topology_aware_aggregation
Abstract: 연합 그래프 학습(FGL)은 여러 로컬 시스템에서 대규모 하위 그래프에 대한 협업 학습을 가능하게 하는 분산형 머신 러닝 패러다임입니다. 기존의 FGL 연구는 (i) 기존 머신러닝 모델의 멀티클라이언트 트레이닝을 개선하는 FGL 최적화, (ii) 복잡한 로컬 모델과 멀티클라이언트 상호 작용으로 성능을 향상하는 FGL 모델의 두 가지 범주로 나뉩니다. 그러나 대부분의 FGL 최적화 전략은 컴퓨터 비전 영역을 위해 특별히 설계되었으며 그래프 구조를 무시하기 때문에 불만족스러운 성능과 느린 수렴을 보입니다. 한편, FGL 모델 연구에 사용되는 복잡한 로컬 모델 아키텍처는 대규모 하위 그래프를 처리하기 위한 확장성이 부족하고 배포에 한계가 있습니다. 이러한 문제를 해결하기 위해 저희는 토폴로지 인식 로컬 평활화 신뢰도와 혼합 이웃 기능을 통해 최적화하는 개인화된 최적화 전략인 연합 그래프 토폴로지 인식 집계(FedGTA)를 제안합니다. 실험을 통해 12개의 멀티스케일 실제 데이터 세트에 루바인과 메티스 분할을 통해 FedGTA를 배포합니다. 이를 통해 다양한 시나리오에서 FedGTA의 성능과 견고성을 평가할 수 있습니다. 광범위한 실험을 통해 FedGTA가 높은 확장성과 효율성을 발휘하면서 최첨단 성능을 달성한다는 것이 입증되었습니다. 이 실험에는 가장 대표적인 대규모 그래프 데이터베이스인 ogbn-papers100M이 포함되어 있어 대규모 그래프 학습에 대한 방법의 적용 가능성을 검증할 수 있습니다. 우리가 아는 한, 이 최적화 전략을 이용해 대규모 그래프 학습과 FGL을 연결한 연구는 본 연구가 처음이며, 효율적이고 확장 가능한 FGL 방법의 개발에 기여할 것으로 기대됩니다. [abs|pdf]

[57/137] AdaFGL: A New Paradigm for Federated Node Classification with Topology Heterogeneity

Keywords: federated_graph_learning, subgraph_federated, federated_graph
Abstract: 최근 연합 그래프 학습(FGL)은 그래프 신경망에 기반한 분산 프레임워크로서 데이터 사일로를 해소할 수 있는 기능으로 인해 큰 주목을 받고 있습니다. 기존의 FGL 연구는 기본적으로 동형 글로벌 그래프에서 커뮤니티 분할을 사용하여 연합된 반지도 노드 분류 설정을 시뮬레이션합니다. 이러한 전략은 연결된 노드가 유사한 특징 분포와 동일한 레이블을 가질 가능성이 높은 멀티클라이언트 하위 그래프와 글로벌 그래프 간의 토폴로지가 일관성이 있다고 가정합니다. 그러나 실제 구현에서는 로컬 데이터 엔지니어링의 다양한 관점으로 인해 다양한 하위 그래프 토폴로지가 생성되어 FGL에서 고유한 이질성 문제가 발생합니다. 연합 학습에서 잘 알려진 비독립 동일 분포(Non-iid) 문제와 달리, FGL 이질성은 본질적으로 여러 클라이언트 간의 토폴로지 차이, 즉 동형 또는 이종성을 드러냅니다. 이 고유한 문제를 시뮬레이션하고 처리하기 위해 구조 비아이디 분할 개념을 도입한 다음, 분리된 2단계 개인화 접근 방식인 밑줄{Ada}적립형 밑줄{F}연합형 밑줄{G}그래프 밑줄{L}학습(AdaFGL)이라는 새로운 패러다임을 제시합니다. 우선, AdaFGL은 표준 다중 클라이언트 연합 협업 학습을 사용하여 서버에서 최종 라운드에서 업로드된 모델을 집계하여 연합 지식 추출기를 획득합니다. 그런 다음 각 클라이언트는 로컬 하위 그래프와 연합 지식 추출기를 기반으로 개인화된 학습을 수행합니다. 12개의 그래프 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 최첨단 기준선보다 AdaFGL의 우수한 성능을 검증했습니다. 특히, 테스트 정확도 측면에서 커뮤니티 분할과 구조 비아이디 분할에서 각각 3.24%와 5.57%라는 상당한 차이로 기준선을 뛰어넘는 성능을 보였습니다. [abs|pdf]

[58/137] GI-PIP: Do We Require Impractical Auxiliary Dataset for Gradient Inversion Attacks?

Keywords: gradient_inversion_attacks, gradient_inversion_attack, data_imagenet_gan
Abstract: 딥 그래디언트 반전 공격은 공유 그래디언트에서 개인 데이터를 정확하게 복구함으로써 연합 학습(FL)에 심각한 위협을 가합니다. 그러나 이 최신 기술은 과도한 보조 데이터에 접근하기 위해 비현실적인 가정에 크게 의존하고 있으며, 이는 FL의 기본 데이터 분할 원칙을 위반하는 것입니다. 이 백서에서는 수정된 위협 모델에 따라 새로운 방법인 GI-PIP(Gradient Inversion Attack using Practical Image Prior)를 제안합니다. GI-PIP는 이상 탐지 모델을 활용하여 더 적은 데이터로 기본 분포를 포착하는 반면, GAN 기반 방법은 이미지 합성을 위해 훨씬 더 많은 데이터를 소비합니다. 그런 다음 추출된 분포를 활용하여 공격 프로세스를 이상 점수 손실로 규제합니다. 실험 결과에 따르면, GAN 기반 방식은 70% 이상의 데이터가 필요한 반면, GI-PIP는 ImageNet의 3.8%의 데이터만 사용하여 16.12dB의 PSNR 복구를 달성했습니다. 또한 GI-PIP는 GAN 기반 방식에 비해 분포 일반화에 있어서도 우수한 성능을 보여줍니다. 우리의 접근 방식은 그라디언트 반전 공격에서 양과 분포에 대한 보조 데이터 요구 사항을 크게 완화하여 실제 FL에 더 큰 위협을 가할 수 있습니다. [abs|pdf]

[59/137] Attention on Personalized Clinical Decision Support System: Federated Learning Approach

Keywords: clinical_data_training, personalized_clinical, personalized_clinical_decision
Abstract: 빠르게 성장하는 현대 사회에서 새로운 종류의 질병과 복잡한 증상이 나타나면서 건강 관리가 주요한 문제로 대두되고 있습니다. 더 나은 스마트 의료 인프라를 구축하는 것은 스마트 시티의 궁극적인 목표 중 하나입니다. 우리가 아는 한, 신경망 모델은 이미 의료 전문가들이 이 목표를 달성하는 데 도움을 주기 위해 사용되고 있습니다. 일반적으로 신경망을 훈련하려면 풍부한 양의 데이터가 필요하지만, 임상 데이터의 이질적이고 취약한 속성은 기존의 중앙 집중식 네트워크에 문제를 야기합니다. 게다가 의료 데이터베이스에 새로운 입력을 추가하려면 기존 모델을 처음부터 다시 학습시켜야 합니다. 이러한 문제를 해결하기 위해 유니티는 연합 학습 패러다임에 따라 훈련되고 관리되는 딥러닝 기반 임상 의사결정 지원 시스템을 제안했습니다. 대규모 임상 데이터 마이닝을 가능하게 하면서도 환자 개인 정보의 안전을 보장하고 사이버 공격의 위험을 극복할 수 있는 새로운 전략에 집중했습니다. 그 결과, 환자의 기밀 데이터를 교환할 필요 없이 풍부한 임상 데이터를 활용하여 각 로컬 신경망을 훈련할 수 있게 되었습니다. 또한 제안한 방식을 주의 메커니즘을 통합한 시퀀스-투-시퀀스 모델 아키텍처로 구현했습니다. 따라서 우리의 목표는 정확한 솔루션을 제공하고 의료 전문가의 의료 진단을 지원할 수 있는 진화 가능한 특성을 가진 개인화된 임상 의사 결정 지원 시스템을 제공하는 것입니다. [abs|pdf]

[60/137] Fast and Scalable Network Slicing by Integrating Deep Learning with Lagrangian Methods

Keywords: slices_maximize_network, services_network_slicing, network_slicing
Abstract: 네트워크 슬라이싱은 5G와 그 이후의 다양한 서비스를 효율적으로 지원하기 위한 핵심 기술입니다. 많은 네트워크 슬라이싱 솔루션은 복잡하고 고차원적인 리소스 할당 문제를 관리하기 위해 딥 러닝에 의존합니다. 그러나 딥러닝 모델은 동적 슬라이싱 구성에 대한 일반화 및 적응성이 제한적입니다. 이 논문에서는 제약된 최적화 방법과 딥러닝 모델을 통합하여 강력한 일반화와 우수한 근사화 기능을 제공하는 새로운 프레임워크를 제안합니다. 제안된 프레임워크를 기반으로 슬라이스 간 리소스 제약 조건 하에서 네트워크 효용을 극대화하기 위해 무선 리소스를 슬라이스에 할당하는 새로운 신경 지원 알고리즘을 설계합니다. 이 알고리즘은 다양한 슬라이스 수와 슬라이스 구성을 쉽게 수용할 수 있는 높은 확장성을 보여줍니다. 제안한 솔루션을 시스템 수준의 네트워크 시뮬레이터에서 구현하고 심층 강화 학습 접근법을 포함한 최신 솔루션과 비교하여 성능을 광범위하게 평가합니다. 수치적 결과는 우리의 솔루션이 다양한 네트워크 슬라이싱 시나리오에서 최적에 가까운 서비스 품질 만족도와 유망한 일반화 성능을 얻는다는 것을 보여줍니다. [abs|pdf]

[61/137] Augmenting Prototype Network with TransMix for Few-shot Hyperspectral Image Classification

Keywords: hyperspectrial_image_classification, hyperspectral_image_classification, hyperspectral_images_training
Abstract: 소수 샷 하이퍼스펙트럼 이미지 분류는 이러한 픽셀 중 몇 개만 표시하여 이미지에서 각 픽셀의 클래스를 식별하는 것을 목표로 합니다. 그리고 각 픽셀의 공간-분광 합동 특징을 얻기 위해 각 픽셀을 중심으로 한 고정된 크기의 패치를 분류에 사용하는 경우가 많습니다. 하지만 기존 방법의 분류 결과를 살펴보면 초분광 영상에서 물체의 경계에 위치한 픽셀에 해당하는 경계 패치는 분류가 어렵다는 것을 알 수 있습니다. 이러한 경계 패치는 다중 클래스 스펙트럼 정보와 혼합되어 있습니다. 이에 착안하여 초분광 이미지 분류(APNT)를 위해 TransMix로 프로토타입 네트워크를 보강할 것을 제안합니다. 프로토타입 네트워크를 백본으로 삼으면서 특징 추출기로 트랜스포머를 채택해 픽셀과 픽셀의 관계를 학습하고 픽셀마다 다른 주의를 기울입니다. 동시에 초분광 이미지에서 잘라낸 패치를 훈련에 직접 사용하는 대신 두 개의 패치를 무작위로 혼합하여 경계 패치를 모방하고 합성 패치를 사용하여 모델을 훈련함으로써 하드 트레이닝 샘플의 수를 늘리고 다양성을 향상시킵니다. 또한 데이터 어설션 기법인 TransMix에 따라 트랜스포머가 반환한 주의력을 두 패치의 라벨을 혼합하여 합성 패치에 더 나은 라벨을 생성하는 데도 사용합니다. 제안된 방법은 기존 방법과 비교했을 때, 실험을 통해 소수의 샷 하이퍼스펙트럼 이미지 분류에 대해 최첨단 성능과 더 나은 견고성을 입증했습니다. [abs|pdf]

[62/137] Unraveling Attacks in Machine Learning-based IoT Ecosystems: A Survey and the Open Libraries Behind Them

Keywords: ml_attacks_iot, attacks_iot, techniques_ml_attacks
Abstract: 사물인터넷(IoT)의 출현으로 전례 없는 연결의 시대가 도래했으며, 2025년 말까지 약 800억 대의 스마트 디바이스가 작동할 것으로 예상됩니다. 이러한 디바이스는 수많은 스마트 애플리케이션을 촉진하여 다양한 영역에서 삶의 질과 효율성을 향상시킵니다. 머신러닝(ML)은 IoT에서 생성된 데이터를 분석할 뿐만 아니라 IoT 에코시스템 내의 다양한 애플리케이션에서 중요한 기술 역할을 합니다. 예를 들어, ML은 IoT 디바이스 인식, 이상 징후 탐지, 심지어 악성 활동 발견에도 유용합니다. 이 백서에서는 멤버십 추론, 적대적 회피, 재구성, 속성 추론, 모델 추출, 포이즈닝 공격 등 다양한 공격 유형에 걸쳐 IoT의 다양한 측면에 ML이 통합되면서 발생하는 보안 위협에 대해 포괄적으로 살펴봅니다. 이전 연구와 달리 저희는 공격자 모델, 공격 대상, 주요 보안 속성(기밀성, 가용성, 무결성) 등의 기준에 따라 위협을 분류하여 총체적인 관점을 제공합니다. 키사이트는 IoT 환경에서 발생하는 머신러닝 공격의 기본 기법을 심층적으로 분석하여 그 메커니즘과 영향에 대한 비판적인 평가를 제공합니다. 또한, 65개의 라이브러리(저자 제공 및 타사 제공)를 철저히 평가하여 모델 및 데이터 프라이버시를 보호하는 데 있어 각 라이브러리의 역할을 평가합니다. 이러한 라이브러리의 가용성과 유용성을 강조하여 커뮤니티가 진화하는 위협 환경에 대한 방어를 강화하는 데 필요한 도구로 무장하는 것을 목표로 합니다. 이 백서는 포괄적인 검토와 분석을 통해 빠르게 확장하는 IoT의 인공 지능 분야에서 ML 모델과 데이터를 보호하기 위한 귀중한 인사이트와 실용적인 솔루션을 제공함으로써 ML 기반 IoT 보안에 대한 지속적인 담론에 기여하고자 합니다. [abs|pdf]

[63/137] Graph Condensation: A Survey

Keywords: graph_gnns_achieve, training_graph_neural, graph_neural_networks
Abstract: 급증하는 그래프 데이터의 양은 저장, 전송, 특히 그래프 신경망(GNN)의 훈련에 있어 상당한 문제를 야기하고 있습니다. 이러한 문제를 해결하기 위해 그래프 압축(GC)이 혁신적인 솔루션으로 떠오르고 있습니다. GC는 작지만 대표성이 높은 그래프를 합성하는 데 중점을 두며, 이를 통해 GNN은 큰 원본 그래프에서 훈련된 것과 비슷한 성능을 얻을 수 있습니다. GC의 주목할 만한 효율성과 광범위한 전망은 상당한 주목을 받으며 광범위한 연구에 박차를 가하고 있습니다. 이 설문조사 보고서는 GC에 대한 최신의 체계적인 개요를 제공하며, 기존 연구를 효과성, 일반화, 공정성, 효율성이라는 중요한 GC 평가 기준에 따라 네 가지 범주로 정리했습니다. GC에 대한 심도 있고 포괄적인 이해를 돕기 위해 각 범주별로 다양한 방법을 살펴보고, GC의 두 가지 필수 요소인 최적화 전략과 압축 그래프 생성에 대해 자세히 논의합니다. 또한, 다양한 분야에서의 GC 적용 사례를 소개하고, GC의 당면 과제와 새로운 통찰력을 강조하여 향후 연구의 발전을 도모합니다. [abs|pdf]

[64/137] SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation

Keywords: level_weakly_supervised, labels_training_semantic, training_semantic_segmentation
Abstract: 이미지 수준의 약한 지도 의미 분할은 낮은 주석 비용으로 인해 점점 더 많은 관심을 받고 있습니다. 기존 방법들은 주로 클래스 활성화 매핑(CAM)에 의존해 의미론적 세분화 모델을 훈련하기 위한 의사 레이블을 얻습니다. 이 연구에서는 훈련 데이터의 롱테일 분포로 인해 헤드 클래스와 테일 클래스 간의 공유 기능으로 인해 분류기 가중치를 통해 계산된 CAM이 헤드 클래스에 대해서는 과도하게 활성화되고 테일 클래스에 대해서는 과소 활성화될 수 있음을 최초로 입증했습니다. 이는 의사 라벨 품질을 저하시키고 최종 의미론적 세분화 성능에도 영향을 미칩니다. 이 문제를 해결하기 위해 유니티는 CAM 생성을 위한 공유 특징 보정(SFC) 방법을 제안합니다. 구체적으로는 양수 공유 특징을 가진 클래스 프로토타입을 활용하고, 훈련 중에 분류기 가중치와 클래스 프로토타입을 통해 생성된 CAM 간의 간격을 좁히기 위해 다중 스케일 분포 가중치(MSDW) 일관성 손실을 제안합니다. MSDW 손실은 헤드/테일 클래스 분류기 가중치에서 공유된 특징을 보정하여 과잉 활성화와 과소 활성화의 균형을 맞추는 역할을 합니다. 실험 결과에 따르면 유니티의 SFC는 CAM 경계를 크게 개선하고 새로운 최첨단 성능을 달성하는 것으로 나타났습니다. 이 프로젝트는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[65/137] Medical Image Debiasing by Learning Adaptive Agreement from a Biased Council

Keywords: learn_dataset_bias, dataset_bias_medical, bias_labels_agnostic
Abstract: 딥러닝은 데이터 세트 편향으로 인한 학습 지름길에 빠지기 쉬우며, 부정확하고 신뢰할 수 없으며 불공정한 모델을 생성할 수 있어 실제 임상 애플리케이션에 적용하는 데 장애가 될 수 있습니다. 이러한 중요성에도 불구하고 의료 이미지 분류 영역에서는 데이터 세트 편향 문제를 해결하기 위한 연구가 부족합니다. 게다가 편향성을 식별하는 것은 힘들고 사후 해석에 의존할 수 있기 때문에 편향성 레이블은 종종 불가지론적입니다. 이 백서에서는 의료 이미지의 데이터 세트 편향 문제를 해결하기 위해 명시적인 편향 라벨에 의존하지 않는 디베이싱 프레임워크인 Ada-ABC(Adaptive Agreement from a Biased Council)를 학습할 것을 제안합니다. Ada-ABC는 데이터 세트 편향을 학습하기 위해 일반화된 교차 엔트로피 손실로 최적화된 여러 분류기로 구성된 편향된 위원회를 개발합니다. 그런 다음 편향된 카운슬의 안내에 따라 디베이싱 모델을 동시에 훈련합니다. 구체적으로, 디베이싱 모델은 편향된 카운슬이 올바르게 예측한 샘플에 대해서는 동의하고 잘못 예측한 샘플에 대해서는 동의하지 않음으로써 편향된 카운슬과의 적응적 합의를 학습해야 합니다. 이러한 방식으로 디베이싱 모델은 허위 상관관계가 없는 샘플의 목표 속성을 학습하는 동시에 허위 상관관계가 있는 샘플의 풍부한 정보를 무시하지 않도록 할 수 있습니다. 우리는 편향된 모델이 데이터 세트 편향을 성공적으로 포착할 때 디베이싱 모델이 목표 특성을 학습할 수 있음을 이론적으로 입증했습니다. 또한, 저희가 아는 한, 7가지 편향 시나리오가 포함된 4개의 데이터 세트에서 최초의 의료용 디베이싱 벤치마크를 구축했습니다. 광범위한 실험을 통해 우리가 제안한 Ada-ABC가 경쟁사 접근 방식보다 뛰어난 성능을 보였으며, 의료 이미지 분류를 위한 데이터 세트 편향 완화에 있어 그 효과를 입증했습니다. 코드와 정리된 벤치마크 데이터 세트는 공개적으로 사용할 수 있습니다. [abs|pdf]

[66/137] Domain-Aware Cross-Attention for Cross-domain Recommendation

Keywords: cross_domain_recommendation, cross_domain_recommendations, domain_recommendation
Abstract: 교차 도메인 추천(CDR)은 특히 타겟 도메인의 관측값이 희박한 경우 추천 시스템 성능을 향상시키는 중요한 방법입니다. 그러나 대부분의 기존 교차 도메인 추천은 대상 도메인의 특수한 기능을 충분히 활용하지 못하며 새로운 도메인에 일반화하기 어렵습니다. 설계된 네트워크는 복잡하여 신속한 산업 배포에 적합하지 않습니다. 우리의 방법은 2단계 도메인 인식 교차주의를 도입하여 서로 다른 세분성에서 소스 도메인의 이전 가능한 특징을 추출함으로써 도메인과 사용자 관심사를 모두 효율적으로 표현할 수 있습니다. 또한, 훈련 과정을 간소화하여 새로운 도메인에 모델을 쉽게 배포할 수 있습니다. 우리는 공공 데이터 세트와 산업 데이터 세트 모두에서 실험을 수행했으며, 실험 결과는 우리 방법의 효과를 입증했습니다. 또한 이 모델을 온라인 광고 시스템에 배포한 결과, 클릭률(CTR)과 마일당 유효 비용(ECPM)이 모두 크게 개선된 것을 확인할 수 있었습니다. [abs|pdf]

[67/137] Dissecting Bias of ChatGPT in College Major Recommendations

Keywords: majors_irrespective_bias, recommend_majors_based, profiles_evaluate_bias
Abstract: 저는 인종, 성별, 사회경제적 지위와 같은 인구통계학적 격차와 점수 백분위수와 같은 교육적 격차를 살펴봄으로써 다양한 프로필을 가진 학생들에 대한 ChatGPT의 대학 전공 추천에 대한 편향성을 조사합니다. 고등학생 프로필을 기반으로 모델이 전공을 추천할 수 있도록 ChatGPT API에 대한 프롬프트를 구성하여 Jaccard 계수, Wasserstein 메트릭, STEM 격차 점수 등 다양한 메트릭을 사용하여 편향성을 평가했습니다. 이 연구 결과에 따르면 적용된 편향성 지표에 관계없이 추천 대학 전공 세트에 상당한 불균형이 존재하는 것으로 나타났습니다. [abs|pdf]

[68/137] Admission Prediction in Undergraduate Applications: an Interpretable Deep Learning Approach

Keywords: classifiers, challenge_validating_admission, validating_admission_committee
Abstract: 이 글에서는 학부 입학에 대한 입학위원회의 결정을 검증하는 문제를 다룹니다. 최근 몇 년 동안 전통적인 심사 프로세스는 압도적으로 많은 양의 지원자 데이터를 처리하는 데 어려움을 겪어 왔습니다. 게다가 이러한 전통적인 평가는 종종 인간의 편견으로 이어져 지원자 간 차별을 초래할 수 있습니다. 지원서 검토자의 정량적 평가를 검증하기 위한 기존의 머신러닝 기반 접근 방식이 존재하지만, 이러한 방식은 확장성이 부족하고 대량의 데이터를 처리할 때 성능 문제를 겪습니다. 이러한 맥락에서 우리는 기존 방법의 문제점을 극복하는 딥러닝 기반 분류기, 즉 피드 포워드 및 입력 컨벡스 신경망을 제안합니다. 또한 해석 가능성 모듈인 LIME을 통합하여 모델에 추가적인 인사이트를 제공합니다. 훈련 및 테스트 데이터 세트는 다양한 변수와 정보가 포함된 지원자의 데이터로 구성됩니다. 우리의 모델은 최고 성능의 기존 머신러닝 기반 접근 방식에 비해 3.03%라는 상당한 차이로 더 높은 정확도를 달성합니다. 또한 LIME 기법을 사용하여 다양한 특징의 민감도와 전체 입학 결정에 대한 상대적 영향을 보여줍니다. [abs|pdf]

[69/137] Memory-Efficient Prompt Tuning for Incremental Histopathology Classification

Keywords: trainable_prompts, trainable_prompts_customized, prompt_tuning_framework
Abstract: 최근의 연구는 조직 병리 분류에 괄목할 만한 진전을 이루었습니다. 현재의 성공을 바탕으로 최근의 연구에서는 순차적으로 제공되는 도메인에서 점진적으로 학습하여 보다 일반화 가능하고 강력한 방향으로 모델을 업그레이드할 것을 제안했습니다. 일반적으로 모델 업데이트 시 대규모 연산 리소스를 요구하는 이전의 파라미터 격리 기반 접근 방식과 달리, 메모리 효율적인 프롬프트 튜닝 프레임워크를 제시하여 경제적인 메모리 비용으로 모델 일반화 잠재력을 키울 수 있습니다. 유입되는 각 도메인에 대해 초기 분류 모델의 기존 파라미터를 재사용하고 맞춤형 튜닝을 위해 경량의 학습 가능한 프롬프트를 추가합니다. 도메인 이질성을 고려하여 각 도메인의 고유한 특성을 독립적으로 조사할 수 있는 도메인별 프롬프트와 모든 도메인에서 공유되는 하나의 도메인 불변 프롬프트를 채택하여 시간이 지남에 따라 임베딩되는 공통 콘텐츠를 지속적으로 탐색하는 디커플링 프롬프트 튜닝을 수행합니다. 모든 도메인별 프롬프트는 프롬프트 뱅크에 추가되고 추가 변경 사항으로부터 격리되어 초기에 표시된 도메인의 고유한 특징을 잊어버리지 않도록 합니다. 도메인 불변 프롬프트는 시간이 지남에 따라 모델 일반화 기능을 개선하기 위해 스타일 증강 프롬프트 개선에 의해 전달되고 반복적으로 진화할 것입니다. 구체적으로, 기존 프롬프트로 그래프를 구성하고 스타일 증강 그래프 주의 네트워크를 구축하여 도메인 불변 프롬프트가 더 많은 도메인 일반 표현을 위해 전달된 모든 도메인 간에 중복된 잠재 임베딩을 탐색하도록 안내합니다. 우리는 유방암 전이 분류와 상피-기질 조직 분류라는 두 가지 조직 병리학 작업을 통해 프레임워크를 광범위하게 평가했으며, 우리의 접근 방식은 경쟁 방법보다 우수한 성능과 메모리 효율성을 보여주었습니다. [abs|pdf]

[70/137] An Improved Grey Wolf Optimization Algorithm for Heart Disease Prediction

Keywords: gray_wolf_optimization, generalization_neural_network, grey_wolf_optimization
Abstract: 이 논문은 적응형 곡선 회색 늑대 최적화(ACGWO) 알고리즘을 신경망 역전파에 통합하여 의료 영상 처리의 난제에 대한 독특한 해결책을 제시합니다. 신경망은 의료 데이터에서 잠재력을 보이지만 불균형하고 부족한 데이터로 인해 과적합 및 해석 가능성 부족과 같은 문제로 어려움을 겪습니다. 기존의 회색 늑대 최적화(GWO)도 모집단의 다양성 부족과 조기 수렴과 같은 단점이 있습니다. 이 논문에서는 적응형 알고리즘을 도입하여 이러한 문제를 해결하고, 시그모이드 함수로 표준 GWO를 향상시켰습니다. 이 알고리즘은 잘 알려진 6개의 테스트 함수를 사용하여 4개의 주요 알고리즘과 광범위하게 비교한 결과, 효과적으로 더 나은 성능을 보였습니다. 또한 ACGWO를 활용함으로써 신경망의 견고성과 일반화를 높여 보다 해석 가능한 예측을 가능하게 합니다. 공개적으로 액세스 가능한 클리블랜드 심장병 데이터 세트에 적용한 결과, 이 기술은 다른 10가지 방법을 능가하는 86.8%의 정확도를 달성하여 임상 환경에서 효율적인 심장병 예측의 가능성을 보여주었습니다. [abs|pdf]

[71/137] P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer

Keywords: alleviates_catastrophic_forgetting, catastrophic_forgetting, mitigates_forgetting_continual
Abstract: 치명적인 망각은 대규모 모델로 제어되는 지능형 에이전트를 관리할 때 상당한 문제를 야기하며, 이러한 에이전트가 새로운 작업에 직면할 때 성능 저하를 유발합니다. 이번 연구에서는 프로그레시브 프롬프트 디시전 트랜스포머(P2DT)라는 새로운 솔루션을 제안합니다. 이 방법은 새로운 작업을 훈련하는 동안 의사 결정 토큰을 동적으로 추가하여 트랜스포머 기반 모델을 개선함으로써 작업별 정책을 육성합니다. 이러한 접근 방식은 지속적 및 오프라인 강화 학습 시나리오에서 망각을 완화합니다. 또한 P2DT는 모든 작업에서 기존 강화 학습을 통해 수집한 궤적을 활용하고 훈련 중에 새로운 작업별 토큰을 생성하여 이전 연구의 지식을 유지합니다. 예비 결과에 따르면 이 모델은 치명적인 망각을 효과적으로 완화하고 작업 환경이 증가함에 따라 잘 확장되는 것으로 나타났습니다. [abs|pdf]

[72/137] Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo

Keywords: approximate_thompson_sampling, thompson_sampling_langevin, thompson_sampling_strategy
Abstract: 랑방 몬테카를로를 사용한 근사 톰슨 샘플링은 가우스 후방 샘플링에서 범위를 넓혀 보다 일반적인 부드러운 후방까지 포함합니다. 그러나 높은 정확도가 요구되는 고차원 문제에서는 여전히 확장성 문제에 직면합니다. 이 문제를 해결하기 위해 고차원 후방 시뮬레이션에 널리 사용되는 언더댐핑 랑방 몬테카를로를 활용하는 대략적인 톰슨 샘플링 전략을 제안합니다. 표준 평활도 및 로그-공동 조건에 기반하여 특정 포텐셜 함수를 사용하여 가속 후방 농도 및 샘플링을 연구합니다. 이 설계는 대수 후회를 실현하기 위한 표본 복잡도를 $\mathcal{\tilde O}(d)$에서 $\mathcal{\tilde O}(\sqrt{d})$로 개선합니다. 알고리즘의 확장성과 견고성은 고차원 밴디트 문제에 대한 합성 실험을 통해 경험적으로도 검증되었습니다. [abs|pdf]

[73/137] Zero-Space Cost Fault Tolerance for Transformer-based Language Models on ReRAM

Keywords: memory_reram, memory_reram_emerged, promising_platform_deep
Abstract: 저항성 랜덤 액세스 메모리(ReRAM)는 현장에서의 병렬 행렬-벡터 곱셈을 지원하기 때문에 심층 신경망(DNN)을 위한 유망한 플랫폼으로 부상했습니다. 그러나 하드웨어 결함(예: 고착 결함)이 발생하면 모델 추론 중에 상당한 예측 오류가 발생할 수 있습니다. 이러한 오류를 해결하기 위해 추가 크로스바를 사용할 수 있지만 스토리지 오버헤드가 발생하고 공간, 에너지, 비용 측면에서 효율적이지 않습니다. 이 백서에서는 공간 비용이 전혀 들지 않는 오류 보호 메커니즘을 제안합니다. 우리의 접근 방식에는 다음이 포함됩니다: 1) 모델 중복을 줄이기 위한 행과 열의 차별적 구조 가지치기, 2) 견고한 출력을 위한 가중치 중복 및 투표, 3) 중복된 가장 중요한 비트(MSB)를 모델 가중치에 포함시키는 것입니다. BERT 모델을 사용해 GLUE 벤치마크의 9개 과제에 대해 이 방법을 평가하고 실험 결과를 통해 그 효과를 입증했습니다. [abs|pdf]

[74/137] Differentiable Tree Search in Latent State Space

Keywords: policy_formulating_search, like_treeqn_attempted, differentiable_tree_search
Abstract: 훈련 데이터가 제한된 의사 결정 문제에서 심층 신경망을 사용하여 근사화된 정책 함수는 종종 최적의 성능을 발휘하지 못합니다. 다른 접근 방식은 제한된 데이터로 세계 모델을 학습하고 온라인 검색을 통해 조치를 결정하는 것입니다. 그러나 학습된 세계 모델의 부정확성으로 인해 발생하는 복합 오류로 인해 성능이 저하됩니다. TreeQN과 같은 방법은 알고리즘의 구조적 편향을 아키텍처에 통합하여 이러한 부정확성을 해결하려고 시도했지만, 이러한 편향은 종종 약하고 복잡한 의사 결정 작업에는 불충분합니다. 이 연구에서는 최적 우선 온라인 검색 알고리즘의 알고리즘 구조를 내장하여 귀납적 편향성을 크게 강화하는 새로운 신경망 아키텍처인 차별적 트리 검색(DTS)을 소개합니다. DTS는 학습된 세계 모델을 사용하여 잠재 상태 공간에서 완전히 차별화 가능한 온라인 검색을 수행합니다. 세계 모델은 검색 알고리즘과 함께 최적화되어 강력한 세계 모델을 학습하고 모델 부정확성의 영향을 완화할 수 있습니다. 확률론적 트리 확장 정책을 채택하고, 검색 트리 확장을 의사 결정 작업으로 공식화하며, 기울기 계산에 효과적인 분산 감소 기법을 도입하여 최적 우선 검색의 순진한 통합으로 인해 발생하는 잠재적인 Q-함수 불연속성을 해결합니다. 프록젠 게임과 그리드 탐색 작업에 대한 제한된 훈련 데이터 시나리오를 사용하여 오프라인-RL 환경에서 DTS를 평가하고, DTS가 널리 사용되는 무모델 및 모델 기반 기준선보다 성능이 뛰어나다는 것을 입증합니다. [abs|pdf]

[75/137] Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation

Keywords: multimodal_contrastive_ehr, contrastive_ehr_learning, encompassing_medical_codes
Abstract: 전자 건강 기록(EHR)을 사용하여 다음 방문 진단을 예측하는 것은 의료 분야에서 필수적인 작업으로, 의료진과 환자 모두를 위한 사전 예방적 미래 계획을 수립하는 데 매우 중요합니다. 그럼에도 불구하고 많은 선행 연구들은 EHR 데이터에 내재된 이질적이고 계층적인 특성을 충분히 고려하지 않았기 때문에 필연적으로 최적의 성능에 미치지 못하는 결과를 초래했습니다. 이를 위해 유니티는 계층적 정규화 기능을 갖춘 새로운 의료 코드 중심 멀티모달 대조 EHR 학습 프레임워크인 NECHO를 제안합니다. 먼저, 의료 코드 표현을 중심으로 피벗하는 맞춤형 네트워크 설계와 한 쌍의 바이모달 대비 손실을 사용하여 의료 코드, 인구 통계, 임상 기록을 아우르는 다각적인 정보를 통합합니다. 또한 의료 온톨로지의 상위 수준 정보를 사용하여 모달리티별 인코더를 정규화하여 EHR 데이터의 계층적 구조를 학습합니다. MIMIC-III 데이터에 대한 일련의 실험을 통해 이러한 접근 방식이 효과적임을 입증했습니다. [abs|pdf]

[76/137] LW-FedSSL: Resource-efficient Layer-wise Federated Self-supervised Learning

Keywords: federated_self_supervised, federated_learning, integrate_federated_learning
Abstract: 최근 많은 연구에서 연합 학습(FL)과 자기 지도 학습(SSL)을 통합하여 엣지 디바이스에 분산된 원시 학습 데이터를 활용하고 있습니다. 하지만 엣지 디바이스는 SSL 및 FL 알고리즘으로 인한 높은 컴퓨팅 및 통신 비용으로 인해 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해 유니티는 엣지 디바이스가 한 번에 모델의 한 레이어씩 점진적으로 학습할 수 있는 레이어별 연합 자율 지도 학습 접근 방식인 LW-FedSSL을 제안합니다. LW-FedSSL은 서버 측 보정 및 표현 정렬 메커니즘으로 구성되어 엔드투엔드 FedSSL과 비슷한 성능을 유지하면서 클라이언트의 리소스 요구 사항을 크게 낮춥니다. 서버 측 캘리브레이션 메커니즘은 FL 환경에서 리소스가 풍부한 서버를 활용하여 글로벌 모델 학습을 지원합니다. 한편, 표현 정렬 메커니즘은 FL 로컬 모델의 표현과 글로벌 모델의 표현 간의 근접성을 장려합니다. 실험 결과, LW-FedSSL은 엔드투엔드 방식에 비해 메모리 요구량이 3.3배 더 낮고 통신 비용이 3.2배 더 저렴했습니다. 또한 비슷한 메모리 요구량과 1.8배$ 저렴한 통신 비용으로 엔드투엔드 훈련보다 뛰어난 성능을 보이는 Prog-FedSSL이라는 점진적 훈련 전략도 살펴봅니다. [abs|pdf]

[77/137] Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to Vision Encoders with Multimodal Loss

Keywords: multimodal_loss, features_multimodal_losses, exploiting_multimodal_information
Abstract: 비전과 언어의 융합은 비전-언어 모델(VLM)의 출현을 통해 컴퓨터 비전에 혁신적인 변화를 가져왔습니다. 하지만 기존 VLM의 리소스 집약적 특성은 상당한 도전 과제를 안고 있습니다. 차세대 VLM을 개발하기 위해서는 접근 가능한 방법이 필요합니다. 이 문제를 해결하기 위해 소니는 CLIP의 제로샷 기능을 사전 학습된 비전 인코더로 전송하는 새로운 방법인 줌샷을 제안합니다. 이를 위해 특별히 설계된 멀티모달 손실 함수를 사용하여 CLIP 잠재 공간에 존재하는 멀티모달 정보(예: 텍스트 및 이미지)를 활용합니다. 이러한 손실 함수는 (1) 주기 일관성 손실과 (2) 새로운 프롬프트 유도 지식 증류 손실(PG-KD)입니다. PG-KD는 지식 증류의 개념과 CLIP의 제로 샷 분류를 결합하여 텍스트와 이미지 특징 간의 상호 작용을 포착합니다. 멀티모달 손실을 통해 단 하나의 단일 에포크에 대해 CLIP 잠재 공간과 사전 훈련된 비전 인코더의 잠재 공간 사이의 선형 매핑을 훈련합니다. 또한 줌샷은 완전히 비지도 방식으로 언페어드 데이터를 사용하여 학습됩니다. 새로운 VLM으로 보강된 다양한 비전 인코더의 제로 샷 기능을 거시적 및 세분화된 분류 데이터 세트에서 테스트하여 이 문제 영역에서 이전의 최신 기술을 능가하는 성능을 보였습니다. 훈련 과정에서 데이터와 컴퓨팅 간의 균형을 맞출 수 있는 줌샷을 통해 20개의 에포크가 있는 이미지넷 훈련 데이터의 20%에서 1%로 훈련을 줄임으로써 최첨단 결과를 얻을 수 있었습니다. 모든 코드와 모델은 GitHub에서 확인할 수 있습니다. [abs|pdf]

[78/137] Tight Verification of Probabilistic Robustness in Bayesian Neural Networks

Keywords: robustness_bayesian_neural, computing_tight_guarantees, guarantees_probabilistic_robustness
Abstract: 베이지안 신경망(BNN)의 확률적 견고성에 대한 엄격한 보증을 계산하는 두 가지 알고리즘을 소개합니다. BNN의 견고성 보장을 계산하는 것은 매개변수의 공간에서 안전한 가중치를 검색해야 하기 때문에 표준 신경망(NN)의 견고성을 검증하는 것보다 훨씬 더 까다로운 작업입니다. 또한, 가중치를 인코딩하는 변수의 연속적인 곱셈으로 인해 발생하는 다항식 때문에 혼합 정수 선형 프로그래밍(MILP)에 기반한 접근 방식과 같이 표준 NN을 검증하기 위한 엄격하고 완전한 접근 방식은 BNN 검증에 직접 사용할 수 없습니다. 저희 알고리즘은 반복적 확장과 네트워크의 기울기를 사용하여 매개변수 공간에서 안전한 가중치를 효율적이고 효과적으로 검색하며, 어떤 검증 알고리즘을 선택하든 BNN에 사용할 수 있습니다. 유니티의 알고리즘이 SoA보다 더 엄격한 바운드를 계산한다는 것을 증명하는 것 외에도, 유니티는 MNIST 및 CIFAR10과 같은 표준 벤치마크에서 SoA와 비교하여 알고리즘을 평가한 결과 유니티의 알고리즘이 SoA보다 최대 40% 더 엄격한 바운드를 계산하는 것으로 나타났습니다. [abs|pdf]

[79/137] In-context Learning with Retrieved Demonstrations for Language Models: A Survey

Keywords: demonstration_retrieval, models_retrieval_training, demonstration_retrieval_relatively
Abstract: 언어 모델, 특히 사전 학습된 대규모 언어 모델은 입력 컨텍스트에서 몇 번의 데모만으로 새로운 작업에 능숙하게 적응하는 '상황 내 학습자(ICL)'로서 놀라운 능력을 보여 왔습니다. 그러나 모델의 ICL 수행 능력은 몇 번의 데모 선택에 민감하게 반응합니다. 고정된 데모 세트를 사용하는 대신 각 입력 쿼리에 맞는 데모를 검색하는 것이 최근의 한 가지 개발 방법입니다. 데모 검색은 기존 데이터베이스와 검색 시스템을 활용하여 비교적 간단하게 구현할 수 있습니다. 이는 학습 프로세스의 효율성과 확장성을 향상시킬 뿐만 아니라 수동 예시 선택에 내재된 편향성을 줄이는 것으로 나타났습니다. 이러한 고무적인 결과와 검색된 데모와 함께 ICL에 대한 연구가 증가함에 따라, 저희는 이 분야의 연구를 광범위하게 검토했습니다. 이 설문조사에서는 검색 모델, 검색 훈련 절차, 추론 알고리즘에 대한 다양한 설계 선택에 대해 논의하고 비교합니다. [abs|pdf]

[80/137] Efficient local linearity regularization to overcome catastrophic overfitting

Keywords: catastrophic_overfitting, adversarial_training_results, step_adversarial_training
Abstract: 단일 단계 적대적 훈련(AT)에서 치명적인 과적합(CO)이 발생하면 적대적 테스트 정확도가 급격히 떨어집니다(심지어 0%까지 떨어집니다). 다단계 AT로 훈련된 모델의 경우, 손실 함수가 입력에 대해 국소적으로 선형적으로 작동하는 것이 관찰되었지만, 단일 단계 AT에서는 이러한 기능이 손실됩니다. 단일 단계 AT에서 CO를 해결하기 위해 정규화를 통해 손실의 국소 선형성을 강화하는 몇 가지 방법이 제안되었습니다. 그러나 이러한 정규화 조건은 이중 역전파로 인해 훈련 속도가 상당히 느려집니다. 대신, 이 연구에서는 대규모 적대 섭동 및 긴 훈련 일정과 같은 좀 더 어려운 체제뿐만 아니라 고전적인 AT 평가에서 효과적이고 효율적으로 CO를 완화하기 위해 ELLE라는 정규화 항을 도입합니다. 우리의 정규화 항은 이론적으로 손실 함수의 곡률과 연결될 수 있으며 이중 역전파를 피함으로써 이전 방법보다 계산적으로 저렴합니다. 철저한 실험적 검증을 통해 이전 작업에서 문제가 발생했던 까다로운 환경에서도 CO가 발생하지 않음을 입증했습니다. 또한, 훈련 중에 정규화 매개변수(ELLE-A)를 조정하면 특히 대규모 $\epsilon$ 설정에서 성능이 크게 향상되는 것을 확인할 수 있었습니다. 구현은 이 https URL 에서 확인할 수 있습니다. [abs|pdf]

[81/137] Graph Edits for Counterfactual Explanations: A Unified GNN Approach

Keywords: conceptual_counterfactuals_edits, graph_edits_counterfactual, edits_counterfactual_explanations
Abstract: 카운터팩츄얼은 분류기의 예측을 변경하기 위해 최소한의 편집을 활용하는 인기 있는 설명 가능성 기법으로 자리 잡았습니다. 개념적 반사실을 고려할 때, 요청된 편집은 입력 데이터에 존재하는 두드러진 개념과 일치해야 합니다. 동시에 개념적 거리는 지식 그래프에 의해 정의되어 개념적 편집의 최적화를 보장합니다. 이 연구에서는 개념적 역설에 대한 이전의 노력을 확장하여 역설적 설명으로서의 그래프 편집(graph edits as counterfactual explanations)을 도입함으로써 입력 데이터를 그래프로 표현할 때 블랙박스 분류기가 제공하는 대체 분류 레이블을 생성하는 최단 그래프 편집 경로가 무엇일까요? [abs|pdf]

[82/137] Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

Keywords: models_imagenet, diffusion_transformer_hdit, existing_models_imagenet
Abstract: 픽셀 수에 따라 선형적으로 확장되는 이미지 생성 모델인 모래시계 확산 트랜스포머(HDiT)는 픽셀 공간에서 직접 고해상도(예: $1024 \times 1024$)의 훈련을 지원합니다. 수십억 개의 파라미터로 확장할 수 있는 것으로 알려진 트랜스포머 아키텍처를 기반으로 구축된 이 모델은 컨볼루션 U-넷의 효율성과 트랜스포머의 확장성 사이의 간극을 메워줍니다. HDiT는 멀티스케일 아키텍처, 잠재적 자동 인코더 또는 셀프 컨디셔닝과 같은 일반적인 고해상도 트레이닝 기술 없이도 성공적으로 트레이닝합니다. HDiT는 이미지넷 $256^2$에서 기존 모델과 경쟁할 수 있는 성능을 보이며, FFHQ-$1024^2$에서 확산 모델에 대한 새로운 기준을 제시합니다. [abs|pdf]

[83/137] Learning to Maximize Gains From Trade in Small Markets

Keywords: double_auction_maximize, market_double_auction, double_auction
Abstract: 우리는 (지배적 전략) 인센티브 호환성과 예산 균형이라는 제약 조건 하에서 무역(사회 후생)으로 인한 이익을 극대화하기 위해 양면 시장(이중 경매)을 설계하는 문제를 연구합니다. 우리의 목표는 다항식 수의 표본이 주어지는 미지의 분포에 대해 이를 수행하는 것입니다. 첫 번째 결과는 판매자 한 명과 구매자 한 명(쌍방 거래)이 있는 경우와 달리 판매자 한 명과 구매자 두 명만 있는 경우에도 상관관계가 있는 값의 분포는 일반적으로 불가능하다는 것입니다. 두 번째 결과는 독립 분포의 경우 판매자 한 명과 구매자 두 명에 대한 효율적인 학습 알고리즘으로, 유한하게 지원되고 명시적으로 주어진 독립 분포에 대한 최적의 메커니즘을 계산하는 새로운 알고리즘을 기반으로 합니다. 두 결과 모두 예산 균형이 잘 맞는 (지배적 전략) 인센티브 호환 메커니즘의 특성화에 크게 의존합니다. [abs|pdf]

[84/137] Information-Theoretic State Variable Selection for Reinforcement Learning

Keywords: policy_optimization, reinforcement_learning_rl, challenge_reinforcement_learning
Abstract: 상태를 표현하는 데 가장 적합한 변수를 식별하는 것은 강화 학습(RL)의 근본적인 과제입니다. 이러한 변수는 최적의 의사결정을 내리는 데 필요한 정보를 효율적으로 포착해야 합니다. 이 문제를 해결하기 위해 본 논문에서는 학습 중에 상태 변수에서 액션으로 '엔트로피가 전달되는지' 판단하는 정보 이론적 기준인 전송 엔트로피 중복 기준(Transfer Entropy Redundancy Criterion, TERC)을 소개합니다. 우리는 에이전트의 최종 성능에 영향을 미치지 않는 변수를 상태 변수에서 확실하게 제외하여 샘플의 학습 효율을 높이는 TERC 기반 알고리즘을 정의합니다. 실험 결과에 따르면 이러한 속도 향상은 다양한 환경에서 세 가지 알고리즘 클래스(표 형식의 Q-학습, 액터-크리틱, 근사 정책 최적화(PPO)로 대표됨)에 걸쳐 나타납니다. 또한, 제안된 방법론과 현재의 최신 특징 선택 접근법 간의 차이점을 강조하기 위해 실제 의사 결정 작업에 일반화하기 전에 합성 데이터에 대한 일련의 통제된 실험을 제시합니다. 또한 상태 변수에서 행동으로의 정보 전달을 베이지안 네트워크로 간결하게 포착하는 문제 표현을 소개합니다. [abs|pdf]

[85/137] With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

Keywords: long_text_generation, pg19_language_modeling, trained_text_generated
Abstract: 문맥이 매우 긴 소설 쓰기나 담화 수준의 번역과 같은 긴 텍스트 생성은 현재 언어 모델에 상당한 문제를 야기합니다. 기존 방식은 주로 길이 외삽과 같은 전략을 통해 모델의 컨텍스트 창을 확장하는 데 중점을 둡니다. 그러나 이러한 접근 방식은 훈련 및/또는 추론 단계에서 상당한 하드웨어 리소스를 필요로 합니다. 유니티가 제안하는 방법인 Temp-Lora는 이러한 문제를 해결하기 위해 새로운 개념을 도입했습니다. Temp-Lora는 모든 컨텍스트 정보를 저장하기 위해 KV 캐시에 의존하는 대신 이 정보를 모델의 파라미터에 직접 포함합니다. 긴 텍스트를 생성하는 과정에서 이전에 생성된 텍스트로 점진적으로 학습된 임시 로라 모듈을 사용합니다. 이 접근 방식은 문맥 지식을 효율적으로 보존할 뿐만 아니라 생성 후 모듈이 폐기되므로 모델 파라미터의 영구적인 변경을 방지할 수 있습니다. PG19 언어 모델링 벤치마크와 GuoFeng 담화 수준 번역 벤치마크에 대한 광범위한 실험을 통해 Temp-Lora의 효과를 검증했습니다. 그 결과는 다음과 같습니다: 1) PG19의 하위 집합에서 난해성이 13.2% 감소하고, GuoFeng에서는 난해성이 29.6% 감소하고 BLEU 점수가 53.2% 증가한 것으로 나타나 긴 텍스트의 생성 품질이 크게 향상되었으며, 2) Temp-Lora는 대부분의 기존 긴 텍스트 생성 방법과 호환되며 이를 향상시키고, 3) Temp-Lora는 문맥 창을 단축함으로써 계산 비용을 크게 절감할 수 있습니다. 생성 품질은 약간 향상(PPL 3.8% 감소)되지만, 추론에 필요한 FLOP을 70.5% 줄이고 지연 시간을 51.5% 줄일 수 있습니다. [abs|pdf]

[86/137] Integration of Large Language Models in Control of EHD Pumps for Precise Color Synthesis

Keywords: color_synthesis_automation, synthesis_automation_systems, ai_driven_automation
Abstract: 이 백서에서는 자동화 시스템에서 정밀한 색상 합성을 위해 대규모 언어 모델(LLM)을 아두이노로 제어되는 전기유체역학(EHD) 펌프와 통합하는 혁신적인 접근 방식을 소개합니다. 유니티는 미세 조정된 LLM을 사용하여 자연어 명령을 해석하고 이를 EHD 펌프 제어를 위한 특정 작동 지침으로 변환하는 새로운 프레임워크를 제안합니다. 이 접근 방식은 복잡한 하드웨어 시스템과의 사용자 상호 작용을 개선하여 보다 직관적이고 효율적으로 만드는 것을 목표로 합니다. 이 방법론에는 색상 사양 데이터 세트와 해당 아두이노 코드로 언어 모델 미세 조정, 자연어 처리 인터페이스 개발, 사용자 입력을 실행 가능한 아두이노 코드로 변환, 정확한 색상 혼합을 위한 EHD 펌프 제어의 네 가지 주요 단계가 포함됩니다. 이론적 가정을 기반으로 한 개념적 실험 결과는 정확한 색상 합성, 효율적인 언어 모델 해석, 안정적인 EHD 펌프 작동에 대한 높은 잠재력을 보여줍니다. 이 연구는 텍스트 기반 작업을 넘어 산업 자동화 및 제어 시스템에서 LLM의 잠재력을 입증하며 그 적용 범위를 확장합니다. 이 연구는 실제 테스트의 한계와 필요성을 강조하는 동시에 물리적 시스템 제어에 AI를 적용할 수 있는 새로운 길을 열어주며, 향후 AI 기반 자동화 기술의 발전을 위한 토대를 마련했습니다. [abs|pdf]

[87/137] MapChange: Enhancing Semantic Change Detection with Temporal-Invariant Historical Maps Based on Deep Triplet Network

Keywords: semantic_change_detection, change_detection, mapchange_framework_empirically
Abstract: 의미적 변화 감지(SCD)는 이미지 분석 분야에서 중요하면서도 까다로운 작업으로 인식되고 있습니다. 기존의 SCD 방법은 주로 이미지 쌍의 비교에 의존해 왔습니다. 그러나 이러한 접근 방식은 촬영 시간, 대기 조건, 각도의 변화로 인해 발생하는 상당한 이미지 차이로 인해 상당한 어려움을 겪습니다. 이러한 불일치로 인해 사소하지만 중요한 변화를 제대로 감지하지 못하거나 시간적 차이로 인해 잘못된 경보가 발생하는 등 두 가지 주요 문제가 발생합니다. 이러한 요인으로 인해 변경되지 않은 물체가 여러 시간대의 이미지에서 현저하게 다르게 보이는 경우가 많습니다. 이러한 문제에 대응하기 위해 MapChange 프레임워크가 개발되었습니다. 이 프레임워크는 시간적 불변의 과거 지도 데이터와 현대의 고해상도 이미지를 결합하는 새로운 패러다임을 도입했습니다. 이 조합을 사용하면 기존 이미지 쌍 비교에 내재된 시간적 편차를 효과적으로 완화할 수 있습니다. MapChange 프레임워크의 효율성은 두 개의 공개 데이터 세트에 대한 포괄적인 테스트를 통해 경험적으로 검증되었습니다. 이러한 테스트를 통해 기존의 최첨단 SCD 방법보다 프레임워크가 현저히 우수하다는 것이 입증되었습니다. [abs|pdf]

[88/137] LR-CNN: Lightweight Row-centric Convolutional Neural Network Training for Memory Reduction

Keywords: convolution_layers_lightweight, rows_convolution_layers, dataflow_optimization
Abstract: 지난 10년 동안 다층 구조의 컨볼루션 신경망은 빠르게 발전해 왔습니다. 그러나 복잡한 네트워크를 훈련하는 것은 특히 배치 크기가 큰 고차원 입력을 처리할 때 많은 중간 데이터가 여러 계층에 걸쳐 보존되기 때문에 공간을 매우 많이 차지합니다. 이는 현재 가속기(예: GPU)의 제한된 메모리 용량에 큰 문제를 야기합니다. 기존의 노력은 하드웨어 비용이 추가되는 외부 보조 솔루션과 잠재적인 정확도 저하를 수반하는 내부 수정을 통해 이러한 병목 현상을 완화했습니다. 이와는 달리, 유니티의 분석 결과 레이어 내 및 레이어 간 계산은 공간적-시간적 의존성이 약하고 심지어 완전한 독립성 특징을 보이는 것으로 나타났습니다. 이를 통해 기존의 레이어별(열) 데이터 흐름 규칙을 깨뜨릴 수 있는 영감을 얻었습니다. 이제 연산은 모든 컨볼루션 레이어에서 행 단위로 새롭게 재구성됩니다. 이러한 경량 설계 덕분에 정확도 손실 없이 대부분의 중간 데이터를 제거할 수 있습니다. 특히 연속된 두 행 사이의 약한 의존성을 연구했습니다. 결과적으로 왜곡된 메모리 소비에 대해 선호하는 시나리오가 다른 두 가지 솔루션을 제공합니다. 두 개의 대표 네트워크에 대한 평가를 통해 그 효과를 확인합니다. 또한 중간 데이터 흐름 최적화가 기존 작업에서 원활하게 수용되어 더 나은 메모리 감소를 가져올 수 있음을 검증합니다. [abs|pdf]

[89/137] AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology

Keywords: processors_attentionlego_provides, llm_processors_attentionlego, processors_attentionlego
Abstract: 자연어 처리, 멀티모달 생성 인공 지능, 에이전트 지향 인공 지능 분야에서 Transformer 아키텍처를 사용한 대규모 언어 모델(LLM)은 경이로운 발전을 거듭하고 있습니다. 셀프 어텐션 모듈은 트랜스포머 기반 LLM 내에서 가장 중요한 하위 구조입니다. 범용 그래픽 처리 장치(GPU)를 사용한 연산은 메모리와 처리 장치 간에 중간 계산 결과를 전송하기 위해 무분별한 I/O 대역폭을 요구합니다. 이 문제를 해결하기 위해 이 연구에서는 공간적으로 확장 가능한 LLM 프로세서를 구축하기 위한 기본 구성 요소로 완전히 커스터마이징된 바닐라 자체 주의 가속기인 AttentionLego를 개발했습니다. AttentionLego는 메모리 내 처리(PIM) 기술을 통합한 완전 맞춤형 디지털 로직으로 기본 구현을 제공합니다. PIM 기반 행렬-벡터 곱셈과 룩업 테이블 기반 소프트맥스 설계를 기반으로 합니다. 오픈 소스 코드는 이 https URL을 통해 온라인으로 확인할 수 있습니다. [abs|pdf]

[90/137] General Flow as Foundation Affordance for Scalable Robot Learning

Keywords: robot_learning_data, video_datasets_predicted, prediction_large_language
Abstract: 우리는 확장 가능한 프레임워크로 실제 조작 기술을 습득하는 문제를 해결합니다. 대규모 언어 모델(LLM)에서 대규모 자동 회귀 예측의 성공에 영감을 받아 대규모 데이터 세트를 활용할 수 있는 적절한 예측 대상을 식별하는 것이 효율적이고 보편적인 학습을 달성하는 데 중요하다는 믿음을 가지고 있습니다. 따라서 유니티는 로봇 학습에 이상적인 예측 대상으로 관심 대상에 대한 3D 점의 미래 궤적을 나타내는 플로우를 활용할 것을 제안합니다. 확장 가능한 데이터 리소스를 활용하기 위해 우리는 교차 구현 데이터 세트에 주목합니다. 유니티는 대규모 RGBD 휴먼 비디오 데이터 세트에서 직접 언어 조건부 예측 모델을 최초로 개발했습니다. 예측된 흐름은 실행 가능한 기하학적 및 물리학 지침을 제공하므로 실제 시나리오에서 안정적인 제로 샷 기술 전수를 촉진하며, 폐쇄 루프 흐름 예측에 기반한 정책으로 방법을 배포합니다. 놀랍게도 이 방법은 추가 교육 없이도 6개의 장면에서 18개의 작업을 수행하여 인간과 로봇 간의 기술 전수에서 81%의 놀라운 성공률을 달성했습니다. 이 프레임워크는 다음과 같은 이점을 제공합니다: (1) 확장성: 교차 구현 데이터 리소스 활용, (2) 범용성: 강체, 관절형, 연체 등 다양한 물체 범주, (3) 안정적인 기술 전수: 추론 영역 간 격차가 적은 실행 가능한 지침 제공. 이는 확장 가능한 일반 로봇 학습을 향한 새로운 경로로 이어집니다. 데이터, 코드, 모델 가중치는 공개적으로 사용할 수 있습니다. [abs|pdf]

[91/137] Double-Bounded Optimal Transport for Advanced Clustering and Classification

Keywords: optimal_transport_db, bounded_optimal_transport, tailed_classification_emerging
Abstract: 머신 러닝 분야에서 최적 전송(OT)이 점점 더 주목을 받고 있습니다. 이는 최소한의 비용으로 소스 분포를 목표 분포로 전송하는 것을 목표로 합니다. 바닐라 형태에서는 소스 분포와 목표 분포가 미리 결정되어 있어, 목표가 결정되지 않은 실제 사례와는 차이가 있습니다. 이 논문에서는 목표 분포가 고정된 경계가 아닌 두 개의 경계 내에서 제한되어 있다고 가정하여 전송이 솔루션을 찾을 수 있는 더 많은 자유를 부여하는 이중 경계 최적 전송(DB-OT)을 제안합니다. DB-OT의 엔트로피 정규화를 기반으로 최적의 솔루션을 계산하기 위한 세 가지 스케일링 기반 알고리즘이 고안되었습니다. 또한 단일 클러스터에 샘플이 과도하게 집중되는 것을 방지할 수 있는 이중 중심 기반 클러스터링에 DB-OT가 유용하다는 것을 보여줍니다. 그런 다음 새롭게 떠오르는 미해결 문제인 롱테일 분류를 위한 DB-OT 기법을 추가로 개발합니다. 먼저, 분류 작업에서 훈련은 표현을 학습하기 위해 역(逆) OT를 최적화하고, 테스트는 예측을 위해 OT를 최적화하는 등 OT와 분류 간의 연결을 제안합니다. 이러한 OT 관점에서 먼저 손실을 개선하기 위해 DB-OT를 적용하고, 밸런스드 소프트맥스를 특수한 사례로 보여줍니다. 그런 다음 테스트 과정에서 추론을 위해 DB-OT를 적용합니다. 바닐라 소프트맥스로 학습된 기능을 사용하더라도 테스트 단계에서 개선된 추론 체계를 사용하면 좋은 결과를 얻을 수 있다는 것을 광범위한 실험 결과를 통해 확인할 수 있습니다. [abs|pdf]

[92/137] S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving

Keywords: semantic_segmentation_stereo, disparity_features, encoded_disparity_features
Abstract: 시맨틱 분할과 스테레오 매칭은 자율주행을 위한 3D 환경 인식 시스템의 두 가지 필수 구성 요소입니다. 그럼에도 불구하고 기존의 접근 방식은 이 두 가지 문제를 독립적으로 해결하고 각 작업마다 별도의 모델을 사용하는 경우가 많습니다. 이러한 접근 방식은 특히 컴퓨팅 리소스가 부족하거나 실시간 성능이 필수적인 경우 실제 시나리오에서 실질적인 한계를 드러냅니다. 따라서 이 글에서는 의미적 분할과 스테레오 매칭을 동시에 수행하기 위해 개발된 새로운 공동 학습 프레임워크인 S$^3$M-Net을 소개합니다. 특히, S$^3$M-Net은 RGB 이미지에서 추출한 특징을 두 작업 간에 공유하여 전반적인 장면 이해 능력을 향상시킵니다. 이 특징 공유 프로세스는 공유된 특징을 의미 공간으로 효과적으로 변환한 후 인코딩된 디스패리티 특징과 융합하는 특징 융합 적응(FFA) 모듈을 사용하여 실현됩니다. 전체 공동 학습 프레임워크는 두 작업의 구조적 일관성을 강조하는 새로운 의미적 일관성 유도(SCG) 손실을 최소화하여 학습됩니다. VKITTI2 및 KITTI 데이터 세트에 대해 수행된 광범위한 실험 결과는 우리가 제안한 공동 학습 프레임워크의 효과와 다른 최신 단일 작업 네트워크에 비해 우수한 성능을 입증합니다. 프로젝트 웹페이지는 mias.group/S3M-Net에서 확인할 수 있습니다. [abs|pdf]

[93/137] Agricultural Recommendation System based on Deep Learning: A Multivariate Weather Forecasting Approach

Keywords: based_crop_recommendation, bangladesh_predominantly_agricultural, knowledge_based_crop
Abstract: 방글라데시는 주로 농업 국가로, 농업 부문이 경제 성장을 가속화하고 국민의 식량 안보를 가능하게 하는 데 필수적인 역할을 하고 있습니다. 이 부문의 성과는 식량 안보, 고용 창출, 빈곤 퇴치, 인적 자원 개발, 기타 경제 및 사회적 힘과 같은 주요 거시경제 목표에 압도적인 영향을 미칩니다. 방글라데시의 노동 집약적 농업은 식량 곡물 생산량을 꾸준히 증가시켰지만, 폭우, 저온, 가뭄과 같은 불리한 기상 조건으로 인해 어려움을 겪는 경우가 많습니다. 결과적으로 이러한 요인들은 식량 생산을 크게 저해하여 국가의 전반적인 식량 안보를 위험에 빠뜨리고 있습니다. 이 논문에서는 수익성 있고 지속 가능하며 농민 친화적인 농업을 위해 일기예보 모델을 기반으로 한 상황 기반 작물 추천 시스템을 제안합니다. 광범위한 평가를 통해 다변량 스택형 Bi-LSTM 네트워크를 일기예보 모델로 사용합니다. 제안된 날씨 모델은 방글라데시의 특정 위치에 대한 강우량, 온도, 습도, 일조량을 더 높은 정확도로 예측할 수 있습니다. 이러한 예측은 농부들이 농작물 재배, 관개, 수확 등에 대해 실현 가능한 결정을 내릴 수 있도록 시스템을 안내합니다. 또한, 본격적인 시스템은 농부들에게 극심한 기상 조건에 대해 경고하여 농작물을 보호하기 위한 예방 조치를 취할 수 있도록 합니다. 마지막으로, 이 시스템은 방글라데시의 홍수 및 가뭄이 빈번한 지역을 위한 지식 기반 작물 제안에도 능숙합니다. [abs|pdf]

[94/137] SEBERTNets: Sequence Enhanced BERT Networks for Event Entity Extraction Tasks Oriented to the Finance Field

Keywords: enhanced_bert_networks, sequence_enhanced_bert, event_entity_extraction
Abstract: 이벤트 추출은 금융 분야의 투자 분석과 자산 관리의 핵심으로, 많은 관심을 받고 있습니다. 2019 중국 지식 그래프 및 시맨틱 컴퓨팅 컨퍼런스(CCKS) 챌린지에서는 금융 분야에 초점을 맞춘 이벤트 엔티티 추출 과제 평가 대회를 개최합니다. 이 과제에서는 주로 이벤트 엔티티를 정확하게 추출하고 해당 이벤트 엔티티를 모두 효과적으로 불러오는 방법에 중점을 둡니다. 본 논문에서는 BERT의 장점을 계승하면서 시퀀스 의미 정보를 포착할 수 있는 새로운 모델인 시퀀스 강화 BERT 네트워크(줄여서 SEBERTNets)를 제안합니다. 또한, 추천 시스템에서 착안하여 다중 채널 리콜 방식을 사용하여 해당 이벤트 엔티티를 모두 리콜하는 하이브리드 시퀀스 강화 BERT 네트워크(약칭 HSEBERTNet)를 제안합니다. 실험 결과, 1단계에서 SEBERTNets의 F1 점수는 0.905, 2단계에서 HSEBERTNets의 F1 점수는 0.934로 나타나 제안하는 방법의 효과를 입증했습니다. [abs|pdf]

[95/137] MedLM: Exploring Language Models for Medical Question Answering Systems

Keywords: language_models_llms, language_models, large_language_models
Abstract: 온라인 의학 문헌이 빠르게 확장되는 상황에서 정보를 취합하고 요약하는 자동화된 시스템은 의료 전문가와 환자에게 점점 더 중요해지고 있습니다. 고급 생성 기능을 갖춘 대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 가능성을 보여 왔으며, 특히 비공개 도서 생성 QnA의 경우 의료 분야에서의 잠재력은 상당합니다. 그러나 의료 질의응답과 같은 도메인별 작업에서 이러한 모델의 성능은 아직 많이 연구되지 않은 상태입니다. 본 연구는 의료 Q&A에 대한 일반 증류형 LM과 의료 특화 증류형 LM의 성능을 비교하여 이러한 간극을 메우는 것을 목표로 합니다. 도메인별 LM을 미세 조정하는 것의 효과를 평가하고 다양한 언어 모델 제품군의 성능을 비교하는 것을 목표로 합니다. 이 연구는 의료 Q&A 맥락에서 이러한 모델의 신뢰성, 비교 성능 및 효과에 대한 중요한 질문을 다룰 것입니다. 연구 결과는 의료 영역의 특정 애플리케이션에 대한 다양한 LM의 적합성에 대한 귀중한 인사이트를 제공할 것입니다. [abs|pdf]

[96/137] Using Large Language Model for End-to-End Chinese ASR and NER

Keywords: asr_entity_recognition, entity_recognition_ner, speech_recognition_asr
Abstract: 음성 토큰을 텍스트 토큰과 동일한 특징 공간에 매핑하는 것이 음성 모달리티를 디코더 전용 대규모 언어 모델(LLM)에 통합하는 패러다임이 되었습니다. 또 다른 접근 방식은 교차 주의를 통해 음성 특징을 통합하는 인코더-디코더 아키텍처를 사용하는 것입니다. 그러나 이 접근 방식은 문헌에서 그다지 주목을 받지 못했습니다. 이 연구에서는 Whisper 인코더를 ChatGLM3와 연결하고 중국어 자동 음성 인식(ASR) 및 이름 엔티티 인식(NER) 작업을 사용하여 이 두 가지 접근 방식을 심층적으로 비교합니다. F1 점수와 같은 기존 메트릭뿐만 아니라 ASR-NER 오류의 새로운 세분화된 분류법을 통해 평가합니다. 실험 결과 인코더-디코더 아키텍처는 짧은 컨텍스트에서는 디코더 전용 아키텍처보다 성능이 뛰어나며, 디코더 전용 아키텍처는 LLM의 모든 계층을 완전히 활용하기 때문에 긴 컨텍스트에서 이점을 얻을 수 있는 것으로 나타났습니다. LLM을 사용하여 엔티티 누락 오류를 크게 줄이고 컨포머 기준선에 비해 엔티티 ASR 정확도를 개선했습니다. 또한 긴 형식의 ASR 전사를 먼저 추론한 다음 NER 레이블을 예측하는 CoT(Chain-of-Thought) NER을 사용하여 AISHELL-NER 테스트 세트에서 0.805의 최첨단(SOTA) F1 점수를 획득했습니다. [abs|pdf]

[97/137] Language Models as Hierarchy Encoders

Keywords: trained_hierarchy_encoders, hierarchy_encoders, current_language_models
Abstract: 언어에 잠재된 계층 구조를 해석하는 것은 현재 언어 모델(LM)의 주요 한계입니다. 이전 연구에서는 이러한 계층 구조를 암시적으로 활용하여 LM을 개선했지만, 명시적인 인코딩을 위한 접근 방식은 아직 연구되지 않았습니다. 이 문제를 해결하기 위해 쌍곡선 공간의 확장성을 활용하여 트랜스포머 인코더 기반 LM을 계층 트랜스포머 인코더(HiT)로 재트레이닝하는 새로운 접근 방식을 소개합니다. 이 방법은 사전 학습된 LM의 출력 임베딩 공간을 임베딩 차원에 맞는 곡률을 가진 푸앵카레 공 안에 배치한 다음 쌍곡선 클러스터 및 구심성 손실에 대해 재학습합니다. 이러한 손실은 관련 엔티티(텍스트로 입력)를 효과적으로 클러스터링하고 계층적으로 구성하도록 설계되었습니다. 우리는 전이적 추론 시뮬레이션, 하위포섭 예측, 계층 간 지식 전달 능력에 초점을 맞춰 사전 훈련되고 미세 조정된 LM과 비교하여 HiT를 평가합니다. 그 결과, HiT가 이러한 작업에서 사전 학습된 LM과 미세 조정된 LM 모두에서 일관되게 우수한 성능을 보임으로써 재학습된 계층 구조 인코더의 효과와 이전 가능성을 입증했습니다. [abs|pdf]

[98/137] Self-sustaining Software Systems (S4): Towards Improved Interpretability and Adaptation

Keywords: autonomic_computing_evolutionary, software_systems_self, evolutionary_computing_autonomic
Abstract: 소프트웨어 시스템은 현실 세계의 문제를 광범위하게 해결하면서 다양한 수준에서 사회에 영향을 미칩니다. 현대의 소프트웨어 시스템은 그 복잡성이 인간의 이해 한계를 넘어설 정도로 정교한 경우가 많습니다. 이러한 시스템은 변화하는 목표, 동적 데이터, 예기치 않은 장애, 보안 위협 등 실제 환경의 다양한 요인에 대응해야 합니다. 시스템의 복잡성은 시스템의 해석 가능성을 어렵게 하고 동적 변화에 대한 자율적 대응을 요구합니다. 자율 시스템의 대응을 연구하는 두 가지 주요 연구 분야는 진화적 컴퓨팅과 자율 컴퓨팅입니다. 진화적 컴퓨팅은 소스 코드의 반복적인 수정을 기반으로 한 소프트웨어 개선에 중점을 둡니다. 자율 컴퓨팅은 시스템의 구조, 동작 또는 환경 변수를 변경하여 시스템 성능을 최적화하는 데 중점을 둡니다. 두 영역의 접근 방식은 시스템 상호 작용에서 얻은 지식을 축적하여 자율적 의사결정에 정보를 제공하는 피드백 루프에 의존합니다. 그러나 이러한 지식은 종종 제한적이어서 시스템의 해석 가능성과 적응성을 제약합니다. 이 백서에서는 해석 가능하고 적응 가능한 소프트웨어 시스템을 위한 새로운 개념인 자립형 소프트웨어 시스템(S4)을 제안합니다. S4는 최신 소프트웨어 시스템을 정의하는 모든 가용 지식 소스 간에 지식 루프를 구축하여 해석 가능성과 적응성을 향상시킵니다. 이 백서에서는 S4 개념을 소개하고 논의합니다. [abs|pdf]

[99/137] Revolutionizing API Documentation through Summarization

Keywords: informative_api_summaries, api_summaries, api_summaries_summaries
Abstract: 이 연구는 소프트웨어 개발의 필수 요소인 애플리케이션 프로그래밍 인터페이스(API) 문서 해석과 관련된 문제를 다룹니다. 공식 API 문서는 필수적이지만 길고 탐색하기 어려울 수 있기 때문에 개발자는 스택 오버플로와 같은 비공식 소스를 찾게 됩니다. 코드 스니펫과 토론 등 Stack Overflow에서 사용자가 생성한 방대한 콘텐츠를 활용하여 간결하고 유익한 API 요약을 자동으로 생성하는 BERTopic 및 추출 요약 기능을 사용합니다. 이러한 요약에는 일반적인 사용법, 일반적인 개발자 문제, 잠재적 해결책과 같은 주요 인사이트가 포함되며, 스택 오버플로우에 대한 풍부한 지식을 바탕으로 합니다. 소프트웨어 개발자는 이러한 요약의 성능, 일관성, 상호 운용성을 평가하여 접근 방식의 실용성에 대한 귀중한 피드백을 제공합니다. [abs|pdf]

[100/137] PepHarmony: A Multi-View Contrastive Learning Framework for Integrated Sequence and Structure-Based Peptide Encoding

Keywords: peptide_sequence_representation, peptide_representations, peptide_representations_offers
Abstract: 최근 단백질 언어 모델의 발전은 펩타이드 서열 표현에 상당한 진전을 가져왔습니다. 이 분야에 대한 광범위한 탐구에도 불구하고, 펩타이드의 복잡하고 때로는 불안정한 구조를 포착하기 어렵기 때문에 펩타이드별 요구 사항에 맞게 사전 훈련된 모델은 대부분 해결되지 않은 채로 남아 있습니다. 이 연구에서는 서열 기반 펩타이드 인코딩 작업을 위한 새로운 멀티뷰 대조 학습 프레임워크인 PepHarmony를 소개합니다. 펩하모니는 대조 학습을 통해 서열 및 구조 수준 정보를 모두 서열 수준 인코딩 모듈에 혁신적으로 결합합니다. 광범위한 펩타이드 서열과 구조를 포괄하기 위해 단백질 데이터 뱅크(PDB)와 알파폴드 데이터베이스에서 데이터 세트를 신중하게 선택합니다. 실험 데이터는 펩타이드 서열과 구조 사이의 복잡한 관계를 포착하는 데 있어 기준선 및 미세 조정된 모델과 비교하여 PepHarmony의 탁월한 능력을 보여줍니다. 모델의 견고성은 예측 성능을 향상시키는 데 있어 대비 손실과 전략적 데이터 정렬의 중요한 역할을 강조하는 광범위한 제거 연구를 통해 확인되었습니다. 제안된 펩하모니 프레임워크는 펩타이드 표현에 주목할 만한 기여를 하고 있으며, 펩타이드 신약 개발 및 펩타이드 엔지니어링의 향후 응용 분야에 대한 귀중한 인사이트를 제공합니다. 이 연구에 사용된 모든 소스 코드는 GitHub를 통해 이 https URL 또는 이 http URL에서 공개적으로 액세스할 수 있습니다. [abs|pdf]

[101/137] Quantum Machine Learning: from NISQ to Fault Tolerance

Keywords: quantum_machine_learning, learning_algorithms_quantum, tolerant_quantum_computing
Abstract: 양자 장치에서 머신러닝 알고리즘을 실행하는 양자 머신러닝은 학계와 비즈니스 업계에서 큰 주목을 받고 있습니다. 이 백서에서는 양자 머신러닝 분야에서 등장한 다양한 개념에 대해 포괄적이고 편견 없는 검토를 제공합니다. 여기에는 노이즈 중간 규모 양자(NISQ) 기술에 사용되는 기술과 내결함성 양자 컴퓨팅 하드웨어와 호환되는 알고리즘에 대한 접근 방식이 포함됩니다. 양자 머신 러닝과 관련된 기본 개념, 알고리즘, 통계적 학습 이론을 다룹니다. [abs|pdf]

[102/137] Prompting Large Vision-Language Models for Compositional Reasoning

Keywords: outperforms_embedding_based, reasoning_embedding, reasoning_embedding_based
Abstract: CLIP과 같은 시각 언어 모델은 텍스트와 이미지를 정렬된 임베딩으로 인코딩하여 공유 임베딩 공간에서 멀티모달 데이터를 검색할 수 있는 인상적인 기능을 보여줬습니다. 그러나 이러한 임베딩 기반 모델은 최근 Winoground 데이터 세트에서의 성능에서 알 수 있듯이 시각적-언어적 구성이 유사한 이미지와 텍스트를 효과적으로 매칭하는 데 여전히 어려움을 겪고 있습니다. 이 백서에서는 이러한 한계가 복잡한 멀티모달 데이터에 단일 벡터 표현을 사용한다는 점과 임베딩 기반 방법에 단계별 추론이 없다는 두 가지 요인에서 기인한다고 주장합니다. 이 문제를 해결하기 위해 저희는 대규모 시각 언어 모델(예: GPT-4)이 이미지를 묘사하고 구성 추론을 수행하도록 유도하는 새로운 생성 방법을 사용하여 탐색 단계를 거쳤습니다. 이 방법은 Winoground 데이터 세트에서 다른 임베딩 기반 방법보다 성능이 뛰어나며, 최적의 설명으로 강화할 경우 정확도가 최대 10%까지 향상됩니다. [abs|pdf]

[103/137] Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov

Keywords: reward_automaton, specialized_reward_automaton, reward_automaton_unlike
Abstract: 많은 강화 학습 알고리즘은 최적성을 보장하기 위해 마르코프 보상 함수를 가정합니다. 하지만 모든 보상 함수가 마르코프 함수인 것은 아닙니다. 이 논문에서는 보상 자동화에 특화된 리워드 머신을 학습하여 비마르코프 보상 함수를 동등한 마르코프 보상 함수로 매핑하는 프레임워크를 제안합니다. 보상 기계 학습의 일반적인 관행과 달리, 우리는 학습을 위해 높은 수준의 명제 기호 집합을 필요로 하지 않습니다. 그 대신 숨겨진 트리거를 인코딩하는 데이터에서 직접 '숨겨진 트리거'를 학습합니다. 우리는 단일 오토마톤에서 보상 종속성을 모델링할 수 있다는 점에서 보상 머신과 결정론적 유한 상태 오토마타의 학습이 이 작업에서 얼마나 중요한지 보여줄 것입니다. 학습 목표에서 이러한 차이를 공식화했습니다. 매핑 프로세스는 정수 선형 프로그래밍 문제로 구성됩니다. 우리는 매핑이 기본 프로세스에 대해 일관된 기대치를 제공한다는 것을 증명합니다. 오피스월드 도메인에서 블랙박스 비 마르코프 보상 함수를 학습하여 우리의 접근 방식을 경험적으로 검증합니다. 또한 새로운 도메인인 아침식사 영역에서 보상 간의 종속성을 학습하는 것이 효과적임을 입증합니다. [abs|pdf]

[104/137] PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation

Keywords: trained_language_models, low_rank_adaptation, rank_adaptation
Abstract: 사전 학습된 대규모 언어 모델(PLM)이 확산되면서 모든 모델 파라미터를 미세 조정하는 것은 점점 더 비효율적으로 변하고 있으며, 특히 상당한 학습 및 저장 비용이 수반되는 수많은 다운스트림 작업을 처리할 때 더욱 그렇습니다. 효율적인 파라미터 미세 조정(PEFT)을 달성하기 위한 몇 가지 접근 방식이 제안되었습니다. 그중에서도 학습 가능한 순위 분해 행렬을 각 대상 모듈에 통합하는 저순위 적응(LoRA)이 대표적인 방법입니다. 하지만 LoRA는 각 계층의 다양한 중요도를 고려하지 않습니다. 이러한 문제를 해결하기 위해 유니티는 각 레이어마다 서로 다른 순위를 선형적으로 할당하고, 가중치의 일시적인 크기와 특정 레이어에 대한 입력의 누적 통계를 모두 고려하여 훈련 프로세스 전반에 걸쳐 가지치기를 수행하는 PRILoRA를 도입했습니다. 유니티는 8개의 GLUE 벤치마크에 대한 광범위한 실험을 통해 PRILoRA의 효과를 검증하여 새로운 기술 수준을 제시합니다. [abs|pdf]

[105/137] CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs

Keywords: code_educators_appreciated, students_learning_programming, educators_appreciated_codeaid
Abstract: 특히 학급 규모가 커짐에 따라 프로그래밍을 배우는 학생들에게는 시기적절하고 개인화된 피드백이 필수적입니다. ChatGPT와 같은 LLM 기반 도구는 즉각적인 지원을 제공하지만, 코드로 직접 답을 보여주기 때문에 개념에 대한 깊은 몰입을 방해할 수 있습니다. 저희는 코드 솔루션을 공개하지 않으면서도 기술적으로 올바른 답변을 제공하는 LLM 기반 프로그래밍 도우미인 CodeAid를 개발했습니다. 예를 들어, CodeAid는 개념적인 질문에 답하고, 한 줄씩 설명이 포함된 의사 코드를 생성하고, 학생이 틀린 코드에 주석을 달아 수정 제안을 할 수 있습니다. 우리는 12주 동안 700명의 학생으로 구성된 프로그래밍 수업에 CodeAid를 배포했습니다. 매주 설문조사와 22명의 학생 인터뷰를 통해 8,000건의 CodeAid 사용에 대한 주제별 분석을 수행했습니다. 그런 다음 8명의 프로그래밍 교육자와의 인터뷰를 통해 코드에이드에 대한 추가 인사이트를 얻었습니다. 조사 결과 학생들은 주로 개념 이해와 디버깅을 위해 CodeAid를 사용했지만, 소수의 학생은 직접 코드를 얻으려고 시도했습니다. 교육자들은 코드에이드의 교육적 접근 방식을 높이 평가하면서도 가끔씩 부정확한 피드백과 학생들이 채팅GPT를 기본값으로 설정하는 것에 대해 우려를 표했습니다. [abs|pdf]

[106/137] Evaluating Driver Readiness in Conditionally Automated Vehicles from Eye-Tracking Data and Head Pose

Keywords: assessing_driver_readiness, driver_readiness_assessment, driver_readiness_based
Abstract: 자율주행 기술이 발전함에 따라 조건부 자율주행 차량에서 차량 제어를 재개하는 운전자의 역할이 점점 더 중요해지고 있습니다. SAE 레벨 3 또는 부분 자율주행 차량에서 운전자는 필요할 때 개입할 준비가 되어 있어야 합니다. 따라서 운전자의 준비 상태를 정확하게 평가하는 것이 필수적입니다. 이 글에서는 헤드 포즈 기능과 시선추적 데이터를 결합하여 운전자 준비 상태 평가에 대한 종합적인 분석을 제시합니다. 이 연구는 데이터 세트의 한계와 제한된 실측 데이터 레이블의 문제를 해결하면서 운전자 준비도 평가에 있어 예측 모델의 효과를 탐구합니다. 운전자의 머리 자세와 시선의 시공간적 상태를 기반으로 운전자의 준비 상태를 모델링하기 위해 LSTM 아키텍처를 비롯한 머신러닝 기법이 활용되었습니다. 이 글의 실험 결과, 두 가지 기능 세트를 결합한 양방향 LSTM 아키텍처가 DMD 데이터 세트에서 평균 절대 오차 0.363을 달성하여 운전자 준비도 평가에 있어 우수한 성능을 보였음이 밝혀졌습니다. 또한 제안된 모델의 모듈식 아키텍처는 스티어링 휠 활동과 같은 운전자별 기능을 추가로 통합할 수 있어 적응성과 실제 적용성을 향상시킵니다. [abs|pdf]

[107/137] Measuring Policy Distance for Multi-Agent Reinforcement Learning

Keywords: agent_policy_distance, multi_agent_policy, multi_agent_reinforcement
Abstract: 다양성은 다중 에이전트 강화 학습(MARL)의 성능을 향상시키는 데 중요한 역할을 합니다. 현재 기존 MARL의 과도한 매개변수 공유의 단점을 극복하기 위해 다양성 기반 방법이 많이 개발되었습니다. 하지만 에이전트 간의 정책 차이를 정량화할 수 있는 일반적인 지표는 여전히 부족합니다. 이러한 지표는 다중 에이전트 시스템에서 다양성 진화의 평가를 용이하게 할 뿐만 아니라 다양성 기반 MARL 알고리즘의 설계에 대한 지침을 제공할 수 있습니다. 이 논문에서는 MARL의 정책 차이를 측정하기 위한 일반적인 도구인 다중 에이전트 정책 거리(MAPD)를 제안합니다. 에이전트의 의사 결정에 대한 조건부 표현을 학습함으로써 MAPD는 모든 에이전트 쌍 간의 정책 거리를 계산할 수 있습니다. 또한 특정 측면에 대한 에이전트 정책 간의 차이를 정량화할 수 있는 사용자 지정 가능한 버전으로 MAPD를 확장합니다. MAPD의 온라인 배포를 기반으로 멀티 에이전트 동적 매개변수 공유(MADPS) 알고리즘을 설계하여 MAPD의 애플리케이션을 예시합니다. 광범위한 실험을 통해 이 방법이 에이전트 정책의 차이와 특정 행동 경향을 측정하는 데 효과적임을 입증했습니다. 또한 다른 매개변수 공유 방법과 비교했을 때 MADPS는 우수한 성능을 보여줍니다. [abs|pdf]

[108/137] Automated Fusion of Multimodal Electronic Health Records for Better Medical Predictions

Keywords: healthcare_services_deep, challenges_deep_learning, ehr_data_prediction
Abstract: 의료 기관에서 전자 건강 기록(EHR) 시스템이 널리 채택되면서 방대한 양의 의료 데이터가 생성되었고, 이는 딥러닝 기술을 통해 의료 서비스를 개선할 수 있는 상당한 기회를 제공합니다. 하지만 실제 EHR 데이터의 복잡하고 다양한 양식과 특징 구조는 딥러닝 모델 설계에 큰 과제를 안겨줍니다. EHR 데이터의 다중 양식 문제를 해결하기 위해 현재의 접근 방식은 주로 직관과 경험에 기반한 수작업 모델 아키텍처에 의존하기 때문에 최적이 아닌 모델 아키텍처와 제한된 성능으로 이어집니다. 따라서 본 논문에서는 EHR 데이터 마이닝을 위한 모델 설계 과정을 자동화하기 위해 다양한 입력 방식과 융합 전략을 인코딩하기 위한 최적의 모델 아키텍처를 자동으로 검색할 수 있는 새로운 신경망 아키텍처 검색(NAS) 프레임워크인 AutoFM을 제안합니다. 실제 멀티 모달 EHR 데이터와 예측 작업에 대한 철저한 실험을 수행한 결과, 이 프레임워크가 기존의 최첨단 방법보다 성능이 크게 향상되었을 뿐만 아니라 의미 있는 네트워크 아키텍처를 효과적으로 발견할 수 있음을 입증했습니다. [abs|pdf]

[109/137] Evaluating if trust and personal information privacy concerns are barriers to using health insurance that explicitly utilizes AI

Keywords: ai_health_insurance, ai_visible_privacy, trust_privacy_concern
Abstract: 온라인 거래에서 신뢰와 개인정보 보호는 중요한 관심사로 떠올랐습니다. 건강 정보 공유는 특히 민감하지만 건강 보험을 구매하고 활용하기 위해서는 필수적입니다. 증거에 따르면 소비자는 인간을 대신하는 기술에 점점 더 익숙해지고 있지만, AI의 사용 확대로 인해 이러한 인식이 바뀔 가능성이 있습니다. 이 연구에서는 신뢰와 개인정보 보호 문제가 의료 보험에 AI를 도입하는 데 걸림돌이 되는지 살펴봅니다. 두 가지 시나리오를 비교합니다: 첫 번째 시나리오는 AI가 인터페이스에 포함되지 않고 소비자에게 그 존재가 명시적으로 드러나지 않는 제한적인 시나리오입니다. 두 번째 시나리오에서는 AI 인터페이스와 AI 평가가 있으며, 이는 소비자에게 명시적으로 드러납니다. 두 시나리오는 SEM PLS-MGA를 사용하여 모델링하고 비교했습니다. 그 결과, AI가 보이는 두 번째 시나리오에서 신뢰도가 현저히 낮은 것으로 나타났습니다. 개인 정보 보호에 대한 우려는 AI가 더 높았지만, 그 차이는 모델 내에서 통계적으로 유의미하지 않았습니다. [abs|pdf]

[110/137] TreeMIL: A Multi-instance Learning Framework for Time Series Anomaly Detection with Inexact Supervision

Keywords: series_anomaly_detection, anomaly_detection, time_series_anomalies
Abstract: 시계열 이상 징후 탐지(TSAD)는 의료, 네트워크, 산업 등 다양한 영역에서 중요한 역할을 합니다. 라벨은 탐지에 매우 중요하지만 구하기 어렵기 때문에, 훈련 단계에서는 계열 수준의 라벨만 제공하고 테스트 단계에서는 포인트 수준의 이상 징후를 예측하는 부정확한 감독을 통해 TSAD를 활용합니다. 기존 작업은 개별 시간 단계에서 높은 이상 징후 점수를 유도하는 데 중점을 두는 기존의 다중 인스턴스 학습(MIL) 접근 방식을 따릅니다. 그러나 시계열 이상 징후는 개별 지점 이상 징후에만 국한되지 않고, 일반적으로 연속적으로 비정상적인 패턴을 보이는 집단 이상 징후가 될 수도 있습니다. 이 백서에서는 집단 이상 징후 문제를 해결하기 위해 트리 기반 MIL 프레임워크(TreeMIL)를 제안합니다. 먼저 전체 시리즈를 여러 노드로 나누기 위해 N차 트리 구조를 채택하고, 각기 다른 레벨의 노드는 길이가 다른 시퀀스를 나타냅니다. 그런 다음, 시퀀스 특징을 추출하여 집단적 이상 징후가 있는지 확인합니다. 마지막으로, 서로 다른 레벨의 노드에서 특징을 집계하여 포인트 레벨 이상 징후 점수를 계산합니다. 7개의 공개 데이터 세트와 8개의 기준선에 대한 실험 결과, TreeMIL은 이전의 최신 방법과 비교해 평균 32.3%의 F1- 점수 향상을 달성한 것으로 나타났습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[111/137] A Hybrid Approach of Transfer Learning and Physics-Informed Modeling: Improving Dissolved Oxygen Concentration Prediction in an Industrial Wastewater Treatment Plant

Keywords: transfer_learning_solution, transfer_learning, data_transfer_learning
Abstract: 폐수 처리 장치와 같은 비선형적이고 복잡한 시스템에서 제1원리 모델을 구축하는 것은 어려운 작업입니다. 최근에는 이러한 복잡성을 극복하기 위해 데이터 기반 모델이 널리 사용되고 있습니다. 하지만 데이터의 누락, 낮은 품질 또는 잡음과 같은 문제로 인해 어려움을 겪는 경우가 많습니다. 전이 학습은 이러한 문제를 해결하기 위해 다른 작업의 지식을 목표 작업으로 이전하여 예측 성능을 높이는 솔루션입니다. 이 연구에서는 (i) 대상 공장과는 다르지만 공정의 기본 물리학을 포착하는 오픈소스 시뮬레이션 모델, (ii) 노이즈가 많고 데이터가 제한적이지만 같은 정유 공장에 위치한 다른 산업 공장, (iii) (ii)의 모델에 대한 지식을 이전하고 (ii)의 오픈소스 모델에서 도출된 물리학 정보를 학습 문제의 목적 함수에 반영하여 산업 폐수 처리장의 예측 성능을 높이는 것을 목표로 했습니다. 그 결과 테스트 및 검증 성능이 각각 최대 27%, 59% 향상되는 것으로 나타났습니다. [abs|pdf]

[112/137] Programming Distributed Collective Processes in the eXchange Calculus

Keywords: abstraction_distributed_collective, programming_computational_collectives, distributed_collective_processes
Abstract: 사물인터넷(IoT)과 같은 최근의 트렌드는 거의 모든 종류의 환경에서 컴퓨팅 디바이스를 고밀도로 멀티스케일 배포하는 비전을 제시합니다. 이러한 컴퓨팅 에코시스템의 집단 적응형 동작을 프로그래밍하는 것은 중요한 엔지니어링 과제입니다. 이를 위해서는 앙상블(협력하는 장치들의 동적 그룹) 및 집단 작업(앙상블이 수행하는 공동 활동)과 같은 개념을 포착할 수 있는 추상화가 필요합니다. 이 작업에서는 이웃과 상호 작용하고 거의 동기화된 감지-계산-상호 작용 라운드로 실행되는 장치 모음을 고려하며, 여기서 계산은 감지 값과 수신 메시지를 출력 및 발신 메시지로 매핑하는 단일 프로그램에 의해 제공됩니다. 전체 계산 집합 프로그래밍을 지원하기 위해 앙상블 형성 로직과 집합 작업을 한 번에 정의하는 데 사용할 수 있는 분산 집합 프로세스의 추상화를 제안합니다. 상태와 상호작용이 단일 프리미티브인 교환을 통해 처리되는 이웃 값(이웃에서 값으로 매핑)을 기반으로 하는 핵심 함수 언어인 eXchange Calculus(XC)로 추상화를 공식화하고, 이에 상응하는 구현을 FCPP 언어로 제공합니다. 그런 다음, 멀티홉 메시지 전파 및 공간 속성의 분산 모니터링이라는 두 가지 사례 연구를 통해 분산 집단 프로세스를 연습합니다. 마지막으로 추상화의 특징과 다양한 종류의 분산 컴퓨팅 애플리케이션에 대한 적합성에 대해 논의합니다. [abs|pdf]

[113/137] Navigating the Thin Line: Examining User Behavior in Search to Detect Engagement and Backfire Effects

Keywords: search_behavior_opinionated, alternative_stances_searching, stance_diversity_consumption
Abstract: 의견을 가진 사용자는 확증 편향으로 인해 모순되는 증거는 무시한 채 기존의 신념에 부합하는 정보를 찾는 경우가 많습니다. 이러한 행동은 웹을 검색할 때 대안적인 입장을 고려하는 능력을 저해합니다. 그럼에도 불구하고, 논쟁의 여지가 있는 주제에 대한 검색 결과의 다양화가 고관여 사용자의 검색 행태에 어떤 영향을 미치는지 분석한 연구는 거의 없습니다. 이를 위해 사전 등록된 사용자 연구(n=257)를 통해 편향성 지표의 다양한 수준(낮음과 높음)과 검색 결과 표시(AI 예측 입장 라벨 포함 또는 미포함)가 세 가지 논쟁 주제(무신론, 지적재산권, 교복)에 대한 의견 차이가 심한 사용자의 입장 다양성 소비와 검색 행동에 영향을 미치는지 조사했습니다. 연구 결과, 참가자들이 (태도에 반하는) 편향된 검색 결과에 노출되면 태도에 반대되는 콘텐츠의 소비가 증가하지만, 편향성이 검색 페이지 내에서 전반적으로 상호 작용이 줄어드는 경향과도 관련이 있다는 것을 발견했습니다. 또한 사용자의 19%는 검색어 및 검색 페이지와 상호작용을 했지만 검색 결과를 선택하지 않은 것으로 나타났습니다. 사후 분석에서 이러한 참여자를 제외했을 때, 특히 검색 결과가 편향되었을 때 스탠스 레이블이 사용자가 소비하는 스탠스의 다양성을 증가시킨다는 사실을 발견했습니다. 이번 연구 결과는 향후 다양한 검색 시나리오 설정을 통해 의견을 가진 사용자의 행동에 대한 인사이트를 얻기 위한 연구가 필요하다는 점을 강조합니다. [abs|pdf]

[114/137] Fast and Exact Enumeration of Deep Networks Partitions Regions

Keywords: deep_networks_dns, deep_networks, formulation_deep_networks
Abstract: 딥 네트워크(DN)의 이론적 연구를 가능하게 하고 실무자에게 실용적인 지침을 제공하는 유익한 공식 중 하나는 조각별 아핀 스플라인에 의존하는 것입니다. 이 영역에서 DN의 입력 매핑은 영역별 아핀 매핑으로 표현되며, 이 영역은 모델의 아키텍처에 의해 암시적으로 결정되고 입력 공간의 파티션을 형성합니다. 이 연구의 모든 결과와 관련된 이 파티션은 지금까지 DN 입력 공간의 2/3$ 차원 조각에서 계산되거나 무작위 샘플링을 통해 추정되는 정도에 불과했습니다. 이 논문에서는 DN의 파티션 영역을 정확히 열거하는 최초의 병렬 알고리즘을 제공합니다. 제안된 알고리즘을 사용하면 DN 입력 공간의 무작위 샘플링을 기반으로 하는 등 일반적으로 사용되는 근사화 방법의 근접성을 최종적으로 평가할 수 있습니다. 우리의 주요 발견 중 하나는 부피가 '큰' 영역에만 관심이 있는 경우 공간의 균일 샘플링이 매우 효율적이지만 파티션의 '작은' 영역을 발견하는 데에도 관심이 있는 경우 균일 샘플링은 DN의 입력 공간 차원에 따라 기하급수적으로 비용이 많이 든다는 것입니다. 반면, 우리가 제안하는 방법은 입력 차원과 영역의 수에 따라 선형적으로 복잡성이 확장됩니다. [abs|pdf]

[115/137] Pixel-Wise Recognition for Holistic Surgical Scene Understanding

Keywords: surgical_scene_understanding, proposals_instrument_segmentation, prostatectomies_grasp_dataset
Abstract: 이 백서에서는 수술 장면 이해를 다양한 수준의 세분성을 가진 상호 보완적인 작업의 계층 구조로 모델링하는 선별된 벤치마크인 전립선 절제술의 총체적 및 다중 세분화 수술 장면 이해(GraSP) 데이터 세트를 소개합니다. 이러한 접근 방식을 통해 수술 단계 및 단계 인식과 같은 장기적인 작업과 수술 기구 세분화 및 원자적 시각적 동작 감지를 포함한 단기적인 작업을 포괄하여 수술 활동을 다단계로 이해할 수 있습니다. 제안된 벤치마크를 활용하기 위해 글로벌 비디오 특징 추출기와 기구 세분화 모델의 지역화된 영역 제안을 결합하여 벤치마크의 다중 세분성을 해결하는 일반적인 아키텍처인 TAPIS(Transformers for Actions, Phases, Steps, and Instrument Segmentation) 모델을 소개합니다. 광범위한 실험을 통해 단기 인식 작업에 세분화 주석을 포함하는 것이 미치는 영향을 입증하고, 각 작업의 다양한 세분성 요구 사항을 강조하며, 이전에 제안된 기준선 및 기존 CNN 기반 모델에 비해 TAPIS의 우수성을 입증합니다. 또한 여러 공개 벤치마크에서 방법의 견고성을 검증하여 데이터 세트의 신뢰성과 적용 가능성을 확인했습니다. 이 연구는 내시경 비전의 중요한 진전을 의미하며, 수술 절차에 대한 전체적인 이해를 향한 향후 연구를 위한 새롭고 포괄적인 프레임워크를 제공합니다. [abs|pdf]

[116/137] Generalizing Speaker Verification for Spoof Awareness in the Embedding Space

Keywords: spoofed_utterance_design, speaker_verification_asv, spoof_embeddings_training
Abstract: 자동 화자 확인(ASV) 시스템이 다양한 유형의 공격자를 통해 스푸핑될 수 있다는 것은 이제 잘 알려진 사실입니다. 이러한 공격에 대응하기 위한 ASV 시스템의 일반적인 접근 방식은 별도의 스푸핑 대응(CM) 모듈을 개발하여 음성 입력을 진성 발화 또는 스푸핑된 발화로 분류하는 것입니다. 하지만 이러한 설계는 인증 단계에서 추가적인 계산 및 활용 노력이 필요합니다. 대안적인 전략은 제로 노력 임포스터(비표적) 공격과 스푸핑 공격을 모두 처리하도록 설계된 단일 모놀리식 ASV 시스템을 사용하는 것입니다. 이러한 스푸핑 인식 ASV 시스템은 더 강력한 보호와 더 경제적인 계산을 제공할 수 있는 잠재력을 가지고 있습니다. 이를 위해 테스트(인증) 단계에서 별도의 CM 모듈을 사용하지 않고도 CM의 제한된 학습 데이터를 활용하여 임베딩 공간에서 간단한 백엔드를 강화하는 스푸핑 공격에 대한 독립형 ASV(G-SASV)를 일반화할 것을 제안합니다. 딥 뉴럴 네트워크 기반의 새롭고 간단한 백엔드 분류기를 제안하고, 학습 단계에서 스푸핑 임베딩의 도메인 적응과 멀티태스크 통합을 통해 연구를 진행합니다. ASVspoof 2019 논리적 액세스 데이터 세트를 대상으로 실험을 수행한 결과, 조인트(정상 및 스푸핑) 및 스푸핑 조건에서 통계적 ASV 백엔드의 성능을 동일 오류율 기준으로 각각 최대 36.2%, 49.8%까지 향상시켰습니다. [abs|pdf]

[117/137] Gaussian Adaptive Attention is All You Need: Robust Contextual Representations Across Multiple Modalities

Keywords: attention_models, boost_existing_attention, based_attention_models
Abstract: 유니티는 새로운 확률적 주의 프레임워크인 멀티헤드 가우시안 적응형 주의 메커니즘(GAAM)과 음성, 텍스트, 시각 등 여러 모달리티에 걸쳐 정보 집계를 향상하도록 설계된 가우시안 적응형 트랜스포머(GAT)를 제안합니다. GAAM은 학습 가능한 평균과 분산을 주의 메커니즘에 통합하고, 멀티헤드 프레임워크로 구현하여 특징의 중요도를 동적으로 재보정하기 위해 모든 확률 분포를 집합적으로 모델링할 수 있습니다. 이 방법은 특징 공간 내에서 핵심 요소를 식별하여 모델 성능(정확도 최대 약 20%)에서 최첨단 주의 기법을 능가하는 상당한 개선 효과를 보여주며, 특히 매우 비고정적인 데이터에 대해 상당한 개선 효과를 보여줍니다. 점-제품 기반 주의 모델과의 호환성 및 상대적으로 적은 수의 파라미터는 GAAM의 적응성과 기존 주의 프레임워크를 강화할 수 있는 잠재력을 보여줍니다. 경험적으로 GAAM은 음성 감정 인식, 이미지 분류, 텍스트 분류 등 다양한 작업에서 뛰어난 적응성과 효율성을 보여줌으로써 멀티모달 데이터를 처리하는 데 있어 견고성과 다용도성을 입증했습니다. 또한 GAAM 기반 방법으로 훈련된 모델의 설명력을 향상시키는 새로운 학습 기반 지표인 중요도 계수(IF)를 도입했습니다. 전반적으로 GAAM은 여러 모달리티에 걸쳐 더 나은 성능과 설명력을 갖춘 관심도 모델을 개발하기 위한 진보를 의미합니다. [abs|pdf]

[118/137] Stability Plasticity Decoupled Fine-tuning For Few-shot end-to-end Object Detection

Keywords: object_detector_sparse, detector_sparse_cnn, object_detectors_efficiently
Abstract: 소수 샷 객체 감지(FSOD)는 주석이 달린 몇 개의 샘플만으로 객체 감지기를 효율적으로 조정하는 방법을 설계하는 것을 목표로 합니다. 미세 조정은 효과적이고 실용적인 접근 방식인 것으로 나타났습니다. 그러나 기존 연구들은 고전적인 기본-신규 2단계 미세 조정 절차를 취하지만 서로 다른 모듈 간의 암묵적인 안정성-가소성 모순을 무시하는 경우가 많습니다. 특히, 무작위로 다시 초기화된 분류기는 새로운 샘플에 적응하기 위해 더 많은 가소성이 필요합니다. 사전 훈련된 가중치를 상속받는 다른 모듈은 클래스에 구애받지 않는 지식을 보유하기 위해 더 많은 안정성을 요구합니다. 이 두 부분의 최적화를 결합하는 정기적인 미세 조정은 FSOD 시나리오에서 모델 일반화에 악영향을 미칩니다. 이 백서에서는 다중 분류기 캐스케이드 아키텍처의 엔드투엔드 객체 검출기 Sparse R-CNN에서 이 문제가 두드러진다는 사실을 발견했습니다. 본 논문에서는 가소성 분류기 미세 조정(PCF) 단계를 추가로 도입하여 새로운 3단계 미세 조정 절차를 통해 이러한 모순을 완화할 것을 제안합니다. 또한 최종 미세 조정 단계에서 모델의 일반화를 향상시키기 위해 다중 소스 앙상블(ME) 기법을 설계합니다. 광범위한 실험을 통해 이 방법이 스파스 R-CNN을 정규화하는 데 효과적이며, FSOD 벤치마크에서 이전 방법보다 성능이 뛰어나다는 것을 확인했습니다. [abs|pdf]

[119/137] Enhancing Large Language Models for Clinical Decision Support by Incorporating Clinical Practice Guidelines

Keywords: clinical_decision_support, improve_clinical_decision, shot_prompting_zsp
Abstract: 배경 임상 진료 지침(CPG)으로 강화된 대규모 언어 모델(LLM)은 임상 의사 결정 지원(CDS)을 크게 개선할 수 있습니다. 그러나 LLM에 CPG를 통합하는 방법은 잘 연구되지 않았습니다. 방법 저희는 CPG를 LLM에 통합하는 세 가지 방법을 개발했습니다: 이진 의사결정 트리(BDT), 프로그램 지원 그래프 구성(PAGC), 생각의 사슬-소수 샷 프롬프트(CoT-FSP)가 그것입니다. 제안된 방법의 효과를 평가하기 위해 일련의 합성 환자 설명을 생성하고 4개의 LLM이 생성한 응답에 대해 자동 및 수동 평가를 수행합니다: GPT-4, GPT-3.5 터보, LLaMA, PaLM 2. 제로샷 프롬프트(ZSP)가 기준 방법으로 사용되었습니다. 사례 연구로 코로나19 외래 환자 치료를 위한 CDS에 중점을 두었습니다. 결과 네 가지 LLM 모두 기준선인 ZSP에 비해 CPG로 강화했을 때 향상된 성능을 보였습니다. BDT는 자동 평가에서 CoT-FSP와 PAGC를 모두 능가하는 성능을 보였습니다. 제안된 모든 방법은 사람에 의한 평가에서 높은 성능을 보여주었습니다. 결론 CPG로 강화된 LLM은 코로나19 외래 환자 치료를 위한 정확한 권고안을 제공하는 데 있어 ZSP를 사용한 일반 LLM에 비해 우수한 성능을 보였으며, 이는 사례 연구를 넘어 더 광범위하게 적용될 수 있는 잠재력을 보여줍니다. [abs|pdf]

[120/137] SPAND: Sleep Prediction Architecture using Network Dynamics

Keywords: sleep_behavior_graph, monitoring_predicting_sleep, predicting_sleep_behavior
Abstract: 수면 행동은 건강에 큰 영향을 미치며 신체적, 정신적 웰빙의 지표로 작용합니다. 따라서 유비쿼터스 센서로 수면 행동을 모니터링하고 예측하면 수면 관리와 관련 건강 상태를 추적하는 데 도움이 될 수 있습니다. 수면 행동은 사람의 생리학에 따라 달라지고 반영되지만, 디지털 미디어 사용, 소셜 네트워크 감염, 주변 날씨와 같은 외부 요인에 의해서도 영향을 받습니다. 본 연구에서는 그래프 네트워크를 통해 수면 행동의 사회적 전염성을 활용하고 이를 유비쿼터스 모바일 및 웨어러블 기기에서 추출한 생리학 및 전화 데이터와 통합하여 다음날 수면 시간에 대한 수면 레이블을 예측하는 시스템인 SPAND(네트워크 역학을 이용한 수면 예측 아키텍처)를 제안합니다. 이 아키텍처는 주의 집중 메커니즘을 고안하여 수면 행동과 무관한 연결이 포함된 대규모 그래프의 한계를 극복합니다. 광범위한 실험 평가를 통해 소셜 네트워크를 모델에 통합함으로써 얻을 수 있는 개선점을 강조합니다. 또한 실제 환경에서 시스템의 성능을 입증하기 위해 견고성 분석을 수행했습니다. 그 결과 입력 데이터의 섭동에 대한 SPAND의 안정성이 확인되었습니다. 추가 분석에서는 예측 성능에서 네트워크 토폴로지의 중요성을 강조하여 고유값 중심성이 높은 사용자가 데이터 교란에 더 취약하다는 사실을 밝혀냈습니다. [abs|pdf]

[121/137] FedRKG: A Privacy-preserving Federated Recommendation Framework via Knowledge Graph Enhancement

Keywords: federated_recommendation_global, novel_federated_recommendation, data_privacy_recommendation
Abstract: 연합 학습(FL)은 모델을 로컬에서 학습시켜 추천 시스템에서 데이터 프라이버시를 보호할 수 있는 유망한 접근 방식으로 부상했습니다. 최근에는 사용자와 아이템 간의 고차원적인 상호작용을 포착할 수 있는 그래프 신경망(GNN)이 추천 작업에서 인기를 얻고 있습니다. 하지만 개인정보 보호 문제로 인해 전체 사용자-아이템 그래프를 전 세계적으로 공유할 수 없습니다. 이러한 한계를 해결하기 위해 일부 방법에서는 그래프에 의사 상호작용을 하는 아이템이나 사용자를 생성하여 각 클라이언트에 대한 누락된 정보를 보완합니다. 안타깝게도 이러한 방법은 무작위 노이즈를 발생시키고 프라이버시 문제를 야기합니다. 본 논문에서는 공개적으로 사용 가능한 아이템 정보를 사용하여 서버에서 글로벌 지식 그래프(KG)를 구축하고 유지 관리하여 고차원적인 사용자-아이템 상호작용을 가능하게 하는 새로운 연합 추천 시스템인 FedRKG를 제안합니다. 클라이언트 측에서는 관계 인식 GNN 모델이 다양한 KG 관계를 활용합니다. 로컬 인터랙션 아이템과 모호한 그라데이션을 보호하기 위해 의사 라벨링과 로컬 차등 프라이버시(LDP)를 사용합니다. 세 가지 실제 데이터 세트에 대해 수행된 광범위한 실험은 프라이버시 보호를 보장하면서 중앙 집중식 알고리즘과 비교하여 우리 접근 방식의 경쟁력 있는 성능을 입증합니다. 또한, FedRKG는 기존 연합 학습 기준선에 비해 평균 4%의 정확도 향상을 달성했습니다. [abs|pdf]

[122/137] Adaptive Global-Local Representation Learning and Selection for Cross-Domain Facial Expression Recognition

Keywords: domain_facial_expression, domain_facial, adversarial_adaptation_semantic
Abstract: 도메인 이동은 여러 도메인에 걸쳐 분포가 다양하기 때문에 도메인 간 얼굴 표정 인식(CD-FER)에서 중요한 과제를 제기합니다. 현재의 연구는 주로 글로벌 특징 적응을 통해 도메인 불변 특징을 학습하는 데 초점을 맞추고 있으며, 로컬 특징의 전이성은 무시하고 있습니다. 또한 이러한 방법은 목표 데이터 세트에 대한 훈련 중에 차별적 감독이 부족하여 목표 도메인의 특징 표현이 저하될 수 있습니다. 이러한 한계를 해결하기 위해 유니티는 적응형 글로벌-로컬 표현 학습 및 선택(AGLRLS) 프레임워크를 제안합니다. 이 프레임워크는 글로벌-로컬 적대적 적응과 의미 인식 의사 레이블 생성을 통합하여 훈련 중 도메인 불변 및 판별 특징의 학습을 향상시킵니다. 한편, 추론 과정에서 분류 결과를 개선하기 위해 글로벌-로컬 예측 일관성 학습이 도입되었습니다. 구체적으로 이 프레임워크는 도메인 불변의 글로벌 특징과 로컬 특징을 독립적으로 학습하는 글로벌-로컬 적대 학습 모듈로 구성됩니다. 또한 글로벌 및 로컬 특징을 기반으로 시맨틱 라벨을 계산하는 시맨틱 인식 의사 라벨 생성 모듈을 설계했습니다. 또한 새로운 동적 임계값 전략을 사용하여 글로벌 및 로컬 특징의 독립적인 예측을 활용하여 최적의 임계값을 학습함으로써 신뢰할 수 없는 의사 라벨을 걸러내고 신뢰할 수 있는 라벨을 유지합니다. 이러한 레이블은 적대적 학습 프로세스를 통해 엔드투엔드 방식으로 모델 최적화에 활용됩니다. 추론 과정에서 글로벌-로컬 예측 일관성 모듈을 개발하여 여러 예측으로부터 최적의 결과를 자동으로 학습합니다. 공정한 평가 벤치마크를 기반으로 종합적인 실험과 분석을 수행합니다. 그 결과, 제안된 프레임워크가 현재 경쟁하는 방법보다 상당한 차이로 우수한 성능을 보임을 입증했습니다. [abs|pdf]

[123/137] Learning from Aggregate responses: Instance Level versus Bag Level Loss Functions

Keywords: private_learning_aggregate, prediction_risk_privacy, aggregate_learning
Abstract: 개인정보 보호에 대한 우려가 높아짐에 따라, 많은 실제 애플리케이션에서는 사용자의 민감한 응답에 대한 개인정보를 보호하기 위해 학습 데이터는 학습자와 공유하기 전에 집계됩니다. 집계 학습 프레임워크에서 데이터 세트는 샘플 백으로 그룹화되며, 각 백은 집계 응답으로만 사용할 수 있으므로 해당 백에 포함된 개인의 응답 요약이 제공됩니다. 이 백서에서는 집계 응답에서 학습하기 위한 두 가지 자연 손실 함수, 즉 백 수준 손실과 인스턴스 수준 손실을 연구합니다. 전자의 경우 집계 응답과 집계 모델 예측 사이의 손실을 최소화하여 모델을 학습하는 반면, 후자의 경우 모델은 개별 예측을 집계 응답에 맞추는 것을 목표로 합니다. 이 연구에서는 인스턴스 수준 손실이 백 수준 손실의 정규화된 형태로 인식될 수 있음을 보여줍니다. 이러한 관찰을 통해 결과 추정치의 편향과 분산과 관련하여 두 가지 접근법을 비교하고, 두 가지 접근법을 결합한 새로운 보간 추정법을 도입할 수 있습니다. 선형 회귀 작업의 경우, 훈련 집합의 크기가 특징 차원에 비례하여 증가하는 점근 체제에서 보간 추정기의 위험에 대한 정확한 특성화를 제공합니다. 이러한 분석을 통해 모델 예측 위험에 대한 백 크기와 같은 다양한 요인의 영향을 이론적으로 이해할 수 있습니다. 또한 총 응답에서 프라이버시를 차등적으로 학습하는 메커니즘을 제안하고 예측 위험과 프라이버시 절충의 관점에서 최적의 백 크기를 도출합니다. 또한 철저한 실험을 통해 이론을 검증하고 보간 추정기의 효율성을 보여줍니다. [abs|pdf]

[124/137] PhotoBot: Reference-Guided Interactive Photography via Natural Language

Keywords: robot_photographer, photos_taken_photobot, introduce_photobot
Abstract: 높은 수준의 인간 언어 안내와 로봇 사진작가 간의 상호 작용을 기반으로 한 자동 사진 촬영 프레임워크인 PhotoBot을 소개합니다. 선별된 갤러리에서 검색된 참조 사진을 통해 사용자에게 사진 제안을 전달할 것을 제안합니다. 시각 언어 모델(VLM)과 객체 감지기를 활용하여 텍스트 설명을 통해 참조 사진을 특성화하고, 대규모 언어 모델(LLM)을 사용하여 텍스트 기반 추론을 통해 사용자의 언어 쿼리를 기반으로 관련 참조 사진을 검색합니다. 참조 사진과 관찰 장면을 일치시키기 위해 상당히 다양한 이미지에서 의미적 유사성을 포착할 수 있는 비전 트랜스포머의 사전 학습된 특징을 활용합니다. 이러한 기능을 사용하여 원근법-점(PnP) 문제를 해결함으로써 RGB-D 카메라의 포즈 조정을 계산합니다. 손목 카메라가 장착된 실제 조작기에서 이러한 접근 방식을 시연합니다. 사용자 연구에 따르면, 사람의 피드백을 통해 측정한 결과 사용자가 직접 촬영한 사진보다 PhotoBot이 촬영한 사진이 미적으로 더 만족스러운 경우가 많았습니다. [abs|pdf]

[125/137] The Significance of Data Abstraction Methods in Machine Learning Classification Processes for Critical Decision-Making

Keywords: ml_methods_classification, unlike_random_forest, random_forest
Abstract: 널리 채택된 머신러닝(ML) 방법을 분류에 적용하는 것은 설명 가능성과 불확실성이라는 필수 조건에 의해 제한되며, 특히 책임성이 우선시되는 의료, 행동 과학, 금융과 같은 영역에서 더욱 두드러집니다. 최근에는 이러한 영역에서 분류를 수행하는 능력을 향상시키기 위해 ROC 곡선 기반 방법을 사용한 데이터 추상화 프로토콜을 개발하여 소규모 및 불완전한 데이터 세트 분석기(SaNDA)가 제안되었습니다. 이 백서에서는 추상화라고 하는 열 단위의 데이터 변환에 초점을 맞추고, SaNDA의 분류 프로세스에 중요한 역할을 하며, 상수 비닝 및 사분위수와 같은 대체 추상화 프로토콜을 살펴봅니다. 설명 가능한 방법의 기준이 되는 랜덤 포레스트와 가장 성능이 좋은 방법을 비교했습니다. 그 결과, 데이터가 불완전할 때 최소한의 결측치만 있어도 SaNDA가 랜덤 포리스트를 대체할 수 있음을 시사합니다. 비슷한 조건에서 정확도가 현저히 떨어지는 랜덤 포레스트와 달리 데이터 세트의 절반이 누락된 경우에도 높은 정확도를 일관되게 유지했습니다. [abs|pdf]

[126/137] Analysis and Detection of Multilingual Hate Speech Using Transformer Based Deep Learning

Keywords: hate_speech_detection, detect_hate_speech, prevalence_hate_speech
Abstract: 혐오 발언은 인종차별, 종교, 성적 지향 등 정체성의 실제 또는 인식된 측면에 근거하여 집단 또는 개인의 구성원을 직접 공격하거나 증오를 조장하는 유해한 콘텐츠입니다. 소셜 미디어를 통해 공유되는 혐오 콘텐츠는 개인과 커뮤니티 모두에게 해를 끼칠 수 있으므로 소셜 미디어 플랫폼에서의 사회생활에 영향을 미칠 수 있습니다. 온라인에서 혐오 발언의 확산이 증가함에 따라 NLP 작업으로 자동화된 탐지에 대한 수요가 증가하고 있습니다. 이 연구에서는 트위터, 페이스북, 왓츠앱, 인스타그램 등의 소셜 미디어에서 혐오 발언을 탐지하기 위해 트랜스포머 기반 모델을 사용합니다. 제안된 모델은 언어에 구애받지 않으며 이탈리아어, 영어, 독일어, 벵골어에 대해 테스트되었습니다. 골드 스탠다드 데이터 세트는 저명한 연구자 제라크 탈랏(Zeerak Talat), 사라 토넬리(Sara Tonelli), 멜라니 시겔(Melanie Siegel), 레쥴 카림(Rezaul Karim)으로부터 수집되었습니다. 제안된 혐오 발언 탐지 모델의 성공률은 벵골어 데이터셋에서 89%, 영어에서 91%, 독일어 데이터셋에서 91%, 이탈리아어 데이터셋에서 77%의 정확도로 기존의 기준 및 최신 모델보다 높았습니다. 제안된 알고리즘은 벤치마크 방식에 비해 상당한 개선을 보여줍니다. [abs|pdf]

[127/137] Fast Registration of Photorealistic Avatars for VR Facial Animation

Keywords: likeness_wearing_vr, photorealistic_avatar_likeness, animate_photorealistic_avatar
Abstract: 가상현실(VR)은 다른 미디어보다 더 몰입감 있는 소셜 인터랙션의 가능성을 보여줍니다. 그 핵심은 VR 헤드셋을 착용한 상태에서 자신의 모습을 닮은 사실적인 아바타에 정확하게 애니메이션을 적용하는 기능입니다. 오프라인 환경에서는 헤드셋 장착 카메라(HMC) 이미지에 개인별 아바타를 고품질로 등록할 수 있지만, 일반적인 실시간 모델의 성능은 현저히 떨어집니다. 온라인 등록도 비스듬한 카메라 뷰와 양식의 차이로 인해 쉽지 않습니다. 이 연구에서는 먼저 아바타와 헤드셋 카메라 이미지 사이의 도메인 갭이 어려움의 주요 원인 중 하나이며, 트랜스포머 기반 아키텍처가 도메인 일관성 있는 데이터에서는 높은 정확도를 달성하지만 도메인 갭이 다시 도입되면 성능이 저하된다는 것을 보여줍니다. 이 발견을 바탕으로, 유니티는 이 문제를 1) 도메인 내 입력을 받는 반복적인 개선 모듈과 2) 표정 및 머리 자세의 현재 추정치를 기반으로 하는 일반적인 아바타 가이드 이미지 간 스타일 전송 모듈로 분리하는 시스템 설계를 개발했습니다. 이 두 모듈은 사실에 가까운 예시를 보여줄 때 이미지 스타일 전송이 더 쉬워지고 도메인 간극을 더 잘 제거하면 등록에 도움이 되므로 서로를 강화합니다. 이 시스템은 고품질의 결과를 효율적으로 생성하므로 개인화된 라벨을 생성하기 위해 비용이 많이 드는 오프라인 등록이 필요하지 않습니다. 저희는 일반 헤드셋에 대한 광범위한 실험을 통해 접근 방식의 정확성과 효율성을 검증하여 오프라인 등록뿐만 아니라 직접 회귀 방법에 비해 상당한 개선이 이루어졌음을 입증했습니다. [abs|pdf]

[128/137] Decentralizing Coordination in Open Vehicle Fleets for Scalable and Dynamic Task Allocation

Keywords: assignment_problem_constraints, tasks_vehicles_agents, vehicle_fleets_dynamically
Abstract: 대규모의 개방형 협업 상용차 차량의 조율에 있어 주요 과제 중 하나는 동적인 작업 할당입니다. 개별적으로 합리적인 차량 운전자들은 지역적 목표와 글로벌 목표를 모두 가지고 있기 때문에 공정하고 효율적인 작업 할당 방법을 사용하여 조율해야 합니다. 이 논문에서는 결정론적 및 동적 2차원 선형 할당 문제를 중심으로 확장 가능한 동적 작업 할당에 관한 문헌을 검토합니다. 특히 동적으로 나타나는 차량이 동적으로 나타나는 작업 집합에 할당되어야 하는 소프트웨어 에이전트로 표현되는 개방형 차량 차량의 다중 에이전트 시스템 표현에 중점을 둡니다. 중앙 집중형, 분산형, 분산형 솔루션 접근 방식에 초점을 맞춘 최근 연구 결과를 비교하고 비판적으로 분석합니다. 또한 조합 최적화에서 잘 알려진 할당 문제, 병목 할당 문제, 공정 매칭 문제, 동적 최소 편차 할당 문제, $\sum_{k}$-할당 문제, 반할당 문제, 측면 제약이 있는 할당 문제, 에이전트 자격을 인식하면서 할당 문제 등의 동적 버전의 할당 문제에 대한 수학적 모델을 제안하고, 개방형 차량 플릿의 주요 측면인 이전 작업을 지원하거나 개인의 관심에 따라 차량 플릿에 참여함으로써 사용할 수 있는 작업 및 차량(에이전트)의 무작위 도착을 고려합니다. [abs|pdf]

[129/137] AI Revolution on Chat Bot: Evidence from a Randomized Controlled Experiment

Keywords: tools_human_productivity, generative_ai_undergone, generative_ai
Abstract: 최근 몇 년 동안 제너레이티브 AI는 크게 발전하여 인간의 생산성을 향상시키는 데 상당한 가능성을 보여주었습니다. 특히 ChatGPT-4를 예로 들 수 있는 대규모 언어 모델(LLM)이 상당한 주목을 받고 있습니다. 수많은 논문에서 실험실 환경과 설계된 작업 또는 관찰 연구에서 LLM 기반 도구가 인간의 생산성에 미치는 영향을 조사했습니다. 최근의 발전에도 불구하고 실제 환경에서 LLM 기반 도구를 적용한 현장 실험은 제한적입니다. 이 백서에서는 정보 검색을 위한 비모니터링 지원 서비스를 제공할 때 LLM 기반 도구의 효과를 평가하는 현장 무작위 대조 실험의 결과를 제시합니다. [abs|pdf]

[130/137] Self context-aware emotion perception on human-robot interaction

Keywords: scam_robots_psychology, context_emotions, robots_psychology
Abstract: 감정 인식은 인간과 로봇의 다양한 상호작용 영역에서 중요한 역할을 합니다. 인간과의 장기적인 상호작용에서 로봇은 지속적이고 정확하게 반응해야 하지만, 주류 감정 인식 방법은 대부분 감정이 인식되는 맥락을 무시한 채 단기적인 감정 인식에 초점을 맞추고 있습니다. 인간은 상황 정보와 맥락에 따라 전혀 다른 감정 표현을 할 수 있다고 생각합니다. 이 논문에서는 2차원 감정 좌표계를 사용하여 서로 다른 감정을 고정하고 다시 레이블을 지정하는 자기 맥락 인식 모델(SCAM)을 소개합니다. 동시에 고유한 정보 보존 구조와 문맥 손실 기능을 통합합니다. 이러한 접근 방식을 통해 오디오, 비디오, 멀티모달에서 상당한 개선이 이루어졌습니다. 청각의 경우 정확도가 63.10%에서 72.46%로 크게 향상되었습니다. 마찬가지로 시각적 모달리티도 77.03%에서 80.82%로 정확도가 향상되었습니다. 멀티모달의 경우 정확도가 77.48%에서 78.93%로 상승했습니다. 향후에는 심리학 실험을 통해 로봇에 대한 스캠의 신뢰성과 사용성을 검증할 예정입니다. [abs|pdf]

[131/137] Machine Unlearning for Recommendation Systems: An Insight

Keywords: personalization_privacy_bias, personalization_privacy_encouraging, personalization_privacy
Abstract: 이 리뷰에서는 적응성, 개인화, 개인정보 보호, 편향성 문제를 해결하는 추천 시스템의 머신 언러닝(MUL)에 대해 살펴봅니다. 기존 모델과 달리 MUL은 사용자 선호도의 변화와 윤리적 고려 사항에 따라 시스템 지식을 동적으로 조정합니다. 이 백서에서는 MUL의 기본 사항, 실제 적용 사례, 알고리즘 투명성과 같은 과제를 비판적으로 검토합니다. 이 백서는 문헌을 통해 MUL이 추천을 어떻게 변화시킬 수 있는지에 대한 인사이트를 제공하고, 사용자 신뢰에 대해 논의하며, 책임감 있고 사용자 중심적인 인공지능(AI)의 미래 연구 방향을 제시합니다. 이 문서는 개인화와 개인정보 보호 사이의 균형과 관련된 과제를 통해 연구자들을 안내하며, 표적 데이터 제거에 대한 실질적인 요구를 충족하기 위한 기여를 장려합니다. 이 백서는 안전하고 적응적인 머신 러닝에서 MUL의 역할을 강조하면서 그 경계를 넓힐 수 있는 방법을 제안합니다. 이 백서의 참신함은 방법의 한계를 탐구하여 이 분야를 발전시킬 수 있는 흥미로운 전망을 제시한다는 데 있습니다. [abs|pdf]

[132/137] Subjective Causality

Keywords: subjective_causal_judgements, preferences_consistent_causal, causal_judgements
Abstract: 우리는 개입에 대한 선호도를 관찰함으로써 의사 결정자의 주관적인 인과적 판단을 이해하고 식별하는 것이 가능하다는 것을 보여줍니다. Pearl [2000]에 따라, 우리는 세계를 방정식으로 연결된 변수들의 집합으로 설명하는 인과 모델(구조 방정식 모델이라고도 함)을 사용하여 인과 관계를 표현합니다. 우리는 개입에 대한 선호 관계가 특정 공리(반증에 관한 표준 공리와 관련)를 만족한다면 (i) 인과 모델, (ii) 세계의 외부 요인에 대한 의사 결정자의 불확실성을 포착하는 확률, (iii) 각 개입이 기대 효용과 연관되어 있고 $A$의 기대 효용이 $B$보다 클 경우 개입 $A$가 $B$보다 선호되는 결과에 대한 효용을 정의할 수 있음을 보여 줍니다. 또한 인과 모델이 고유한 경우를 특성화합니다. 따라서 우리의 결과를 통해 모델러는 의사 결정자의 선호가 어떤 인과 모델과 일치한다는 가설을 테스트하고 관찰된 행동으로부터 인과적 판단을 식별할 수 있습니다. [abs|pdf]

[133/137] SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

Keywords: visual_gui_agents, gui_agent_tasks, screenshots_task_automation
Abstract: GUI(그래픽 사용자 인터페이스) 에이전트는 스마트폰이나 데스크톱과 같은 디지털 기기에서 복잡한 작업을 자동화하도록 설계되었습니다. 대부분의 기존 GUI 에이전트는 추출된 구조화된 데이터를 통해 환경과 상호 작용하는데, 이 데이터는 상당히 길고(예: HTML) 때로는 접근이 불가능할 수 있습니다(예: 데스크톱). 이러한 문제를 완화하기 위해 스크린샷에만 의존하여 작업을 자동화하는 시각적 GUI 에이전트인 SeeClick을 제안합니다. 예비 연구에서 우리는 시각적 GUI 에이전트 개발의 핵심 과제를 발견했습니다: 바로 지침에 따라 화면 요소를 정확하게 찾을 수 있는 능력, 즉 GUI 접지력입니다. 이 과제를 해결하기 위해, 우리는 GUI 그라운딩 사전 학습을 통해 SeeClick을 개선하고 GUI 그라운딩 데이터의 큐레이션을 자동화하는 방법을 고안할 것을 제안합니다. 이러한 노력과 함께 모바일, 데스크톱, 웹 환경을 아우르는 최초의 현실적인 GUI 접지 데이터 세트인 ScreenSpot도 만들었습니다. 사전 교육 후, SeeClick은 다양한 기준선에 비해 ScreenSpot이 크게 개선되었음을 입증했습니다. 또한 널리 사용되는 세 가지 벤치마크에 대한 종합적인 평가는 GUI 접지의 발전이 다운스트림 GUI 에이전트 작업의 성능 향상과 직접적인 상관관계가 있다는 사실을 일관되게 뒷받침합니다. 모델, 데이터 및 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[134/137] A New Creative Generation Pipeline for Click-Through Rate with Stable Diffusion Model

Keywords: creative_ranking_model, generated_creatives_attractive, creative_ranking_task
Abstract: 온라인 광고 시나리오에서 판매자는 포괄적인 데모를 제공하기 위해 여러 개의 크리에이티브를 제작하는 경우가 많기 때문에 클릭률(CTR)을 극대화하기 위해 가장 매력적인 디자인을 제시하는 것이 필수적입니다. 그러나 판매자는 일반적으로 크리에이티브 디자인에 대한 사용자 선호도를 고려하는 데 어려움을 겪기 때문에 인공지능(AI) 기반 접근 방식에 비해 상대적으로 미적 감각과 수량이 떨어집니다. 기존의 AI 기반 접근 방식은 디자이너의 미적 지식이 제한적인 반면 사용자 정보를 고려하지 않는 동일한 문제에 직면해 있습니다. 사용자 정보를 융합하면 사용자마다 선호도가 다를 수 있기 때문에 생성된 크리에이티브가 더 매력적일 수 있습니다. 결과를 최적화하기 위해 기존 방식으로 생성된 크리에이티브는 크리에이티브 랭킹 모델이라는 또 다른 모듈을 통해 순위를 매깁니다. 랭킹 모델은 사용자 특징을 고려하여 각 크리에이티브의 CTR 점수를 예측할 수 있습니다. 하지만 위의 두 단계는 서로 다른 작업으로 간주되어 별도로 최적화됩니다. 본 논문에서는 크리에이티브 생성 단계에서의 CTR 향상을 목표로 클릭률 자동화를 위한 새로운 크리에이티브 생성 파이프라인(CG4CTR)을 제안했습니다. 본 논문은 크게 4가지로 구성되어 있습니다. 1) 안정적 확산의 인페인팅 모드를 온라인 광고 현장의 크리에이티브 생성 작업에 우선적으로 적용합니다. 학습의 융합을 보장하기 위해 자가 순환 생성 파이프라인을 제안합니다. 2) 프롬프트 모델은 다양한 사용자 그룹에 대해 개별화된 크리에이티브를 생성하도록 설계되어 다양성과 품질을 더욱 향상시킬 수 있습니다. 3) 보상 모델은 이미지와 텍스트의 멀티모달 특징을 종합적으로 고려하여 크리에이티브 랭킹 작업의 효율성을 높이며, 자체 순환 파이프라인에서도 중요합니다. 4) 온라인 및 오프라인 실험에서 얻은 유의미한 이점은 제안한 방법의 중요성을 입증합니다. [abs|pdf]

[135/137] Artificial intelligence to automate the systematic review of scientific literature

Keywords: scientific_literature_manually, analyses_scientific_literature, scientific_literature_tasks
Abstract: 인공 지능(AI)은 전통적으로 인간이 수행하던 복잡한 작업을 효과적으로 해결하면서 현대 컴퓨팅에서 악명 높은 관련성을 획득했습니다. AI는 지식을 표현하고 추론하며, 텍스트를 효율적으로 조작하고, 방대한 양의 데이터로부터 학습하는 방법을 제공합니다. 이러한 특성은 과학 문헌 분석과 같이 인간이 힘들어하거나 반복적으로 수행하는 많은 활동에 적용될 수 있습니다. 체계적 문헌 고찰(SLR)을 수작업으로 준비하고 작성하려면 전략을 계획하고, 문헌 검색 및 분석을 수행하고, 결과를 보고해야 하므로 상당한 시간과 노력이 필요합니다. 연구 분야에 따라 검색되는 논문 수가 수백, 수천 편에 달할 수 있으므로 관련 논문을 필터링하고 핵심 정보를 추출하는 작업은 비용이 많이 들고 오류가 발생하기 쉬운 과정입니다. 그러나 관련 작업 중 일부는 반복적이기 때문에 AI를 통해 자동화할 수 있습니다. 이 백서에서는 연구자들이 과학 문헌을 체계적으로 분석하는 데 도움을 주기 위해 지난 15년 동안 제안된 AI 기법에 대한 설문조사를 제시합니다. 34개의 주요 연구에서 현재 지원되는 작업, 적용된 알고리즘의 유형, 사용 가능한 도구에 대해 설명합니다. 이 설문조사는 또한 이 분야의 발전과 점점 더 자동화되는 SLR 프로세스에서 인간이 할 수 있는 역할에 대한 역사적 관점도 제공합니다. [abs|pdf]

[136/137] Metacognition is all you need? Using Introspection in Generative Agents to Improve Goal-directed Behavior

Keywords: metacognition_module_generative, introduce_metacognition_module, situation_generative_agents
Abstract: 최근 대규모 언어 모델(LLM)의 발전은 다양한 애플리케이션에서 인상적인 기능을 보여줬지만, LLM은 제한된 컨텍스트 창과 일반화의 어려움과 같은 문제에 직면해 있습니다. 이 백서에서는 제너레이티브 에이전트가 자신의 사고 과정과 행동을 관찰할 수 있도록 하는 메타인지 모듈을 소개합니다. 시스템 1과 시스템 2의 인지 과정을 모방하도록 설계된 이 메타인지 접근 방식을 통해 에이전트는 자신의 전략을 수정하여 성능을 크게 향상시킬 수 있습니다. 유니티는 좀비 대재앙에서 제너레이티브 에이전트가 살아남아야 하는 상황을 포함하여 다양한 시나리오에서 메타인지 모듈을 테스트했으며, 시간이 지남에 따라 에이전트가 작업을 완료하기 위해 전략을 조정하고 개선하는 동안 유니티 시스템이 다른 시스템보다 뛰어난 성능을 발휘하는 것을 관찰할 수 있었습니다. [abs|pdf]

[137/137] Concrete Problems in AI Safety, Revisited

Keywords: ai_safety, ai_safety_prevention, concept_ai_safety
Abstract: AI 시스템이 사회에 확산됨에 따라 AI 커뮤니티는 AI 배포 시 시스템 동작이 설계자의 의도와 예상치 못한 방향으로 이탈하여 발생하는 사고로 인한 장애를 방지하는 AI 안전이라는 개념에 점점 더 몰두하고 있습니다. 이러한 사고의 실제 사례 분석을 통해 현재의 어휘가 AI 배포 시 발생하는 다양한 문제를 포괄하고 있지만, AI 시스템과 구현된 안전 메커니즘이 실생활에서 어떻게 실패하고 성공하는지에 대한 보다 완전한 이해를 위해서는 확장된 사회기술적 프레임워크가 필요하다는 것을 보여드립니다. [abs|pdf]
<br/