프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-19]

다각 2024. 2. 16. 20:25

[1/91] Counterfactual Reasoning with Probabilistic Graphical Models for Analyzing Socioecological Systems

Keywords: causal_counterfactual_reasoning, graphical_models_causality, ecological_sciences_causality
Abstract: 인과적 추론과 역추론은 가상의 시나리오에 대해 추론할 수 있는 데이터 과학의 새로운 방향입니다. 이는 일반적으로 실험 데이터를 사용할 수 없는 영역에서 특히 유용합니다. 예를 들어, 환경 및 생태 과학의 맥락에서 인과관계를 통해 생태계가 가상의 개입에 어떻게 반응할지 예측할 수 있습니다. 구조적 인과관계 모델은 인과관계에 대한 확률적 그래픽 모델의 한 종류로, 직관적인 특성으로 인해 여러 분야의 전문가가 쉽게 이해할 수 있습니다. 그러나 식별불가능성이라고 불리는 특정 질의는 정확하고 정밀한 방식으로 계산할 수 없습니다. 이 논문에서는 사회생태학적 시스템 영역에서 식별 불가능한 쿼리의 경계를 설정하기 위한 새로운 최신 기법을 적용할 것을 제안합니다. 연구 결과에 따르면 확률론적 그래픽 모델을 포함한 전통적인 통계 분석으로 변수 간의 영향을 파악할 수 있습니다. 그러나 이러한 방법으로는 관계의 본질, 특히 관계의 필요성 또는 충분성 여부에 대한 인사이트를 제공하지 못합니다. 바로 이 지점에서 역추론이 유용해집니다. [abs|pdf]

[2/91] Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection

Keywords: generative_solvers_tasks, visual_reasoning_machine, generative_solvers
Abstract: 기계에 추상적 추론 능력을 부여하는 것은 인공 지능의 오랜 연구 주제였습니다. 레이븐 프로그레시브 매트릭스(RPM)는 모델이 기본 규칙을 이해하고 후보 세트에서 누락된 오른쪽 하단 이미지를 선택하여 이미지 매트릭스를 완성해야 하는 기계 지능에서 추상적인 시각적 추론을 조사하는 데 널리 사용됩니다. 참가자는 기본 속성 변경 규칙을 추론하고 임의의 위치에서 누락된 이미지를 상상함으로써 강력한 추론 능력을 발휘할 수 있습니다. 그러나 기존의 솔버는 실제 RPM 문제에서 이러한 능력을 거의 발휘하지 못합니다. 본 논문에서는 잠재 공간에서 규칙 추상화 및 선택(RAISE)을 통해 정답 생성 문제를 해결할 수 있는 조건부 생성 모델을 제안합니다. RAISE는 이미지 속성을 잠재 개념으로 인코딩하고, 개념을 통해 기본 규칙을 원자 규칙으로 분해하여 글로벌 학습 가능한 파라미터로 추상화합니다. 답을 생성할 때 RAISE는 각 개념에 대한 글로벌 지식 세트에서 적절한 원자 규칙을 선택하고 이를 RPM의 통합 규칙으로 구성합니다. 대부분의 구성에서 RAISE는 오른쪽 하단 및 임의 위치의 답을 생성하는 작업에서 비교 대상인 생성 솔버보다 성능이 뛰어납니다. 분리된 잠재 개념과 원자 규칙을 학습하는 것이 기본 규칙을 위반하는 이미지를 찾고 규칙과 속성의 보이지 않는 조합이 있는 RPM을 처리하는 데 어떻게 도움이 되는지 보여주기 위해 홀수 원아웃 작업과 두 가지 홀드아웃 구성에서 RAISE를 테스트합니다. [abs|pdf]

[3/91] Behavioral Simulation: Exploring A Possible Next Paradigm for Science

Keywords: sophisticated_behavioral_simulation, behavioral_simulation_bs, concept_behavioral_simulation
Abstract: 시뮬레이션 기술은 일기 예보, 유체 역학, 생물학적 개체군 등 많은 과학 연구 분야에서 널리 활용되고 있습니다. 시뮬레이션은 폐쇄형 식을 사용할 수 없고 표현 공간의 목표 분포가 너무 복잡하여 딥러닝(DL) 모델로 완전히 표현할 수 없는 복잡한 시스템의 문제를 처리하는 데 가장 적합한 도구입니다. 시뮬레이션 기술의 발전은 과학적 패러다임과 일치한다고 생각합니다. 본 논문은 데이터, 알고리즘, 컴퓨팅 파워의 관점에서 과학적 패러다임의 진화를 유도합니다. 이러한 관점을 바탕으로 시뮬레이션 기술을 새로운 패러다임의 출현에 따라 세 단계로 구분하고, 첨단 시뮬레이션 기술이 패러다임 통합의 대표적인 사례임을 확인합니다. 또한, 정교한 인간의 전략과 행동이 포함된 복잡한 사회 시스템을 시뮬레이션하기 위해 기초 모델을 기반으로 한 더 높은 수준의 패러다임 통합을 나타내는 행동 시뮬레이션(BS), 특히 정교한 행동 시뮬레이션(SBS)의 개념을 제안합니다. BS와 더 나아가 SBS는 기존의 에이전트 기반 모델링 시뮬레이션(ABMS)의 역량을 뛰어넘는 복잡한 인간 시스템과 관련된 문제를 해결하기 위해 설계되었으며, 이는 과학의 차세대 패러다임이라고 할 수 있습니다. 이번 연구를 통해 사회과학 분야의 과학 연구 분야에서 더욱 강력한 BS와 SBS가 활용되기를 기대합니다. [abs|pdf]

[4/91] A Semantic Approach for Big Data Exploration in Industry 4.0

Keywords: visual_query_developed, explore_visualize_data, visualize_data_friendly
Abstract: 자동화, 사물인터넷, 빅데이터, 클라우드 컴퓨팅 기술이 발전하면서 데이터를 시각화하고 패턴과 인사이트를 파악할 수 있는 4차 산업혁명(인더스트리 4.0)이 도래했고, 이를 통해 데이터에 대한 이해도를 높이고 제조 공정을 개선할 수 있습니다. 그러나 데이터 탐색 작업은 제조 전문가가 미리 설계된 시각화에 나타나지 않는 데이터까지 분석해야 하기 때문에 정보 기술 전문가의 도움을 받아야 하는 경우가 많습니다. 본 논문에서는 도메인 전문가가 친숙한 방식으로 데이터를 탐색하고 시각화할 수 있도록 실제 인더스트리 4.0 시나리오를 위해 개발된 시맨틱 기반 시각적 쿼리 시스템으로 구체화된 제안을 제시합니다. 이 시스템의 가장 큰 특징은 먼저 의미론적으로 주석이 달린 캡처된 데이터와 의미론적 설명과 연결된 기계의 2D 맞춤형 디지털 표현을 결합하여 사용한다는 점입니다. 이러한 설명은 온톨로지 용어를 사용하여 표현되며, 특히 인더스트리 4.0 시나리오에 속하는 기계의 성능에 대한 지표를 캡처하는 데 사용되는 센서가 모델링되어 있습니다. 또한 이러한 의미론적 설명을 통해 더 높은 수준의 추상화에서 쿼리를 공식화하고, 데이터의 형식과 특성에 따라 결과에 대한 맞춤형 그래픽 시각화를 제공하며, 더 많은 유형의 분석을 가능하게 하는 강화된 데이터를 다운로드할 수 있습니다. [abs|pdf]

[5/91] Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach

Keywords: exploration_uav_twins, twins_uavs_revolutionize, uav_metaverses
Abstract: 무인 항공기(UAV)와 메타버스의 시너지 효과로 인해 물리적 공간과 가상 공간을 혼합하는 통합 생태계를 만들어 드론 상호 작용과 가상 탐사를 혁신하는 UAV 메타버스라는 새로운 패러다임이 등장하고 있습니다. UAV 애플리케이션을 더욱 몰입감 있고 사실적이며 유익하게 만들어 UAV 애플리케이션을 혁신하는 UAV의 디지털 쌍둥이인 UAV 트윈(UT)은 도로변 장치(RSU)와 같은 지상 기지국에 배포되고 업데이트되어 UAV 메타버스 사용자(UMU)를 위한 메타버스 서비스를 제공합니다. UAV의 역동적인 이동성과 RSU의 제한된 통신 커버리지로 인해 UMU의 원활한 몰입형 경험을 보장하기 위해서는 실시간 UT 마이그레이션을 수행하는 것이 필수적입니다. 그러나 안정적이고 효율적인 UT 마이그레이션을 위해서는 적절한 RSU를 선택하고 필요한 대역폭을 최적화하는 것이 중요합니다. 이러한 문제를 해결하기 위해 유니티는 UAV 메타버스에서 효율적인 UT 마이그레이션을 위한 프루닝 기법에 기반한 소형 머신러닝 기반 스태켈버그 게임 프레임워크를 제안합니다. 구체적으로, 우리는 무인 항공기의 유틸리티에 대한 새로운 몰입도 지표를 고려하여 멀티 리더 멀티 팔로워 스태켈버그 모델을 공식화합니다. 그런 다음 최적의 게임 솔루션을 나타내는 작은 네트워크를 얻기 위해 작은 다중 에이전트 심층 강화 학습(Tiny MADRL) 알고리즘을 설계합니다. 특히 액터-크리틱 네트워크는 가지치기 기법을 활용하여 네트워크 파라미터의 수를 줄이고 모델 크기와 계산을 줄여 Tiny MADRL을 효율적으로 구현할 수 있습니다. 수치적 결과는 우리가 제안한 방식이 기존 방식보다 더 나은 성능을 가지고 있음을 보여줍니다. [abs|pdf]

[6/91] Memory, Space, and Planning: Multiscale Predictive Representations

Keywords: predictive_representations_hippocampal, predictive_memory, argue_predictive_memory
Abstract: 기억은 본질적으로 예측 및 계획과 얽혀 있습니다. 생물학적 및 인공 에이전트의 유연한 행동은 끊임없이 변화하는 환경에서 과거로부터의 학습과 미래 예측의 상호 작용에 달려 있습니다. 이 장에서는 이러한 과정이 인지 지도라고 하는 경험의 관계적 구조를 학습하는 데 의존한다는 것을 시사하는 계산적, 행동적, 신경학적 증거를 검토하고 두 가지 주요 시사점을 도출합니다. 첫째, 이러한 기억 구조는 해마와 전전두엽 피질(PFC)의 계층 구조에서 다중 규모의 간결한 예측 표현으로 구성된다는 것입니다. 둘째, 이러한 예측적 기억 구조는 해마와 전전두엽 피질의 상호 보완적 기능에 매우 중요하며, 이는 세부적이고 일관된 과거 에피소드를 회상하고 다양한 규모의 경험을 일반화하여 효율적인 예측과 계획을 세울 수 있게 해준다고 주장합니다. 이러한 인사이트는 뇌의 기억과 계획 메커니즘에 대한 이해를 높이고 인공지능 시스템을 발전시키는 데 중요한 시사점을 제공합니다. [abs|pdf]

[7/91] Tumbug: A pictorial, universal knowledge representation method

Keywords: tumbug_generalize_basic, tumbug_designed_pictorial, tumbug_pictorial_uses
Abstract: 인공 일반 지능(AGI)의 핵심은 일반적으로 상식적 추론(CSR), 즉 CSR에 특히 적합한 지식 표현 방법(KRM)의 발견이라고 여겨지기 때문에 저자는 CSR을 위한 맞춤형 KRM을 개발했습니다. 텀벅이라고 불리는 이 새로운 KRM은 인간의 두뇌가 그림형 KRM을 사용한다는 증거가 점점 더 많아지고 있고, AGI 분야에서 잘 알려진 선행 연구에서도 이러한 KRM의 가능성을 연구한 적이 없기 때문에 그림형으로 설계되었습니다. 텀벅은 로저 섕크의 개념 의존성(CD) 이론과 다소 유사하지만, 텀벅은 과학과 인간 생활의 기본 개념에 기반한 약 30개의 구성 요소를 사용하는 그림형이며 주로 인간 중심의 활동에 기반한 약 17개의 구성 요소(= 6개의 원시 개념 범주 + 11개의 원시 행위)를 사용하는 CD 이론과 달리, 인간 중심적인 활동에 기반한 그림형입니다. 텀버그의 모든 구성 요소는 전통적인 객체-속성-가치 표현의 세 가지 구성 요소 {O, A, V}와 변화와 시스템이라는 두 가지 새로운 구성 요소 {C, S}에 정확히 일치하는 다섯 가지 기본 구성 요소로만 일반화되는 것으로 밝혀졌습니다. 이 다섯 가지 구성 요소 집합을 총칭하여 'SCOVA'라고 부르는데, 이는 모든 지식 표현의 보편적인 토대가 되는 것처럼 보입니다. [abs|pdf]

[8/91] Online Handbook of Argumentation for AI: Volume 4

Keywords: argumentation_ai, handbook_argumentation_ai, argumentation_field_artificial
Abstract: 이 책은 인공지능을 위한 논증 온라인 핸드북(OHAAI)의 네 번째 권에 선정된 논문들의 개정판을 담고 있습니다. 이전에는 논증과 논증 상호 작용에 대한 형식적 이론이 제안되고 연구되어 왔으며, 이는 최근 논증의 계산 모델에 대한 연구로 이어졌습니다. 인공지능(AI)의 한 분야인 논증은 지식의 기호적 표현과 증명 가능한 추론에 관심이 있는 연구자들에게 매우 중요한 분야입니다. 이 핸드북의 목적은 논증 연구 커뮤니티를 위한 오픈 액세스 및 선별된 선집을 제공하는 것입니다. OHAAI는 AI와 관련된 모든 분야의 논증 이론과 응용에 관한 박사급 연구와 향후 발표 예정인 최신 연구를 추적할 수 있는 연구 허브 역할을 하도록 설계되었습니다. [abs|pdf]

[9/91] ChatQA: Building GPT-4 Level Conversational QA Models

Keywords: conversational_qa_datasets, retrieval_conversational_qa, conversational_question_answering
Abstract: 이 연구에서는 GPT-4 수준의 정확도를 얻는 대화형 질의응답(QA) 모델 제품군인 ChatQA를 소개합니다. 특히 대규모 언어 모델(LLM)의 제로 샷 대화형 QA 결과를 크게 개선할 수 있는 2단계 명령어 튜닝 방법을 제안합니다. 대화형 QA에서 검색을 처리하기 위해 멀티턴 QA 데이터 세트에서 고밀도 검색기를 미세 조정하여 최첨단 쿼리 재작성 모델을 사용하는 것과 비슷한 결과를 제공하면서 배포 비용을 크게 절감합니다. 특히 ChatQA-70B는 OpenAI GPT 모델의 합성 데이터에 의존하지 않고도 10개의 대화형 QA 데이터세트에서 평균 점수 면에서 GPT-4를 능가합니다(54.14점 대 53.90점). [abs|pdf]

[10/91] Supervised Fine-tuning in turn Improves Visual Foundation Models

Keywords: pretraining_vision_foundation, image_text_training, visual_learning_clip
Abstract: CLIP과 같은 이미지-텍스트 학습은 최근 몇 년 동안 비전 기반 모델의 사전 학습을 지배해 왔습니다. 이후 CLIP의 사전 훈련에 영역 수준의 시각적 학습을 도입하기 위한 노력이 이어졌지만 대규모 영역 수준의 데이터 세트가 부족해 확장성 문제에 직면했습니다. 인스트럭션 튜닝과 같은 자연어 처리의 감독 미세 조정(SFT)에서 영감을 얻어, 사전 학습 후 비전 기반 모델의 생성을 향상시키는 데 있어 세분화된 SFT의 잠재력을 탐구했습니다. 따라서 비전 기반 모델의 세분화된 지식을 활용하기 위해 2단계 방법인 ViSFT(비전 SFT)를 제안합니다. ViSFT에서는 일부 도메인 내 작업에 대해 시각적 공동 학습을 수행하여 비전 기반 모델을 강화한 다음 도메인 외부 벤치마크에서 테스트합니다. 8개의 V100 GPU에서 2일 이내에 ViSFT를 사용하여 업데이트한 결과, 44억 개 이상의 파라미터를 가진 비전 트랜스포머가 비전 및 비전 언어 시나리오를 포함한 다양한 도메인 외 벤치마크에서 개선된 성능을 보였습니다. [abs|pdf]

[11/91] Improving PTM Site Prediction by Coupling of Multi-Granularity Structure and Multi-Scale Sequence Representation

Keywords: structure_representations_amino, structure_representation_learning, optimize_structure_representations
Abstract: 단백질 번역 후 변형(PTM) 부위 예측은 생물정보학에서 기본적인 작업입니다. PTM 부위를 예측하기 위해 여러 가지 계산 방법이 개발되었습니다. 하지만 기존 방법들은 구조 정보를 무시하고 단백질 서열만을 활용합니다. 또한, PTM은 원자 단위에서 발생하는 생물학적 사건이기 때문에 보다 세분화된 구조 표현 학습 방법의 설계가 시급합니다. 본 논문에서는 간결성을 위해 다입계 구조와 다스케일 서열 표현을 결합한 PTM-CMGMS를 이용한 PTM 부위 예측 방법을 제안합니다. 구체적으로 다중입계 구조 인식 표현 학습을 통해 알파폴드 예측 구조로부터 아미노산, 원자, 전체 단백질 단위의 이웃 구조 표현을 학습한 후 대조 학습을 활용하여 구조 표현을 최적화하고, 다중규모 서열 표현 학습을 통해 문맥 서열 정보를 추출하고, PTM 부위의 모든 문맥 서열을 정렬하여 생성한 모티프가 예측을 보조하도록 설계하였습니다. 세 가지 데이터 세트에 대한 광범위한 실험 결과, PTM-CMGMS는 최첨단 방법보다 뛰어난 성능을 보였습니다. [abs|pdf]

[12/91] Mastery Guided Non-parametric Clustering to Scale-up Strategy Prediction

Keywords: math_learning_large, data_specifically_learn, model_learn_strategies
Abstract: 학생이 문제 해결에 사용할 가능성이 높은 전략(개념 순서)을 예측하면 개인별 맞춤 학습 시스템(AIS)이 학습 능력에 따라 다양한 유형의 학습자에게 더 잘 적응하는 데 도움이 됩니다. 이를 통해 학생에게 더욱 역동적이고 참여도가 높으며 개인화된 환경을 제공할 수 있습니다. 대규모 교육 데이터 세트에 대한 예측 모델(예: LSTM) 학습을 확장하기 위해 유니티는 데이터의 대칭 인스턴스를 클러스터링하는 비모수적 접근 방식을 개발합니다. 특히, 문제를 풀기 위해 학생의 전략에 숙달된 개념이 포함될 가능성이 높기 때문에 숙달도 또는 기술 수준에 따른 대칭성을 인코딩하는 Node2Vec 기반 표현을 학습합니다. 이 표현을 사용하여 DP-Means를 사용하여 클러스터를 거칠게 또는 세밀하게 세분화하여 대칭적인 인스턴스를 그룹화합니다. 중학생 수학 학습을 위한 선도적인 AIS인 MATHia의 대규모 데이터 세트에서 수학 학습 전략을 학습하는 데 이 모델을 적용합니다. 그 결과, 우리의 접근 방식이 전체 데이터 세트를 대표하는 작은 샘플을 사용하여 일관되게 높은 정확도를 달성할 수 있음을 보여줍니다. 또한 이러한 접근 방식이 다양한 기술 수준의 학생을 대상으로 높은 정확도로 전략을 학습하는 데 도움이 된다는 점, 즉 대칭성을 활용하면 예측 모델의 공정성이 향상된다는 점을 보여줍니다. [abs|pdf]

[13/91] Eclectic Rule Extraction for Explainability of Deep Neural Network based Intrusion Detection Systems

Keywords: explainable_intrusion_detection, explainable_trustworthy_rulesets, provides_trustworthy_explanations
Abstract: 이 백서에서는 설명 가능한 침입 탐지 시스템(X-IDS)에서 블랙박스 알고리즘과 대리 설명자의 보편화로 인해 발생하는 신뢰 문제를 다룹니다. 설명 가능한 인공 지능(XAI)은 투명성을 높이는 것을 목표로 하지만, 로컬 해석 가능한 모델-판별 설명(LIME)이나 샤플리 부가적 외연화(SHAP)와 같은 블랙박스 대리 설명자는 신뢰하기 어렵습니다. 이러한 대리 설명자의 블랙박스 특성으로 인해 설명이 생성되는 과정이 불투명하고 이해하기 어렵습니다. 이 문제를 피하기 위해 규칙 추출(RE)과 같은 투명한 화이트박스 알고리즘을 사용할 수 있습니다. RE 알고리즘에는 교육적 방법, 분해적 방법, 절충적 방법의 세 가지 유형이 있습니다. 교육적 방법은 빠르지만 신뢰할 수 없는 화이트박스 설명을 제공하는 반면, 분해적 RE는 신뢰할 수 있는 설명을 제공하지만 확장성이 떨어집니다. 이 연구에서는 확장성과 신뢰성 사이에서 균형을 잡는 절충적 규칙 추출을 탐구합니다. 교육적 접근법과 분해적 접근법의 기술을 결합한 절충적 규칙 추출은 두 접근법의 장점을 활용하면서 일부 단점을 완화합니다. 제안된 하이브리드 X-IDS 아키텍처는 블랙박스 심층 신경망(DNN)을 위한 화이트박스 대리 설명자로서 절충적 RE를 특징으로 합니다. 제시된 절충적 RE 알고리즘은 숨겨진 레이어에서 사람이 읽을 수 있는 규칙을 추출하여 설명 가능하고 신뢰할 수 있는 규칙 집합을 용이하게 합니다. UNSW-NB15 및 CIC-IDS-2017 데이터 세트에 대한 평가는 이 알고리즘이 99.9%의 정확도로 규칙 집합을 생성하여 DNN 출력을 모방하는 능력을 입증했습니다. 이 연구는 하이브리드 X-IDS 아키텍처, 침입 탐지 데이터 세트에 적용할 수 있는 다양한 규칙 추출 알고리즘, 성능과 설명 가능성에 대한 철저한 분석을 통해 규칙 추출 속도와 정확도의 상충 관계를 보여줍니다. [abs|pdf]

[14/91] Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through Text Reconstruction

Keywords: shot_entity_extraction, sentence_extracted_entities, entity_extraction_chemical
Abstract: 화학 영역에서 세분화된 소수의 엔티티 추출은 두 가지 고유한 과제에 직면합니다. 첫째, 일반 영역의 엔티티 추출 작업에 비해 화학 논문의 문장에는 일반적으로 더 많은 엔티티가 포함되어 있습니다. 또한 엔티티 추출 모델은 일반적으로 롱테일 유형의 엔티티를 추출하는 데 어려움을 겪습니다. 이 논문에서는 이 두 가지 문제를 해결하기 위해 새로운 시퀀스-투-시퀀스(seq2seq) 기반 소수의 엔티티 추출 접근 방식인 Chem-FINESE를 제안합니다. 입력 문장에서 네임드 엔티티를 추출하는 seq2seq 엔티티 추출기와 추출된 엔티티로부터 원래의 입력 문장을 재구성하는 seq2seq 자체 검증 모듈의 두 가지 구성 요소로 이루어진 Chem-FINESE를 제안합니다. 좋은 엔티티 추출 시스템은 엔티티를 충실하게 추출해야 한다는 사실에 착안하여, 새로운 자체 검증 모듈은 엔티티 추출 결과를 활용하여 원래 입력 문장을 재구성합니다. 또한 추출 과정에서 과도한 복사를 줄이기 위해 새로운 대비 손실을 설계했습니다. 마지막으로, 도메인 전문가가 ChemNER 스키마로 주석을 단 새로운 세분화된 화학 엔티티 추출 데이터 세트인 ChemNER+를 출시합니다. ChemNER+와 CHEMET 데이터 세트를 모두 사용한 몇 번의 실험 결과, 새로 제안한 프레임워크가 각각 최대 8.26%와 6.84%의 절대 F1 점수 향상에 기여한 것으로 나타났습니다. [abs|pdf]

[15/91] Neural Echos: Depthwise Convolutional Filters Replicate Biological Receptive Fields

Keywords: depthwise_convolutions_reveals, depthwise_convolutional_kernels, biological_receptive_fields
Abstract: 이 연구에서는 심층 컨볼루션 커널이 포유류 망막에서 관찰되는 생물학적 수용 영역의 구조적 복잡성을 효과적으로 복제하고 있음을 보여주는 증거를 제시합니다. 이러한 증거를 입증하는 다양한 최신 모델에서 훈련된 커널에 대한 분석을 제공합니다. 이 흥미로운 발견에서 영감을 얻어 생물학적 수용 영역에서 영감을 얻은 초기화 체계를 제안합니다. 심층 컨볼루션을 특징으로 하는 여러 CNN 아키텍처로 ImageNet 데이터 세트를 실험적으로 분석한 결과, 생물학적으로 파생된 가중치로 초기화했을 때 학습된 모델의 정확도가 현저하게 향상되는 것으로 나타났습니다. 이는 생물학적으로 영감을 받은 계산 모델이 비전 처리 시스템에 대한 이해를 높이고 컨볼루션 네트워크의 효율성을 향상시킬 수 있는 잠재력을 뒷받침합니다. [abs|pdf]

[16/91] DISTINQT: A Distributed Privacy Aware Learning Framework for QoS Prediction for Future Mobile and Wireless Networks

Keywords: privacy_aware_distributed, qos_prediction_framework, qos_prediction
Abstract: 5G 및 6G 네트워크는 원활한 작동을 위해 일정 수준의 서비스 품질(QoS)에 의존하는 새롭고 까다로운 사용 사례와 애플리케이션을 지원할 것으로 예상됩니다. 특히 차량 통신과 같이 안전이 중요한 애플리케이션의 경우 적시에 QoS를 예측하는 것이 매우 중요합니다. 최근 몇 년 동안 중앙 집중식 인공지능(AI) 솔루션으로 QoS 예측을 수행해 왔지만, 개인정보 보호, 컴퓨팅 및 운영상의 여러 가지 문제가 발생했습니다. 데이터의 프라이버시를 보호하면서 복잡성이 낮은 AI 작업을 여러 노드에 분산하는 대체 솔루션(예: 분할 학습, 연합 학습)이 등장했습니다. 그러나 미래 무선 네트워크의 이질적인 특성을 고려할 때 확장 가능한 분산 학습 접근 방식에 관한 새로운 과제가 제기되고 있습니다. 이번 연구에서는 QoS 예측을 위한 프라이버시 인식 분산 학습 프레임워크인 DISTINQT를 제안합니다. 이 프레임워크는 데이터 유형과 모델 아키텍처 측면에서 여러 이기종 노드 간에 계산을 공유함으로써 여러 이기종 노드를 지원합니다. 이를 통해 다양한 지식을 단독 학습 프로세스에 통합하여 최종 QoS 예측 모델의 견고성과 일반화 기능을 향상시킬 수 있습니다. 또한 DISTINQT는 원시 입력 데이터를 전송하기 전에 비선형 잠재 표현으로 인코딩하여 데이터 프라이버시 보호에 기여합니다. 평가 결과에 따르면 저희 프레임워크는 중앙 집중식 버전과 비교하여 통계적으로 동일한 성능을 달성했으며, 원격 운전 사용 사례에서 6개의 최첨단 중앙 집중식 기준 솔루션에 비해 평균 65%의 성능 향상을 보였습니다. [abs|pdf]

[17/91] Explicitly Disentangled Representations in Object-Centric Learning

Keywords: learning_object_centric, object_centric_representations, representations_raw_visual
Abstract: 원시 시각 데이터에서 구조화된 표현을 추출하는 것은 머신러닝의 중요하고 오랜 과제입니다. 최근에는 객체 중심 표현의 비지도 학습 기법에 대한 관심이 높아지고 있습니다. 이러한 맥락에서 잠재적 특징의 견고성을 강화하면 다운스트림 작업의 학습 효율성과 효과를 개선할 수 있습니다. 이러한 방향으로 나아가기 위한 유망한 단계는 데이터의 변동을 유발하는 요인을 제거하는 것입니다. 이전에는 불변 슬롯 어텐션이 위치, 크기, 방향을 나머지 특징에서 분리했습니다. 이 접근 방식을 확장하여 모양과 텍스처 구성 요소를 분리하는 데 중점을 둡니다. 특히 모양과 텍스처 구성 요소를 잠재 공간 차원의 겹치지 않는 두 개의 하위 집합으로 분리하는 방향으로 객체 중심 모델을 편향시키는 새로운 아키텍처를 제안합니다. 이러한 하위 집합은 선험적으로 알려져 있으므로 훈련 과정 전에 알 수 있습니다. 다양한 객체 중심 벤치마크에 대한 실험 결과, 우리의 접근 방식은 대부분의 경우 기준 성능을 수치적으로 향상시키면서 원하는 얽힘 해소를 달성하는 것으로 나타났습니다. 또한 특정 오브젝트에 대해 새로운 텍스처를 생성하거나 모양이 다른 오브젝트 간에 텍스처를 전송할 수 있음을 보여줍니다. [abs|pdf]

[18/91] Model Compression Techniques in Biometrics Applications: A Survey

Keywords: model_compression, bias_model_compression, model_compression_techniques
Abstract: 딥러닝 알고리즘의 발전은 인류의 업무 자동화 역량을 광범위하게 강화했습니다. 그러나 이러한 모델의 성능은 크게 향상되었지만 복잡성이 증가함에 따라 일반적으로 리소스가 제한된 디바이스에 배포되는 인간 중심의 애플리케이션에서는 그 유용성이 제한되었습니다. 이에 따라 성능 저하 없이 딥러닝 모델의 연산 및 메모리 비용을 획기적으로 줄일 수 있는 압축 기법이 개발되었습니다. 이 백서에서는 생체인식 애플리케이션의 모델 압축 기법, 즉 양자화, 지식 증류 및 가지치기에 대한 포괄적인 조사를 제시함으로써 이 주제에 대한 현재 문헌을 체계화하는 것을 목표로 합니다. 이러한 기법들의 장단점을 중심으로 비교 가치를 비판적으로 분석하고, 현재의 방법을 잠재적으로 개선할 수 있는 향후 작업 방향에 대한 제안을 제시합니다. 또한, 모델 편향과 모델 압축 간의 연관성을 분석하고 논의하여 향후 작업에서 모델 공정성을 향한 압축 연구의 필요성을 강조합니다. [abs|pdf]

[19/91] Towards Principled Graph Transformers

Keywords: graph_learning_architectures, transformer_global_attention, graph_learning
Abstract: K차원 와이스파일러-레만(k-WL) 계층 구조에 기반한 그래프 학습 아키텍처는 이론적으로 잘 이해된 표현력을 제공합니다. 하지만 이러한 아키텍처는 실제 작업에서 확실한 예측 성능을 제공하지 못하는 경우가 많아 실질적인 영향력이 제한적입니다. 반면, 그래프 트랜스포머와 같은 글로벌 관심 기반 모델은 실제로 강력한 성능을 보여주지만, 특히 이러한 아키텍처는 표현력과 예측 성능을 위해 위치 또는 구조적 인코딩에 의존하기 때문에 표현력을 k-WL 계층 구조와 비교하는 것은 여전히 어려운 과제입니다. 이 문제를 해결하기 위해 최근 제안된 노드 대신 노드 쌍에서 작동하는 글로벌 관심도 모델인 엣지 트랜스포머가 최소 3-WL의 표현력을 가지고 있음을 보여줍니다. 또한 엣지 트랜스포머가 위치 또는 구조적 인코딩에 의존하지 않으면서도 예측 성능 면에서 이론적으로 정렬된 다른 아키텍처를 능가한다는 것을 실증적으로 보여줍니다. [abs|pdf]

[20/91] DiffusionGPT: LLM-Driven Text-to-Image Generation System

Keywords: generative_models, various_generative_models, generative_models_based
Abstract: 확산 모델은 이미지 생성 분야에 새로운 길을 열어주었고, 그 결과 오픈 소스 플랫폼에서 공유되는 고품질 모델이 확산되고 있습니다. 그러나 현재의 텍스트-이미지 변환 시스템은 다양한 입력을 처리할 수 없거나 단일 모델 결과로 제한되는 경우가 많다는 주요 과제가 남아 있습니다. 현재의 통합 시도는 종종 입력 단계에서 다양한 프롬프트를 파싱하거나, 전문가 모델을 활성화하여 출력하는 두 가지 직교적인 측면으로 나뉩니다. 이 두 가지의 장점을 결합하기 위해 대규모 언어 모델(LLM)을 활용하여 다양한 유형의 프롬프트를 원활하게 수용하고 도메인-전문가 모델을 통합할 수 있는 통합 생성 시스템을 제공하는 DiffusionGPT를 제안합니다. DiffusionGPT는 사전 지식을 기반으로 다양한 생성 모델을 위한 도메인별 트리를 구성합니다. 입력이 제공되면 LLM은 프롬프트를 파싱하고 생각의 나무를 사용하여 적절한 모델을 선택하도록 안내함으로써 입력 제약을 완화하고 다양한 도메인에서 탁월한 성능을 보장합니다. 또한, 사람의 피드백을 통해 생각의 나무를 강화하여 모델 선택 프로세스를 사람의 선호도에 맞추는 어드밴티지 데이터베이스를 도입했습니다. 광범위한 실험과 비교를 통해 다양한 영역에서 이미지 합성의 한계를 뛰어넘을 수 있는 잠재력을 보여주는 DiffusionGPT의 효과를 입증합니다. [abs|pdf]

[21/91] Large Language Models for Scientific Information Extraction: An Empirical Study for Virology

Keywords: produce_structured_scholarly, effectively_information_extraction, discourse_based_scholarly
Abstract: 이 백서에서는 Wikipedia 인포박스나 구조화된 Amazon 제품 설명과 같은 도구에서 영감을 받아 담론 기반 학술 커뮤니케이션에 구조적이고 의미론적인 콘텐츠 표현을 사용하는 것을 지지합니다. 이러한 표현은 사용자에게 간결한 개요를 제공하여 과학자들이 복잡한 학술 환경을 탐색하는 데 도움을 줍니다. 새로운 자동화된 접근 방식은 LLM의 강력한 텍스트 생성 기능을 활용하여 구조화된 학술적 기여도 요약을 생성함으로써 실용적인 솔루션과 LLM의 새로운 능력에 대한 인사이트를 모두 제공합니다.
LLM의 경우 대화형 에이전트로서 일반 지능을 향상시키는 데 가장 중점을 둡니다. 우리는 이러한 모델이 정보 추출(IE), 특히 과학과 같은 간결한 영역 내의 복잡한 IE 작업에도 효과적으로 적용될 수 있다고 주장합니다. 이러한 패러다임의 변화는 기존의 모듈식 파이프라인 머신러닝 접근 방식을 명령어를 통해 표현되는 보다 단순한 목표로 대체합니다. 연구 결과에 따르면 최첨단 GPT-davinci보다 파라미터 수가 1000배 적은 미세 조정된 FLAN-T5가 해당 작업에 경쟁력이 있는 것으로 나타났습니다. [abs|pdf]

[22/91] LOCALINTEL: Generating Organizational Threat Intelligence from Global and Local Cyber Knowledge

Keywords: global_threat_databases, threat_intelligence_retrieval, threat_databases
Abstract: 보안 운영 센터(SoC) 분석가는 공개적으로 액세스할 수 있는 글로벌 위협 데이터베이스에서 위협 보고서를 수집하고 특정 조직의 필요에 맞게 수동으로 사용자 지정합니다. 이러한 분석가들은 또한 조직의 비공개 로컬 지식 데이터베이스 역할을 하는 내부 리포지토리에 의존합니다. 신뢰할 수 있는 사이버 인텔리전스, 중요한 운영 세부 정보, 관련 조직 정보는 모두 이러한 로컬 지식 데이터베이스에 저장됩니다. 분석가는 이러한 글로벌 및 로컬 지식 데이터베이스를 활용하여 조직의 고유한 위협 대응 및 완화 전략을 수동으로 작성하는 노동 집약적인 작업을 수행합니다. 최근에는 대규모 언어 모델(LLM)이 다양한 대규모 지식 소스를 효율적으로 처리할 수 있는 능력을 보여주었습니다. 저희는 이 기능을 활용하여 글로벌 및 로컬 지식 데이터베이스를 처리하여 조직별 위협 인텔리전스 생성을 자동화합니다.
이 연구에서는 메시지가 표시되면 글로벌 위협 리포지토리에서 위협 보고서를 검색하고 로컬 지식 데이터베이스를 사용하여 특정 조직에 맞게 맥락화할 수 있는 새로운 자동화된 지식 맥락화 시스템인 LOCALINTEL을 소개합니다. 로컬인텔은 글로벌 위협 인텔리전스 검색, 로컬 지식 검색, 컨텍스트화된 완성 생성의 세 가지 주요 단계로 구성됩니다. 전자는 글로벌 위협 리포지토리에서 인텔리전스를 검색하고, 후자는 로컬 지식 데이터베이스에서 관련 지식을 검색합니다. 마지막으로, 이러한 지식 소스의 융합은 생성기를 통해 조율되어 상황에 맞는 완성본을 생성합니다. [abs|pdf]

[23/91] Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap

Keywords: engineering_text_generation, text_generation_comprehensive, search_code_generation
Abstract: 다양한 데이터에 대한 대규모 사전 학습을 통해 Transformer 기반 아키텍처에 구축된 대규모 언어 모델(LLM)은 자연어 처리에 혁명을 일으켰을 뿐만 아니라 그 능력을 다양한 영역으로 확장하여 인공 일반 지능을 향한 중요한 진전을 이뤄냈습니다. LLM과 진화 알고리즘(EA)의 상호작용은 목표와 방법론은 다르지만, 특히 최적화 특성, 블랙박스 특성, 복잡한 문제를 처리하는 데 능숙하다는 점에서 흥미로운 유사점을 드러냅니다. 한편, EA는 블랙박스 설정에서 LLM을 더욱 향상시킬 수 있는 최적화 프레임워크를 제공할 뿐만 아니라 애플리케이션에서 유연한 글로벌 검색 및 반복 메커니즘을 통해 LLM의 역량을 강화할 수 있습니다. 반면, LLM의 풍부한 도메인 지식은 EA가 더 스마트한 검색을 수행할 수 있게 해주며, 텍스트 처리 기능은 다양한 작업에서 EA를 배포하는 데 도움을 줍니다. 이 백서에서는 이러한 상호 보완적인 장점을 바탕으로 상호 영감을 주는 진화적 최적화를 LLM 강화형과 EA 강화형 LLM으로 분류하여 종합적인 검토와 미래 지향적인 로드맵을 제시합니다. 또한 신경망 아키텍처 검색, 코드 생성, 소프트웨어 엔지니어링, 텍스트 생성 등 다양한 애플리케이션 시나리오에서 LLM과 EA의 융합을 예시하기 위해 몇 가지 통합 시너지 방법도 소개합니다. 이 백서는 LLM 시대의 EA 연구에 특별히 초점을 맞춘 최초의 종합 리뷰로서, LLM과 EA의 협업 잠재력을 이해하고 활용하기 위한 기초적인 디딤돌을 제공합니다. 포괄적인 검토, 분류, 비판적 분석을 제시함으로써 이 두 가지 강력한 패러다임에 대한 학제 간 연구에 대한 지속적인 담론에 기여합니다. 확인된 과제와 향후 방향은 이 혁신적인 협업의 잠재력을 최대한 발휘할 수 있는 지침을 제공합니다. [abs|pdf]

[24/91] FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder

Keywords: generate_realistic_audio, diffusion_based_vocoder, quality_audio_samples
Abstract: 이 백서의 목표는 가볍고 빠른 확산 기반 보코더인 FreGrad로 사실적인 오디오를 생성하는 것입니다. 이 프레임워크는 다음 세 가지 핵심 구성 요소로 이루어져 있습니다: (1) 복잡한 파형을 서브밴드 웨이브렛으로 분해하는 이산 웨이브렛 변환을 사용하여 FreGrad가 단순하고 간결한 특징 공간에서 작동하도록 돕고, (2) 주파수 인식을 높여 정확한 주파수 정보를 가진 음성을 생성하는 주파수 인식 확장 컨볼루션을 설계하고, (3) 제안된 모델의 생성 품질을 향상시키는 트릭 백을 도입합니다. 실험 결과, FreGrad는 출력 품질 저하 없이 모델 크기를 0.6배 줄이면서(파라미터는 178만 개에 불과) 베이스라인 대비 3.7배 빠른 훈련 시간과 2.2배 빠른 추론 속도를 달성했습니다. 오디오 샘플은 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[25/91] Self-Rewarding Language Models

Keywords: rewarding_language_models, reward_models_learn, rewarding_language
Abstract: 유니티는 초인적인 에이전트를 구현하기 위해서는 미래의 모델이 적절한 훈련 신호를 제공하기 위해 초인적인 피드백을 필요로 한다고 가정합니다. 현재의 접근 방식은 일반적으로 인간의 선호도로부터 보상 모델을 학습시키는데, 이는 인간의 성능 수준에 의해 병목 현상이 발생할 수 있으며, 두 번째로 이렇게 고정된 보상 모델은 LLM 학습 중에 개선 학습을 할 수 없습니다. 이 연구에서는 언어 모델 자체가 학습 중에 자체 보상을 제공하도록 유도하는 LLM-as-a-Judge 프롬프트를 통해 사용되는 자기 보상 언어 모델을 연구합니다. 우리는 반복적 DPO 훈련 중에 명령어 추종 능력이 향상될 뿐만 아니라 스스로 고품질 보상을 제공하는 능력도 향상된다는 것을 보여줍니다. 세 차례에 걸친 반복 학습을 통해 라마 2 70B를 미세 조정한 결과, 알파와이벌 2.0 리더보드에서 클로드 2, 제미니 프로, GPT-4 0613 등 기존의 많은 시스템을 능가하는 모델이 도출되었습니다. 아직 예비 연구 단계에 불과하지만, 이 연구는 두 축 모두에서 지속적으로 개선할 수 있는 모델의 가능성을 열어줍니다. [abs|pdf]

[26/91] R-Judge: Benchmarking Safety Risk Awareness for LLM Agents

Keywords: annotated_safety_risk, annotated_safety, safety_risk_feedback
Abstract: 대규모 언어 모델(LLM)은 실제 애플리케이션 전반에서 작업을 자율적으로 완료하는 데 큰 잠재력을 보여 왔습니다. 그럼에도 불구하고 이러한 LLM 에이전트는 대화형 환경에서 작동할 때 예기치 않은 안전 위험을 초래할 수 있습니다. 대부분의 선행 연구에서 LLM으로 생성된 콘텐츠의 안전성에 초점을 맞춘 것과 달리, 이 연구에서는 다양한 환경에서 LLM 에이전트의 동작 안전성을 벤치마킹해야 할 필요성을 해결합니다. 에이전트 상호 작용 기록을 바탕으로 안전 위험을 판단하는 LLM의 숙련도를 평가하기 위해 만들어진 벤치마크인 R-Judge를 소개합니다. R-Judge는 7가지 애플리케이션 범주와 10가지 위험 유형 중 27가지 주요 위험 시나리오를 포함하는 162개의 상담원 상호작용 기록으로 구성되어 있습니다. 주석이 달린 안전 위험 라벨과 고품질 위험 설명을 통해 안전에 대한 사람들의 합의를 통합합니다. R-Judge를 활용하여 에이전트의 백본으로 일반적으로 사용되는 8가지 주요 LLM에 대한 종합적인 평가를 수행합니다. 가장 우수한 성과를 보인 모델인 GPT-4는 72.29%를 달성한 반면 사람 점수는 89.38%에 그쳐 LLM의 위험 인식을 향상시킬 수 있는 여지가 상당하다는 것을 보여줍니다. 특히 위험 설명을 환경 피드백으로 활용하면 모델 성능이 크게 향상되어 눈에 띄는 안전 위험 피드백의 중요성을 알 수 있습니다. 또한, 안전 위험 판단에 도움이 되는 효과적인 안전 분석 기법을 설계하고 심층적인 사례 연구를 수행하여 향후 연구를 촉진합니다. R-Judge는 다음 https URL에서 공개적으로 이용할 수 있습니다. [abs|pdf]

[27/91] Gender Bias in Machine Translation and The Era of Large Language Models

Keywords: translation_perpetuating_gender, bias_machine_translation, machine_translation_perpetuating
Abstract: 이 장에서는 언어 간 설정과 통계적 종속성으로 인해 발생하는 문제를 강조하면서 성별 편견을 지속시키는 데 있어 기계 번역의 역할을 살펴봅니다. 기존의 신경망 기계 번역 접근 방식과 기계 번역 시스템으로 사용되는 생성적 사전 학습 트랜스포머 모델 모두에서 성별 편향과 관련된 기존 연구에 대한 포괄적인 개요가 제공됩니다. 영어-이탈리아어 번역 컨텍스트에서 ChatGPT(GPT-3.5 기반)를 사용한 실험을 통해 성별 편향 문제를 해결하기 위한 ChatGPT의 현재 역량을 평가합니다. 이 연구 결과는 기계 번역 시스템의 편향성을 완화하기 위한 지속적인 발전의 필요성을 강조하고 언어 기술에서 공정성과 포용성을 촉진하는 것이 중요하다는 점을 강조합니다. [abs|pdf]

[28/91] A-KIT: Adaptive Kalman-Informed Transformer

Keywords: sensor_fusion_navigation, kit_adaptive_kalman, adaptive_kalman
Abstract: 확장 칼만 필터(EKF)는 내비게이션 애플리케이션에서 센서 융합을 위해 널리 채택된 방법입니다. EKF의 중요한 측면은 모델 불확실성을 반영하는 프로세스 잡음 공분산 행렬의 온라인 결정입니다. 일반적인 EKF 구현은 일정한 프로세스 노이즈를 가정하지만, 실제 시나리오에서는 프로세스 노이즈가 다양하여 추정 상태가 부정확해지고 잠재적으로 필터가 분산될 수 있습니다. 이러한 상황에 대처하기 위해 모델 기반 적응형 EKF 방법을 제안하고 성능 향상을 입증하여 강력한 적응형 접근법의 필요성을 강조했습니다. 본 논문에서는 온라인에서 다양한 프로세스 잡음 공분산을 학습하기 위한 적응형 칼만 정보 변환기인 A-KIT를 도출하고 소개합니다. A-KIT 프레임워크는 모든 유형의 센서 융합에 적용할 수 있습니다. 여기서는 관성 항법 시스템과 도플러 속도 로그를 기반으로 한 비선형 센서 융합에 대한 접근 방식을 소개합니다. 자율 수중 차량에서 실제 기록된 데이터를 사용하여 A-KIT가 위치 정확도 측면에서 기존 EKF보다 49.5% 이상, 모델 기반 적응형 EKF보다 평균 35.4% 더 뛰어난 성능을 발휘함을 보여줍니다. [abs|pdf]

[29/91] FLex&Chill: Improving Local Federated Learning Training with Logit Chilling

Keywords: federated_learning_model, federated_learning, global_federated_learning
Abstract: 연합 학습은 본질적으로 데이터 이질성, 즉 로컬 클라이언트에 대한 비아이디 분산 학습 데이터로 인해 방해를 받습니다. 유니티는 연합 학습을 위한 새로운 모델 훈련 접근법, 즉 로지트 칠링 방법을 활용하는 FLex&Chill을 제안합니다. 광범위한 평가를 통해 연합 학습 시스템에 내재된 비아이디 데이터 특성이 있는 경우 이 접근 방식이 모델 융합을 가속화하고 추론 정확도를 향상시킬 수 있음을 입증했습니다. 실험 결과, 글로벌 연합 학습 모델 수렴 시간이 최대 6배, 추론 정확도가 최대 3.37% 향상되는 것을 정량적으로 관찰할 수 있었습니다. [abs|pdf]

[30/91] Multiobjective Optimization Analysis for Finding Infrastructure-as-Code Deployment Configurations

Keywords: multiobjective_optimization, multiobjective_optimization_hot, multiobjective_algorithms_assessing
Abstract: 다목표 최적화는 인공지능 및 운영 연구 커뮤니티에서 뜨거운 주제입니다. 다목적 방법의 설계와 개발은 연구자와 실무자들이 자주 하는 작업입니다. 이러한 활발한 활동의 결과로 지금까지 수많은 기법이 문헌에 제안되었으며, 다양한 실제 영역에서 발생하는 상황을 처리하는 데 상당한 효과가 있음을 입증했습니다. 이 백서에서는 코드형 인프라 배포 구성 최적화와 관련된 다목적 문제에 초점을 맞춥니다. 이 문제를 해결하기 위해 구현된 시스템을 IaC 옵티마이저 플랫폼(IOP)이라고 명명했습니다. IOP의 프로토타입 버전이 이전에 문헌에 소개된 적이 있지만, IOP에 포함하기에 가장 적합한 다목적 방법을 결정하기 위해서는 문제 해결에 초점을 맞춘 심층 분석이 필요합니다. 이 연구에서 수행한 분석의 주된 동기는 IOP 성능을 최대한 향상시키는 것입니다. 이는 H2020 유럽 프로젝트의 일환으로 개발 중인 이 시스템이 실제 환경에 배포될 것이라는 점을 고려할 때 매우 중요한 측면입니다. 좀 더 자세히 살펴보면, 이 논문에서는 9가지 진화적 계산 기반의 다중 목표 알고리즘을 사용합니다. 고려된 솔버의 품질을 평가하기 위해 실제 설정을 기반으로 12개의 서로 다른 문제 인스턴스를 생성했습니다. 10번의 독립적인 실행 후 각 방법에서 얻은 결과를 프리드먼의 비모수적 테스트를 사용하여 비교했습니다. 테스트를 통해 얻은 결과는 사용자의 필요에 따라 다양한 기법을 적용할 수 있는 다중 알고리즘 시스템을 만드는 데까지 이어졌습니다. [abs|pdf]

[31/91] When Neural Code Completion Models Size up the Situation: Attaining Cheaper and Faster Completion through Dynamic Model Inference

Keywords: neural_code_completion, code_completion_models, inference_code_completion
Abstract: 대규모 언어 모델의 최근 발전을 활용하여 최신 신경망 코드 완성 모델은 매우 정확한 코드 제안을 생성할 수 있는 능력을 입증했습니다. 하지만 방대한 크기로 인해 계산 비용과 환경에 미치는 영향 측면에서 문제가 발생하여 실제 시나리오에서 널리 채택되는 데 걸림돌이 되고 있습니다. 동적 추론은 모델의 성능을 유지하면서 추론 과정에서 최소한의 계산을 할당하기 때문에 유망한 솔루션으로 떠오르고 있습니다. 이 연구에서는 코드 완성의 맥락에서 동적 추론을 살펴봅니다. 처음에는 코드 완성을 위한 중간 계층의 추론 기능에 초점을 맞춰 GPT-2에 대한 실증적 조사를 실시했습니다. 그 결과 첫 번째 레이어만 사용해도 54.4%의 토큰을 정확하게 생성할 수 있으며, 이는 상당한 연산 절감 잠재력이 있음을 의미합니다. 또한, 모든 레이어를 사용했음에도 불구하고 모델은 여전히 14.5%의 토큰을 정확하게 예측하지 못했으며, 이로부터 이어진 후속 완성 작업은 수락률이 4.2%에 불과하여 거의 도움이 되지 않는 것으로 나타났습니다. 이러한 발견은 코드 완성의 동적 추론에 대한 탐구에 동기를 부여하고 잘못된 코드 생성을 막는 의사 결정 메커니즘으로 이를 개선하도록 영감을 줍니다. 따라서 코드 완성 모델을 위해 특별히 맞춤화된 새로운 동적 추론 방법을 제안합니다. 이 방법은 계산을 크게 줄이면서 정확한 예측을 생성할 뿐만 아니라 잘못된 예측을 사전에 방지하는 것을 목표로 합니다. 광범위한 평가 결과, 이 방법은 모델의 16개 레이어 중 평균적으로 1.7개 레이어를 건너뛸 수 있어 ROUGE-L을 1.1%만 줄이면서 11.2%의 속도 향상을 가져올 수 있는 것으로 나타났습니다. [abs|pdf]

[32/91] WindSeer: Real-time volumetric wind prediction over complex terrain aboard a small UAV

Keywords: resolution_wind_predictions, predict_real_wind, wind_predictions
Abstract: 실시간 고해상도 바람 예측은 안전한 유인 및 무인 항공을 포함한 다양한 응용 분야에 유용합니다. 현재의 기상 모델은 너무 많은 컴퓨팅을 필요로 하고 수 킬로미터 및 시간 단위로만 유효하기 때문에 필요한 예측 기능이 부족하며, 이러한 애플리케이션에 필요한 공간적, 시간적 해상도보다 훨씬 낮습니다. 이번 연구는 제한된 컴퓨팅 장치에서 희박한 측정 데이터만으로 저고도의 바람을 실시간으로 예측할 수 있는 능력을 처음으로 입증했습니다. 컴퓨터 유체 역학 시뮬레이션의 합성 데이터만을 사용하여 신경망인 WindSeer를 훈련하고, 노이즈가 적고 공간적으로 군집된 몇 개의 바람 측정값만으로 지형이 알려진 지형에서 실제 풍장을 성공적으로 예측할 수 있음을 보여줍니다. WindSeer는 재교육 없이도 이전에 보지 못한 지형에 대해 다양한 해상도와 도메인 크기로 정확한 예측을 생성할 수 있습니다. 이 모델이 기상 관측소에서 수집한 과거 바람 데이터와 드론에서 측정한 바람을 성공적으로 예측하는 것을 보여줍니다. [abs|pdf]

[33/91] Multi-task Learning for Joint Re-identification, Team Affiliation, and Role Classification for Sports Visual Tracking

Keywords: soccernet_tracking_dataset, challenging_soccernet_tracking, soccernet_tracking
Abstract: 축구 영상을 분석하려면 선수를 효과적으로 추적하고 재식별하는 것이 필수적입니다. 하지만 선수들의 비선형적인 움직임, 같은 팀 선수들의 외모 유사성, 잦은 클로즈업 등으로 인해 쉽지 않은 작업입니다. 따라서 선수를 대표하는 의미 있는 임베딩을 추출하는 능력은 효과적인 추적 및 재식별 시스템을 개발하는 데 매우 중요합니다. 이 논문에서는 역할 분류, 팀 소속, 재식별이라는 세 가지 작업을 동시에 수행하는 다목적 부분 기반 인물 표현 방법인 PRTreID를 제안합니다. 기존 문헌과 달리 단일 네트워크가 다중 작업 감독을 통해 훈련되어 세 가지 작업을 모두 공동으로 해결합니다. 제안된 공동 방법은 공유된 백본으로 인해 계산적으로 효율적입니다. 또한 멀티태스크 학습은 양적 및 질적 결과 모두에서 입증된 바와 같이 더 풍부하고 변별력 있는 표현으로 이어집니다. PRTreID의 효과를 입증하기 위해 장기 추적을 처리하기 위해 부품 기반 후처리 모듈을 사용하는 최첨단 추적 방법과 통합했습니다. 제안된 추적 방법은 까다로운 SoccerNet 추적 데이터 세트에서 기존의 모든 추적 방법보다 성능이 뛰어납니다. [abs|pdf]

[34/91] XAI-Enhanced Semantic Segmentation Models for Visual Quality Inspection

Keywords: refine_semantic_segmentation, visual_quality_inspection, intricate_object_segmentation
Abstract: 제조 및 물류와 같은 분야에서 매우 중요한 육안 품질 검사 시스템은 컴퓨터 비전과 머신러닝을 사용하여 정확하고 신속하게 결함을 감지합니다. 그러나 설명할 수 없는 결함은 신뢰, 오류 식별, 시스템 개선에 걸림돌이 될 수 있습니다. 이 백서에서는 의미적 세분화 모델을 개선하기 위해 CAM 기반 설명을 사용하여 시각적 품질 검사를 강화하는 프레임워크를 제시합니다. 이 접근 방식은 1) 모델 훈련, 2) XAI 기반 모델 설명, 3) XAI 평가, 4) 설명과 전문가 인사이트에 기반한 모델 향상을 위한 주석 보강으로 구성됩니다. 평가 결과, XAI로 강화된 모델은 특히 복잡한 객체 세분화에서 기존 DeepLabv3-ResNet101 모델을 능가하는 것으로 나타났습니다. [abs|pdf]

[35/91] Cooperative Edge Caching Based on Elastic Federated and Multi-Agent Deep Reinforcement Learning in Next-Generation Network

Keywords: cooperative_edge_caching, networks_empowering_caching, edge_caching_promising
Abstract: 엣지 캐싱은 스몰셀 기지국(SBS)의 캐싱 유닛을 강화하여 사용자 장비(UE)가 SBS에 미리 캐싱된 사용자의 요청 콘텐츠를 가져올 수 있도록 하는 차세대 네트워크의 유망한 솔루션입니다. SBS는 사용자의 개인정보를 보호하면서 학습을 통해 정확한 인기 콘텐츠를 예측하는 것이 중요합니다. 기존의 연합 학습(FL)은 사용자의 개인정보를 보호할 수 있지만, UE 간의 데이터 불일치로 인해 모델 품질이 저하될 수 있습니다. 따라서 인기 콘텐츠를 정확하게 예측하기 위해서는 각 UE별로 개인화된 로컬 모델을 학습시켜야 합니다. 또한 캐시된 콘텐츠는 차세대 네트워크에서 인접한 SBS 간에 공유될 수 있으므로 예측된 인기 콘텐츠를 다른 SBS에 캐시하면 콘텐츠 불러오기 비용에 영향을 미칠 수 있습니다. 따라서 인기 콘텐츠의 캐싱 위치를 협력적으로 결정하는 것이 중요합니다. 이러한 문제를 해결하기 위해 본 논문에서는 네트워크에서 비용을 최적화하기 위해 탄력적 연합 및 다중 에이전트 심층 강화 학습(CEFMR)에 기반한 협력적 엣지 캐싱 체계를 제안합니다. 먼저, 예측 정확도를 높이기 위해 적대적 자동 인코더(AAE) 모델을 학습에 적용하여 각 UE에 대한 개인화 모델을 학습하는 탄력적 FL 알고리즘을 제안하고, 학습된 AAE 모델을 기반으로 각 SBS에 대한 인기 콘텐츠를 예측하는 {인기} 콘텐츠 예측 알고리즘을 제안합니다. 마지막으로, 예측된 인기 콘텐츠를 SBS 간에 공동으로 캐싱할 위치를 결정하기 위해 다중 에이전트 심층 강화 학습(MADRL) 기반 알고리즘을 제안합니다. 실험 결과를 통해 제안한 방식이 기존 기준 캐싱 방식에 비해 우수함을 입증합니다. [abs|pdf]

[36/91] Attention-Based Recurrent Neural Network For Automatic Behavior Laying Hen Recognition

Keywords: poultry_farming_vocalization, vocalization_laying_hens, semantic_class_vocalization
Abstract: 현대 양계업의 관심사 중 하나는 건강 행동에 대한 매우 유용한 정보를 담고 있는 산란계의 발성입니다. 이 정보는 사육자가 산란계를 더 잘 모니터링하는 데 도움이 되는 건강 및 웰빙 지표로 사용되며, 여기에는 신속하고 효과적인 개입을 위해 문제를 조기에 발견하는 것이 포함됩니다. 이 연구에서는 더 나은 모니터링을 위해 산란계의 행동을 특성화하는 강력한 시스템을 제안하기 위해 산란계의 울음소리 유형을 인식하기 위한 소리 분석에 중점을 두었습니다. 이를 위해 먼저 산란계 호출 신호를 수집하고 주석을 단 다음, 시간 및 주파수 영역 특징의 조합을 기반으로 최적의 음향 특성화를 설계했습니다. 그런 다음 이러한 특징을 사용해 산란계 행동을 특징짓는 발성에 의미론적 클래스를 할당하는 순환 신경망 기반의 다중 라벨 분류 모델을 구축했습니다. 그 결과, 시간 및 주파수 영역 특징의 조합을 기반으로 한 모델의 전반적인 성능이 가장 높은 F1 점수(F1=92.75)를 얻었으며, 주파수 영역 특징을 사용한 모델에서 17%의 이득을 얻었고, 문헌에서 비교한 접근법에서는 8%의 이득을 얻었습니다. [abs|pdf]

[37/91] Reconciling Spatial and Temporal Abstractions for Goal Representation

Keywords: temporal_abstractions_learned, temporal_goal_abstraction, hierarchical_reinforcement_learning
Abstract: 목표 표현은 복잡한 학습 문제를 더 쉬운 하위 작업으로 분해하여 계층적 강화 학습(HRL) 알고리즘의 성능에 영향을 줍니다. 최근 연구에 따르면 시간적으로 추상적인 환경 역학을 보존하는 표현은 어려운 문제를 성공적으로 해결하고 최적화에 대한 이론적 보장을 제공한다고 합니다. 그러나 이러한 방법은 환경 역학이 복잡해지는 작업, 즉 시간적으로 추상적인 전이 관계가 더 많은 수의 변수에 의존하는 작업에는 확장할 수 없습니다. 반면에 공간 추상화를 사용하여 앞의 문제를 완화하려는 다른 노력도 있었습니다. 하지만 고차원 환경으로의 확장성과 사전 지식에 대한 의존성이라는 한계가 있습니다.
이 백서에서는 계층의 여러 수준에서 공간적 목표 추상화와 시간적 목표 추상화를 모두 도입하는 새로운 3계층 HRL 알고리즘을 제안합니다. 학습된 정책의 후회 한계에 대한 이론적 연구를 제공합니다. 복잡한 연속 제어 작업에 대한 접근 방식을 평가하여 이 접근 방식을 통해 학습된 공간적, 시간적 추상화의 효과를 입증합니다. [abs|pdf]

[38/91] Improving fine-grained understanding in image-text pre-training

Keywords: grained_multimodal_representations, grained_contrastive_alignment, fine_grained_multimodal
Abstract: 이미지-텍스트 쌍에서 보다 세분화된 멀티모달 표현을 사전 학습하는 간단한 방법인 SPARC(SPARse Fine-grained Contrast Alignment)를 소개합니다. 여러 개의 이미지 패치가 하나의 단어에 해당하는 경우가 많다는 점을 감안하여 캡션의 모든 토큰에 대해 이미지 패치 그룹을 학습할 것을 제안합니다. 이를 위해 이미지 패치와 언어 토큰 간의 희소 유사성 메트릭을 사용하고 각 토큰에 대해 언어 그룹화된 비전 임베딩을 패치의 가중 평균으로 계산합니다. 그런 다음 개별 샘플에만 의존하고 다른 배치 샘플을 네거티브로 사용할 필요가 없는 세분화된 시퀀스별 손실을 통해 토큰과 언어 그룹화된 비전 임베딩을 대조합니다. 이를 통해 계산적으로 저렴한 방식으로 더 자세한 정보를 학습할 수 있습니다. SPARC는 이 세분화된 손실을 글로벌 이미지와 텍스트 임베딩 간의 대비 손실과 결합하여 글로벌 정보와 로컬 정보를 동시에 인코딩하는 표현을 학습합니다. 우리는 제안한 방법을 철저히 평가하여 분류와 같은 거친 정보에 의존하는 이미지 수준 작업과 검색, 물체 감지 및 분할과 같은 세분화된 정보에 의존하는 영역 수준 작업 모두에서 경쟁 접근 방식에 비해 향상된 성능을 보여줍니다. 또한 SPARC는 기본 시각 언어 모델에서 모델 충실도와 캡션을 개선합니다. [abs|pdf]

[39/91] Evolutionary Multi-Objective Optimization of Large Language Model Prompts for Balancing Sentiments

Keywords: prompts_using_sentiment, sentiment_analysis_capabilities, emo_prompts_effectively
Abstract: ChatGPT와 같은 대규모 언어 모델(LLM)의 출현은 뛰어난 성능과 다용도로 인해 다양한 영역에서 상당한 주목을 받고 있습니다. 이러한 모델의 사용이 계속 증가함에 따라 효과적인 프롬프트 엔지니어링의 중요성이 부각되고 있습니다. 신속한 최적화는 모델 성능과 관련 정보 추출에 직접적인 영향을 미치기 때문에 중요한 과제로 떠오르고 있습니다. 최근 진화 알고리즘(EA)이 이 문제를 해결할 수 있는 가능성을 보여주면서 새로운 최적화 전략의 길을 열었습니다. 이 연구에서는 정서 분석을 사례 연구로 사용하여 신속한 최적화를 위해 특별히 맞춤화된 진화적 다중 목표(EMO) 접근 방식인 EMO-Prompts를 제안합니다. 우리는 감성 분석 기능을 실험 대상으로 사용합니다. 실험 결과, EMO-Prompts는 두 가지 상반된 감정을 동시에 구현하는 텍스트를 생성하도록 LLM을 안내할 수 있는 프롬프트를 효과적으로 생성하는 것으로 나타났습니다. [abs|pdf]

[40/91] Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models

Keywords: enhanced_comprehension_multimedia, temporal_understanding_video, event_queries_iconic
Abstract: 최근 다중 모드 대규모 언어 모델(MLLM)의 발전으로 텍스트, 이미지, 동영상 등 다양한 양식을 통합하여 멀티미디어 콘텐츠의 이해도가 크게 향상되었습니다. 그러나 이러한 모델이 특히 비디오 입력을 처리할 때 직면하는 중요한 과제는 특히 이벤트 수준에서 잘못된 인식이나 해석을 하는 환각의 발생입니다. 이 연구에서는 비디오 콘텐츠의 특정 시간적 이해에 초점을 맞춰 다단계판매에서 이벤트 수준의 환각을 처리하는 혁신적인 방법을 소개합니다. 이 접근 방식은 이벤트 쿼리와 제공된 비디오 모두에서 이벤트 관련 정보를 추출하고 활용하여 다단계판매원의 반응을 개선하는 새로운 프레임워크를 활용합니다. 크리테오는 온디맨드 이벤트 쿼리를 상징적인 액션으로 분해하는 고유한 메커니즘을 제안합니다. 그런 다음 CLIP 및 BLIP2와 같은 모델을 사용하여 이벤트 발생의 특정 타임스탬프를 예측합니다. Charades-STA 데이터 세트를 사용하여 실시한 평가 결과, 시간적 착각이 현저히 감소하고 이벤트 관련 응답의 품질이 개선된 것으로 나타났습니다. 이 연구는 MLLM의 중요한 한계를 해결하는 데 새로운 관점을 제공할 뿐만 아니라 시간 관련 질문의 맥락에서 MLLM을 정량적으로 측정 가능한 방법으로 평가하는 데 기여합니다. [abs|pdf]

[41/91] Enhancing the Fairness and Performance of Edge Cameras with Explainable AI

Keywords: human_detection_edge, model_debugging_expert, detection_edge_camera
Abstract: 에지 카메라 시스템에서 사람 감지에 인공지능(AI)의 사용이 증가함에 따라 정확하지만 복잡한 모델이 만들어져 해석과 디버깅이 어려워졌습니다. 소니의 연구는 전문가 중심의 문제 식별 및 솔루션 생성과 함께 모델 디버깅을 위해 설명 가능한 AI(XAI)를 사용하는 진단 방법을 제시합니다. 실제 사무실 엣지 네트워크의 바이트트랙 모델에서 검증한 결과, 학습 데이터 세트가 주요 편향의 원인이라는 사실을 발견하고 모델 보강을 해결책으로 제시했습니다. 이러한 접근 방식은 공정하고 신뢰할 수 있는 모델을 구축하는 데 필수적인 모델 편향성을 식별하는 데 도움이 됩니다. [abs|pdf]

[42/91] Slicer Networks

Keywords: medical_image_analysis, edge_preserving, slicer_network_improved
Abstract: 의료용 이미징에서 스캔은 종종 다양한 대비를 가지지만 내부 강도나 질감이 일정한 물체를 보여줍니다. 이러한 특성 덕분에 세분화 및 변형 필드 추정과 같은 작업에 저주파 근사치를 사용할 수 있습니다. 그러나 이 개념을 의료 이미지 분석을 위한 신경망 아키텍처에 통합하는 것은 아직까지 제대로 연구되지 않았습니다. 이 백서에서는 이러한 특성을 활용하도록 설계된 새로운 아키텍처인 슬라이서 네트워크를 제안합니다. 특징 추출을 위해 비전 트랜스포머와 같은 모델을 활용하는 인코더와 학습 가능한 양방향 그리드를 사용하는 슬라이서로 구성된 슬라이서 네트워크는 스플래팅-블러링-슬라이싱 프로세스를 통해 특징 맵을 전략적으로 정제하고 업샘플링합니다. 이를 통해 네트워크 결과에 에지 보존 저주파 근사치를 도입하여 유효 수신 필드를 효과적으로 확대합니다. 이러한 개선은 계산 복잡성을 줄일 뿐만 아니라 전반적인 성능도 향상시킵니다. 비지도 및 키포인트 기반 이미지 등록과 병변 분할을 포함한 다양한 의료 영상 애플리케이션에 대한 실험을 통해 슬라이서 네트워크의 향상된 정확도와 효율성이 입증되었습니다. [abs|pdf]

[43/91] PPNet: A Novel Neural Network Structure for End-to-End Near-Optimal Path Planning

Keywords: path_planning_network, optimal_path_planner, path_planners_sampling
Abstract: 샘플링 기반 경로 플래너와 같은 고전적인 경로 플래너는 초기 솔루션에 민감하고 최적 솔루션으로의 수렴이 느리다는 한계가 있습니다. 그러나 전력/연료가 제한된 자율주행 차량과 같은 많은 애플리케이션에서 단기간에 최적에 가까운 솔루션을 찾는 것은 어려운 일입니다. 엔드투엔드 근사 경로 플래너를 구현하기 위해 먼저 경로 계획 문제를 경로 공간 분할과 주어진 경로 공간에서의 웨이포인트 생성이라는 두 가지 하위 문제로 나눕니다. 그리고 위에서 언급한 하위 문제들을 해결하여 경로 계획 문제를 해결하기 위한 2단계 캐스케이드 신경망인 경로 계획 네트워크(PPNet)를 제안합니다. 또한 경로 계획을 위한 새로운 효율적인 데이터 생성 방법인 EDaGe-PP를 제안합니다. 그 결과 총 계산 시간은 1/33 미만이며 EDaGe-PP로 생성된 데이터셋으로 훈련된 PPNet의 성공률은 다른 방법에 비해 약 2배 높습니다. 저희는 최신 경로 계획 방법과 비교하여 PPNet을 검증했습니다. 그 결과 PPNet은 최신 경로 계획기보다 훨씬 짧은 15.3ms 만에 최적에 가까운 솔루션을 찾을 수 있는 것으로 나타났습니다. [abs|pdf]

[44/91] All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks

Keywords: jailbreak_challenges_safeguards, effective_jailbreak_prompts, box_jailbreak_attacks
Abstract: ChatGPT와 같은 대규모 언어 모델(LLM)은 안전장치를 우회하여 윤리적으로 해로운 프롬프트를 생성하는 '탈옥' 문제에 직면해 있습니다. 본 연구에서는 탈옥 프롬프트를 효과적으로 생성하기 위한 간단한 블랙박스 기법을 도입하여 기존 방법의 높은 복잡성과 계산 비용의 한계를 극복합니다. 제안한 기법은 LLM이 세이프가드 우회 표현을 직접 샘플링할 수 있다는 가설에 기반하여, 타겟 LLM 자체를 사용하여 유해한 프롬프트를 유해하지 않은 표현으로 반복적으로 재작성합니다. ChatGPT(GPT-3.5 및 GPT-4) 및 Gemini-Pro를 사용한 실험을 통해 입증된 이 방법은 평균 5회 반복 시 80% 이상의 공격 성공률을 달성했으며 모델 업데이트에도 불구하고 그 효과가 유지되었습니다. 생성된 탈옥 프롬프트는 자연스럽고 간결하여 탐지 가능성이 낮았습니다. 이 결과는 효과적인 탈옥 프롬프트를 생성하는 것이 이전에 생각했던 것보다 간단하며, 블랙박스 탈옥 공격이 더 심각한 보안 위협이 될 수 있음을 보여줍니다. [abs|pdf]

[45/91] A Comparative Analysis on Metaheuristic Algorithms Based Vision Transformer Model for Early Detection of Alzheimer's Disease

Keywords: alzheimer_disease_detected, metaheuristic_algorithms_based, proposed_identification_dementia
Abstract: 생명을 위협하는 여러 가지 신경 퇴행성 질환은 특히 노년층의 삶의 질을 떨어뜨리고 있습니다. 치매는 이러한 증상 중 하나로, 조기에 발견하지 못하면 알츠하이머병이라는 심각한 질환으로 이어질 수 있습니다. 정상 단계에서 알츠하이머병으로 진행되는 것은 인간 뇌 내부의 여러 매개변수가 변화하기 때문인 것으로 보고되고 있습니다. 이 논문에서는 다양한 단계의 치매를 식별하기 위해 혁신적인 메타 휴리스틱 알고리즘 기반 ViT 모델을 제안했습니다. 제안된 체계의 검증을 위해 상당한 수의 테스트 데이터가 활용되었습니다. 또한 이 모델이 정확도, 정밀도, 회상률, F1 점수 측면에서 우수한 성능을 보임이 입증되었습니다. [abs|pdf]

[46/91] Querying Easily Flip-flopped Samples for Deep Active Learning

Keywords: active_learning_machine, active_learning, active_learning_algorithm
Abstract: 능동형 학습은 레이블이 지정되지 않은 데이터를 전략적으로 선택하고 쿼리하여 모델의 성능을 개선하는 것을 목표로 하는 머신 러닝 패러다임입니다. 효과적인 선택 전략 중 하나는 모델의 예측 불확실성을 기반으로 하는 것인데, 이는 샘플이 얼마나 많은 정보를 제공하는지 측정하는 척도로 해석할 수 있습니다. 결정 경계에 대한 샘플의 거리는 예측 불확실성의 자연스러운 척도이지만, 특히 다중 클래스 분류 작업에서 형성된 복잡한 결정 경계의 경우 계산하기 어려운 경우가 많습니다. 이 문제를 해결하기 위해 이 논문에서는 예측된 레이블의 최소 불일치 확률로 정의되는 최소 불일치 메트릭(least disagree metric, LDM)과 가벼운 가정 하에서 점근적으로 일관성이 있는 것으로 입증된 LDM 추정치를 제안합니다. 이 추정기는 계산적으로 효율적이며 매개변수 섭동을 사용하여 딥러닝 모델에 쉽게 구현할 수 있습니다. LDM 기반 능동 학습은 레이블이 없는 데이터를 가장 작은 LDM으로 쿼리하여 수행됩니다. 실험 결과에 따르면 유니티의 LDM 기반 능동형 학습 알고리즘은 고려되는 모든 데이터 세트와 딥 아키텍처에서 전반적으로 최첨단 성능을 발휘합니다. [abs|pdf]

[47/91] Adaptive Self-training Framework for Fine-grained Scene Graph Generation

Keywords: scene_graph_generation, graph_structure_learner, scene_graph
Abstract: 장면 그래프 생성(SGG) 모델은 긴 꼬리를 가진 술어 분포와 주석 누락 문제와 같은 벤치마크 데이터 세트와 관련된 내재적 문제로 어려움을 겪어왔습니다. 본 연구에서는 주석이 없는 삼중항을 활용하여 SGG의 롱테일 문제를 완화하는 것을 목표로 합니다. 이를 위해, 주석이 없는 삼중 항에 의사 레이블을 할당하고 이를 기반으로 SGG 모델을 학습시키는 SGG용 자가 학습 프레임워크(ST-SGG)를 도입합니다. 이미지 인식을 위한 자가 학습은 상당한 진전이 있었지만, 의미적 모호성 및 술어 클래스의 롱테일 분포와 같은 고유한 특성으로 인해 SGG 작업을 위한 자가 학습 프레임워크를 설계하는 것은 더 어려운 과제입니다. 따라서 본 논문에서는 기존의 모든 SGG 모델에 적용할 수 있는 모델에 구애받지 않는 프레임워크인 모멘텀을 이용한 클래스별 적응 임계값(CATM)이라는 새로운 SGG용 의사 라벨링 기법을 제안합니다. 또한 우리가 제안한 자가 학습 프레임워크를 최첨단 메시지 전달 신경망(MPNN) 기반 SGG 모델에 적용할 때 유용한 그래프 구조 학습자(GSL)를 고안했습니다. 광범위한 실험을 통해 다양한 SGG 모델, 특히 세분화된 술어 클래스에 대한 성능을 향상시키는 데 있어 ST-SGG의 효과를 검증합니다. [abs|pdf]

[48/91] SEINE: Structure Encoding and Interaction Network for Nuclei Instance Segmentation

Keywords: nuclei_instance_segmentation, learning_fuzzy_nuclei, nuclei_structure_semantics
Abstract: 조직병리학적 이미지에서 핵 인스턴스 분할은 생물학적 분석과 암 진단에 매우 중요하지만 두 가지 이유로 인해 여전히 어려운 과제입니다. (1) 발색성 핵의 핵 내 및 핵 외 영역이 시각적으로 유사하게 표현되어 종종 분할이 제대로 이루어지지 않으며, (2) 현재의 방법으로는 핵 구조에 대한 탐색이 부족하여 단편적인 인스턴스 예측이 이루어집니다. 이러한 문제를 해결하기 위해 본 논문에서는 핵의 구조 모델링 체계를 개발하고 핵 간의 구조 유사성을 활용하여 분할된 각 인스턴스의 적분성을 향상시키는 구조 인코딩 및 상호 작용 네트워크인 SEINE을 제안합니다. 구체적으로는 핵 구조와 의미 간의 상관관계를 고려한 윤곽선 기반 구조 인코딩(SE)을 도입하여 핵 구조의 합리적인 표현을 실현합니다. 이 인코딩을 기반으로 명확한 핵을 프로토타입으로 삼아 퍼지 핵에 대한 구조 학습을 강화하는 구조 유도 주의(SGA)를 제안합니다. 구조 학습 능력을 강화하기 위해 의미와 구조 분기의 의미적 일관성을 높이기 위한 의미적 특징 융합(SFF)을 제시합니다. 또한 부정확한 핵 경계 예측을 억제하기 위해 위치 향상(PE) 방법을 적용합니다. 광범위한 실험을 통해 이러한 접근법의 우수성이 입증되었으며, SEINE은 4개의 데이터 세트에서 최첨단(SOTA) 성능을 달성했습니다. 이 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[49/91] Towards Learning from Graphs with Heterophily: Progress and Future

Keywords: heterophilous_graph_learning, learning_heterophilous_graphs, learning_graphs_heterophily
Abstract: 그래프는 실제 개체 간의 복잡한 관계를 모델링하는 구조화된 데이터입니다. 연결된 노드들이 서로 다른 레이블이나 서로 다른 특징을 갖기 쉬운 이종 그래프는 최근 큰 주목을 받으며 많은 응용 분야를 찾고 있습니다. 한편, 이종 그래프에서 학습을 발전시키기 위한 노력도 증가하고 있습니다. 관련 설문조사가 존재하지만, 이종 그래프 학습의 하위 주제에 불과한 이종 GNN에 초점을 맞추고 있습니다. 본 조사에서는 이종성 그래프 학습에 관한 기존 연구를 종합적으로 개관하고, 먼저 180여 편의 논문을 수집하여 이 분야의 발전 현황을 소개합니다. 그런 다음 학습 전략, 모델 아키텍처 및 실제 응용을 포함한 계층적 분류법을 기반으로 기존 방법을 체계적으로 분류합니다. 마지막으로, 기존 연구의 주요 과제를 논의하고 향후 연구를 위한 유망한 방법을 강조합니다.더 많은 출판물 세부 정보 및 해당 오픈 소스 코드는 다음 https URL에서 액세스할 수 있으며 지속적으로 업데이트될 예정입니다. [abs|pdf]

[50/91] CLIP Model for Images to Textual Prompts Based on Top-k Neighbors

Keywords: image_prompt_generation, multimodal_generation, text_image_synthesis
Abstract: 멀티모달 생성의 하위 분야인 텍스트-이미지 합성은 최근 몇 년 동안 큰 주목을 받고 있습니다. 본 논문에서는 생성 모델을 활용하여 대량의 주석이 달린 데이터 없이도 텍스트 프롬프트를 생성하는 이미지-프롬프트 생성을 위한 비용 효율적인 접근 방식을 제안합니다. 이 방법은 온라인 단계와 오프라인 단계의 두 단계로 나뉩니다. CLIP 모델과 K-최근접 이웃(KNN) 알고리즘의 조합을 사용합니다. 제안된 시스템은 오프라인 작업과 온라인 작업의 두 가지 주요 부분으로 구성됩니다. 우리의 방법은 이 모델들 중 가장 높은 지표인 0.612를 기록했으며, 이는 각각 클립, 클립 + KNN(상위 10위)보다 0.013, 0.055, 0.011 더 높은 수치입니다. [abs|pdf]

[51/91] Cooperative Tri-Point Model-Based Ground-to-Air Coverage Extension in Beyond 5G Networks

Keywords: provide_coverage_aerial, cooperative_coverage_structure, coverage_aerial_users
Abstract: 기존 지상파 인프라를 활용하여 항공 사용자에게 커버리지를 제공하는 것은 잠재적으로 저비용 솔루션입니다. 하지만 이미 구축된 지상파 기지국(TBS)은 안테나가 아래로 기울어져 있기 때문에 G2A(지상 대 공중) 커버리지가 약합니다. 또한 3차원 공간, 특히 수직 방향의 복잡한 신호 커버리지 요구 사항으로 인해 안테나 조정을 통해 전체 공역에 걸쳐 최적의 커버리지를 달성하는 것은 어려운 일입니다. 본 논문에서는 협력 빔을 활용하여 G2A 커버리지 확장을 향상시키는 협력 트라이포인트(CoTP) 모델 기반 방법을 제안합니다. 기존 TBS를 활용하여 효과적인 협력 빔을 구축하기 위해 세 개의 TBS 간의 협력을 통해 최소한의 커버리지 중첩으로 G2A 커버리지를 확보할 수 있음을 증명하고, G2A 커버리지 확장을 분석할 수 있는 CoTP 모델을 설계합니다. 이 모델을 사용하여 삼각 삼각 측량 기반의 협력 커버리지 구조를 설계하여 삼각형 프리즘 모양의 하위 공간과 그에 해당하는 TBS 협력 집합을 나눕니다. 협력 세트의 TBS가 지상 커버리지를 유지하면서 서로 다른 높이의 하위 공간을 커버할 수 있도록 삼각형 프리즘 모양의 공역에서 커버리지를 최대화하기 위한 협력 빔 생성 알고리즘을 설계합니다. 시뮬레이션 결과와 현장 실험을 통해 제안한 방법이 지상 커버리지를 보장하면서 G2A 커버리지 확장을 효율적으로 향상시킬 수 있음을 입증했습니다. [abs|pdf]

[52/91] Explaining Drift using Shapley Values

Keywords: resilient_concept_drifts, concept_drifts, features_driving_drift
Abstract: 머신러닝 모델은 학습되지 않은 데이터에 대한 결과를 예측하는 데 사용될 때 성능이 저하되는 경우가 많습니다. 이러한 시나리오는 팬데믹과 같은 주요 사건으로 인해 데이터 분포가 점진적으로 또는 갑작스럽게 변화할 때 현실에서 종종 발생할 수 있습니다. 머신러닝 연구에서는 이러한 개념의 변화에 탄력적으로 대응할 수 있는 기술을 개발하기 위한 많은 시도가 있었습니다. 그러나 모델 성능의 편차를 유발하는 요인을 파악할 수 있는 원칙적인 프레임워크는 아직 없습니다. 이 백서에서는 샤플리 값을 사용하여 드리프트의 주요 원인을 식별하고 각각의 기여도를 정량화하는 새로운 프레임워크인 DBShap을 제안합니다. 제안된 프레임워크는 드리프트를 유발하는 개별 기능의 중요성을 정량화할 뿐만 아니라 입력과 출력 간의 기본 관계의 변화도 가능한 원인으로 포함합니다. 드리프트의 근본 원인을 이해하고 드리프트에 대한 복원력을 갖춘 모델을 만드는 데 DBShap에서 제공하는 설명을 사용할 수 있습니다. [abs|pdf]

[53/91] Bootstrapping OTS-Funcimg Pre-training Model (Botfip) -- A Comprehensive Symbolic Regression Framework

Keywords: scientific_computing_multimodal, symbolic_regression, multimodal_information_mining
Abstract: 과학 컴퓨팅 분야에서 많은 문제 해결 접근 방식은 과정과 최종 결과에만 초점을 맞추는 경향이 있으며, 과학용 AI에서도 데이터 이면의 심층적인 멀티모달 정보 마이닝이 부족하여 이미지-텍스트 영역에서와 유사한 멀티모달 프레임워크가 누락되어 있습니다. 이 백서에서는 기호 회귀(SR)를 중심으로 이미지-텍스트 영역의 BLIP 모델에서 영감을 얻어 함수 이미지(Funcimg)와 연산 트리 시퀀스(OTS)를 기반으로 하는 과학 컴퓨팅 멀티모달 프레임워크인 부트스트랩 OTS-Funcimg 사전 훈련 모델(Botfip)을 제안합니다. SR 실험을 통해 복잡도가 낮은 SR 문제에서 Botfip의 장점을 검증하고 그 잠재력을 선보입니다. MED 프레임워크인 Botfip은 향후 더 광범위한 과학 컴퓨팅 문제에 적용될 수 있는 가능성을 지니고 있습니다. [abs|pdf]

[54/91] Parameter Selection for Analyzing Conversations with Autism Spectrum Disorder

Keywords: asd_diagnosed_conversational, diagnosed_conversational_interaction, characterize_conversational_behaviors
Abstract: 자폐 스펙트럼 장애(ASD)의 진단은 생화학적 진단을 사용하기보다는 심리학자의 상호작용 행동 분석에 의존하기 때문에 복잡하고 어려운 작업입니다. 이 백서에서는 심리학자와 일반 발달장애(TD) 또는 자폐성 장애 아동 간의 진단 대화에서 추출한 음향/음운 및 언어적 특징을 분석하여 ASD 진단을 위한 모델링 접근법을 제시합니다. 다양한 대화 과제에서 다양한 특징의 기여도를 비교합니다. 우리는 자폐 아동의 대화 행동을 특징짓는 최소한의 매개변수 세트를 찾는 데 집중합니다. 자폐증은 대화 상호작용을 통해 진단되기 때문에 아동의 행동을 분석하는 것 외에도 심리학자의 대화 행동이 진단 그룹에 따라 달라지는지 조사합니다. 이러한 연구 결과는 자폐 아동의 대화 데이터를 세밀하게 분석하여 진단과 개입을 지원할 수 있습니다. [abs|pdf]

[55/91] HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization

Keywords: learning_generative_prompts, learning_domain_invariant, domain_invariant_features
Abstract: 도메인 일반화(DG)는 불변 특징을 학습하여 보이지 않는 시나리오에서 뛰어난 머신러닝 모델을 만들기 위해 노력합니다. 도메인 일반화에서는 모델을 고정된 구조로 제한하거나 불변 기능을 캡슐화하기 위해 획일적인 매개변수화를 적용하는 관행이 널리 퍼져 있는데, 이는 의도치 않게 특정 측면을 혼합할 수 있습니다. 이러한 접근 방식은 도메인 간 변이의 미묘한 차이를 구분하는 데 어려움을 겪으며 특정 도메인에 편향성을 보여 도메인 불변 특징을 정확하게 학습하는 데 방해가 될 수 있습니다. 이러한 문제점을 인식한 유니티는 도메인 수준 및 업무별 특성으로 모델을 보완하기 위해 고안된 새로운 방법을 도입했습니다. 이 접근 방식은 모델이 불변의 특징과 특정 특징을 보다 효과적으로 분리하도록 유도하여 일반화를 강화하는 것을 목표로 합니다. DG 패러다임에서 시각적 프롬프트의 새로운 트렌드를 기반으로, 새로운 Hierarchical
Contrastive Visual Prompt(HCVP) 방법론을 도입했습니다. 이는 명시적인 모델 구조 및 특수 손실 함수와 함께 프롬프트에 대한 고유한 생성 접근 방식으로 차별화되는 이 분야의 중요한 발전을 나타냅니다. 전체 데이터 세트에 걸쳐 공유되는 기존의 시각적 프롬프트와 달리, HCVP는 프롬프트 대조 학습으로 강화된 계층적 프롬프트 생성 네트워크를 활용합니다. 이러한 생성 프롬프트는 인스턴스에 따라 달라지므로 다양한 도메인과 작업에 내재된 고유한 특성을 충족합니다. 또한, 생성된 시각적 프롬프트를 비전 트랜스포머 백본에 효과적으로 통합하는 브리지 역할을 하는 프롬프트 변조 네트워크를 고안했습니다. 5개의 DG 데이터세트에 대한 실험을 통해 기존 DG 알고리즘과 적응 프로토콜을 모두 능가하는 HCVP의 효과를 입증했습니다. [abs|pdf]

[56/91] Curriculum Recommendations Using Transformer Base Model with InfoNCE Loss And Language Switching Method

Keywords: curriculum_recommendation_transformer, effectiveness_diverse_linguistic, language_switching
Abstract: 커리큘럼 권장 사항 패러다임은 끊임없이 진화하는 교육 기술 및 커리큘럼 개발 영역에서 학습 평등을 촉진하는 데 전념하고 있습니다. 이 패러다임은 언어 번역으로 인한 콘텐츠 충돌 및 중단과 같은 기존 방법론의 내재적 장애물을 인정하면서 이러한 문제를 직면하고 극복하는 것을 목표로 합니다. 특히 언어 번역으로 인한 콘텐츠 충돌과 중단, 즉 포괄적이고 개인화된 학습 경험을 만드는 데 방해가 되는 장애물을 해결합니다. 이 패러다임의 목표는 다양성을 포용할 뿐만 아니라 각 학습자의 고유한 요구에 맞게 학습 경험을 맞춤화하는 교육 환경을 조성하는 것입니다. 이러한 과제를 극복하기 위해 저희는 커리큘럼 개발과 개인 맞춤형 학습에 대한 주목할 만한 공헌을 바탕으로 세 가지 핵심 혁신을 도입했습니다. 여기에는 계산 효율성을 향상시키기 위한 트랜스포머 기본 모델 통합, 정확한 콘텐츠-주제 매칭을 위한 InfoNCE 손실 구현, 번역 관련 모호성을 완화하기 위한 언어 전환 전략 채택이 포함됩니다. 이러한 혁신은 내재된 문제를 함께 해결하고 다양한 학습자를 위한 보다 공평하고 효과적인 학습 여정을 구축하는 데 기여하는 것을 목표로 합니다. 경쟁적인 교차 검증 점수는 0.66314를 달성하여 문장 변환기/LaBSE의 효율성을 강조하며, 콘텐츠 정렬 예측을 위한 다양한 언어적 뉘앙스에 대한 방법론의 효과를 보여줍니다. 색인 용어-커리큘럼 추천, 정보 손실이 있는 트랜스포머 모델, 언어 전환. [abs|pdf]

[57/91] Should ChatGPT Write Your Breakup Text? Exploring the Role of AI in Relationship Dissolution

Keywords: breakup_conversations_support, breakup_conversations, breakup_process_needs
Abstract: 관계는 우리의 행복과 웰빙에 필수적입니다. 관계의 생애주기의 마지막 단계이자 개인의 삶에서 가장 스트레스가 많은 사건 중 하나인 관계의 해체는 사람들에게 깊고 오래 지속되는 영향을 미칠 수 있습니다. 이별 과정이 컴퓨터 매개 커뮤니케이션(CMC)에 의해 점점 더 용이해지고, 향후 인공지능 매개 커뮤니케이션(AIMC) 도구의 영향력이 커질 것으로 예상되는 가운데, 21명의 참가자를 대상으로 반구조화된 인터뷰 연구를 실시했습니다. 이를 통해 1) 이별 과정에서 현재 기술의 역할, 2) 이별 과정에서 개인이 필요로 하는 욕구와 지원, 3) AI가 이러한 욕구를 어떻게 해결할 수 있는지를 파악하고자 했습니다. 연구 결과, 사람들은 관계를 끝내는 다양한 단계에서 서로 다른 니즈를 가지고 있는 것으로 나타났습니다. 현재 기술은 정보 수집과 커뮤니티 지원, 이별의 촉매제 역할, 고스팅 및 차단, 커뮤니케이션 촉진 등에 활용되고 있습니다. 참가자들은 AI가 이별에 이르는 관계에 대한 이해를 돕고, 중재자 역할을 하며, 이별 대화에서 적절한 문구, 어조, 언어를 구사하는 데 도움을 주고, 이별 후 동반자 관계, 반성, 회복, 성장을 지원할 수 있을 것으로 기대합니다. 또한, 이번 연구 결과는 이별 과정과 행동 변화의 초이론적 모델(TTM)이 겹치는 부분이 있음을 보여줍니다. TTM의 렌즈를 통해 이별 과정에서 AI가 제공할 수 있는 잠재적 지원과 어포던스, 그리고 이 민감한 과정에서 AI의 역할과 관련하여 필요한 예방 조치를 살펴봅니다. [abs|pdf]

[58/91] Imitation Learning Inputting Image Feature to Each Layer of Neural Network

Keywords: imitation_learning, imitation_learning_enables, robots_learn_replicate
Abstract: 모방 학습을 통해 로봇은 훈련 데이터에서 인간의 행동을 학습하고 복제할 수 있습니다. 최근 머신러닝의 발전으로 이미지와 같은 고차원 관찰 데이터를 직접 처리하는 엔드투엔드 학습 접근법이 가능해졌습니다. 그러나 이러한 접근 방식은 여러 양식의 데이터를 처리할 때, 특히 짧은 샘플링 기간을 사용할 때 원하는 결과와 상관관계가 낮은 데이터를 실수로 무시하는 중대한 문제에 직면합니다. 이 백서에서는 이러한 문제를 해결하기 위해 각 신경망 계층에 데이터를 입력함으로써 출력과 상관관계가 상대적으로 낮은 데이터의 영향력을 증폭시키는 유용한 방법을 제시합니다. 제안된 접근 방식은 다양한 데이터 소스를 학습 과정에 효과적으로 통합합니다. 원시 이미지와 관절 정보를 입력으로 간단한 픽 앤 플레이스 작업을 사용한 실험을 통해 짧은 샘플링 기간의 데이터를 처리할 때에도 성공률이 크게 향상됨을 입증했습니다. [abs|pdf]

[59/91] Towards Identifiable Unsupervised Domain Translation: A Diversified Distribution Matching Approach

Keywords: unsupervised_domain_translation, domain_translation, content_translation_functions
Abstract: 비지도 도메인 번역(UDT)은 높은 수준의 의미론적 의미('콘텐츠'라고도 함)를 변경하지 않고 한 도메인(예: 스케치)의 샘플을 다른 도메인(예: 사진)으로 변환하는 함수를 찾는 것을 목표로 합니다. 번역 함수는 변환된 소스 도메인과 대상 도메인의 확률 분포 매칭을 통해 구하는 경우가 많습니다. CycleGAN은 이러한 작업 중 가장 대표적인 접근 방식이라고 할 수 있습니다. 그러나 CycleGAN과 변형이 원하는 번역 함수를 식별하지 못하고 콘텐츠가 잘못 정렬된 번역을 생성할 수 있다는 사실이 문헌을 통해 밝혀졌습니다. 이러한 한계는 학습 기준의 솔루션 공간에 '측정값 보존 자동형성(MPA)'이라고 하는 여러 번역 함수가 존재하기 때문에 발생합니다. 이러한 식별성 문제에 대한 인식에도 불구하고 해결책은 여전히 찾기 어려웠습니다. 이 연구에서는 식별 가능성 문제의 핵심을 파헤치고 MPA 제거 이론을 소개합니다. 분석 결과, 다양한 도메인 간 조건 분포의 여러 쌍이 학습 함수에 의해 일치하는 경우 MPA가 존재할 가능성이 낮다는 것을 보여줍니다. 우리의 이론은 고전적 접근법에서처럼 전체 데이터 도메인이 아닌 보조 변수에 의해 유도된 도메인의 하위 집합에 대한 분포 매칭을 사용하는 UDT 학습자로 이어집니다. 제안된 프레임워크는 우리가 알기로는 합리적인 UDT 설정 하에서 번역 식별성을 엄격하게 확립한 최초의 프레임워크입니다. 실험을 통해 이론적 주장이 입증되었습니다. [abs|pdf]

[60/91] Traffic Smoothing Controllers for Autonomous Vehicles Using Deep Reinforcement Learning and Real-World Trajectory Data

Keywords: traffic_smoothing_cruise, traffic_low_autonomous, traffic_smoothing
Abstract: 자율주행 차량에 배포할 수 있는 트래픽 스무딩 크루즈 컨트롤러를 설계하는 것은 교통 흐름을 개선하고 혼잡을 줄이며 혼합 자율주행 교통에서 연비를 향상하기 위한 핵심 단계입니다. 유니티는 1차선 시뮬레이션에서 재생되는 테네시주 I-24 고속도로의 실제 궤적 데이터를 활용하여 대규모 교통 마이크로시뮬레이터를 세심하게 미세 조정해야 하는 일반적인 문제를 우회합니다. 표준 심층 강화 학습 방법을 사용하여 에너지를 절감하는 웨이브 스무딩 정책을 학습합니다. 에이전트에 대한 입력으로 가장 최근의 차량에서 쉽게 구할 수 있는 로컬 상태인 앞 차량의 속도와 거리만 관찰하고, 교통의 하류 상태에 대한 비로컬 관찰도 관찰합니다. 4%의 낮은 자율주행차 보급률에서도 가다 서다를 반복하는 궤적에서 15% 이상의 상당한 연료 절감 효과를 얻을 수 있음을 보여줍니다. 마지막으로, 컨트롤러의 평활화 효과를 분석하고 시뮬레이션에 차선 변경을 추가하고 다운스트림 정보를 제거할 때의 견고성을 입증합니다. [abs|pdf]

[61/91] Mobility Accelerates Learning: Convergence Analysis on Hierarchical Federated Learning in Vehicular Networks

Keywords: federated_learning, hierarchical_federated_learning, enables_distributed_training
Abstract: 계층적 연합 학습(HFL)은 여러 엣지 서버와 클라우드 엣지 서버의 도움을 받아 개인 정보를 보호하는 방식으로 여러 디바이스에 걸쳐 모델을 분산 학습할 수 있습니다. 이 백서에서는 주로 차량 네트워크를 대상으로 이동성이 높은 디바이스에서 HFL을 고려합니다. 융합 분석을 통해 이동성이 엣지 데이터의 융합과 엣지 모델의 셔플링을 통해 융합 속도에 영향을 미친다는 것을 보여줍니다. 일반적으로 모빌리티는 통신 관점에서의 난제로 여겨지지만, 엣지 레벨의 이기종 데이터와 융합할 경우 보다 다양한 데이터를 통합할 수 있기 때문에 HFL의 융합 속도가 빨라진다는 것을 증명합니다. 또한 속도가 빨라지면 데이터의 융합이 가속화되기 때문에 융합 속도가 빨라진다는 것을 입증합니다. 시뮬레이션 결과에 따르면 모빌리티는 CIFAR-10 데이터 세트에서 컨볼루션 신경망을 훈련할 때 HFL의 모델 정확도를 최대 15.1%까지 향상시키는 것으로 나타났습니다. [abs|pdf]

[62/91] Convex and Bilevel Optimization for Neuro-Symbolic Inference and Learning

Keywords: neupsl_inference_learning, symbolic_parameter_learning, inference_learning_gradients
Abstract: 유니티는 컨벡스 및 빌레벨 최적화 기법을 활용하여 엔드투엔드 신경 및 기호 파라미터 학습을 위한 일반 그라데이션 기반 프레임워크를 개발함으로써 신경-심볼(NeSy) 시스템의 주요 과제를 해결합니다. 이 프레임워크의 적용 가능성은 최첨단 NeSy 아키텍처인 NeuPSL을 통해 입증되었습니다. 이를 위해 NeuPSL 추론의 부드러운 원시 및 이중 공식을 제안하고 학습 기울기가 최적의 이중 변수의 함수임을 보여줍니다. 또한 웜 스타트를 자연스럽게 활용하는 새로운 공식을 위한 이중 블록 좌표 하강 알고리즘을 개발합니다. 이를 통해 현재 최고의 NeuPSL 추론 방법보다 학습 런타임이 100배 이상 개선됩니다. 마지막으로, 다양한 작업을 포괄하는 $8$ 데이터 세트에 대한 광범위한 경험적 평가를 통해 학습 프레임워크가 대체 학습 방법에 비해 최대 16% 포인트의 예측 성능 향상을 달성했음을 입증합니다. [abs|pdf]

[63/91] ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on Climate Change

Keywords: large_language_models, natively_multilingual_models, language_models_synthesize
Abstract: 이 백서에서는 기후 변화에 대한 학제 간 연구를 종합하는 도메인별 대규모 언어 모델 제품군인 ClimateGPT를 소개합니다. 우리는 3,000억 개의 토큰으로 구성된 과학 지향 데이터 세트에 대해 두 개의 7B 모델을 처음부터 학습시켰습니다. 첫 번째 모델의 경우, 42억 개의 도메인별 토큰이 사전 훈련 중에 포함되었고, 두 번째 모델은 사전 훈련 후 기후 도메인에 맞게 조정되었습니다. 또한, ClimateGPT-7B, 13B, 70B는 42억 개의 토큰으로 구성된 도메인별 데이터 세트에 대해 Llama~2에서 지속적으로 사전 학습을 거쳤습니다. 각 모델은 기후 과학자들과 긴밀히 협력하여 생성된 고품질의 사람이 생성한 도메인별 데이터 세트에 대해 미세 조정된 지침을 따릅니다. 환각의 수를 줄이기 위해 검색 증강을 위해 모델을 최적화하고 계층적 검색 전략을 제안합니다. 비영어권 사용자의 모델 접근성을 높이기 위해 계단식 기계 번역을 활용할 것을 제안하고, 이 접근 방식이 다국어 모델과 비슷한 성능을 발휘하면서도 많은 수의 언어로 쉽게 확장할 수 있음을 보여줍니다. 또한 기후 변화의 본질적인 학제 간 측면을 다루기 위해 다양한 연구 관점을 고려합니다. 따라서 이 모델은 전반적인 답변 외에도 다양한 관점에 초점을 맞춘 심층적인 답변을 생성할 수 있습니다. 우리는 LLM을 평가하기 위한 일련의 자동 기후별 벤치마크를 제안합니다. 이러한 벤치마크에서 ClimateGPT-7B는 일반 도메인 벤치마크의 결과를 저하시키지 않으면서도 10배 더 큰 Llama-2-70B 채팅 모델과 동등한 성능을 발휘합니다. 사람이 직접 평가한 결과 벤치마크에서 확인된 트렌드를 확인할 수 있었습니다. 모든 모델은 재생 에너지를 사용하여 훈련 및 평가되었으며 공개적으로 공개됩니다. [abs|pdf]

[64/91] Blackout Mitigation via Physics-guided RL

Keywords: preventing_blackouts_physics, blackout_mitigation_policy, effective_blackout_mitigation
Abstract: 이 백서에서는 정전 방지라는 궁극적인 목표를 달성하기 위해 시스템 이상에 대응하는 교정 제어 조치의 순차적 설계를 고려합니다. 물리학 기반 강화 학습(RL) 프레임워크는 시스템 안정성에 대한 장기적인 영향을 고려하여 효과적인 실시간 교정 조치의 순서를 식별하도록 설계되었습니다. 이 논문에서는 이산값 송전선로 전환 결정(선로 재연결 및 제거)과 연속값 발전기 조정을 모두 포함하는 제어 조치의 공간을 고려합니다. 효과적인 정전 완화 정책을 파악하기 위해 송전 네트워크와 관련된 전력 흐름 민감도 요인을 사용하여 에이전트 훈련 중에 RL 탐색을 안내하는 물리 기반 접근 방식을 설계했습니다. 오픈 소스 Grid2Op 플랫폼을 사용한 종합적인 경험적 평가는 물리적 신호를 RL 결정에 통합하는 것의 주목할 만한 이점을 보여 주며, 제안된 물리 유도 접근 방식이 블랙박스 접근 방식에 비해 이점이 있음을 입증합니다. 한 가지 중요한 관찰은 여러 실시간 발전기 조정과 함께 송전선을 전략적으로 제거하면 종종 정전을 예방하거나 지연시킬 수 있는 효과적인 장기 결정을 내릴 수 있다는 것입니다. [abs|pdf]

[65/91] Impact of Large Language Model Assistance on Patients Reading Clinical Notes: A Mixed-Methods Study

Keywords: reading_clinical_notes, clinical_notes_readable, clinical_notes_augmentations
Abstract: 환자는 임상 노트를 읽음으로써 자신의 건강에 대한 통제감 향상, 치료 계획에 대한 이해도 향상 등 다양한 이점을 얻을 수 있습니다. 하지만 임상 노트의 복잡한 의학 개념과 전문 용어는 환자의 이해를 방해하고 불안감을 유발할 수 있습니다. 저희는 대규모 언어 모델(LLM)을 활용하여 임상 노트를 단순화하고, 정보를 추출하고, 노트에 컨텍스트를 추가하여 가독성을 높이기 위한 환자 대상 도구를 개발했습니다. 유방암 생존자가 기증한 실제 임상 노트와 임상의가 생성한 합성 노트, 총 3868개의 단어로 구성된 12개의 노트에 대해 이러한 증강 작업을 수행하도록 엔지니어링된 GPT-4를 유도했습니다. 2023년 6월, 미국에 거주하는 200명의 여성 참가자가 도구를 사용하여 다양한 수준의 증강이 적용된 임상 노트 3개를 무작위로 배정받았습니다. 참가자들은 각 노트에 대한 질문에 답하며 후속 조치에 대한 이해도와 스스로 보고한 자신감을 평가했습니다. 그 결과, 증강 기능이 행동 이해도 점수의 유의미한 증가(일부 증강 기능의 경우 0.63 $\pm$ 0.04, 대조군의 경우 0.54 $\pm$ 0.02)와 관련이 있는 것으로 나타났습니다(p=0.002). 자가 진단 유방암 환자(N=7)를 대상으로 한 심층 인터뷰도 화상 회의를 통해 실시했습니다. 증강, 특히 정의에 대한 설명은 7명의 참가자들로부터 긍정적인 반응을 이끌어 냈으며, 일부 참가자는 LLM에 의존하는 것에 대해 우려를 표했습니다. 임상의가 증강 기능을 평가한 결과, 오해의 소지가 있는 오류가 발생했으며, 합성 노트보다 실제 기증된 노트에서 오류가 더 흔하게 발생하여 신중하게 작성된 임상 노트의 중요성을 알 수 있었습니다. 증강은 일부 가독성 지표를 개선하지만 모든 지표를 개선하지는 못합니다. 이 연구는 임상의의 부담을 줄이면서 임상 노트에 대한 환자 경험을 개선할 수 있는 LLM의 잠재력을 보여줍니다. 그러나 잠재적인 모델 오류를 수정하려면 사람이 참여하는 것이 중요합니다. [abs|pdf]

[66/91] Learning Shortcuts: On the Misleading Promise of NLU in Language Models

Keywords: comprehension_shortcut_learning, shortcut_learning_evaluation, deepening_comprehension_shortcut
Abstract: 대규모 언어 모델(LLM)의 등장으로 자연어 처리 분야에서 상당한 성능 향상이 가능해졌습니다. 그러나 최근 연구에 따르면 LLM은 작업을 수행할 때 종종 지름길에 의존하여 성능이 향상되었다는 착각을 불러일으키는 반면 의사 결정 규칙의 일반화 가능성은 부족한 것으로 나타났습니다. 이러한 현상은 LLM의 자연어 이해도를 정확하게 평가하는 데 어려움을 초래합니다. 본 논문에서는 이 분야의 관련 연구에 대한 간결한 조사를 제공하고 언어 모델 평가, 특히 NLU 작업에 대한 지름길 학습의 의미에 대한 관점을 제시합니다. 이 백서는 바로가기 학습에 대한 이해를 깊게 하고, 보다 강력한 언어 모델 개발에 기여하며, 실제 시나리오에서 NLU 평가의 표준을 높이기 위해 더 많은 연구 노력을 기울일 것을 촉구합니다. [abs|pdf]

[67/91] Handling Large-scale Cardinality in building recommendation systems

Keywords: cardinality_recommendation_systems, optimizing_recommendation_systems, effective_recommendation_systems
Abstract: 효과적인 추천 시스템은 사용자 선호도를 파악하는 데 의존하며, 이를 위해서는 엔티티의 UUID(범용 고유 식별자)와 같은 수많은 기능을 통합해야 하는 경우가 많습니다. 그러나 UUID의 매우 높은 카디널리티는 모델 성능 저하와 희소성으로 인한 모델 크기 증가라는 측면에서 심각한 문제를 야기합니다. 이 백서에서는 추천 시스템에서 높은 카디널리티 문제를 해결하기 위한 두 가지 혁신적인 기법을 소개합니다. 특히, 레이어 공유와 결합하여 모델 크기를 크게 줄이면서 성능을 개선하는 백 오브 워드 접근 방식을 제안합니다. Uber 사용 사례에 대한 오프라인 및 온라인 실험을 통해 이 기법을 평가한 결과, 추천 시스템을 최적화하고 전반적인 성능을 향상시키는 데 있어 이 접근법이 효과적임을 입증하는 유망한 결과를 얻었습니다. [abs|pdf]

[68/91] Aligning Large Language Models with Counterfactual DPO

Keywords: response_styles_pretraining, suggest_counterfactual_prompting, counterfactual_prompting_framework
Abstract: 대규모 언어 모델(LLM)의 발전은 다양한 애플리케이션에서 놀라운 기능을 입증했습니다. 이러한 모델은 문맥에 일관성이 있고 광범위한 주제를 포괄하는 텍스트 완성을 생성하는 데 탁월합니다. 하지만 훈련에 필요한 방대한 데이터 세트 때문에 사전 훈련 및 교육 튜닝 단계에서 응답 스타일을 정렬하는 것이 쉽지 않습니다. 따라서 일반적으로 사람의 선호도 데이터로 모델을 추가로 학습시켜 결과를 사람의 기대치에 더 잘 맞추기 위해 추가적인 정렬 단계를 사용합니다. 이 과정을 통해 새로운 기능이 도입되지는 않지만, 모델 고유의 세대별 스타일을 강조할 수 있습니다. 이 백서에서는 직접 선호도 최적화(DPO)의 프레임워크 내에서 사람의 개입에 의존하지 않고 모델의 스타일을 조정하기 위해 사실과 반대되는 프롬프트를 활용하는 방법을 살펴봅니다. 이 방법이 바람직한 행동을 효과적으로 주입하고, 바람직하지 않은 행동을 완화하며, 모델이 부적절한 지시를 무시하도록 장려한다는 것을 입증합니다. 연구 결과에 따르면 DPO를 사용한 사실과 반대되는 프롬프트는 책임감 있고 윤리적으로 정렬된 AI 시스템에 대한 요구를 충족하기 위해 LLM을 미세 조정할 수 있는 리소스가 적은 방법을 제시합니다. [abs|pdf]

[69/91] Deep learning enhanced mixed integer optimization: Learning to reduce model dimensionality

Keywords: linear_programming_milp, integer_linear_programming, programming_milp_formulation
Abstract: 이 연구에서는 딥러닝의 잠재력을 활용하여 혼합 정수 프로그래밍(MIP) 모델에 내재된 계산 복잡성을 해결하기 위한 프레임워크를 소개합니다. MIP 문제에서 활성 차원을 근사화할 때 (a) 피드 포워드 신경망(ANN)과 (b) 컨볼루션 신경망(CNN)의 효율성을 비교합니다. 다중 레이블 분류를 활용하여 둘 이상의 활성 차원을 설명합니다. 프레임워크의 성능을 향상시키기 위해 하이퍼파라미터 튜닝에 베이지안 최적화를 적용하여 샘플 수준의 정확도를 극대화합니다. 주요 목표는 모든 활성 차원을 정확하게 예측하도록 신경망을 훈련시켜 글로벌 최적 솔루션의 발생을 극대화하는 것입니다. 이 프레임워크는 세포 치료 제조 및 유통을 위한 개인화된 의약품 공급망에서 장기 투자 계획과 중기 전술 계획을 설명하는 흐름 기반 시설 위치 할당 혼합 정수 선형 프로그래밍(MILP) 공식에 적용됩니다. [abs|pdf]

[70/91] Improving Classification Performance With Human Feedback: Label a few, we label the rest

Keywords: large_language_models, text_classification_performance, feedback_labeled_examples
Abstract: 대부분의 데이터가 비정형 데이터인 인공 지능 영역에서 지도형 머신 러닝 모델을 훈련하기 위해 상당한 양의 레이블이 지정된 데이터를 확보하는 것은 상당한 도전 과제입니다. 이 문제를 해결하기 위해 몇 개의 레이블이 지정된 예제에 대한 사람의 피드백을 통해 AI 모델을 개선하는 것이 목표인 소수의 예제 및 능동형 학습에 대해 알아봅니다. 이 백서에서는 지속적인 피드백 루프가 어떻게 모델을 개선하여 점진적인 인간 입력을 통해 정확도, 회상률, 정밀도를 향상시킬 수 있는지 이해하는 데 중점을 둡니다. GPT-3.5, BERT, SetFit과 같은 대규모 언어 모델(LLM)을 사용하여 제한된 수의 레이블이 지정된 예시를 사용하여 모델 정확도를 크게 향상시키는 효과를 분석하고자 합니다. 이 접근 방식을 금융 Phrasebank, 뱅킹, 크레이그리스트, 트렉, 아마존 리뷰 데이터세트에 벤치마킹하여 라벨링된 예시 몇 개만으로 제로 샷 대규모 언어 모델의 정확도를 뛰어넘어 향상된 텍스트 분류 성능을 제공할 수 있음을 입증했습니다. 수백만 개의 데이터 행에 수동으로 라벨을 붙일 필요 없이 몇 개만 라벨을 붙이면 나머지는 모델이 효과적으로 예측할 수 있음을 입증했습니다. [abs|pdf]

[71/91] BERTologyNavigator: Advanced Question Answering with BERT-based Semantics

Keywords: combines_relation_extraction, relation_extraction, knowledge_graphs_language
Abstract: 지식 그래프와 언어 모델의 개발과 통합은 인공지능과 자연어 처리에서 중요한 의미를 갖습니다. 이 연구에서는 관계 추출 기법과 BERT 임베딩을 결합하여 DBLP 지식그래프(KG) 내의 관계를 탐색하는 2단계 시스템인 BERTologyNavigator를 소개합니다. 이 접근 방식은 첫 번째 단계에서 원홉 관계와 라벨링된 후보 쌍을 추출하는 데 중점을 둡니다. 그 다음에는 두 번째 단계에서 관계 선택을 위해 BERT의 CLS 임베딩과 추가 휴리스틱을 사용합니다. 우리 시스템은 학계 QALD를 위한 DBLP QuAD 최종 테스트 데이터 세트에서 F1 점수 0.2175점을, QA 단계에서 DBLP QuAD 테스트 데이터 세트의 하위 집합에서 F1 점수 0.98점을 기록했습니다. [abs|pdf]

[72/91] Accelerating Data Generation for Neural Operators via Krylov Subspace Recycling

Keywords: solver_krylov_subspace, subspace_recycling_solve, neural_operators_solving
Abstract: 편미분 방정식(PDE)을 풀기 위한 신경 연산자 학습은 높은 추론 효율로 인해 큰 주목을 받고 있습니다. 하지만 이러한 연산자를 훈련하려면 상당한 양의 레이블이 지정된 데이터, 즉 PDE 문제와 그 해법을 함께 생성해야 합니다. 데이터 생성 과정에는 수많은 선형 방정식 시스템을 풀어서 PDE의 수치 해를 구해야 하기 때문에 시간이 매우 많이 소요됩니다. 기존의 많은 방법은 고유한 유사성을 고려하지 않고 이러한 시스템을 독립적으로 풀기 때문에 계산이 매우 중복됩니다. 이 문제를 해결하기 위해 우리는 이러한 시스템 해결의 효율성을 높이고 신경 연산자 학습을 위한 데이터 생성을 크게 가속화하는 새로운 방법, 즉 정렬 크릴로프 재활용(SKR)을 제안합니다. 우리가 아는 한, 신경 연산자 학습을 위한 데이터 생성에 시간이 많이 걸리는 문제를 해결하기 위한 시도는 SKR이 처음입니다. SKR의 핵심은 크릴로프 부분공간 재활용으로, 서로 연관된 일련의 시스템을 고유한 유사성을 활용해 해결하는 강력한 기법입니다. 특히, SKR은 정렬 알고리즘을 사용하여 인접한 시스템이 높은 유사성을 보이는 순서대로 시스템을 배열합니다. 그런 다음 솔버에 크릴로프 부분 공간 재활용 기능을 탑재하여 시스템을 독립적으로 풀지 않고 순차적으로 풀도록 함으로써 풀이 효율을 효과적으로 향상시킵니다. 이론적 분석과 광범위한 실험을 통해 SKR은 신경 연산자 데이터 생성을 크게 가속화하여 최대 13.9배의 놀라운 속도 향상을 달성할 수 있음을 입증했습니다. [abs|pdf]

[73/91] Technical Report: On the Convergence of Gossip Learning in the Presence of Node Inaccessibility

Keywords: uav_networks, uav_networks_despite, gossip_learning_gl
Abstract: 연합 학습(FL)의 탈중앙화 대안인 가십 학습(GL)은 무인 항공기(UAV)로 형성되는 FANET과 같이 리소스가 제한된 무선 네트워크에 더 적합합니다. GL은 UAV 네트워크의 효율성을 크게 향상시키고 배터리 수명을 연장할 수 있습니다. 이러한 장점에도 불구하고 GL의 성능은 데이터 배포, 통신 속도, 네트워크 연결에 의해 크게 영향을 받습니다. 그러나 이러한 요소들이 GL 융합에 어떤 영향을 미치는지는 아직 명확하지 않습니다. 기존 연구들은 편의상 가상의 양을 기준으로 GL의 수렴을 연구했기 때문에 일부 노드에 접속할 수 없는 경우 네트워크의 실제 상태를 반영하지 못합니다. 본 논문에서는 동적 네트워크 토폴로지 하에서 접근 불가능한 노드가 GL에 미치는 영향을 공식화하여 조사합니다. 먼저 노드의 접근 가능 여부에 따라 가중치 차이를 분해합니다. 그런 다음 노드 접근성의 동적 변화에 따른 GL 수렴을 조사하고 접근 불가능한 노드의 수, 데이터 비아이디, 접근 불가능한 지속 시간이 수렴에 미치는 영향을 이론적으로 제시합니다. 실제 환경에서 광범위한 실험을 수행하여 이론적 결과의 정확성을 종합적으로 검증합니다. [abs|pdf]

[74/91] PUPAE: Intuitive and Actionable Explanations for Time Series Anomalies

Keywords: anomaly_explain_explanations, explain_anomalies_proposed, useful_triage_anomalies
Abstract: 최근 몇 년 동안 시계열 이상 징후 탐지에 상당한 진전이 있었습니다. 하지만 (아마도 잠정적인) 이상 징후를 감지한 후 이를 설명할 수 있을까요? 이러한 설명은 이상 징후를 분류하는 데 유용할 것입니다. 예를 들어 정유 공장에서 유압 엔지니어를 파견하여 이상 징후에 대응해야 할까요, 아니면 센서의 배터리를 교체하기 위해 인턴을 파견해야 할까요? 이상 징후를 설명하기 위한 노력이 병행되어 왔지만, 제안된 많은 기법들이 간접적인 설명에 그치고 있으며, 설명하고자 하는 이상 징후보다 더 복잡해 보이는 경우가 많습니다. 다양한 영역에서 일선 실무자들이 사용하는 문헌/체크리스트/사용자 매뉴얼을 검토한 결과, 거의 보편적인 흥미로운 공통점이 발견되었습니다. 대부분의 실무자들은 다음과 같은 형식으로 이상 징후를 논의하고 설명하고 보고합니다: '이상 징후는 손상된 B가 아니었다면 정상적인 데이터 A와 같았을 것이다.' 독자들은 이러한 설명이 일종의 사실과 반대되는 설명이라는 점을 이해할 것입니다. 이 글에서는 시계열 이상에 대한 설명을 생성하기 위해 도메인에 구애받지 않는 역설적 설명 기법을 소개합니다. 앞으로 살펴보겠지만, 이 기법은 객관적으로 정확하고 직관적이며 많은 상황에서 직접 실행 가능한 시각적 설명과 텍스트 기반 설명을 모두 생성할 수 있습니다. [abs|pdf]

[75/91] Uncertainty-Aware Hardware Trojan Detection Using Multimodal Deep Learning

Keywords: detect_hardware_trojans, detection_hardware_trojans, hardware_trojan_detection
Abstract: 제로 트러스트 팹리스 시대에는 칩 생산의 여러 단계에서 하드웨어 트로이 목마가 삽입될 위험이 증가했습니다. 이에 대응하기 위해 하드웨어 트로이 목마 탐지를 위한 다양한 머신 러닝 솔루션이 개발되었습니다. 대부분 통계적 또는 딥 러닝 접근 방식에 중점을 두었지만, 트로이 목마에 감염된 벤치마크의 수가 제한되어 탐지 정확도에 영향을 미치고 제로데이 트로이 목마를 탐지할 수 있는 가능성을 제한합니다. 이러한 격차를 줄이기 위해 먼저 생성적 적대 네트워크를 사용하여 데이터를 그래프와 표 형식의 두 가지 대체 표현 양식으로 증폭하여 데이터 세트가 대표적인 방식으로 분산되도록 합니다. 또한 하드웨어 트로이 목마를 탐지하고 조기 융합 및 후기 융합 전략의 결과를 평가하기 위한 멀티모달 딥러닝 접근 방식을 제안합니다. 또한 위험 인식 의사결정을 위해 각 예측의 불확실성 정량화 지표를 추정합니다. 이 결과는 우리가 제안한 하드웨어 트로이 목마 탐지 방법의 효율성을 확인할 뿐만 아니라 다른 하드웨어 보안 문제를 해결하기 위해 멀티모달 및 불확실성 정량화를 사용하는 향후 연구의 새로운 문을 열어줍니다. [abs|pdf]

[76/91] A Framework for Agricultural Food Supply Chain using Blockchain

Keywords: blockchain_technology_food, blockchain_technology, chain_ensuring_food
Abstract: 이 백서의 주요 목표는 블록체인 기술을 통해 식품 공급망 시스템에 신뢰와 투명성을 부여하여 모든 사람의 식품 안전을 보장하는 것입니다. 식품 공급망은 농부나 생산자로부터 구매자까지 농작물을 추적하는 과정입니다. 블록체인의 등장으로 수많은 농산물의 공급을 위한 안전하고 사기 없는 환경을 제공하는 것이 훨씬 쉬워졌습니다. 무역의 세계화로 인해 오늘날의 공급망 시장에는 데이터 통합, 복잡한 거래 및 유통과 관련된 다양한 기업이 참여하고 있습니다. 이로 인해 정보 위변조 방지, 수요-공급 관계, 추적 가능한 감독 등의 어려움이 발생하고 있습니다. 블록체인은 위변조에 강한 정보를 제공할 수 있는 분산 원장 기술입니다. 이 전략은 중앙화된 신뢰할 수 있는 기관, 중개자, 비즈니스 이력이 필요하지 않으므로 최고 수준의 무결성, 책임, 안전성을 유지하면서 생산성과 보안을 향상시킬 수 있습니다. 농업 부문에서 식품 공급망의 무결성과 투명성을 확보하기 위해 블록체인과 IoT를 기반으로 한 프레임워크를 제안합니다. [abs|pdf]

[77/91] Business and ethical concerns in domestic Conversational Generative AI-empowered multi-robot systems

Keywords: conversational_generative_artificial, conversational_generative, intelligence_ai_discussions
Abstract: 비즈니스와 기술은 논리와 설계를 통해 복잡하게 연결되어 있습니다. 로봇은 사회 변화에 똑같이 민감하며 스캔들로 인해 큰 타격을 입을 수 있습니다. 다양한 유형과 브랜드의 로봇이 다양한 맥락에서 함께 작업할 수 있는 협동 멀티로봇 시스템(MRS)이 증가하고 있습니다. 생성형 인공지능은 자연어 사용과 딥페이크 등의 미디어 제작을 통해 인간을 모방할 수 있는 능력으로 인해 최근 인공지능(AI) 논의의 주요 화두가 되고 있습니다. 이 글에서는 특히 생성형 AI의 대화적 측면에 초점을 맞추기 때문에 대화형 생성형 인공 지능(CGI)이라는 용어를 사용합니다. MRS와 마찬가지로 CGI는 여러 부문의 프로세스를 혁신하고 인간의 비즈니스 수행 방식을 변화시킬 수 있는 엄청난 잠재력을 가지고 있습니다. 비즈니스 관점에서 볼 때, 잠재적인 이해 상충, 개인정보 보호 관행, 안전 문제 등으로 인해 협력적 MRS만으로는 윤리적 검토가 필요합니다. CGI의 지원을 받는 MRS는 임박한 윤리적 함정을 발견하기 위해 다차원적이고 정교한 방법을 요구합니다. 이 연구는 CGI 기반 MRS의 윤리에 초점을 맞추면서 MORUL 모델 개발 단계를 보고합니다. [abs|pdf]

[78/91] Offline Handwriting Signature Verification: A Transfer Learning and Feature Selection Approach

Keywords: handwritten_signature_verification, handwritten_signature_distinguishing, handwritten_signature
Abstract: 수기 서명 검증은 생체 인식 및 문서 진위 여부에 대한 엄청난 도전 과제입니다. 제공된 자필 서명의 진위 여부를 확인하여 진본과 위조 서명을 구별하는 것이 목표입니다. 이 문제는 금융, 법률 문서, 보안 등의 분야에서 다양하게 응용되고 있습니다. 현재 컴퓨터 비전과 머신러닝 분야는 수기 서명 검증 분야에서 상당한 진전을 이루었습니다. 그러나 획득한 결과, 데이터 세트의 구조, 사용된 모델에 따라 결과는 향상될 수 있습니다. 저희가 제안하는 전략은 네 단계로 구성됩니다. 먼저, 420명의 개인으로부터 12600개의 이미지로 구성된 대규모 데이터 세트를 수집하고, 각 개인은 특정 종류의 30개의 서명을 가지고 있습니다(모든 저자 서명은 진본임). 그 다음 단계에서는 MobileNetV2라는 딥러닝 모델을 사용하여 각 이미지에서 최고의 특징을 추출했습니다. 특징 선택 단계에서는 이웃 성분 분석(NCA), Chi2, 상호 정보(MI)의 세 가지 선택기를 사용하여 200개, 300개, 400개, 500개의 특징을 뽑아 총 12개의 특징 벡터를 만들었습니다. 마지막으로 커널(rbf, 폴리, 선형)이 포함된 SVM, KNN, DT, 선형 판별 분석, 나이브 베이즈와 같은 머신러닝 기법을 적용하여 12개의 결과를 얻었습니다. 특징 선택 기법을 사용하지 않고 제안된 오프라인 서명 검증은 91.3%의 분류 정확도를 달성한 반면, 300개의 특징만으로 NCA 특징 선택 접근법을 사용하면 97.7%의 분류 정확도를 달성했습니다. 설계 및 제안된 모델을 사용하여 높은 분류 정확도를 달성했으며, 이는 자체적으로 구성된 프레임워크라는 이점도 있습니다. 결과적으로 제안한 방법은 최소한의 특징을 최적으로 선택함으로써 최상의 모델 성능과 결과 검증 예측 벡터를 식별할 수 있었습니다. [abs|pdf]

[79/91] Self Supervised Vision for Climate Downscaling

Keywords: learning_model_downscaling, simulate_earth_climate, projections_climate_change
Abstract: 기후 변화는 오늘날 지구가 직면하고 있는 가장 중요한 도전 과제 중 하나입니다. 지구의 기온 상승은 이미 지구의 날씨와 기후 패턴에 눈에 띄는 변화를 가져오고 있으며, 예측할 수 없는 극한 기상 현상의 발생 빈도가 증가하고 있습니다. 기후 변화 연구에 대한 미래 예측은 지구의 기후 시스템을 시뮬레이션하는 컴퓨터 모델인 지구 시스템 모델(ESM)을 기반으로 합니다. ESM은 다양한 물리 시스템을 통합할 수 있는 프레임워크를 제공하지만, 고해상도 시뮬레이션을 실행하고 보관하는 데 필요한 막대한 컴퓨팅 리소스에 의해 그 결과가 제한됩니다. 주어진 리소스 예산의 경우, ESM은 일반적으로 더 거친 그리드에서 실행된 후 더 세밀한 해상도의 결과를 얻기 위해 계산적으로 더 가벼운 $다운스케일링$ 프로세스를 거칩니다. 이 연구에서는 모델 최적화를 위해 고해상도 실측 데이터가 필요하지 않은 ESM 시뮬레이션 데이터의 다운스케일링을 위한 딥러닝 모델을 제시합니다. 이 모델은 _runtime_의 데이터 포인트에 대해 두드러진 데이터 분포 패턴과 기상 변수 간의 숨겨진 종속성을 활용하여 실현됩니다. 2$x, 3$x, 4$x 스케일링 계수를 사용한 광범위한 평가는 제안된 모델이 다양한 기준선보다 일관되게 우수한 성능을 얻는다는 것을 보여줍니다. 향상된 다운스케일링 성능과 고해상도 실측 데이터에 대한 의존성이 없는 제안된 방법은 기후 연구에 유용한 도구가 될 수 있으며, 향후 연구에 유망한 방향이 될 수 있습니다. [abs|pdf]

[80/91] What's my role? Modelling responsibility for AI-based safety-critical systems

Keywords: responsibility_analysis_ai, blame_consequences_ai, ai_based_safety
Abstract: AI 기반 안전 크리티컬 시스템(AI-SCS)이 현실 세계에 점점 더 많이 배치되고 있습니다. 이러한 시스템은 사람과 환경에 해를 끼칠 위험이 있습니다. 이러한 위험을 줄이는 것은 개발 및 운영 과정에서 가장 중요한 우선 순위입니다. 더 많은 AI-SCS가 자율화됨에 따라 사람의 개입을 통한 위험 관리 계층이 제거되고 있습니다. 사고 발생 후에는 실수로부터 학습하고 향후 유사한 사고를 예방하기 위해 인과관계와 그 배후에 있는 다양한 책임자를 파악하는 것이 중요합니다. 많은 저자들은 AI-SCS의 유해한 행동에 대해 개발자와 제조업체가 책임을 지기 어려운 '책임의 공백'에 대해 언급했습니다. 이는 AI의 복잡한 개발 주기, AI 성능의 불확실성, 동적인 운영 환경 때문입니다. 인간 운영자는 자신이 만들지도 않았고 이해하지도 못한 AI-SCS의 결과물에 대한 책임을 떠안는 '책임 흡수원'이 될 수 있습니다.
이 학제 간 논문에서는 책임의 다양한 의미(역할, 도덕적, 법적, 인과적)를 살펴보고, 이러한 책임이 AI-SCS 안전의 맥락에서 어떻게 적용되는지 살펴봅니다. 우리는 역할 책임 모델을 만들기 위해 핵심 개념(행위자(A)는 발생(O)에 대한 책임이 있다)을 사용하여 책임 관계를 포착하고 이전에 식별된 책임 문제를 명확하게 파악할 수 있는 실용적인 방법을 제시합니다. 이 백서에서는 자율주행차와 관련된 애리조나주 템피 사망 충돌 사고에 대한 후향적 분석과 AI 기반 당뇨병 동반 질환 예측기에 대한 안전 중심의 예측 역할-책임 분석이라는 두 가지 사례를 통해 이러한 접근 방식을 설명합니다. 두 사례 모두 안전에 중점을 두어 운영자나 개발자에게 불공정하거나 불균형적인 책임이 전가되는 것을 줄이기 위한 것입니다. 이에 대한 논의와 향후 연구 방향을 제시합니다. [abs|pdf]

[81/91] Dynamic Routing for Integrated Satellite-Terrestrial Networks: A Constrained Multi-Agent Reinforcement Learning Approach

Keywords: satellite_terrestrial_network, packet_routing_constraints, dynamic_routing_algorithm
Abstract: 통합 위성-지상파 네트워크(ISTN) 시스템은 지상파 인프라가 제한적인 외딴 지역에 원활한 통신 서비스를 제공하면서 크게 성장했습니다. 그러나 ISTN을 위한 라우팅 체계를 설계하는 것은 매우 어려운데, 이는 주로 추가 지상국 포함으로 인한 복잡성 증가와 위성 서비스 품질과 관련된 다양한 제약 조건을 충족해야 하기 때문입니다. 이러한 문제를 해결하기 위해 지상국과 위성이 공동으로 패킷을 전송하는 패킷 라우팅을 연구하는 동시에 빠른 통신을 우선시하고 에너지 효율성 및 패킷 손실 요건을 충족합니다. 특히 제약 조건이 있는 패킷 라우팅 문제를 라그랑주 방법을 사용하여 최대 최소 문제로 공식화합니다. 그런 다음 정책과 라그랑주 승수를 업데이트하는 동안 목표 개선과 제약 조건 만족의 균형을 효율적으로 맞추는 새로운 제약 다중 에이전트 강화 학습(MARL) 동적 라우팅 알고리즘인 CMADR을 제안합니다. 마지막으로, OneWeb 및 Telesat 거대 별자리를 사용하여 광범위한 실험과 제거 연구를 수행합니다. 그 결과 CMADR은 패킷 지연을 최소 21%에서 최대 15%까지 줄이면서도 엄격한 에너지 소비 및 패킷 손실률 제약 조건을 충족하여 여러 기준 알고리즘을 능가하는 성능을 발휘하는 것으로 나타났습니다. [abs|pdf]

[82/91] Voila-A: Aligning Vision-Language Models with User's Gaze Attention

Keywords: scenarios_captured_gaze, vision_language_models, gaze_information_vlms
Abstract: 최근 몇 년 동안 시각과 언어 이해의 통합은 특히 비전-언어 모델(VLM)을 통해 인공 지능의 상당한 발전을 가져왔습니다. 그러나 기존의 VLM은 복잡한 장면과 여러 객체가 있는 실제 애플리케이션을 처리하고, 인간 사용자의 다양한 주의 패턴에 초점을 맞추는 데 어려움을 겪고 있습니다. 이 백서에서는 AR 또는 VR 기기에서 수집할 수 있는 시선 정보를 VLM을 안내하는 인간 주의의 프록시로 도입하고, 실제 애플리케이션에서 이러한 모델의 해석 가능성과 효율성을 높이기 위해 시선 정렬을 위한 새로운 접근 방식인 Voila-A를 제안합니다. 먼저 수백 분 분량의 시선 데이터를 수집하여 로컬라이즈된 내러티브를 사용하여 인간의 시선 양식을 모방할 수 있음을 입증합니다. 그런 다음 GPT-4를 활용한 자동 데이터 주석 파이프라인을 설계하여 VOILA-COCO 데이터 세트를 생성합니다. 또한 사전 학습된 지식을 유지하면서 시선 정보를 VLM에 통합할 수 있도록 Voila Perceiver 모듈을 혁신합니다. 홀드아웃 검증 세트와 시선 추적 장치로 캡처한 실제 시나리오가 포함된 새로 수집된 VOILA-GAZE 테스트 세트를 사용하여 Voila-A를 평가합니다. 실험 결과에 따르면 Voila-A는 여러 기준 모델을 크게 능가하는 것으로 나타났습니다. Voila-A는 모델의 주의를 사람의 시선 패턴과 일치시킴으로써 보다 직관적이고 사용자 중심적인 VLM을 위한 기반을 마련하고 다양한 애플리케이션에서 매력적인 인간-AI 상호 작용을 촉진합니다. [abs|pdf]

[83/91] Incorporating Riemannian Geometric Features for Learning Coefficient of Pressure Distributions on Airplane Wings

Keywords: geometric_features_learning, neural_representations_shape, predicted_aerodynamic_coefficients
Abstract: 항공기의 공기 역학 계수는 기하학적 구조에 의해 크게 영향을 받는데, 특히 방위각(AoA)이 큰 경우 더욱 그렇습니다. 공기역학 분야에서 기존의 다항식 기반 매개변수화는 가능한 한 적은 수의 매개변수를 사용하여 에어포일의 기하학적 구조를 설명합니다. 하지만 날개의 3D 형상은 2D 익형보다 복잡하기 때문에 다항식 기반 파라미터화는 3D 공간에서 날개의 전체 모양을 정확하게 표현하는 데 어려움이 있습니다. 기존의 딥러닝 기반 방법은 2D 에어포일 또는 2D 날개 조각의 모양에 대한 방대한 잠재 신경 표현을 추출할 수 있습니다. 최근 연구에 따르면 기하학적 특징을 신경망에 직접 입력으로 사용하면 예측된 공기역학 계수의 정확도를 높일 수 있다고 합니다. 기하학 이론에서 영감을 받아 날개 표면의 압력 계수(CP) 분포를 학습하기 위해 리만 기하학적 특징을 통합할 것을 제안합니다. 이 방법은 기하학적 특징(리만 메트릭, 연결, 곡률)을 계산한 후 기하학적 특징, 좌표, 비행 조건을 딥러닝 모델에 입력해 CP 분포를 예측합니다. 실험 결과에 따르면 이 방법은 최첨단 딥 어텐션 네트워크(DAN)와 비교했을 때 DLR-F11 항공기 테스트 세트에서 CP의 예측 평균 제곱 오차(MSE)를 평균 8.41% 감소시키는 것으로 나타났습니다. [abs|pdf]

[84/91] Diffusion-Driven Generative Framework for Molecular Conformation Prediction

Keywords: dimensional_molecular_configurations, molecular_configurations_dimensional, representation_molecular_graph
Abstract: 2차원 그래프 표현에서 3차원 분자 구성을 추론하는 작업은 계산 화학과 의약품 개발 분야에서 매우 중요한 의미를 갖습니다. 이는 분자 메커니즘과 상호작용을 이해하는 데 근본적으로 기여합니다. 특히 심층 생성 네트워크 영역에서 머신러닝의 급속한 발전은 이러한 예측 모델링의 정밀도에 획기적인 발전을 가져왔습니다. 기존의 방법론은 일반적으로 원자 간 거리를 먼저 추정한 다음 거리 기하학 문제를 해결하여 공간 분자 구조를 조각하는 두 가지 전략을 사용합니다. 그러나 이러한 순차적 접근 방식은 때때로 국소적인 원자 배열의 복잡성을 정확하게 포착하지 못해 결과물인 구조 모델의 무결성을 손상시킬 수 있습니다. 이러한 결함을 해결하기 위해 이 연구에서는 DDGF라고 불리는 아방가르드 생성 프레임워크를 도입했습니다: 이 프레임워크는 고전적인 비평형 열역학에서 발견되는 확산 원리를 기반으로 합니다. DDGF는 원자를 불연속적인 실체로 간주하고 마르코프 사슬과 유사한 과정을 통해 확률적 노이즈의 분포를 다시 일관된 분자 형태로 전환하는 확산의 반전을 유도하는 데 능숙합니다. 이러한 변환은 추상적인 잠재 공간에서 분자 그래프의 초기 표현으로 시작하여 작업의 특정 요구 사항을 준수하도록 맞춤화된 정교한 빌레벨 최적화 체계를 통해 3차원 형태를 구현하는 단계로 진행됩니다. [abs|pdf]

[85/91] Joining Forces for Pathology Diagnostics with AI Assistance: The EMPAIA Initiative

Keywords: digital_pathology_ai, pathology_ai_commercial, pathology_ai
Abstract: 지난 10년 동안 병리학 분야의 인공지능(AI) 방법은 크게 발전했습니다. 그러나 연구 결과를 임상 진단 제품으로 전환하는 데 있어 기술 및 규제상의 장애물, 표준화된 인터페이스의 부재 등 여러 가지 문제로 인해 일상적인 임상 진료에 통합하는 것이 더디게 진행되어 왔습니다. 개방적이고 벤더 중립적인 EMPAIA 이니셔티브는 이러한 문제를 해결합니다. 여기에서는 EMPAIA의 성과와 교훈에 대한 개요를 제공합니다. EMPAIA는 병리학 AI 생태계의 다양한 이해관계자, 즉 병리학자, 컴퓨터 과학자, 산업계를 통합합니다. 긴밀한 협업을 통해 기술 상호운용성 표준, AI 테스트 및 제품 개발을 위한 권장 사항, 설명 가능성 방법을 개발했습니다. 우리는 모듈식 오픈 소스 EMPAIA 플랫폼을 구현하고 6개 공급업체의 11개 AI 기반 이미지 분석 앱을 성공적으로 통합하여 서로 다른 앱이 어떻게 하나의 표준화된 인터페이스를 사용할 수 있는지 보여주었습니다. 유럽과 아시아의 14개 병리학 연구소와 함께 요구사항의 우선순위를 정하고 실제 임상 환경에서 AI의 사용을 평가했습니다. 기술 개발과 더불어 모든 이해관계자가 디지털 병리학 및 AI에 대한 정보와 경험을 공유할 수 있는 포럼을 만들었습니다. 이제 상업적, 임상적, 학문적 이해관계자들은 EMPAIA의 공통 오픈소스 인터페이스를 채택하여 대규모 표준화 및 프로세스 간소화를 위한 특별한 기회를 얻을 수 있습니다. 일상적인 실험실 사용에서 AI 지원을 효과적이고 광범위하게 구축하려면 더 많은 노력이 필요합니다. 이를 위해 지속 가능한 인프라인 비영리 협회 EMPAIA International이 설립되어 표준화를 지속하고 AI 지원 디지털 병리학의 미래를 위한 광범위한 구현과 옹호를 지원하고 있습니다. [abs|pdf]

[86/91] Explainable Multimodal Sentiment Analysis on Bengali Memes

Keywords: detecting_various_meme, various_meme_categories, like_bengali_memes
Abstract: 밈은 디지털 시대에 독특하고 효과적인 커뮤니케이션의 한 형태로 자리 잡았으며, 온라인 커뮤니티를 끌어들이고 문화적 장벽을 뛰어넘는 역할을 하고 있습니다. 밈은 흔히 유머와 연관되어 있지만, 행복, 풍자, 좌절 등 다양한 감정을 전달하는 놀라운 능력을 가지고 있습니다. 정보화 시대에는 밈의 기저에 깔린 감정을 이해하고 해석하는 것이 매우 중요해졌습니다. 이전 연구에서는 텍스트 기반, 이미지 기반, 멀티모달 접근 방식을 탐구하여 다양한 밈 카테고리를 감지하는 CAPSAN 및 PromptHate와 같은 모델을 개발했습니다. 그러나 벵골어 밈과 같이 자원이 부족한 언어에 대한 연구는 여전히 부족하며, 공개적으로 액세스할 수 있는 데이터 세트의 가용성도 제한적입니다. 최근 MemoSen 데이터 세트가 도입되었습니다. 그러나 달성된 정확도가 현저히 낮고 데이터 세트의 분포가 불균형하다는 문제가 있습니다. 이 연구에서는 ResNet50과 BanglishBERT를 사용한 멀티모달 접근법을 사용하여 0.71의 가중 F1 점수로 만족스러운 결과를 얻었으며, 단일모달 접근법과 비교하고 설명 가능한 인공 지능(XAI) 기술을 사용하여 모델의 동작을 해석했습니다. [abs|pdf]

[87/91] CRD: Collaborative Representation Distance for Practical Anomaly Detection

Keywords: image_patches_collaborative, visual_defect_detection, patches_collaborative_representation
Abstract: 시각적 결함 감지는 지능형 산업에서 중요한 역할을 합니다. 패치 기반 방식은 시각적 이미지를 위치에 따른 이미지 패치들의 집합으로 간주하여 알약의 흠집과 같은 제품의 작은 결함에 대해 더 강력한 판별 능력을 갖습니다. 하지만 쿼리 이미지와 저장된 패치에 대한 최인접 탐색은 시간과 공간 측면에서 $O(n)$ 복잡도를 차지하기 때문에 엣지 환경에서의 적용에 어려움이 있습니다. 이 백서에서는 협업 표현 모델을 통해 이미지 패치 거리 계산에 대한 대안을 제안합니다. L_0$ 제약 조건으로 가장 가까운 이웃 거리에서 시작하여 제약 조건을 $L_2$ 제약 조건으로 완화하고, 저장된 이미지 패치 원본 컬렉션에 실제로 액세스하지 않고도 근접 형태로 거리를 빠르게 해결합니다. 또한, 이 클로즈드 폼 솔루션의 주요 계산 부담은 배포 전에 고성능 서버에서 미리 계산할 수 있다는 점에 주목합니다. 결과적으로 엣지 디바이스에서 거리 계산은 간단한 행렬 곱셈만 필요하므로 매우 가볍고 GPU 친화적입니다. 실제 산업 시나리오에서의 성능은 기존의 최첨단 방식에 비해 약간의 성능 저하로 계산 효율을 수백 배 개선하는 동시에 메모리 오버헤드를 크게 줄인다는 것을 보여줍니다. [abs|pdf]

[88/91] Object Attribute Matters in Visual Question Answering

Keywords: visual_question_answering, question_answering_multimodal, answering_multimodal_task
Abstract: 시각적 질문에 대한 답변은 시각적 정보와 텍스트 정보를 함께 이해해야 하는 복합적인 작업입니다. 그러나 시각적 의미와 텍스트 의미를 주의력 계층을 통해서만 통합하는 것만으로는 두 양식의 정보를 종합적으로 이해하고 조율하는 데 충분하지 않습니다. 직관적으로 객체 속성은 자연스럽게 이들을 통합하는 가교 역할을 할 수 있지만, 기존 연구에서는 이를 간과하고 있습니다. 이 논문에서는 객체 속성의 활용이라는 관점에서 객체 수준의 시각적 언어 정렬과 멀티모달 장면 이해를 개선하기 위한 새로운 VQA 접근 방식을 제안합니다. 구체적으로 속성 융합 모듈과 대조적 지식 증류 모듈을 설계합니다. 속성 융합 모듈은 메시지 전달을 통해 속성과 시각적 특징을 융합하기 위해 멀티모달 그래프 신경망을 구성합니다. 향상된 객체 수준의 시각적 특징은 수 세기 문제와 같은 세분화된 문제를 해결하는 데 기여합니다. 객체 수준의 시각적 언어 정렬이 개선되면 멀티모달 장면을 이해하는 데 도움이 되어 모델의 견고성이 향상됩니다. 또한, 장면 이해와 분포 외 성능을 강화하기 위해 대조적 지식 증류 모듈은 일련의 암묵적 지식을 도입합니다. 대조적 손실을 통해 지식을 속성으로 증류하여 속성 특징의 표현 학습을 더욱 강화하고 시각적-언어적 정렬을 용이하게 합니다. COCO-QA, VQAv2, VQA-CPv2, VQA-CPv1, VQAvs, TDIUC 등 6개의 데이터 세트에 대한 집중적인 실험을 통해 제안된 방법의 우수성을 확인할 수 있습니다. [abs|pdf]

[89/91] Reasoning with random sets: An agenda for the future

Keywords: random_sets_belief, sets_belief_functions, theory_statistical_reasoning
Abstract: 이 논문에서는 로지스틱 회귀와 고전적 확률 법칙의 일반화를 포함해 무작위 집합을 이용한 본격적인 통계적 추론 이론의 개발, 일반적인 무작위 집합, 더 넓은 범위의 불확실성 측정 및 대체 기하학적 표현을 포함하는 불확실성에 대한 기하학적 접근법의 추가 개발, 기후 변화, 머신러닝 및 통계 학습 이론과 같이 영향력이 큰 분야에 대한 이 새로운 이론의 적용 등 여러 가지 핵심 이슈를 다루며 향후 연구 의제에 대해 논의합니다. [abs|pdf]

[90/91] RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language Models

Keywords: conversational_ai, personalized_ai_interactions, personalized_role_playing
Abstract: 이 연구에서는 대규모 언어 모델(LLM)로 개인화된 롤플레잉을 향상시키기 위한 혁신적인 프레임워크인 RoleCraft-GLM을 소개합니다. RoleCraft-GLM은 대화형 AI에서 개인화된 상호작용이 부족하다는 핵심 문제를 해결하고, 세밀하고 감정적인 미묘한 캐릭터 묘사가 가능한 솔루션을 제공합니다. 유니티는 기존의 유명인 중심의 캐릭터에서 다양한 비연예인 페르소나로 전환하는 고유한 대화 데이터 세트를 제공하여 언어 모델링 상호 작용의 사실성과 복잡성을 향상시킵니다. 또한 세심한 캐릭터 개발을 통해 사실적이면서도 감정적으로 공감할 수 있는 대화를 구현합니다. RoleCraft-GLM의 효과는 다양한 사례 연구를 통해 검증되었으며, 다양한 시나리오에서의 활용성과 기술력을 강조합니다. 유니티의 프레임워크는 캐릭터의 성격과 감정을 정확하게 반영하는 대화를 생성하는 데 탁월하며, 이를 통해 사용자 몰입도를 높일 수 있습니다. 결론적으로, 롤크래프트-GLM은 개인화된 AI 인터랙션의 획기적인 도약을 의미하며, 더욱 미묘하고 감정적으로 풍부한 대화를 구현하여 더욱 사실적이고 몰입도 높은 AI 지원 롤플레잉 경험을 위한 기반을 마련했습니다 [abs|pdf]

[91/91] Precipitation Prediction Using an Ensemble of Lightweight Learners

Keywords: precipitation_prediction, precipitation_predictor_multiple, ensemble_learning_framework
Abstract: 강수량 예측은 현대 농업과 산업에서 매우 중요한 역할을 합니다. 그러나 강수량 예측은 시간과 공간의 다양한 패턴과 역동성, 그리고 강수량이 많은 이벤트의 희소성으로 인해 상당한 어려움을 겪습니다.
이러한 문제를 해결하기 위해 유니티는 여러 학습자를 활용하여 다양한 강수량 분포 패턴을 포착하는 앙상블 학습 프레임워크를 제안합니다. 구체적으로 이 프레임워크는 여러 개의 경량 헤드(학습자)를 갖춘 강수량 예측기와 이러한 헤드의 출력을 결합하는 컨트롤러로 구성됩니다. 학습자와 컨트롤러는 제안된 3단계 훈련 방식을 통해 개별적으로 최적화됩니다.
제공된 위성 이미지를 활용하여 제안된 접근 방식은 특히 강수량이 많은 날의 복잡한 강우 패턴을 효과적으로 모델링할 수 있습니다. 이 솔루션은 핵심 테스트에서 1위를 차지했을 뿐만 아니라 Weather4Cast 2023 대회의 현재 예보 리더보드에서도 1위를 차지했습니다. 자세한 구현 내용은 GitHub 저장소(https URL)를 참조하세요. [abs|pdf]
<br/