프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-24]

다각 2024. 2. 17. 06:17

[1/89] Truck Parking Usage Prediction with Decomposed Graph Neural Networks

Keywords: parking_usage_prediction, parking_data_predict, historical_parking_data
Abstract: 화물 통로의 트럭 주차는 주차 공간 부족, 운행 시간(HOS) 규정 준수 등 다양한 문제에 직면해 있습니다. 이러한 제약은 종종 무단 주차 관행으로 이어져 안전 문제를 야기합니다. 화물 운송의 안전을 강화하기 위해 정확한 주차 사용량 예측을 제공하는 것은 비용 효율적인 솔루션으로 입증되었습니다. 개별 트럭 주차장의 사용량을 예측하는 데는 만족할 만한 정확도를 보인 기존 연구에도 불구하고, 여러 트럭 주차장의 공간적 종속성을 고려하여 사용량을 예측하는 접근 방식은 거의 제안되지 않았습니다. 저희는 더 나은 트럭 주차 정보를 제공하고 무단 주차를 완화하기 위해 주 전체의 주차 사용량을 평가하기 위한 예측 프레임워크인 지역 시간 그래프 신경망(RegT-GCN)을 제시합니다. 이 프레임워크는 트럭 주차 부지 분포의 토폴로지 구조와 과거 주차 데이터를 활용하여 주 전역의 점유율을 예측합니다. 이를 위해 지리적 특성을 효과적으로 포착하는 지역 분해 접근법을 도입합니다. 또한 시간적 모듈과 함께 효율적으로 작동하는 공간 모듈을 소개합니다. 평가 결과, 제안 모델은 기존 모델에 비해 20% 이상 성능이 향상되어 다른 기준 모델을 능가하는 것으로 나타났습니다. 제안된 모델은 트럭 주차장의 위상 구조에 대한 인식이 가능하고 더 높은 성능을 제공합니다. [abs|pdf]

[2/89] Active Inference as a Model of Agency

Keywords: active_inference_refines, neuroscience_active_inference, active_inference
Abstract: 보상 극대화를 넘어선 행위자를 생각할 수 있는 표준적인 방법이 있을까요? 이 논문에서는 거시적 생물학적 에이전트가 세계와 상호작용하는 방식에 대한 물리적으로 타당한 가정을 따르는 모든 유형의 행동이 세계 상태에 대한 위험과 모호성을 최소화한다는 의미에서 탐험과 착취를 표준적으로 통합한다는 것을 보여줍니다. 능동적 추론으로 알려진 이 설명은 신경과학에서 시작된 행동과 지각에 대한 인기 있는 설명 프레임워크인 자유 에너지 원리를 구체화합니다. 능동적 추론은 행동 신경과학, 강화 학습(RL) 및 로봇 공학에서 널리 사용되는 에이전시를 시뮬레이션하고 모델링하기 위한 규범적 베이지안 프레임워크를 제공합니다. RL에 대한 능동 추론의 유용성은 세 가지입니다. a) 능동적 추론은 탐사-착취 딜레마에 대한 원칙적인 해결책을 제공하여 생물학적 선택성을 유용하게 시뮬레이션합니다. b) 능동적 추론은 행동을 시뮬레이션하는 설명 가능한 방법을 제공하는데, 여기서 행동은 생성적 세계 모델 하에서 탐험과 착취의 설명 가능한 혼합으로 따르며, 행동의 모든 차이는 세계 모델의 차이에서 명백히 드러납니다. c) 이 프레임워크는 능동적 추론의 설명적 가정에 부합하는 모든 RL 알고리즘을 능동적 추론 알고리즘으로 재작성하는 것이 이론적으로 가능하다는 점에서 보편적입니다. 따라서 능동적 추론은 보다 구체적인 에이전시 모델의 약속과 가정을 발견하고 비교하는 도구로 사용될 수 있습니다. [abs|pdf]

[3/89] Red Teaming Visual Language Models

Keywords: red_teaming_vlms, rtvlm_red_teaming, teaming_dataset_rtvlm
Abstract: VLM(비전-언어 모델)은 LLM(대규모 언어 모델)의 기능을 확장하여 멀티모달 입력을 수용합니다. 특정 테스트 사례(레드 티밍이라고 함)를 통해 LLM이 유해하거나 부정확한 콘텐츠를 생성하도록 유도할 수 있음이 확인되었기 때문에 유사한 시나리오, 특히 텍스트와 시각적 입력이 결합된 경우 VLM이 어떻게 작동하는지는 여전히 의문으로 남아 있습니다. 이 문제를 탐구하기 위해 4개의 주요 측면(충실성, 프라이버시, 안전성, 공정성) 아래 10개의 하위 작업(예: 이미지 오도, 멀티모달 탈옥, 얼굴 공정성 등)을 포함하는 새로운 레드팀 데이터 세트 RTVLM을 제시합니다. 크리테오의 RTVLM은 이러한 4가지 측면에서 현재의 VLM을 벤치마킹한 최초의 레드팀 데이터 세트입니다. 세부 분석 결과, 10개의 유명 오픈소스 VLM이 레드팀링에서 다양한 수준으로 어려움을 겪고 있으며 GPT-4V와 최대 31%의 성능 격차가 있는 것으로 나타났습니다. 또한 RTVLM을 사용한 감독 미세 조정(SFT)을 통해 LLaVA-v1.5에 레드팀 정렬을 간단히 적용한 결과, RTVLM 테스트 세트에서 10%, MM-Hal에서 13%, MM-Bench에서 눈에 띄는 성능 저하 없이 모델의 성능이 강화되어 일반 정렬 데이터를 사용한 다른 LLaVA 기반 모델을 능가했습니다. 이를 통해 현재 오픈 소스 VLM에는 여전히 레드팀 정렬이 부족하다는 것을 알 수 있습니다. 유니티의 코드와 데이터 세트는 오픈소스로 공개될 예정입니다. [abs|pdf]

[4/89] TroVE: Inducing Verifiable and Efficient Toolboxes for Solving Programmatic Tasks

Keywords: reasoning_tasks_trove, efficient_toolbox_functions, question_answering_image
Abstract: 언어 모델(LM)은 프로그램을 작성하여 표나 이미지에 대한 질문에 답하는 등의 작업을 해결할 수 있습니다. 하지만 원시 함수를 사용하면 장황하고 오류가 발생하기 쉬운 프로그램이 되는 경우가 많으며, 상위 수준의 함수를 사용하려면 전문가의 설계가 필요합니다. 사람의 노동력 없이도 더 나은 솔루션을 구현할 수 있도록 재사용 가능한 상위 수준의 함수를 큐레이션하고 이를 활용해 솔루션을 작성하도록 코드 LM에게 요청합니다. 유니티는 도구 상자를 사용하고, 성장시키고, 주기적으로 다듬어 검증 가능하고 효율적인 함수 도구 상자를 생성함으로써 교육 없이도 함수의 도구 상자를 유도하는 방법인 TROVE를 제시합니다. 수학, 테이블 질문 답변, 이미지 추론 작업의 11개 데이터 세트에서 TROVE는 79~98% 더 작은 툴박스를 사용하면서도 CODELLAMA를 사용한 기준선 및 GPT를 사용한 이전 방법보다 더 높은 정확도로 더 간단한 솔루션을 일관되게 산출합니다. 또한 TROVE는 기준선보다 31% 더 빠르고 13% 더 정확한 인적 검증을 가능하게 합니다. 동일한 파이프라인으로 다양한 작업과 데이터 세트에 대한 다양한 함수를 생성하여 개별 특성에 대한 인사이트를 제공합니다. [abs|pdf]

[5/89] Evaluating Collaborative and Autonomous Agents in Data-Stream-Supported Coordination of Mobile Crowdsourcing

Keywords: coordination_mobile_crowdsourcing, transfers_mobile_crowdsourcing, mobile_crowdsourcing
Abstract: 모바일 크라우드소싱은 작업을 완료하기 위해 온디맨드 인력으로 구성된 크라우드워커의 물리적 이동이 반드시 필요한 시스템을 말합니다. 이러한 시스템에서는 작업을 성공적으로 완료하는 데 어려움을 겪는 크라우드 워커에게 작업이 할당되는 경우가 많아 실패율이 높고 서비스 품질이 낮아진다는 증거가 있습니다. 더 높은 서비스 품질을 보장하기 위한 유망한 해결책은 다른 경로나 차량을 사용하는 더 적합한 작업자에게 작업을 이전하여 지속적으로 배정을 조정하고 실패를 유발하는 이벤트에 대응하는 것입니다. 하지만 모바일 크라우드소싱에서는 작업자의 자율성이 보장되지 않고 작업 이동 요청을 거부할 수 있기 때문에 작업 이동을 구현하기가 어렵습니다. 게다가 작업 결과는 불확실하기 때문에 예측이 필요합니다. 본 논문에서는 모바일 크라우드소싱에서 결과 예측과 작업 조정을 달성하기 위한 다양한 메커니즘을 제안합니다. 첫째, 작업 결과 예측을 위한 다양한 데이터 스트림 학습 접근법을 분석합니다. 둘째, 제안된 예측 모델을 기반으로 자율성이 다른 두 가지 접근 방식, 즉 협력적이지만 자율적이지 않은 작업자가 참여하는 크라우드소싱을 위한 기회주의적 접근 방식과 자율적 작업자가 참여하는 크라우드센싱을 위한 시장 기반 모델을 제안하고 평가합니다. [abs|pdf]

[6/89] How well can large language models explain business processes?

Keywords: aware_explainability_sax, generate_sax_explanations, underlie_sax_explanations
Abstract: 대규모 언어 모델(LLM)은 모든 시스템 수명 주기 단계에 걸쳐 기능을 제공하는 미래의 AI 증강 비즈니스 프로세스 관리 시스템(ABPMS)에서 중요한 역할을 할 것으로 보입니다. 이러한 시스템의 기능 중 하나는 설명 조건이 발생한 프로세스 컨텍스트를 고려하여 인과적으로 타당하면서도 사람이 해석할 수 있는 설명을 생성하는 것과 관련된 상황 인식 설명 가능성(SAX)입니다. 이 백서에서는 SAX 설명을 생성하기 위해 개발된 SAX4BPM 프레임워크를 소개합니다. SAX4BPM 제품군은 일련의 서비스와 중앙 지식 저장소로 구성됩니다. 이러한 서비스의 기능은 SAX 설명의 기반이 되는 다양한 지식 요소를 도출하는 것입니다. 이러한 요소 중 핵심적인 혁신 요소는 인과적 프로세스 실행 뷰입니다. 이 작업에서 우리는 프레임워크를 LLM과 통합하여 다양한 입력 요소를 종합하여 SAX 설명을 개선할 수 있는 힘을 활용합니다. SAX에 LLM을 사용하는 것은 환각 성향과 내재적 추론 능력의 부족과 함께 SAX를 적절히 수행할 수 있는 능력과 관련된 어느 정도의 의구심을 동반하기 때문에, 생성된 설명의 품질에 대한 방법론적 평가를 추구했습니다. 이를 위해 지정된 척도를 개발하고 엄격한 사용자 연구를 실시했습니다. 연구 결과, LLM에 제시된 입력이 성능의 가드 레일링에 도움이 되어 SAX 설명의 충실도가 더 높아진 것으로 나타났습니다. 이러한 개선은 신뢰와 호기심에 대한 인식에 의해 조절됩니다. 하지만 이러한 개선은 설명의 해석 가능성을 희생하는 대가로 이루어집니다. [abs|pdf]

[7/89] A Review of Deep Learning Methods for Photoplethysmography Data

Keywords: photoplethysmography_ppg_highly, photoplethysmography_ppg, photoplethysmography
Abstract: 광혈류측정(PPG)은 휴대성, 사용자 친화적인 작동, 비침습적 기능으로 다양한 생리학적 정보를 측정할 수 있다는 장점으로 인해 매우 유망한 기기입니다. 최근 딥러닝의 발전으로 개인 건강 관리 및 기타 다각적인 애플리케이션과 관련된 작업에 PPG 신호를 활용하여 괄목할 만한 성과를 거두었습니다. 이번 리뷰에서는 2017년 1월 1일부터 2023년 7월 31일까지 구글 스콜라, 펍메드, 디멘션즈에서 딥러닝 모델을 적용하여 PPG 데이터를 처리한 논문을 체계적으로 검토했습니다. 각 논문은 작업, 모델, 데이터의 세 가지 주요 관점에서 분석되었습니다. 최종적으로 다양한 딥러닝 프레임워크가 PPG 신호를 처리하는 데 사용된 193개의 논문을 추출했습니다. 이 논문에서 다루는 작업을 기반으로 의료 관련 작업과 비의료 관련 작업의 두 가지 주요 그룹으로 분류했습니다. 의료 관련 작업은 다시 혈압 분석, 심혈관 모니터링 및 진단, 수면 건강, 정신 건강, 호흡기 모니터링 및 분석, 혈당 분석, 기타 등 7개의 하위 그룹으로 나뉘었습니다. 비의료 관련 작업은 신호 처리, 생체 인식, 심전도 재구성, 인간 활동 인식 등 4개의 하위 그룹으로 나뉘었습니다. 결론적으로, 최근 딥러닝 방법을 사용하여 PPG 데이터를 처리하는 분야에서 상당한 진전이 이루어지고 있습니다. 이를 통해 PPG 신호에 포함된 정보를 보다 철저하게 탐색하고 활용할 수 있게 되었습니다. 그러나 공개적으로 이용 가능한 데이터베이스의 양과 질의 제한, 실제 시나리오에서의 효과적인 검증 부족, 딥러닝 모델의 해석 가능성, 확장성, 복잡성에 대한 우려와 같은 과제가 남아 있습니다. 또한 추가 조사가 필요한 새로운 연구 분야도 여전히 존재합니다. [abs|pdf]

[8/89] The Distributional Uncertainty of the SHAP score in Explainable Machine Learning

Keywords: shap_score_feature, reasoning_shap_scores, shap_scores_features
Abstract: 속성 점수는 입력 엔티티의 특징값이 머신러닝 모델의 출력에 얼마나 중요한지를 반영합니다. 가장 널리 사용되는 속성 점수 중 하나는 연합 게임 이론에서 사용되는 일반적인 샤플리 값을 인스턴스화한 SHAP 점수입니다. 이 점수의 정의는 개체 모집단의 확률 분포에 의존합니다. 일반적으로 정확한 분포는 알 수 없기 때문에 주관적으로 할당하거나 데이터를 통해 추정해야 하며, 이는 잘못된 특징 점수를 초래할 수 있습니다. 이 백서에서는 알 수 없는 엔티티 모집단 분포 하에서 SHAP 점수를 추론하기 위한 원칙적인 프레임워크를 제안합니다. 이 프레임워크에서는 잠재적 분포를 포함하는 불확실성 영역을 고려하고, 특징의 SHAP 점수는 이 영역에 대해 정의된 함수가 됩니다. 우리는 이 함수의 최대값과 최소값을 구하는 기본적인 문제를 연구하여 모든 특징의 SHAP 점수에 대한 엄격한 범위를 결정할 수 있습니다. 특히 이러한 문제와 다른 관련 문제의 복잡성을 정확히 파악하여 NP 완전성을 보여줍니다. 마지막으로, 실제 데이터 세트에 대한 실험을 통해 프레임워크가 더욱 강력한 특징 점수에 기여할 수 있음을 보여줍니다. [abs|pdf]

[9/89] Securing Recommender System via Cooperative Training

Keywords: attacks_recommender_systems, attacks_recommender, poisoning_attacks_recommender
Abstract: 추천 시스템은 종종 잘 만들어진 가짜 프로필에 취약하여 편향된 추천으로 이어질 수 있습니다. 기존의 방어 방식 중 데이터 처리 기반 방식은 정상 샘플을 배제할 수밖에 없고, 모델 기반 방식은 일반화와 강건성을 모두 갖추기 어렵습니다. 이를 위해 데이터 처리와 강건성 모델을 통합하여 데이터를 상호 보강하는 세 가지 협력 모델을 사용하여 추천 강건성을 향상시키는 일반적인 프레임워크인 트리플 협력 방어(TCD)를 제안합니다. 또한, 기존 공격이 양방향 최적화와 효율성의 균형을 맞추기 어렵다는 점을 고려하여 추천 시스템에서의 포이즌 공격에 대해 재조명하고, 공격 효율성을 유지하면서 양방향 설정을 고려하여 공격 최적화와 모델 학습을 협력적으로 최적화하는 효율적인 공격 전략인 코-트레이닝 공격(Co-Attack)을 소개합니다. 또한, 기존 공격의 위협이 충분하지 않은 잠재적 원인이 방어되지 않은 시나리오에서 공격을 최적화한다는 기본 가정에 있음을 밝힙니다. 이러한 지나치게 낙관적인 설정은 공격의 잠재력을 제한합니다. 따라서 저희는 게임 기반 공동 훈련 공격(GCoAttack)을 제안하여 제안된 CoAttack과 TCD를 게임 이론적 프로세스로 구성하고, 공격과 방어의 협력 훈련에서 CoAttack의 공격 잠재력을 철저히 탐구했습니다. 세 가지 실제 데이터 세트에 대한 광범위한 실험을 통해 모델 견고성 향상에 있어 TCD의 우수성을 입증합니다. 또한, 제안된 두 가지 공격 전략이 기존 공격보다 훨씬 뛰어난 성능을 보이며, 게임 기반 GCoAttack이 CoAttack보다 더 큰 중독 위협을 가한다는 것을 확인했습니다. [abs|pdf]

[10/89] ChatGraph: Chat with Your Graphs

Keywords: graph_analysis_apis, comprehend_graphs_api, graphs_api
Abstract: 그래프 분석은 실제 애플리케이션에서 기본입니다. 기존의 접근 방식은 그래프 데이터와 상호 작용하기 위해 SPARQL과 유사한 언어 또는 클릭 앤 드래그 인터페이스에 의존합니다. 그러나 이러한 방법은 사용자가 높은 수준의 프로그래밍 기술을 보유해야 하거나 제한된 범위의 그래프 분석 기능만 지원합니다. 이러한 한계를 해결하기 위해 저희는 대규모 언어 모델(LLM) 기반 프레임워크인 ChatGraph를 제안합니다. ChatGraph를 사용하면 사용자는 자연어를 통해 그래프와 상호작용할 수 있으므로 기존 방식보다 사용하기 쉽고 유연합니다. ChatGraph의 핵심은 사용자 프롬프트에 입력된 텍스트와 그래프에 대한 이해를 바탕으로 그래프 분석 API 체인을 생성하는 데 있습니다. 이를 위해 ChatGraph는 관련 API를 검색하는 API 검색 모듈, LLM이 그래프를 이해할 수 있도록 하는 그래프 인식 LLM 모듈, 그리고 LLM이 API 체인을 생성하도록 안내하는 API 체인 지향 미세 조정 모듈의 세 가지 주요 모듈로 구성되어 있습니다. [abs|pdf]

[11/89] EL-VIT: Probing Vision Transformer with Interactive Visualization

Keywords: vision_transformer_vit, vit_interactive_visual, visual_analytics
Abstract: 오늘날 비전 트랜스포머(ViT)는 고유한 자기 주의 메커니즘으로 인해 다양한 컴퓨터 비전 작업에 널리 활용되고 있습니다. 그러나 ViT의 모델 아키텍처는 복잡하고 이해하기 어려운 경우가 많아 학습 곡선이 가파릅니다. ViT 개발자와 사용자는 내부 작동 방식을 해석하는 데 어려움을 겪는 경우가 많습니다. 따라서 ViT 사용자가 그 기능을 이해하는 데 도움을 줄 수 있는 시각화 시스템이 필요합니다. 이 백서에서는 비전 트랜스포머를 조사하고 그 작동을 더 잘 이해할 수 있도록 설계된 대화형 시각 분석 시스템인 EL-VIT를 소개합니다. 이 시스템은 4개의 시각화 뷰 레이어로 구성되어 있습니다. 처음 세 개의 레이어에는 모델 개요, 지식 배경 그래프, 모델 상세 보기가 포함됩니다. 이 세 가지 레이어는 전체 모델 아키텍처, 세부 설명, 수학적 연산이라는 세 가지 관점에서 ViT의 운영 프로세스를 설명하여 사용자가 기본 원리와 레이어 간의 전환 과정을 이해할 수 있도록 합니다. 네 번째 해석 보기는 패치 간의 코사인 유사도를 계산하여 ViT 사용자와 전문가가 더 깊이 이해할 수 있도록 도와줍니다. 두 가지 사용 시나리오는 ViT 사용자가 ViT의 작동 메커니즘을 이해하는 데 도움이 되는 EL-VIT의 효과와 유용성을 보여줍니다. [abs|pdf]

[12/89] Knowledge Distillation from Language-Oriented to Emergent Communication for Multi-Agent Remote Control

Keywords: trained_large_language, agent_remote_navigation, agent_deep_reinforcement
Abstract: 이 연구에서는 다중 에이전트 심층 강화 학습(MADRL)을 기반으로 구축된 이머전트 커뮤니케이션(EC)과 인간의 언어를 사용하여 사전 학습된 대규모 언어 모델(LLM)로 강화된 언어 지향 시맨틱 커뮤니케이션(LSC)을 비교합니다. 다중 에이전트 원격 내비게이션 작업에서 위치 및 채널 맵으로 구성된 멀티모달 입력 데이터가 있는 경우, EC는 멀티모달 데이터를 사용할 때 높은 훈련 비용이 발생하고 어려움을 겪는 반면, LSC는 LLM의 큰 크기로 인해 추론 컴퓨팅 비용이 많이 발생하는 것으로 나타났습니다. 각각의 병목 현상을 해결하기 위해 지식 증류(KD)를 통해 LSC를 사용한 EC 학습을 안내하는 언어 안내 EC(LEC)라는 새로운 프레임워크를 제안합니다. 시뮬레이션 결과, LEC는 채널 상태가 좋지 않은 지역을 피하면서 더 빠른 이동 시간을 달성할 수 있을 뿐만 아니라 EC에 비해 MADRL 훈련 수렴 속도를 최대 61.8%까지 높일 수 있는 것으로 확인되었습니다. [abs|pdf]

[13/89] Revolutionizing Retrieval-Augmented Generation with Enhanced PDF Structure Recognition

Keywords: pdf_parsing_significantly, pdf_parser_retrieves, pdf_parsing
Abstract: 대규모 언어 모델(LLM)의 급속한 발전과 함께 검색 증강 생성(RAG)은 전문 지식 기반 질의응답 분야에서 주된 방법이 되었습니다. 현재 주요 기초 모델 회사들은 임베딩 및 채팅 API 인터페이스를 개방하고 있으며, LangChain과 같은 프레임워크는 이미 RAG 프로세스를 통합하고 있습니다. RAG의 핵심 모델과 단계가 해결된 것으로 보이며, 이제 전문 지식 QA 시스템이 완벽에 가까워지고 있는 것일까라는 질문으로 이어집니다 이 글에서는 현재의 주요 방법들이 고품질 텍스트 코퍼스에 대한 접근을 전제로 하고 있다는 사실을 발견했습니다. 그러나 전문 문서는 주로 PDF로 저장되기 때문에 PDF 파싱의 낮은 정확도는 전문 지식 기반 QA의 효과에 큰 영향을 미칩니다. 저희는 실제 전문 문서에 포함된 수백 개의 질문에 대해 경험적 RAG 실험을 실시했습니다. 그 결과, 파놉틱 및 핀포인트 PDF 파서가 장착된 RAG 시스템인 ChatDOC이 더 정확하고 완전한 세그먼트를 검색하여 더 나은 답변을 제공하는 것으로 나타났습니다. 경험적 실험에 따르면 ChatDOC는 거의 47%의 질문에서 기준치보다 우수하고, 38%의 경우 동점이며, 15%의 경우에만 미치지 못하는 것으로 나타났습니다. 이는 향상된 PDF 구조 인식으로 RAG를 혁신할 수 있음을 보여줍니다. [abs|pdf]

[14/89] Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+

Keywords: controlling_character_game, based_regret_matching, artificial_intelligence_games
Abstract: 여러 역할이 포함된 게임용 인공지능을 훈련할 때는 게임 내 모든 캐릭터를 제어할 수 있는 일반화된 모델을 개발하는 것이 좋은 방법입니다. 이 전략은 훈련 단계에서 컴퓨팅 리소스와 시간을 절약할 뿐만 아니라 배포 시 리소스 요구 사항도 줄여줍니다. 이렇게 일반화된 모델을 훈련할 때 다양한 역할을 제어할 때 불균일한 기능과 관련된 문제에 직면하는 경우가 많습니다. 다양한 역할을 제어할 때 모델이 보다 균형 잡힌 성능을 발휘할 수 있도록 지원하는 후회 매칭+를 기반으로 한 간단한 방법이 도입되었습니다. [abs|pdf]

[15/89] UR4NNV: Neural Network Verification, Under-approximation Reachability Works!

Keywords: reachability_analysis_dnn, verification_deep_neural, analysis_dnn_verification
Abstract: 최근 심층 신경망(DNN)에 대한 형식적 검증이 상당한 주목을 받고 있으며, 그 효과와 효율성으로 인해 과대 근사화 기반 방법이 인기를 끌고 있습니다. 그러나 이러한 전략은 정확한 출력 영역 또는 도입된 근사치 오차가 해당 속성을 위반하는지 여부에 관한 '미지의 딜레마'를 해결하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해 본 논문에서는 DNN 검증에 근사치 도달 가능성 분석을 활용하는 UR4NNV 검증 프레임워크를 처음으로 소개합니다. UR4NNV는 정류된 선형 단위(ReLU)가 활성화된 DNN에 초점을 맞추고 이진 트리 분기 기반의 과소 근사화 알고리즘을 사용합니다. 각 에포크에서 UR4NNV는 도달 가능한 집합의 하위 폴리토프를 과소 근사화하고 이 폴리토프를 주어진 속성에 대해 검증합니다. 시행착오 접근 방식을 통해 UR4NNV는 DNN 속성을 효과적으로 위조하는 동시에 검증 에포크 경계에 도달하고 속성 위조에 실패할 때 신뢰 수준을 제공합니다. 기존 검증 방법과의 실험적 비교를 통해 '알 수 없는 딜레마'의 영향을 크게 줄인 UR4NNV의 효과와 효율성이 입증되었습니다. [abs|pdf]

[16/89] Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning

Keywords: learn_state_abstractions, learns_causal, learns_causal_relationships
Abstract: 강화 학습(RL) 알고리즘의 두 가지 장점은 상대적으로 적은 경험으로부터 학습할 수 있는 능력과 다양한 문제 사양에 일반화할 수 있는 정책을 학습할 수 있는 능력입니다. 팩터링된 상태 공간에서 두 가지 목표를 모두 달성하기 위한 한 가지 접근 방식은 상태 추상화를 학습하는 것으로, 당면한 작업을 학습하는 데 필요한 변수만 유지하는 것입니다. 이 백서에서는 각 작업의 역학 및 보상 함수의 인과 관계를 학습하여 최소한의 작업별 추상화를 도출하는 방법인 인과적 이중 시뮬레이션 모델링(CBM)을 소개합니다. CBM은 암시적 모델링을 활용하고 개선하여 동일한 환경의 모든 작업에 재사용할 수 있는 충실도 높은 인과 관계 역학 모델을 학습합니다. 조작 환경과 딥마인드 컨트롤 스위트에 대한 경험적 검증을 통해 CBM의 학습된 암시적 역학 모델이 명시적 모델보다 근본적인 인과 관계와 상태 추상화를 더 정확하게 식별한다는 사실이 밝혀졌습니다. 또한 도출된 상태 추상화를 통해 작업 학습자는 오라클에 가까운 수준의 샘플 효율성을 달성하고 모든 작업에서 기준선을 뛰어넘는 성과를 거둘 수 있습니다. [abs|pdf]

[17/89] An open dataset for the evolution of oracle bone characters: EVOBC

Keywords: oracle_bone_inscriptions, ancient_characters_authoritative, ancient_characters
Abstract: 현존하는 가장 초기의 한자는 다른 동아시아 언어와 밀접한 관련이 있는 오라클 뼈 비문에서 유래했습니다. 이 비문은 인류학과 고고학에서 엄청난 가치를 지니고 있습니다. 하지만 현재까지 4,500개가 넘는 현존하는 문자 중 약 1,600개만이 해독된 상태로, 신탁본 문자를 해독하는 것은 여전히 어려운 과제입니다. 이 고대 문자 체계를 종합적으로 이해하기 위해서는 더 많은 학술적 조사가 필요합니다. 인공지능 기술은 오라클본 문자를 해독하고, 특히 그 진화와 관련하여 유망한 수단입니다. 그러나 이러한 문자의 시간 경과에 따른 진화를 보여주는 데이터 세트가 부족하다는 것이 과제 중 하나입니다. 이 연구에서는 6개의 역사적 단계에 걸쳐 권위 있는 텍스트와 웹사이트에서 고대 문자를 체계적으로 수집했습니다: 오라클 뼈 문자 - OBC(기원전 15세기), 청동 비문 - BI(기원전 13221세기), 인장 문자 - SS(기원전 118세기), 춘추 시대 문자 - SAC(기원전 770476세기), 전국 시대 문자 - WSC(기원전 475221세기), 사무 문자 - CS(기원전 221~서기 220년). 그 후, 13,714개의 문자 카테고리를 나타내는 229,170개의 이미지로 구성된 광범위한 데이터 세트, 즉 진화 오라클 본 문자(EVOBC)를 구축했습니다. 구축된 데이터 세트에 대한 검증 및 시뮬레이션 해독을 수행했으며, 그 결과 오라클 본 문자 연구를 지원하는 데 있어 높은 효율성이 입증되었습니다. 공개적으로 액세스할 수 있는 이 데이터 세트는 여러 시대에 걸친 고대 중국 문자를 디지털화하여 상형문자의 진화를 조사함으로써 오라클 본문의 해독을 용이하게 하는 것을 목표로 합니다. [abs|pdf]

[18/89] Towards Socially and Morally Aware RL agent: Reward Design With LLM

Keywords: rl_agent_reward, reinforcement_learning_rl, learning_rl_agent
Abstract: 강화 학습(RL) 에이전트를 설계하고 배포할 때 보상 기능은 에이전트가 목표를 달성하도록 동기를 부여합니다. 목표가 부정확하거나 불완전하게 지정되면 모호하고 상황에 따라 달라지는 사회적, 도덕적 규범을 준수하지 못하고 부작용이나 안전하지 않은 탐사 등 원치 않는 결과를 초래하는 등 인간의 가치에 부합하지 않는 행동이 발생할 수 있습니다. 이전 연구에서는 부작용을 피하기 위해 보상 기능을 수동으로 정의하거나, 안전한 탐사를 위해 사람의 감독을 이용하거나, 기초 모델을 계획 도구로 사용했습니다. 이 연구에서는 안전한 탐사 증강 RL 방법에 대한 대규모 언어 모델(LLM)의 도덕성 및 사회 규범에 대한 이해를 활용할 수 있는 능력을 연구합니다. 이 연구는 언어 모델의 결과를 사람의 피드백과 비교하여 평가하고 직접적인 보상 신호로서 언어 모델의 기능을 입증합니다. [abs|pdf]

[19/89] Quantitative Analysis of Molecular Transport in the Extracellular Space Using Physics-Informed Neural Network

Keywords: exploring_molecular_transport, analyze_molecular_transport, molecular_transport_patterns
Abstract: 세포와 세포 사이 또는 세포와 혈관 사이에 위치한 불규칙하고 매우 구불구불한 나노 크기의 공간인 뇌 세포외 공간(ECS)은 신경세포의 생존에 매우 중요한 역할을 합니다. 이 공간은 기억, 감정, 감각과 같은 고차원적인 뇌 기능에 중추적인 역할을 합니다. 그러나 ECS 내 분자 수송의 구체적인 형태는 아직 밝혀지지 않았습니다. 이 논문에서는 이러한 문제를 해결하기 위해 물리학 정보 신경망(PINN)을 사용하여 전진-확산 방정식(ADE)에서 도출된 역문제를 해결함으로써 ECS 내의 분자 수송을 정량적으로 분석하는 새로운 접근 방식을 제안합니다. PINN은 복잡한 수학적 공식이나 그리드 설정 없이도 ADE에 대한 간소화된 솔루션을 제공합니다. 또한 PINN의 최적화는 장기적인 분자 수송을 지배하는 확산 계수와 대류에 의해 구동되는 분자의 속도를 자동으로 계산할 수 있게 해줍니다. 결과적으로, 제안된 방법을 사용하면 페클렛 수의 계산을 통해 ECS 내에서 분자 수송의 특정 패턴을 정량적으로 분석하고 식별할 수 있습니다. 서로 다른 시점에 촬영된 두 개의 자기공명영상(MRI) 데이터 세트에 대한 실험적 검증을 통해 제안된 방법의 효과를 확인할 수 있습니다. 특히, 시뮬레이션을 통해 동일한 뇌 영역에 추적자를 주입한 쥐를 나타내는 데이터 세트 간에 동일한 분자 수송 패턴을 확인할 수 있었습니다. 이러한 발견은 ECS 내의 분자 수송을 종합적으로 탐구하기 위한 유망한 도구로서 PINN의 잠재력을 강조합니다. [abs|pdf]

[20/89] Analyzing the Effectiveness of Large Language Models on Text-to-SQL Synthesis

Keywords: sql_program_synthesis, accuracy_generated_queries, language_question_database
Abstract: 이 연구에서는 Text-to-SQL 프로그램 합성을 위해 대규모 언어 모델(LLM)을 사용하는 다양한 접근 방식을 조사하고, 그 결과와 인사이트에 초점을 맞춥니다. 이 연구의 목표는 데이터베이스 스키마와 함께 자연어 질문을 입력하고 올바른 SQL SELECT 쿼리를 출력하는 것이었습니다. 초기 접근 방식은 로컬 및 오픈 소스 모델을 미세 조정하여 SELECT 쿼리를 생성하는 것이었습니다. 스파이더 데이터세트에 대해 QLoRa가 WizardLM의 WizardCoder-15B 모델을 미세 조정한 후, 생성된 쿼리의 실행 정확도가 최고 61%까지 상승했습니다. 두 번째 접근 방식인 미세 조정된 gpt-3.5-turbo-16k(Few-shot) + gpt-4-turbo(Zero-shot 오류 수정)를 사용하면 실행 정확도가 최고 82.1%에 달했습니다. 잘못된 쿼리 중 대부분은 잘못된 열 또는 잘못된 열 순서 선택, 잘못된 열을 기준으로 그룹화, 조건부에서 잘못된 값 예측, 기준값과 다른 집계 사용, 추가 또는 너무 적은 JOIN 절, Spider 데이터 세트의 불일치, 마지막으로 완전히 잘못된 쿼리 구조 등 일곱 가지 범주로 분류할 수 있습니다. 전부는 아니더라도 대부분의 쿼리가 이러한 범주에 속하며, LLM 프로그램 합성의 결함이 어디에 있는지, 어디를 개선할 수 있는지 파악하는 것은 통찰력을 얻는 데 도움이 됩니다. [abs|pdf]

[21/89] Streamlining Advanced Taxi Assignment Strategies based on Legal Analysis

Keywords: prototype_taxi_coordination, taxi_coordination_service, taxi_coordination
Abstract: 최근 몇 년 동안 협업 방식으로 서비스와 활동을 제공하는 새로운 애플리케이션이 많이 등장했습니다. 이러한 시스템의 핵심 아이디어는 기존 자원의 유휴 또는 저사용 용량을 활용하여 사람들의 일상 업무를 지원하는 향상된 서비스를 추가 기능, 향상된 효율성 및/또는 비용 절감으로 제공하는 것입니다. 특히 도시 교통 분야에서 많은 연구자들이 참신한 아이디어를 제시하고, 이를 일반적으로 AI 방법과 도구를 활용하는 프로토타입을 통해 구현하고 평가합니다. 그러나 이러한 제안은 이러한 시스템을 실제 세계에 적용하려면 적절하게 식별하고 해결해야 하는 여러 가지 비기술적인 문제를 제기하기도 합니다. 실제로 이러한 AI 기반 시스템과 관련된 법적, 윤리적 측면은 연구 개발 과정의 초기 단계에서 거의 고려되지 않지만, 우리는 이러한 측면이 설계 결정을 제한할 뿐만 아니라 설계를 안내하는 데 도움이 될 수 있다고 주장합니다. 이 원고에서는 개별(및 자율) 택시와 잠재 고객을 중개하는 택시 조정 서비스의 프로토타입에서 출발합니다. 운영의 주요 측면을 반구조화된 방식으로 표현한 후, 현재의 법적 제한과 제약의 관점에서 그 실행 가능성을 분석하여 추가적인 비기능적 요구 사항과 이를 해결하기 위한 옵션을 식별합니다. 그런 다음 한 걸음 더 나아가 기존 프로토타입을 실제로 수정하여 이전에 파악한 권장 사항을 통합합니다. 이렇게 개선된 시스템으로 실험을 수행하면 법적으로 허용되는 여러 대안 중에서 가장 적절한 옵션을 식별하는 데 도움이 됩니다. [abs|pdf]

[22/89] Smart Recommendations for Renting Bikes in Bike Sharing Systems

Keywords: vehicle_sharing, bike_sharing_systems, vehicle_sharing_systems
Abstract: 자전거, 자동차 또는 오토바이 공유 시스템과 같은 차량 공유 시스템은 최근 몇 년 동안 대도시에서 점점 더 인기를 얻고 있습니다. 차량 공유 시스템은 개인 차량보다 저렴하고 환경 친화적인 교통 수단을 제공하며, 기존 대중교통 시스템보다 시민들의 개별적인 이동 수요를 충족시킵니다. 이와 관련하여 장점 중 하나는 도시 내 거의 모든 곳에서 차량을 이용(또는 하차)할 수 있다는 점입니다. 이러한 가용성은 차량의 규모나 차량의 (재)배분과 같은 다양한 전략 및 운영 관리 결정과 정책에 따라 달라집니다. 사용 패턴으로 인해 특정 지역에 차량이 집중되는 반면 다른 지역에서는 차량을 이용할 수 없는 응집 문제는 이러한 시스템에서 매우 흔한 문제이며 해결해야 할 과제입니다. 이 문제를 해결하기 위해 불균형 상황을 줄이기 위한 다양한 기법들이 연구되어 왔습니다. 이 백서에서는 스테이션 기반 자전거 공유 시스템에서 자전거를 대여하거나 반납하고자 하는 사용자에게 스테이션을 추천하는 전략을 제시하고 비교합니다. 먼저 큐잉 이론에 기반한 새로운 추천 전략으로, 사용자에게 더 짧은 거리와 더 높은 확률로 자전거 또는 슬롯을 찾을 수 있는 역을 추천합니다. 그런 다음, 한 걸음 더 나아가 특정 사용자의 효용과 글로벌 시스템의 효용을 결합하여 스테이션을 추천하는 전략을 정의하고, 예상되는 미래 수요에 대한 자전거 및 슬롯 분포의 개선 측면에서 측정하여 균형 문제를 암묵적으로 피하거나 완화합니다. 마드리드의 자전거 공유 시스템 BiciMAD의 실제 데이터로 제안을 평가하기 위한 몇 가지 실험을 제시합니다. [abs|pdf]

[23/89] Exploring consumers response to text-based chatbots in e-commerce: The moderating role of task complexity and chatbot disclosure

Keywords: consumers_trust_chatbot, empathy_friendliness_chatbot, consumers_responses_chatbot
Abstract: 인공지능 기반 챗봇은 전례 없는 비즈니스 잠재력을 가지고 있습니다. 본 연구는 이커머스에서 텍스트 기반 챗봇에 대한 소비자의 신뢰와 반응을 살펴보고, 작업의 복잡성과 챗봇의 신원 공개에 따른 조절 효과를 살펴보는 것을 목표로 합니다. 이 연구에서는 총 299개의 유효 응답을 수집하는 설문조사 방법을 사용했습니다. 이 연구에서는 가설을 검증하기 위해 일반 최소자승 회귀분석을 채택했습니다. 첫째, 챗봇의 공감성과 친근성에 대한 소비자의 지각은 챗봇에 대한 신뢰에 긍정적인 영향을 미친다. 둘째, 작업의 복잡성은 친근감과 소비자 신뢰 사이의 관계를 부정적으로 조절합니다. 셋째, 텍스트 기반 챗봇의 공개 여부는 공감과 소비자 신뢰 간의 관계를 부적으로 조절하는 반면, 친근함과 소비자 신뢰 간의 관계는 긍정적으로 조절합니다. 넷째, 챗봇에 대한 소비자의 신뢰는 챗봇에 대한 의존도를 높이고 향후 상호작용에서 챗봇에 대한 저항을 감소시킵니다. 자극 유기체 반응 프레임워크를 채택한 이 연구는 텍스트 기반 챗봇에 대한 소비자의 인식과 반응에 대한 중요한 인사이트를 제공합니다. 또한 이 연구 결과는 텍스트 기반 챗봇에 대한 소비자의 긍정적인 반응을 높일 수 있는 제안을 제공합니다. 기존 연구들은 자동화된 봇 속성이 소비자 인식에 미치는 영향을 조사했습니다. 그러나 이러한 효과의 경계 조건은 대부분 무시되었습니다. 이 연구는 챗봇에 대한 소비자의 반응을 심층적으로 이해하려는 첫 번째 시도 중 하나입니다. [abs|pdf]

[24/89] HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

Keywords: intelligent_embodied_agents, embodied_agents_dynamic, embodied_agents
Abstract: 최근 고충실도 가상 환경의 발전은 물리적 세계를 인식하고 추론하며 상호 작용하는 지능형 구현 에이전트를 구축하는 주요 원동력 중 하나로 작용하고 있습니다. 일반적으로 이러한 환경은 에이전트가 상호 작용하지 않는 한 변경되지 않습니다. 하지만 실제 시나리오에서 에이전트는 예상치 못한 이벤트가 발생하는 등 동적으로 변화하는 환경에 직면할 수 있으며, 이에 따라 신속하게 조치를 취해야 할 수도 있습니다. 이러한 격차를 해소하기 위해 유니티는 역동적인 상황에서 구현된 에이전트의 의사결정 능력을 평가하기 위해 특별히 고안된 새로운 시뮬레이션 구현 벤치마크인 HAZARD를 제안합니다. HAZARD는 화재, 홍수, 바람 등 세 가지 예상치 못한 재난 시나리오로 구성되어 있으며, 특히 상식적인 추론과 의사결정을 돕기 위해 대규모 언어 모델(LLM)의 활용을 지원합니다. 이 벤치마크를 통해 역동적으로 변화하는 환경에서 강화 학습(RL), 규칙 기반, 검색 기반 방법 등 다양한 파이프라인에 걸쳐 자율 에이전트의 의사 결정 능력을 평가할 수 있습니다. 대규모 언어 모델을 사용하여 이러한 과제를 해결하기 위한 첫 번째 단계로 LLM 기반 에이전트를 개발하고 이러한 까다로운 과제를 해결할 수 있는 가능성과 과제에 대한 심층 분석을 수행합니다. HAZARD는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[25/89] On the Efficacy of Text-Based Input Modalities for Action Anticipation

Keywords: predict_actions_video, learns_predict_actions, actions_modality_feature
Abstract: 미래의 행동을 예측하는 작업은 불확실성이 매우 높지만, 추가 양식의 정보는 그럴듯한 행동 선택의 범위를 좁히는 데 도움이 됩니다. 각 양식은 모델이 학습할 수 있는 서로 다른 환경적 맥락을 제공합니다. 기존의 멀티모달 방식은 비디오 및 오디오와 같은 모달리티의 정보를 활용했지만, 우리는 주로 행동과 객체에 대한 텍스트 입력을 통해 보다 정확한 행동 예측을 가능하게 하는 방법을 탐구합니다. 따라서 멀티모달 특징과 텍스트 캡션으로부터 공동으로 학습하는 주의 기반 비디오 트랜스포머 아키텍처인 멀티모달 예측 트랜스포머(MAT)를 제안합니다. MAT는 2단계로 모델을 학습시키는데, 첫 번째 단계에서는 캡션에 맞춰 비디오 클립의 동작을 예측하는 방법을 학습하고, 두 번째 단계에서는 미래의 동작을 예측하도록 모델을 미세 조정합니다. 기존 방식에 비해 MAT는 사전 학습 단계의 동작 설명과 모달리티 특징 융합 단계의 감지된 객체 및 동작에 대한 텍스트 입력이라는 두 가지 종류의 텍스트 입력으로부터 추가적인 환경적 맥락을 학습할 수 있다는 장점이 있습니다. 광범위한 실험을 통해 사전 훈련 단계의 효과를 평가하고, 모든 데이터 세트에서 이전 방법보다 우수한 성능을 보이는 모델을 보여줍니다. 또한 텍스트를 통해 얻은 객체 및 행동 정보의 영향을 조사하고 광범위한 절제를 수행합니다. 세 가지 데이터 세트에서 성능을 평가합니다: 에픽키친-100, 에픽키친-55, 에그티게이즈+의 세 가지 데이터 세트에 대한 성능을 평가한 결과, 텍스트 설명이 실제로 더 효과적인 행동 예측에 도움이 된다는 것을 확인했습니다. [abs|pdf]

[26/89] AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents

Keywords: leverages_vision_language, data_collection_robots, robot_policies
Abstract: 언어, 시각, 그리고 최근에는 행동을 통합하는 기초 모델은 인터넷 규모의 데이터를 활용하여 유용한 작업을 추론하는 능력에 혁신을 가져왔습니다. 그러나 구현된 기초 모델을 훈련하는 데 있어 가장 큰 어려움 중 하나는 실제 세계에 기반한 데이터가 부족하다는 점입니다. 이 백서에서는 기존의 기초 모델을 활용하여 사람의 감독을 최소화하면서 완전히 보이지 않는 시나리오에서 운영 로봇의 배포를 확장할 수 있는 시스템인 AutoRT를 제안합니다. AutoRT는 장면 이해와 근거 마련을 위해 비전 언어 모델(VLM)을 활용하고, 로봇이 수행할 다양하고 새로운 명령을 제안하기 위해 대규모 언어 모델(LLM)을 추가로 사용합니다. 기초 모델에 대한 지식을 활용하여 데이터 수집을 유도함으로써 AutoRT는 자율성 트레이드오프와 안전성에 대해 효과적으로 추론하는 동시에 로봇 학습을 위한 데이터 수집 규모를 크게 확장할 수 있습니다. 여러 건물에 걸쳐 20여 대의 로봇에 명령을 내리고 원격 조작과 자율 로봇 정책을 통해 7만 7천 개의 실제 로봇 에피소드를 수집하는 AutoRT를 시연합니다. 실험을 통해 AutoRT가 수집하는 '자연 상태의' 데이터가 훨씬 더 다양하며, AutoRT가 LLM을 사용하면 데이터 수집 로봇을 따라 사람의 선호도에 맞는 명령을 내릴 수 있음을 보여줍니다. [abs|pdf]

[27/89] Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding

Keywords: expert_dynamic_prompting, interpreter_meta_prompting, interpreter_functionality
Abstract: 언어 모델(LM)의 기능을 향상시키기 위해 설계된 효과적인 스캐폴딩 기법인 메타 프롬프트를 소개합니다. 이 접근 방식은 단일 LM을 여러 개의 독립적인 LM 쿼리를 관리하고 통합하는 데 능숙한 다면적인 지휘자로 탈바꿈시킵니다. 메타 프롬프트는 상위 수준의 지침을 사용하여 LM이 복잡한 작업을 더 작고 관리하기 쉬운 하위 작업으로 세분화하도록 안내합니다. 그런 다음 이러한 하위 작업은 각각 특정 맞춤형 지침에 따라 작동하는 동일한 LM의 개별적인 "전문가" 인스턴스에 의해 처리됩니다. 이 프로세스의 중심에는 LM 자체가 있으며, 지휘자 역할을 통해 이러한 전문가 모델의 결과물을 원활하게 소통하고 효과적으로 통합할 수 있도록 합니다. 또한 고유의 비판적 사고와 강력한 검증 프로세스를 활용하여 최종 결과를 개선하고 인증합니다. 이러한 협업적 프롬프트 접근 방식은 단일 LM이 종합적인 오케스트레이터와 다양한 전문가 패널의 역할을 동시에 수행할 수 있도록 지원하여 다양한 작업 전반에서 그 성능을 크게 향상시킵니다. 메타 프롬프트의 제로 샷, 작업에 구애받지 않는 특성은 상세한 작업별 지침의 필요성을 없애 사용자 상호 작용을 크게 간소화합니다. 또한, 저희의 연구는 Python 인터프리터와 같은 외부 도구를 메타 프롬프트 프레임워크에 원활하게 통합하여 적용 가능성과 활용도를 넓힐 수 있음을 보여줍니다. GPT-4에 대한 엄격한 실험을 통해 기존 스캐폴딩 방식에 비해 메타 프롬프트의 우월성을 입증했습니다: 24 게임, 체크메이트-인-원, 파이썬 프로그래밍 퍼즐 등 모든 작업에서 평균을 낸 결과, 파이썬 인터프리터 기능으로 보강된 메타 프롬프트는 표준 프롬프트보다 17.1%, 전문가(동적) 프롬프트보다 17.3%, 멀티페르소나 프롬프트보다 15.2% 더 높은 성과를 냈습니다. [abs|pdf]

[28/89] Transformer-Based Models Are Not Yet Perfect At Learning to Emulate Structural Recursion

Keywords: recursion_programming_language, languages_structural_recursion, syntax_structural_recursion
Abstract: 이 논문에서는 예제에서 구조적 재귀를 학습하는 트랜스포머 기반 모델의 능력을 조사합니다. 재귀는 자연어와 형식 언어 모두에서 보편적인 개념입니다. 구조적 재귀는 데이터 유형 간의 의미 관계를 추론하고 프로그램 동작을 에뮬레이션하는 등 현재 신경 모델을 뛰어넘는 기호 도구가 사용되는 프로그래밍 언어 및 형식 수학 작업의 핵심입니다. 프로그래밍 언어 영역의 구조적 재귀라는 추상적인 개념을 구체적인 시퀀스 모델링 문제와 학습된 모델의 동작에 잘 연결하는 일반적인 프레임워크를 소개합니다. 이 프레임워크에는 구조적 재귀의 일반적인 '구문'을 포착하는 표현과 함께 그 '구문'을 이해하기 위한 두 가지 프레임워크가 포함되어 있습니다 -- 하나는 프로그래밍 언어 관점에서 더 자연스러운 프레임워크이고, 다른 하나는 기본 트랜스포머 아키텍처에 대한 기계론적 이해와 이러한 관점을 연결하는 데 도움이 되는 프레임워크입니다.
강력한 개념적 도구인 프레임워크를 통해 다양한 설정에서 다양한 문제를 식별합니다. 재귀 계산을 에뮬레이션하도록 훈련된 모델은 재귀를 완전히 포착할 수 없고 대신 지름길 알고리즘에 적합하기 때문에 훈련 분포에서 과소 대표되는 특정 에지 케이스를 해결할 수 없습니다. 또한 최첨단 대규모 언어 모델(LLM)은 문맥 내 데모에서 재귀 규칙을 마이닝하기 어렵습니다. 한편, 이러한 LLM은 재귀 함수의 축소(단계별 계산)를 에뮬레이션할 때 흥미로운 방식으로 실패합니다. [abs|pdf]

[29/89] Emergent Communication Protocol Learning for Task Offloading in Industrial Internet of Things

Keywords: communication_protocol_learning, emergent_communication_protocol, protocol_learning
Abstract: 이 논문에서는 다중 에이전트 강화 학습(MARL) 프레임워크를 활용하여 계산 오프로딩 결정과 해당 시그널링이 포함된 다중 채널 액세스 정책을 공동으로 학습합니다. 특히 기지국과 산업용 사물 인터넷 모바일 장치는 마감 시간 제약 내에서 계산 작업을 실행하기 위해 협력해야 하는 강화 학습 에이전트입니다. 우리는 이 문제를 해결하기 위해 새로운 통신 프로토콜 학습 프레임워크를 채택했습니다. 수치적 결과는 경합 기반, 경합 없는, 무경합 접근 방식에 비해 채널 액세스 성공률과 성공적으로 계산된 작업의 수를 향상시키는 데 있어 이머전트 커뮤니케이션이 효과적임을 보여줍니다. 또한, 제안된 작업 오프로딩 정책은 원격 및 로컬 계산 기준선보다 성능이 뛰어납니다. [abs|pdf]

[30/89] From Understanding to Utilization: A Survey on Explainability for Large Language Models

Keywords: explainability_large_language, enhanced_explainability_llms, existing_explainability_methods
Abstract: 이 설문조사 논문에서는 자연어 처리의 중요하면서도 까다로운 측면인 대규모 언어 모델(LLM)의 설명가능성 분야에서 급성장하고 있는 분야를 자세히 살펴봅니다. LLM은 다양한 애플리케이션에서 중추적인 역할을 담당하고 있지만, '블랙박스'라는 특성으로 인해 투명성과 윤리적 사용에 대한 우려가 제기되고 있습니다. 이 백서에서는 일반 대중의 신뢰와 기술 커뮤니티의 모델에 대한 더 깊은 이해에 대한 필요성을 모두 해결하면서 LLM의 설명 가능성을 강화해야 할 필요성을 강조합니다. 특히 규모와 복잡성으로 인해 고유한 해석 가능성 문제를 안고 있는 LLaMA와 같이 사전 학습된 트랜스포머 기반 LLM에 초점을 맞춥니다. 기존의 설명가능성 방법을 분류하고 모델 투명성과 신뢰성을 개선하는 데 적용할 수 있는 방법에 대해 논의합니다. 또한 대표적인 평가 방법에 대해 논의하고 그 강점과 한계를 강조합니다. 이 조사의 목표는 이론적 이해와 실제 적용 사이의 간극을 좁혀 향후 LLM 설명가능성 분야의 연구 및 개발을 위한 인사이트를 제공하는 것입니다. [abs|pdf]

[31/89] Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model

Keywords: reward_translation_quality, increase_reward_translation, feedback_improve_translation
Abstract: 보상 모델 내에서 인간의 선호도에 대한 불충분한 모델링은 번역 품질을 개선하기 위해 인간의 피드백을 활용하는 데 있어 큰 장애물입니다. 다행히도 참조 없이 주어진 번역의 품질을 예측하는 품질 추정(QE)은 지난 2년 동안 사람의 평가와 인상적인 일치도를 달성했습니다. 이 연구에서는 피드백 훈련에 대한 인간의 선호도를 예측하기 위한 보상 모델(QE 기반 보상 모델)로서 QE 모델을 사용할 수 있는 가능성을 조사합니다. 먼저, 번역 품질은 저하되는 반면 보상은 증가하는 것으로 나타나는 QE 기반 피드백 훈련 중 과잉 최적화 문제를 확인합니다. 이 문제를 조사하고 QE 모델의 취약성이 잘못된 번역에 대한 높은 보상으로 이어져 과잉 최적화와 오류 전파를 초래할 수 있다고 주장합니다. 이 문제를 해결하기 위해 우리는 휴리스틱 규칙을 사용하여 잘못된 번역을 감지하고, 감지된 잘못된 번역에 대해 QE 기반 보상에 페널티 조건을 할당하는 간단하면서도 효과적인 방법을 채택합니다. 실험 결과에 따르면 제안된 QE 기반 피드백 훈련은 다양한 환경에서 일관되고 유의미한 개선을 달성했으며, 이는 인간 선호도 연구를 통해 추가로 확인되었습니다. 후속 분석에서는 제안된 QE 기반 피드백 훈련의 높은 데이터 효율성이 입증되었습니다. 소량의 단일 언어 데이터를 사용하는 제안된 접근 방식은 대규모 병렬 코퍼스를 사용하는 시스템보다 성능이 뛰어납니다. [abs|pdf]

[32/89] KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning

Keywords: answers_knowledge_augmented, gains_deeper_contextual, deeper_contextual_understanding
Abstract: 대규모 언어 모델(LLM)은 단계별 사고를 가능하게 하는 연쇄 사고(CoT)를 활용하여 자연어 처리 작업에서 인상적인 성능을 보여 왔습니다. 멀티모달 기능으로 LLM을 확장하는 것이 최근의 관심사이지만, 컴퓨팅 비용이 발생하고 상당한 하드웨어 리소스가 필요합니다. 이러한 문제를 해결하기 위해 유니티는 멀티모달 작업에 대한 포괄적인 이해를 위해 CoT 추론, 지식 그래프(KG), 다중 모달리티를 통합하는 프레임워크인 KAM-CoT를 제안합니다. KAM-CoT는 효과적인 근거와 답변을 생성하기 위해 KG를 기반으로 하는 2단계 훈련 프로세스를 채택합니다. 추론 과정에서 KG의 외부 지식을 통합함으로써 모델은 더 깊은 맥락적 이해를 얻음으로써 환각을 줄이고 답변의 품질을 향상시킵니다. 이러한 지식 증강 CoT 추론은 모델이 외부 컨텍스트가 필요한 질문을 처리할 수 있는 역량을 강화하여 보다 정보에 입각한 답변을 제공합니다. 실험 결과에 따르면 KAM-CoT는 최첨단 방법보다 성능이 뛰어납니다. ScienceQA 데이터 세트에서 평균 93.87%의 정확도를 달성하여 GPT-3.5(75.17%)를 18%, GPT-4(83.99%)를 10% 능가했습니다. 놀랍게도 KAM-CoT는 한 번에 2억 8천만 개의 훈련 가능한 파라미터만으로 이러한 결과를 달성하여 비용 효율성과 효과를 입증했습니다. [abs|pdf]

[33/89] FedRSU: Federated Learning for Scene Flow Estimation on Roadside Units

Keywords: self_supervised_scene, recurrent_self_supervised, supervised_scene_flow
Abstract: 로드사이드 유닛(RSU)은 차량-사물 간(V2X) 통신을 통해 자율주행차의 안전성과 견고성을 크게 향상시킬 수 있습니다. 현재 단일 RSU의 사용은 주로 실시간 추론과 V2X 협업에 초점을 맞추고 있으며, RSU 센서가 수집하는 고품질 데이터의 잠재적 가치는 무시하고 있습니다. 수많은 RSU에서 수집한 방대한 양의 데이터를 통합하면 모델 학습을 위한 풍부한 데이터 소스를 제공할 수 있습니다. 그러나 실측 데이터 주석의 부재와 방대한 양의 데이터 전송의 어려움은 이 숨겨진 가치를 완전히 활용하는 데 있어 피할 수 없는 두 가지 장벽입니다. 이 백서에서는 자율 지도 장면 흐름 추정을 위한 혁신적인 연합 학습 프레임워크인 FedRSU를 소개합니다. FedRSU에서는 반복적인 자가 감독 훈련 패러다임을 제시하며, 각 RSU에 대해 모든 타임스탬프의 포인트에 대한 장면 흐름 예측이 이후의 미래 멀티 모달리티 관측에 의해 감독될 수 있습니다. FedRSU의 또 다른 핵심 구성 요소는 연합 학습으로, 여러 디바이스가 훈련 데이터를 로컬 및 비공개로 유지하면서 ML 모델을 공동으로 훈련합니다. 반복적인 자기 지도 학습 패러다임의 힘을 통해 FL은 RSU에서 활용도가 낮은 수많은 데이터를 활용할 수 있습니다. FedRSU 프레임워크를 검증하기 위해 대규모 멀티모달 데이터 세트 RSU-SF를 구축합니다. 이 데이터 세트는 다양한 시나리오, 모달리티, 센서 설정을 포괄하는 17개의 RSU 클라이언트로 구성됩니다. RSU-SF를 기반으로 FedRSU가 ITS의 모델 성능을 크게 개선하고 다양한 FL 시나리오에서 포괄적인 벤치마크를 제공할 수 있음을 보여줍니다. 우리가 아는 한, 유니티는 FL 커뮤니티를 위한 최초의 실제 LiDAR 카메라 멀티모달 데이터 세트와 벤치마크를 제공합니다. [abs|pdf]

[34/89] Classification of grapevine varieties using UAV hyperspectral imaging

Keywords: cnns_classifying_hyperspectral, classification_different_grapevine, classifying_hyperspectral_data
Abstract: 다양한 포도나무 품종을 분류하는 것은 와인 산업과 관련된 다른 응용 분야 중에서도 다양한 품종 전용 포도밭 줄기의 성장을 추정할 수 있기 때문에 정밀 포도 재배에서 관련된 표현형 분석 작업입니다. 이 작업은 실험실에서 데이터 수집과 분석 등 시간이 많이 소요되는 파괴적인 방법으로 수행할 수 있습니다. 그러나 무인 항공기(UAV)는 노이즈가 많은 데이터를 수집하더라도 초분광 데이터를 수집하는 데 더 효율적이고 덜 방해가 되는 접근 방식을 제공합니다. 따라서 첫 번째 작업은 이러한 데이터를 처리하여 대량의 데이터를 보정하고 다운샘플링하는 것입니다. 또한 포도 품종의 초분광 시그니처는 매우 유사합니다. 이 연구에서는 17종의 적포도와 백포도 품종을 분류하기 위해 컨볼루션 신경망(CNN)을 제안합니다. 단일 샘플을 분류하는 것이 아니라 주변 샘플과 함께 처리합니다. 따라서 공간 및 스펙트럼 특징 추출은 1) 공간 관심 레이어와 2) 인셉션 블록으로 처리됩니다. 파이프라인은 처리에서 데이터 세트 정교화까지 진행되며, 훈련 단계로 마무리됩니다. 적합 모델은 응답 시간, 정확도, 데이터 분리 가능성 측면에서 평가되며, 하이퍼스펙트럼 데이터를 분류하기 위한 다른 최신 CNN과 비교됩니다. 우리의 네트워크는 입력 대역의 수를 줄이고, 훈련 가능한 가중치의 수를 줄임으로써 훨씬 더 가볍고, 따라서 훈련 시간도 단축되는 것으로 입증되었습니다. 그럼에도 불구하고 평가된 메트릭은 이전 작업이 81%의 OA를 겨우 달성한 것과 비교하여 우리 네트워크가 훨씬 더 나은 결과(전체 정확도 약 99%)를 보였습니다. [abs|pdf]

[35/89] Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

Keywords: extractor_gnn_clustering, speaker_diarization_task, gnn_clustering
Abstract: 화자의 신원을 기반으로 오디오 녹음을 세분화하는 작업인 화자 일기화는 여러 다운스트림 애플리케이션에서 중요한 음성 전처리 단계입니다. 화자 일기장에 대한 기존의 접근 방식은 임베딩 추출과 클러스터링의 여러 단계를 포함하며, 이는 종종 고립된 방식으로 최적화됩니다. 엔드투엔드 다이어리제이션 시스템은 작업에 대한 단일 모델을 학습하려고 시도하지만, 훈련이 번거롭고 대량의 지도 데이터 세트가 필요한 경우가 많습니다. 이 백서에서는 그래프 신경망(GNN)에 기반한 엔드투엔드 지도 계층 클러스터링 알고리즘, 즉 E-SHARC(End-to-end Supervised HierARchical Clustering)를 제안합니다. E-SHARC 접근 방식은 프론트엔드 멜-필터뱅크 특징을 입력으로 사용하고 임베딩 추출기와 GNN 클러스터링 모듈을 공동으로 학습하여 표현 학습, 메트릭 학습, 엔드투엔드 최적화를 통한 클러스터링을 수행합니다. 또한 외부 오버랩 검출기의 추가 입력을 통해 E-SHARC 접근 방식은 겹치는 음성 영역의 화자를 예측할 수 있습니다. AMI, VoxConverse, DISPLACE와 같은 여러 벤치마크 데이터 세트에 대한 실험적 평가를 통해 제안된 E-SHARC 프레임워크가 최첨단 일기화 시스템에 비해 크게 개선되었음을 알 수 있습니다. [abs|pdf]

[36/89] SGTR+: End-to-end Scene Graph Generation with Transformer

Keywords: scene_graph_generation, generate_scene_graph, bipartite_scene_graph
Abstract: 씬 그래프 생성(SGG)은 그 구성적 특성으로 인해 시각적 이해가 어려운 작업으로 남아 있습니다. 대부분의 기존 연구는 상향식 2단계 또는 포인트 기반의 1단계 접근 방식을 채택하고 있는데, 이는 종종 시간 복잡성이 높거나 최적이 아닌 설계로 인해 어려움을 겪습니다. 본 연구에서는 앞서 언급한 문제를 해결하기 위해 이분 그래프 구성 문제로 공식화하여 새로운 SGG 방법을 제안합니다. 위와 같은 문제를 해결하기 위해 본 논문에서는 엔티티 및 엔티티 인식 술어 제안 집합을 생성하기 위한 트랜스포머 기반의 엔드투엔드 프레임워크를 생성하고, 관계 삼중 항을 형성하기 위해 방향이 지정된 에지를 추론합니다. 또한 엔티티 인식 구조를 기반으로 이분법적 장면 그래프의 연결성을 추론하는 그래프 어셈블리 모듈을 설계하여 엔드투엔드 방식으로 장면 그래프를 생성할 수 있도록 합니다. 또한, 이분법 그래프 어셈블리 패러다임을 기반으로 엔티티 인식 모델링의 효율성과 그래프 어셈블리의 최적화 안정성 문제를 해결하기 위한 새로운 기술 설계를 제안합니다. 향상된 엔티티 인식 설계가 적용된 이 방법은 최적의 성능과 시간 복잡도를 달성합니다. 광범위한 실험 결과에 따르면, 우리의 설계는 세 가지 까다로운 벤치마크에서 최첨단 또는 이와 유사한 성능을 달성할 수 있으며, 대부분의 기존 접근법을 능가하고 추론의 효율성이 더 높습니다. 코드 사용 가능: 이 https URL [abs|pdf]

[37/89] Enhancing Next Destination Prediction: A Novel LSTM Approach Using Real-World Airline Data

Keywords: prediction_travelers_destinations, advancing_destination_prediction, destination_prediction_transportation
Abstract: 현대의 교통 산업에서 여행자의 다음 목적지를 정확하게 예측하는 것은 고객 만족과 타겟 마케팅 등 다양한 이점을 제공합니다. 이 연구는 여행 데이터의 순차적 패턴과 의존성을 포착하여 개별 여행자의 미래 목적지를 정확하게 예측할 수 있는 정밀한 모델을 개발하는 데 중점을 둡니다. 이를 위해 교통업계의 목적지 예측을 위해 장단기 기억(LSTM) 기반의 슬라이딩 윈도우 접근법을 적용한 새로운 모델 아키텍처를 제안합니다. 실험 결과는 다양한 데이터 크기와 성능 지표에 걸쳐 제안된 모델이 만족스러운 성능과 높은 점수를 달성했음을 보여줍니다. 이 연구는 목적지 예측 방법을 발전시켜 기업이 역동적인 여행 환경에서 개인화된 추천을 제공하고 고객 경험을 최적화하는 데 기여할 수 있습니다. [abs|pdf]

[38/89] Deep Learning Based Simulators for the Phosphorus Removal Process Control in Wastewater Treatment via Deep Reinforcement Learning Algorithms

Keywords: reinforcement_learning_drl, learning_control_policies, learning_control
Abstract: 인 제거는 한정된 자원에 대한 의존도를 줄이기 위해 폐수 처리에서 매우 중요합니다. 심층 강화 학습(DRL)은 시행착오를 통해 제어 정책을 학습함으로써 폐수 처리장의 프로세스를 비롯한 복잡하고 비선형적인 시스템을 최적화할 수 있는 머신러닝 기법입니다. 하지만 정확한 시뮬레이터가 필요하기 때문에 화학 및 생물학적 공정에 DRL을 적용하는 것은 어려운 일입니다. 이 연구에서는 인 제거 공정을 식별하기 위해 6개의 모델을 학습시키고 이를 사용하여 DRL 환경을 위한 시뮬레이터를 만들었습니다. 모델은 높은 정확도(97% 이상)를 달성했지만, 불확실성과 부정확한 예측 동작으로 인해 더 긴 기간 동안 시뮬레이터로서의 성능이 제한되었습니다. 모델 예측의 복합 오차가 이 문제의 원인 중 하나로 확인되었습니다. 프로세스 제어를 개선하기 위한 이 접근 방식에는 복잡한 시스템 모델링이나 매개변수 추정 없이 충분한 과거 기간을 가진 감독 제어 및 데이터 수집(SCADA) 시스템의 데이터를 사용하여 DRL 알고리즘을 위한 시뮬레이션 환경을 구축하는 것이 포함됩니다. [abs|pdf]

[39/89] Dynamic Layer Tying for Parameter-Efficient Transformers

Keywords: deep_transformer_networks, deep_transformer, parameters_deep_transformer
Abstract: 딥 트랜스포머 네트워크에서 훈련 가능한 파라미터의 수를 줄이기 위해 강화 학습을 사용하여 훈련 중에 레이어를 동적으로 선택하고 함께 묶습니다. 몇 번의 반복마다 RL 에이전트는 각 레이어 $i$를 독립적으로 훈련할지, 아니면 이전 레이어 $j<i$의 가중치를 복사할지 여부를 결정합니다. 이는 가중치 공유를 용이하게 하고, 훈련 가능한 파라미터의 수를 줄이며, 효과적인 정규화 기법으로도 사용됩니다. 실험적 평가 결과, 이 모델은 난해성 측면에서 기준 트랜스포머 모델보다 약간 더 나은 성능을 보이며 훈련 가능한 파라미터의 수를 크게 줄였습니다. 특히, 훈련 중 메모리 소비량은 기존 훈련 방법보다 최대 1배 이상 적습니다. [abs|pdf]

[40/89] Binary structured physics-informed neural networks for solving equations with rapidly changing solutions

Keywords: physics_informed_neural, neural_networks_bspinns, neural_network_bspinn
Abstract: 딥러닝에 뿌리를 둔 물리 정보 신경망(PINN)은 편미분 방정식(PDE)을 푸는 데 유망한 접근법으로 부상했습니다. PDE에 의해 설명되는 물리적 정보를 피드포워드 신경망에 포함시킴으로써, PINN은 라벨 데이터 없이도 해를 근사화하는 대리 모델로 훈련됩니다. 그럼에도 불구하고 PINN은 뛰어난 성능을 보여 왔지만, 특히 빠르게 변화하는 해를 포함하는 방정식을 다룰 때 어려움을 겪을 수 있습니다. 이러한 어려움에는 느린 수렴, 국소 최소값에 갇히기 쉬운 점, 솔루션 정확도 저하 등이 포함됩니다. 이러한 문제를 해결하기 위해 유니티는 신경망 구성 요소로 이진 구조 신경망(BsNN)을 사용하는 이진 구조 물리학 정보 신경망(BsPINN) 프레임워크를 제안합니다. 완전히 연결된 신경망에 비해 뉴런 간 연결을 줄이는 이진 구조를 활용함으로써, BsPINN은 솔루션의 국소적 특징을 보다 효과적이고 효율적으로 포착하는 데 탁월합니다. 이러한 특징은 빠르게 변화하는 솔루션의 특성을 학습하는 데 특히 중요합니다. 버거스 방정식, 오일러 방정식, 헬름홀츠 방정식, 고차원 푸아송 방정식을 푸는 일련의 수치 실험에서 BsPINN은 PINN에 비해 뛰어난 수렴 속도와 높은 정확도를 보였습니다. 이러한 실험을 통해 BsPINN은 PINN의 히든 레이어 증가로 인한 과도한 평활화 문제를 해결하고, PDE 솔루션의 비평활화로 인한 정확도 저하를 방지할 수 있음을 발견했습니다. [abs|pdf]

[41/89] Enhancements for 5G NR PRACH Reception: An AI/ML Approach

Keywords: receivers_estimate_rapid, random_access_channel, access_channel
Abstract: 랜덤 액세스는 사용자 장비(UE)를 기지국(gNB)에 처음 연결할 때 중요한 단계입니다. UE는 알려진 베이스 시퀀스의 위상 회전에 프리앰블 인덱스(RAPID)를 삽입하여 자신을 식별하고, 이를 물리적 랜덤 액세스 채널(PRACH)로 전송합니다. 또한 PRACH의 신호는 종종 타이밍 어드밴스(TA)라고 하는 전파 지연을 추정할 수 있게 해주며, 이는 UE의 위치에 따라 유도됩니다. 기존 수신기는 상관관계 기반 기법을 사용하여 RAPID와 TA를 추정합니다. 이 논문에서는 AI/ML 모델을 사용하는 대안적인 수신기 접근 방식을 제시하며, 여기에는 RAPID와 TA를 위한 두 개의 신경망이 제안됩니다. 다른 연구와 달리 이 두 모델은 순차적으로 실행되는 것이 아니라 병렬로 실행될 수 있습니다. 시뮬레이션 데이터와 무선 하드웨어 캡처를 모두 사용한 실험을 통해 기존의 상관관계 방식에 비해 제안된 AI/ML 기반 기법의 성능이 향상되었음을 확인할 수 있습니다. [abs|pdf]

[42/89] Deep Learning-based Intraoperative MRI Reconstruction

Keywords: reconstructions_intraoperative_mri, quality_reconstructions_intraoperative, deep_learning_reconstruction
Abstract: 목적: 절제적 뇌종양 수술 중 전향적으로 가속화된 수술 중 자기공명영상(iMRI)을 위한 딥러닝 재구성의 품질을 평가합니다.
재료 및 방법: 뇌 수술 중 절제 부위에 이중 표면 코일을 배치하여 가속화된 iMRI를 수행했습니다. 딥러닝(DL) 모델은 iMRI 프로토콜의 데이터를 모방하기 위해 fastMRI 신경 데이터 세트에 대해 훈련되었습니다. 평가는 2021년 01월 11일2023년 01월 06일 사이에 종양 절제 수술 중 iMRI를 받은 환자 40명의 영상 자료에 대해 수행되었습니다. 기존 압축 센싱(CS) 방법과 훈련된 DL 재구성 방법을 비교 분석했습니다. 두 명의 현직 신경 방사선 전문의와 한 명의 현직 신경외과 전문의가 여러 이미지 품질 지표를 15점 리커트 척도(1=진단 불가, 2=불량, 3=보통, 4=양호, 5=우수)로 블라인드 평가하고 선호하는 재구성 방식에 대해 평가했습니다.
결과: 판독자 1, 2, 3의 경우 각각 33/40, 39/40, 8/40의 사례에서 DL 재구성이 CS 재구성보다 강력하게 선호되었거나 선호도가 높았습니다. 독자 3명 중 2명은 일관되게 DL 재구성에 더 높은 평점을 부여했으며, 독자 1, 2, 3의 경우 각각 72%, 72%, 14%의 사례에서 DL 재구성이 해당 CS 재구성보다 더 높은 점수를 받았습니다. 하지만 DL 재구성은 스트라이핑 아티팩트와 신호 감소와 같은 단점을 보였습니다.
결론: DL은 압축 감각과 비교하여 인지된 공간 해상도, 신호 대 잡음비, 진단 신뢰도, 진단 선명도, 공간 해상도가 동일하거나 개선된 수술 중 MRI의 고품질 재구성을 가능하게 할 수 있는 가능성을 보여주었습니다. [abs|pdf]

[43/89] What the Weight?! A Unified Framework for Zero-Shot Knowledge Composition

Keywords: shot_knowledge_composition, knowledge_composition_strategies, knowledge_adapter_layers
Abstract: 모델에 캡슐화된 지식은 다운스트림 작업에서 최종 성능을 결정하는 핵심 요소입니다. 자연어 처리 분야의 많은 연구는 다양한 유형의 지식을 전용 모듈화된 구조에 저장하고 적용하는 효율적인 방법과 이를 효과적으로 결합하는 방법(예: 추가 매개변수 학습)에 초점을 맞춰 진행되어 왔습니다. 그러나 가능한 옵션이 많음에도 불구하고 이러한 구성과 관련된 메커니즘에 대한 철저한 이해가 부족하기 때문에 어떤 전략을 활용해야 할지는 여전히 불분명합니다. 이러한 연구 격차를 해소하기 위해 하나의 통합된 개념 아래 파라미터 모듈을 선택, 가중치 부여, 결합하기 위한 기존 방식과 몇 가지 새로운 변형을 포괄하는 제로샷 모듈 구성을 위한 새로운 프레임워크를 제안합니다. 도메인 지식과 어댑터 계층의 시나리오에 초점을 맞춘 이 프레임워크는 체계적인 개념 통합을 제공하여 다양한 제로샷 지식 구성 전략에 대한 최초의 종합적인 벤치마킹 연구를 수행할 수 있게 해줍니다. 특히 두 가지 모듈 조합 방법과 다섯 가지 선택 및 가중치 전략의 효과와 효율성을 광범위한 실험 설정에서 테스트합니다. 그 결과 앙상블의 효율성은 물론, 종종 무시되는 간단한 가중치 부여 방법의 위력도 확인할 수 있었습니다. 더 심층적인 분석을 통해 가중치 부여와 상위 k 선택의 역할을 이해하고, 어댑터 구성의 성능을 어느 정도 예측할 수 있음을 보여줄 수 있습니다. [abs|pdf]

[44/89] Evaluation of large language models for assessing code maintainability

Keywords: predicting_maintainability, predicting_maintainability_aspects, code_analysis
Abstract: 오픈 소스 소프트웨어 리포지토리의 가용성이 증가하고 최근 대규모 언어 모델(LLM)을 사용한 코드 분석이 발전함에 따라 이전에는 자동화하기 매우 어려웠던 소프트웨어 엔지니어링 작업을 자동화하는 새로운 작업이 활발히 진행되고 있습니다. 이 백서에서는 LLM에 의해 생성된 코드의 확률을 현재 코드의 확률과 비교하면 잠재적인 품질 문제를 나타낼 수 있다는 가설을 세운 최근의 연구를 살펴봅니다. 10개의 서로 다른 모델(GPT2 및 Llama2 기반)에서 생성된 코드의 교차 엔트로피와 전문가가 평가하고 벤치마크 데이터 세트에서 사용할 수 있는 가독성, 이해 가능성, 복잡성, 모듈화 및 전반적인 유지보수성과 같은 품질 측면 간의 연관성을 조사합니다. 연구 결과에 따르면 논리적 코드 줄 수(LLOC)를 통제했을 때 LLM이 계산한 교차 엔트로피는 클래스 수준에서 유지관리 가능성을 예측하는 지표가 될 수 있습니다(교차 엔트로피가 높을수록 유지관리 가능성이 낮습니다). 그러나 LLOC를 통제하지 않을 경우(예: 작은 클래스와 긴 클래스를 비교하는 경우) 이 관계는 역전됩니다. 또한, LLM의 복잡성은 교차 엔트로피의 범위에 영향을 미치지만(작은 모델일수록 교차 엔트로피의 범위가 넓어지는 경향이 있음), 이는 유지보수성 측면을 예측하는 데 중요한 역할을 합니다. 본 연구는 10개의 서로 다른 사전 학습된 모델(GPT2 및 Llama2 기반)과 슈나핑거 등이 수집한 유지보수성 측면에 국한되어 있습니다. 논리적 코드 라인(LLOC)을 통제할 때 교차 엔트로피는 유지보수성을 예측하는 지표가 됩니다. 그러나 관련 연구에서 토큰이나 짧은 시퀀스 수준에서 교차 엔트로피의 잠재적 유용성이 입증되었지만, 클래스 수준에서는 이 기준만으로는 유지보수성을 예측하기에 불충분할 수 있으며 실제로 이 정보를 최대한 활용하기 위해서는 추가 연구가 필요합니다. [abs|pdf]

[45/89] Deep Neural Network Benchmarks for Selective Classification

Keywords: prediction_selective_classification, prediction_selective, provide_prediction_selective
Abstract: 사회적으로 민감한 여러 업무에 머신러닝 모델의 배포가 증가함에 따라 신뢰할 수 있고 신뢰할 수 있는 예측에 대한 요구가 증가하고 있습니다. 이러한 요구 사항을 충족하는 한 가지 방법은 모델이 오류를 범할 위험이 높은 경우 예측을 하지 않도록 하는 것입니다. 이를 위해서는 모델에 선택 메커니즘을 추가하여 모델이 예측을 제공할 예시를 선택하는 것이 필요합니다. 선택적 분류 프레임워크는 거부된 예측의 비율(즉, 모델이 예측을 하지 않는 예제의 비율)과 선택된 예측에 대한 예측 성능의 향상 간의 균형을 맞추는 메커니즘을 설계하는 것을 목표로 합니다. 여러 가지 선택적 분류 프레임워크가 존재하며, 대부분은 심층 신경망 아키텍처에 의존합니다. 그러나 기존 접근법에 대한 경험적 평가는 여전히 방법과 설정 간의 부분적인 비교에 국한되어 있어 실무자에게 상대적인 장점에 대한 인사이트를 거의 제공하지 못하고 있습니다. 크리테오는 이미지와 표 형식의 데이터를 모두 포함하는 44개의 다양한 데이터 세트에 대해 18개의 기준선을 벤치마킹하여 이러한 격차를 해소합니다. 또한 바이너리 작업과 멀티클래스 작업이 혼합되어 있습니다. 선택적 오류율, 경험적 커버리지, 거부된 인스턴스의 클래스 분포, 분포를 벗어난 인스턴스에서의 성능 등 여러 기준을 사용해 이러한 접근 방식을 평가했습니다. 그 결과, 조사된 기준선 중 확실한 승자는 단 하나도 없으며, 사용자의 목표에 따라 최선의 방법이 달라진다는 것을 알 수 있었습니다. [abs|pdf]

[46/89] Energy-based Automated Model Evaluation

Keywords: model_evaluation_autoeval, evaluation_autoeval, proximal_prediction_pipeline
Abstract: 머신러닝 모델에 대한 기존의 평가 프로토콜은 실제 애플리케이션에는 존재하지 않는 레이블이 지정된 인공지능 추정 테스트 데이터 세트에 크게 의존합니다. 자동화된 모델 평가(AutoEval)는 실측 레이블 없이 테스트 성능의 근사 예측 파이프라인을 형성함으로써 이러한 기존 워크플로우에 대한 대안을 제시합니다. 최근의 성공에도 불구하고 AutoEval 프레임워크는 여전히 과신 문제, 상당한 스토리지 및 컴퓨팅 비용으로 인해 어려움을 겪고 있습니다. 이에 따라 메타 분산 에너지(MDE)라는 새로운 방법을 제안하여 AutoEval 프레임워크의 효율성과 효과성을 높일 수 있도록 합니다. MDE의 핵심은 개별 샘플과 관련된 정보(에너지)에 대한 메타 분포 통계를 수립한 다음, 에너지 기반 학습을 통해 더 매끄러운 표현을 제공하는 것입니다. 또한 MDE를 분류 손실과 연결하여 이론적 인사이트를 제공합니다. 또한 다양한 모달리티, 데이터 세트, 다양한 아키텍처 백본에 걸친 광범위한 실험을 통해 MDE의 유효성을 검증하고 이전 접근 방식과 비교하여 그 우수성을 입증합니다. 또한 대규모 모델과의 원활한 통합, 노이즈가 있거나 불균형한 레이블이 있는 학습 시나리오에 대한 손쉬운 적용을 통해 MDE의 다용도성을 입증합니다. [abs|pdf]

[47/89] Learning Mean Field Games on Sparse Graphs: A Hybrid Graphex Approach

Keywords: graphex_learning, hybrid_graphex_learning, concept_graphex_mfgs
Abstract: 대규모 에이전트 집단의 행동을 학습하는 것은 수많은 연구 분야에서 중요한 과제입니다. 다중 에이전트 강화 학습(MARL) 분야는 이러한 시스템을 해결하는 데 상당한 진전을 이루었지만, 많은 에이전트에 대한 솔루션은 여전히 계산적으로 실현 불가능하고 이론적 보장이 부족한 경우가 많습니다. 평균 필드 게임(MFG)은 이 두 가지 문제를 모두 해결하며, 에이전트 간의 네트워크 구조를 포함하도록 그래프 필드 게임(GMFG)으로 확장할 수 있습니다. 이러한 장점에도 불구하고, 그래프가 밀도가 높은 그래프만 캡처한다는 사실 때문에 GMFG의 실제 적용 가능성은 제한적입니다. 경험적으로 관찰되는 대부분의 네트워크는 전력법 그래프와 같이 어느 정도의 희소성을 보이기 때문에 GMFG 프레임워크는 이러한 네트워크 토폴로지를 포착하기에는 불충분합니다. 따라서 저희는 그래프의 이론적 개념인 그래펙스를 기반으로 하는 새로운 개념의 그래펙스 MFG(GXMFG)를 소개합니다. 그래펙스는 희소 그래프 수열로 제한하는 객체이며, 작은 세계 속성과 같은 다른 바람직한 특징도 가지고 있습니다. 이러한 게임에서 평형을 학습하는 것은 기본 그래프의 풍부하고 희박한 구조로 인해 어렵습니다. 유니티는 이러한 문제를 해결하기 위해 GXMFG 설정에 맞춘 새로운 학습 알고리즘을 설계했습니다. 이 하이브리드 그래프 학습 접근 방식은 시스템이 주로 고도로 연결된 코어와 희박한 주변부로 구성되어 있다는 점을 활용합니다. 시스템을 정의하고 이론적 분석을 제공한 후, 학습 접근 방식을 설명하고 합성 그래프와 실제 네트워크 모두에서 학습 기능을 시연합니다. 이 비교를 통해 GXMFG 학습 알고리즘이 현재의 MARL 및 MFG 방법으로는 정확하게 해결되지 않는 고도로 관련성이 높은 현실적인 학습 문제 클래스로 MFG를 성공적으로 확장했음을 알 수 있습니다. [abs|pdf]

[48/89] Non-Neighbors Also Matter to Kriging: A New Contrastive-Prototypical Learning

Keywords: learning_kriging, supervised_learning_kriging, attributes_representations_neighboring
Abstract: 크리깅은 샘플링되지 않은 지리적 위치의 속성을 공간적 주변 또는 물리적 연결에서 관측된 정보로부터 추정하는 것을 목표로 하며, 이를 통해 센서의 과소 배치로 인한 왜곡된 모니터링을 완화하는 데 도움이 됩니다. 기존 연구에서는 이웃 정보가 관측되지 않은 대상의 속성을 추정할 수 있는 근거를 제공한다고 가정하고 비이웃 정보는 무시합니다. 그러나 비이웃이 건설적인 정보를 제공할 수도 있고, 이웃이 오해를 불러일으킬 수도 있습니다. 이를 위해 본 논문에서는 크리깅을 위한 '대조-원형' 자기 지도 학습(KCP)을 제안하여 이웃의 가치 있는 정보를 정제하고 비이웃의 정보를 재활용할 수 있도록 합니다. 사전 학습된 패러다임으로, 먼저 강력하고 일반적인 표현을 학습한 다음 표현에서 속성을 복구하는 새로운 표현 관점에서 크리깅 작업을 수행합니다. 이웃 대비 모듈은 대상과 이웃 간의 표현 거리를 좁히고 이웃이 아닌 것은 밀어내는 방식으로 표현을 거칠게 학습하도록 설계되었습니다. 이와 동시에, 교환 예측을 통해 유사한 표현을 식별하는 프로토타입 모듈이 도입되어 잘못된 이웃을 정제하고 이웃 대비 구성 요소에서 유용한 비이웃을 재활용합니다. 결과적으로 모든 이웃과 일부 비이웃이 대상을 추론하는 데 사용되지는 않습니다. 위의 두 모듈이 일반적이고 강력한 표현을 학습할 수 있도록 시공간적 크리깅 그래프 데이터에 데이터 기반 속성 증강과 중심성 기반 토폴로지 증강을 통합하는 적응형 증강 모듈을 설계했습니다. 실제 데이터 세트에 대한 광범위한 실험을 통해 6% 향상된 성능과 탁월한 전송성 및 견고성을 갖춘 KCP의 우수한 성능이 입증되었습니다. 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[49/89] ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation

Keywords: refine_anomaly_segmentation, shot_anomaly_segmentation, anomaly_segmentation_zsas
Abstract: 최근 CLIP 및 SAM과 같은 기본 모델이 제로샷 이상 징후 세분화(ZSAS) 작업에 유망한 성능을 보이고 있습니다. 그러나 CLIP 기반이나 SAM 기반 ZSAS 방법 모두 여전히 무시할 수 없는 주요 단점을 안고 있습니다: 1) CLIP은 주로 여러 입력에 걸친 전역 특징 정렬에 초점을 맞추기 때문에 국부적인 이상 부분의 세분화가 부정확하고, 2) SAM은 적절한 프롬프트 제약 조건 없이 수많은 중복 마스크를 생성하는 경향이 있어 복잡한 후처리 요구 사항을 초래합니다. 이 연구에서는 CLIP과 SAM의 협업 프레임워크인 ZSAS용 ClipSAM을 혁신적으로 제안합니다. CLIP의 시맨틱 이해 기능을 활용하여 이상 징후를 찾아내고 대략적인 세그먼테이션을 수행한 후, 이를 다시 SAM의 프롬프트 제약 조건으로 활용하여 이상 징후 세그먼트 결과를 구체화한다는 것이 ClipSAM의 핵심입니다. 자세히 설명하면, CLIP의 여러 스케일에서 언어와 시각적 특징을 상호 작용하여 이상 위치를 추론하기 위한 중요한 통합 다중 스케일 교차 모드 상호 작용(UMCI) 모듈을 소개합니다. 그런 다음 위치 정보를 다단계 프롬프트로 활용하여 SAM이 계층적 수준의 마스크를 획득하고 이를 병합하는 새로운 다단계 마스크 정제(MMR) 모듈을 설계합니다. 광범위한 실험을 통해 이 접근법의 효과를 검증하여 MVTec-AD 및 VisA 데이터 세트에서 최적의 세분화 성능을 달성했습니다. [abs|pdf]

[50/89] Integrating Human Expertise in Continuous Spaces: A Novel Interactive Bayesian Optimization Framework with Preference Expected Improvement

Keywords: interactive_machine_learning, interactive_bayesian_optimization, interactive_bayesian
Abstract: 대화형 머신 러닝(IML)은 인간의 전문 지식을 머신 러닝 프로세스에 통합하고자 합니다. 그러나 대부분의 기존 알고리즘은 상태 공간 및/또는 작업 공간이 불연속적인 값으로 제한되어 있기 때문에 실제 시나리오에 적용할 수 없습니다. 또한, 기존의 모든 방법의 상호 작용은 여러 제안 중 하나를 결정하는 것으로 제한됩니다. 따라서 베이지안 최적화(BO)를 기반으로 한 새로운 프레임워크를 제안합니다. 대화형 베이지안 최적화(IBO)는 머신러닝 알고리즘과 인간 간의 협업을 가능하게 합니다. 이 프레임워크는 사용자 선호도를 파악하고 사용자가 직접 전략을 수립할 수 있는 인터페이스를 제공합니다. 또한, 사용자 선호도에 대한 확률적 모델을 사용하여 시스템의 효율성을 개선하기 위해 새로운 수집 기능인 선호도 기대 개선(PEI)을 통합했습니다. 이러한 접근 방식은 기계가 인간의 전문 지식을 활용할 수 있도록 보장하여 보다 조율되고 효과적인 학습 프로세스를 목표로 합니다. 이 작업 과정에서 우리는 이 방법을 시뮬레이션과 프랑카 팬더 로봇을 사용한 실제 작업에 적용하여 인간과 로봇의 협업을 보여주었습니다. [abs|pdf]

[51/89] Emergent Cooperation under Uncertain Incentive Alignment

Keywords: cooperation_arise_reinforcement, cooperation_mixed_motive, cooperation_mixed_motives
Abstract: 컴퓨터 에이전트 시스템에서 협력의 출현을 이해하는 것은 효과적인 협력 AI를 개발하는 데 매우 중요합니다. 실제 환경에서 개인 간의 상호작용은 종종 드물고 다양한 인센티브 내에서 발생하며, 부분적으로만 알려진 경우가 많습니다. 이 연구에서는 만남이 드물고 에이전트가 자신의 인센티브와 다른 에이전트의 인센티브가 일치하는지에 대한 불확실성이 존재하는 시나리오에서 강화 학습 에이전트 간에 어떻게 협력이 발생할 수 있는지 살펴봅니다. 이를 위해 유니티는 완전 경쟁, 완전 협력, 혼합 동기 등 다양한 환경에서 에이전트를 훈련합니다. 이러한 유형의 불확실성 하에서 우리는 혼합 동기 환경에서 협력을 촉진하기 위해 문헌에서 제안된 평판 및 내재적 보상과 같은 메커니즘의 효과를 연구합니다. 연구 결과에 따르면 불확실성은 최선의 행동이 될 수 있는 상황에서 에이전트가 협력적 행동에 참여할 수 있는 능력을 크게 저하시키는 것으로 나타났습니다. 이 시나리오에서 효과적인 평판 메커니즘과 내재적 보상을 사용하면 에이전트가 협력 환경에서 거의 최적에 가깝게 행동할 수 있는 능력을 향상시키는 동시에 혼합 동기 환경에서도 협력을 크게 향상시킬 수 있습니다. [abs|pdf]

[52/89] Modeling Resilience of Collaborative AI Systems

Keywords: human_feedback_ai, feedback_ai, robot_collaborating_online
Abstract: 협업형 인공 지능 시스템(CAIS)은 인간과 협력하여 공동의 목표를 달성하기 위해 작업을 수행합니다. CAIS는 학습된 AI 모델을 사용하여 인간과 시스템 간의 상호 작용을 제어하거나, 인간의 상호 작용을 사용하여 온라인 방식으로 인간으로부터 동적으로 학습할 수 있습니다. 인간의 피드백을 통한 온라인 학습에서 AI 모델은 학습 상태에서 시스템 센서를 통해 인간의 상호작용을 모니터링하여 진화하고, 운영 상태에서는 학습을 기반으로 CAIS의 자율 구성 요소를 작동시킵니다. 따라서 이러한 센서에 영향을 미치는 모든 중단 이벤트는 AI 모델의 정확한 의사 결정 능력에 영향을 미치고 CAIS 성능을 저하시킬 수 있습니다. 따라서 CAIS 관리자는 시스템 성능을 자동으로 추적하여 이러한 중단 이벤트 발생 시 CAIS의 복원력을 파악하는 것이 무엇보다 중요합니다. 이 백서에서는 시스템에 장애 이벤트가 발생했을 때 CAIS 성능을 모델링하는 새로운 프레임워크를 제공합니다. 이 프레임워크를 통해 CAIS의 성능 진화 모델을 소개합니다. 이 모델에는 시스템에 필요한 복원력을 달성하기 위한 의사 결정 과정에서 CAIS 관리자를 지원하기 위한 일련의 조치들이 포함되어 있습니다. 시스템에 장애가 발생했을 때 인간과 온라인으로 협업하는 로봇의 실제 사례 연구를 통해 프레임워크를 테스트했습니다. 이 사례 연구는 우리의 프레임워크가 CAIS에 채택되어 CAIS 활동의 온라인 실행에 통합될 수 있음을 보여줍니다. [abs|pdf]

[53/89] A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments

Keywords: interpretability_illusions, cause_interpretability_illusions, interpretability_illusion
Abstract: 우리는 분산 정렬 탐색(DAS; Geiger 외 2023)과 같은 부분 공간 교환 개입 방법을 검토하고 이러한 방법이 잠재적으로 "해석 가능성 착각"을 유발할 수 있다고 주장하는 Makelov 외(2023)의 최근 논문에 대해 대응합니다. 먼저 "해석 가능성 착시"가 무엇인지에 대한 Makelov 외(2023)의 기술적 개념을 검토한 다음, 직관적이고 바람직한 설명도 이러한 의미에서 착시에 해당할 수 있음을 보여줍니다. 그 결과, '환상'을 발견하는 그들의 방법은 '비환상적'이라고 간주되는 설명을 거부할 수 있습니다. 그런 다음 Makelov 등(2023)이 실제로 보는 착각은 그들의 훈련 및 평가 패러다임의 인공물이라고 주장합니다. 끝으로 우리는 그들의 핵심 특징에 동의하지 않지만, Makelov 외(2023)의 사례와 논의가 의심할 여지 없이 해석 가능성 분야를 발전시켰다는 점을 강조합니다. [abs|pdf]

[54/89] MOReGIn: Multi-Objective Recommendation at the Global and Individual Levels

Keywords: multi_objective_recommender, recommender_systems_morss, objective_recommender_systems
Abstract: 다중 목표 추천 시스템(MORS)은 여러 가지(종종 상충되는) 목표를 보장하기 위한 패러다임으로 등장했습니다. MORS는 정확도 외에도 시스템 전체에 대해 정확도 이상의 추가적인 목표를 달성하는 글로벌 수준에서 작동하거나, 각 사용자의 요구에 맞게 추천을 맞춤화하는 개별 수준에서 작동할 수 있습니다. 최첨단 MORS는 두 가지 관점의 공존을 전제로 하지 않고 글로벌 또는 개별 수준에서 작동합니다. 이 연구에서는 글로벌 목표와 개별 목표가 공존하는 경우, MORS가 두 가지 목표를 모두 충족할 수 없음을 보여줍니다. 이 문제를 극복하기 위해 우리는 글로벌 관점과 개별 관점을 모두 보장하면서도 그 효과를 유지할 수 있도록 추천 목록을 조절하는 접근법을 제시합니다. 구체적으로, 개별적인 관점에서는 장르 보정을, 그리고 글로벌 관점에서는 제공자 공정성 문제를 해결합니다. 이 백서와 함께 공개된 두 개의 실제 데이터 세트에서 이러한 접근 방식을 검증합니다. [abs|pdf]

[55/89] LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools

Keywords: dialogue_based_explanations, explanations_form_dialogue, generate_explanations
Abstract: 대화 형식으로 설명을 제공하는 해석성 도구는 일회성 설명이 사용자에게 충분한 정보를 제공하지 못하는 경우가 있기 때문에 사용자의 이해도를 높이는 데 효과적이라는 것이 입증되었습니다. 하지만 현재 대화형 설명을 위한 솔루션은 많은 종속성을 필요로 하고, 설계되지 않은 업무에 쉽게 적용하기 어렵습니다. LLMCheckup은 사용자가 최신 대규모 언어 모델(LLM)의 동작에 대해 채팅할 수 있는 쉽게 액세스할 수 있는 도구를 제공합니다. 기능 속성, 임베딩 기반 유사성, 반증 및 근거 생성을 위한 프롬프트 전략 등 광범위한 설명 가능한 AI(XAI) 도구와 연결하여 LLM이 모든 설명을 스스로 생성하고 미세 조정 없이도 의도 인식을 처리할 수 있도록 지원합니다. LLM (자기) 설명은 후속 질문을 지원하고 제안을 생성하는 대화형 대화로 제공됩니다. LLM체크업은 시스템에서 사용할 수 있는 작업에 대한 튜토리얼을 제공하여 XAI에 대한 다양한 수준의 전문 지식을 가진 개인을 수용하고 다양한 입력 방식을 지원합니다. LLM의 구문 분석 정확도를 크게 향상시키는 다중 프롬프트 구문 분석이라는 새로운 구문 분석 전략을 소개합니다. 마지막으로 사실 확인과 상식적인 질문에 대한 답변 작업을 소개합니다. [abs|pdf]

[56/89] DiffMoog: a Differentiable Modular Synthesizer for Sound Matching

Keywords: modular_synthesizer_comprehensive, audio_synthesis, audio_synthesis_machine
Abstract: 이 백서에서는 상용 악기에서 흔히 볼 수 있는 포괄적인 모듈 세트를 갖춘 차별화 가능한 모듈형 신디사이저인 DiffMoog를 소개합니다. 차별화가 가능하기 때문에 신경망에 통합하여 자동화된 사운드 매칭을 통해 주어진 오디오 입력을 복제할 수 있습니다. 특히 DiffMoog는 변조 기능(FM/AM), 저주파 발진기(LFO), 필터, 엔벨로프 셰이퍼 및 사용자가 맞춤형 신호 체인을 생성할 수 있는 기능을 지원합니다. DiffMoog와 엔드투엔드 사운드 매칭 프레임워크로 구성된 오픈 소스 플랫폼을 소개합니다. 이 프레임워크는 새로운 신호 체인 손실과 사용자 정의 모듈식 아키텍처를 기반으로 출력을 자체 프로그래밍하는 인코더 네트워크를 활용하여 DiffMoog 파라미터를 예측합니다. 또한 차별적인 합성을 통해 사운드 매칭에 대한 인사이트와 교훈을 제공합니다. 강력한 사운드 기능과 총체적인 플랫폼을 결합한 DiffMoog는 오디오 합성 및 머신 러닝 연구를 촉진하는 최고의 자산입니다. [abs|pdf]

[57/89] Can Large Language Models Write Parallel Code?

Keywords: parallel_code_generation, code_generation_performance, language_models_generate
Abstract: 대규모 언어 모델은 소프트웨어 개발에 점점 더 널리 사용되는 도구가 되고 있습니다. 소스 코드를 모델링하고 생성하는 능력은 코드 완성, 요약, 번역, 조회 등 다양한 맥락에서 입증되었습니다. 하지만 더 복잡한 작업을 위한 코드를 생성하는 데는 어려움을 겪는 경우가 많습니다. 이 백서에서는 병렬 코드를 생성하는 최첨단 언어 모델의 기능을 살펴봅니다. 언어 모델의 병렬 코드 생성 능력을 평가하기 위해 420개의 태스크 세트로 구성된 벤치마크인 PCGBench를 제안하고, 이러한 태스크에 대한 여러 최신 오픈 소스 및 클로즈드 소스 언어 모델의 성능을 평가합니다. 병렬 코드 생성 성능을 비교하기 위한 새로운 메트릭을 도입하고 이를 사용하여 다양한 병렬 프로그래밍 모델과 계산 문제 유형에서 각 LLM이 얼마나 잘 작동하는지 살펴봅니다. [abs|pdf]

[58/89] Efficient Constrained $k$-Center Clustering with Background Knowledge

Keywords: constraint_sets_clustering, center_based_clustering, algorithm_constrained_center
Abstract: 센터 기반 클러스터링은 이론과 실무 모두에서 상당한 연구적 관심을 끌고 있습니다. 많은 실제 애플리케이션에서 입력 데이터에는 클러스터링 결과를 개선하는 데 사용할 수 있는 배경 지식이 포함되어 있는 경우가 많습니다. 이 작업에서는 널리 채택된 $k$-센터 클러스터링을 기반으로 하여 입력 배경 지식을 필수 연결(ML) 및 연결 불가(CL) 제약 조건 집합으로 모델링합니다. 그러나 $k$-센터를 포함한 대부분의 클러스터링 문제는 본질적으로 $NP$-하드이며, 더 복잡한 제약 조건의 변형은 근사치 및 계산 장벽이 심해 적용 가능성을 크게 제한하는 것으로 알려져 있습니다. 역지배 집합, 선형 프로그래밍(LP) 적분 다면체, LP 이중성을 포함한 일련의 기술을 사용하여 가능한 최상의 비율인 2를 갖는 제약된 $k$ 중심에 대한 최초의 효율적인 근사 알고리즘에 도달했습니다. 또한 경쟁 기준 알고리즘을 구축하고 다양한 실제 데이터 세트에서 이들과 비교하여 근사 알고리즘을 경험적으로 평가합니다. 이 결과는 이론적 결과를 검증하고 클러스터링 비용, 클러스터링 품질, 실행 시간 측면에서 우리 알고리즘의 큰 장점을 보여줍니다. [abs|pdf]

[59/89] DAFA: Distance-Aware Fair Adversarial Training

Keywords: fair_adversarial_training, aware_fair_adversarial, fair_adversarial
Abstract: 표준 훈련에서 클래스 간의 정확도 격차는 적대적 훈련 중에 증폭되는데, 이를 강력한 공정성 문제라고 합니다. 기존 방법론은 어려운 클래스의 성능을 향상시키기 위해 쉬운 클래스에 대한 모델의 성능을 희생하여 강력한 공정성을 향상시키는 것을 목표로 했습니다. 그러나 적대적 공격이 가해지면 최악의 클래스에 속한 샘플에 대한 모델의 예측 대부분이 쉬운 클래스가 아닌 최악의 클래스와 유사한 클래스에 편향되는 것을 관찰했습니다. 이론적 및 실증적 분석을 통해 클래스 간 거리가 멀어질수록 강력한 공정성이 저하된다는 사실을 입증했습니다. 이러한 인사이트에 착안하여 클래스 간의 유사성을 고려하여 강력한 공정성을 확보하는 거리 인식 공정 적대적 훈련(DAFA) 방법론을 도입했습니다. 특히, 이 방법은 각 클래스에 별개의 손실 가중치와 적대적 마진을 할당하고 이를 조정하여 유사한 클래스 간의 견고성 균형을 유도합니다. 다양한 데이터 세트에 대한 실험 결과에 따르면 이 방법은 평균 강건성 정확도를 유지할 뿐만 아니라 최악의 강건성 정확도를 크게 개선하여 기존 방법에 비해 강건성 공정성이 현저히 개선되었음을 보여줍니다. [abs|pdf]

[60/89] BiTA: Bi-Directional Tuning for Lossless Acceleration in Large Language Models

Keywords: language_models_llms, large_language_models, autoregressive_generation_draft
Abstract: 대규모 언어 모델(LLM)은 일반적으로 추론 중에 자동 회귀 생성을 사용하므로 메모리 대역폭이 많이 필요하고 결과적으로 지연 시간이 길어집니다. 이러한 비효율성을 완화하기 위해 간소화된 반자동 회귀 생성 및 초안 검증을 통해 LLM의 속도를 높이는 혁신적인 방법인 무손실 가속을 위한 양방향 튜닝(BiTA)을 소개합니다. 신속한 튜닝의 개념에서 영감을 얻은 유니티는 반자동 회귀 생성 기능을 위한 양방향 튜닝이라는 매개변수 효율적 설계로 LLM을 향상시킵니다. 효율적인 트리 기반 디코딩을 사용하는 이 모델은 초안 후보 생성 및 검증을 병렬로 수행하여 그리티 샘플링 하에서 자동 회귀 모델과 동일한 출력을 보장합니다. BiTA는 경량 플러그인 모듈로, 추가 지원 모델이나 상당한 추가 메모리 비용 없이도 기존 LLM의 추론 효율을 원활하게 향상시킵니다. 제안된 BiTA를 적용한 LLaMA-2-70B-Chat은 MT-Bench 벤치마크에서 2.7배의 속도 향상을 달성했습니다. 광범위한 실험을 통해 이 방법이 최첨단 가속 기술을 능가하는 것으로 확인되었습니다. [abs|pdf]

[61/89] Detecting and recognizing characters in Greek papyri with YOLOv8, DeiT and SimCLR

Keywords: recognize_individual_characters, detection_recognition_greek, characters_facsimile_images
Abstract: 파피루스 사본의 팩스 이미지에서 개별 문자를 분리하고 인식할 수 있는 능력은 디지털 분석을 위한 풍부한 기회를 제공합니다. 이러한 이유로 제17회 국제 문서 분석 및 인식 컨퍼런스의 일환으로 '파피루스 그리스 문자 검출 및 인식에 관한 ICDAR 2023 대회'가 개최되었습니다. 이 백서에서는 이 대회에 제출한 내용을 설명합니다. 우리는 개별 문자를 감지하고 분류하기 위해 YOLOv8 모델의 앙상블을 사용했으며, 문자 예측을 개선하기 위해 트랜스포머 기반의 DeiT 접근 방식과 자기 지도 학습 방법인 SimCLR을 사용하여 라벨이 없는 대규모 데이터 코퍼스로 훈련된 ResNet-50 모델 등 두 가지 접근 방식을 사용했습니다. 제출작은 42.2%의 평균 정밀도(mAP)로 인식 챌린지에서 우승했고, 51.4%의 평균 정밀도(mAP)로 탐지 챌린지에서 준우승을 차지했습니다. 유니온 임계값 0.5를 초과하는 보다 완화된 교차점에서는 검출과 분류 모두에서 가장 높은 평균 평균 정밀도와 평균 평균 리콜 결과를 달성했습니다. 저희는 접근 방식의 유용성을 설명하기 위해 옥시린추스 파피루스의 4,500개 이상의 이미지에 대해 예측 파이프라인을 실행했으며, 그 결과를 다양한 형식으로 공개하고 있습니다. [abs|pdf]

[62/89] Comparing Human-Centered Language Modeling: Is it Better to Model Groups, Individual Traits, or Both?

Keywords: documents_modeling_individual, individual_user_modeling, user_documents_modeling
Abstract: 자연어 처리는 인간의 맥락을 모델에 통합하는 데 있어 진전을 이루었지만, 그룹별 속성(예: 45세 이상)을 사용하는 것이 더 효과적인지, 아니면 개인을 모델링하는 것이 더 효과적인지는 아직 미지수입니다. 그룹 속성은 기술적으로는 더 쉽지만 45세라고 해서 모두 같은 방식으로 글을 쓰는 것은 아닙니다. 이와는 대조적으로 개인 모델링은 각 개인의 복잡한 정체성을 포착합니다. 개인을 모델링하면 보다 개인화된 표현이 가능하지만, 무한한 수의 사용자를 모델링해야 하고 구하기 어려운 데이터가 필요할 수 있습니다. 그룹 속성, 개별 사용자 및 결합된 접근 방식을 통한 인간 컨텍스트 모델링을 비교합니다. 그룹 특성과 개별 특성을 결합하면 사용자의 문서에서 연령 추정이나 성격 평가와 같은 사용자 수준 회귀 작업에 상당한 이점이 있습니다. 개별 사용자를 모델링하면 자세 및 주제 감지와 같은 단일 문서 수준 분류 작업의 성능이 크게 향상됩니다. 또한 개별 사용자 모델링은 사용자의 과거 데이터가 없어도 잘 작동하는 것으로 나타났습니다. [abs|pdf]

[63/89] Assessing and Understanding Creativity in Large Language Models

Keywords: assessing_creativity, assessing_level_creativity, assessment_llm_creativity
Abstract: 자연어 처리 분야에서 대규모 언어 모델(LLM)의 급속한 발전은 점점 더 많은 관심을 끌고 있습니다. LLM은 다양한 작업에서 높은 수준의 창의성을 보여 왔지만 이러한 창의성을 평가할 수 있는 방법은 미흡한 실정입니다. LLM의 창의성을 평가하기 위해서는 인간과의 차이를 고려해야 하며, 정확성과 효율성의 균형을 맞추면서 다차원적으로 측정할 수 있어야 합니다. 본 논문은 LLM의 창의성 수준을 평가하기 위한 효율적인 프레임워크를 구축하는 것을 목표로 합니다. 이 연구는 수정된 토런스 창의적 사고력 테스트를 적용하여 유창성, 유연성, 독창성, 정교성 등 4가지 기준에 중점을 두고 7가지 과제에 걸쳐 다양한 LLM의 창의적 성과를 평가합니다. 이를 위해 700개의 문항으로 구성된 종합적인 테스트 데이터 세트와 LLM 기반 평가 방법을 개발했습니다. 또한 이 연구에서는 다양한 프롬프트와 역할극 상황에 대한 LLM의 반응에 대한 새로운 분석을 제시합니다. 연구 결과, LLM의 창의성은 주로 독창성에서 떨어지는 반면 정교함에서는 뛰어난 것으로 나타났습니다. 또한 프롬프트의 사용과 모델의 역할극 설정이 창의성에 큰 영향을 미치는 것으로 나타났습니다. 또한 실험 결과에 따르면 여러 LLM 간의 협업이 독창성을 향상시킬 수 있음을 알 수 있습니다. 특히, 이번 연구 결과는 창의성에 영향을 미치는 성격적 특성에 대한 인간의 평가와 LLM 간의 일치된 의견을 보여줍니다. 이 연구 결과는 LLM 디자인이 창의성에 미치는 중대한 영향을 강조하고 인공지능과 인간의 창의성을 연결하여 LLM의 창의성과 잠재적 응용에 대한 통찰력을 제공합니다. [abs|pdf]

[64/89] Unsupervised Learning Method for the Wave Equation Based on Finite Difference Residual Constraints Loss

Keywords: learning_method_wave, wave_equation_based, solving_existing_deep
Abstract: 파동 방정식은 중요한 물리적 편미분 방정식으로, 최근 딥러닝은 이를 푸는 데 있어 기존의 수치적 방법을 가속화하거나 대체할 수 있는 가능성을 보여주었습니다. 그러나 기존의 딥러닝 방법은 높은 데이터 수집 비용, 낮은 학습 효율, 경계 조건에 대한 일반화 능력 부족 등의 문제를 안고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 유한차분 잔류 제약 조건에 기반한 파동 방정식의 비지도 학습 방법을 제안합니다. 본 논문에서는 구조화된 격자 및 유한차분법에 기반한 새로운 유한차분 잔류 제약 조건과 비지도 학습 전략을 구축하여, 컨볼루션 신경망이 데이터 없이도 학습하고 파동의 전방 전파 과정을 예측할 수 있도록 합니다. 실험 결과에 따르면 유한차분 잔차 제약 조건은 물리학 정보 신경망(PINN) 유형의 물리 정보 제약 조건에 비해 더 쉬운 피팅, 낮은 계산 비용, 더 강력한 소스 용어 일반화 기능 등의 장점이 있어 훈련 효율성과 응용력이 더 뛰어나다는 것을 알 수 있습니다. [abs|pdf]

[65/89] Adiabatic Quantum Support Vector Machines

Keywords: quantum_approach_training, quantum_computers_solve, training_times_quantum
Abstract: 단열 양자 컴퓨터는 어려운 최적화 문제(예: 이차 제약 없는 이항 최적화 문제)를 해결할 수 있으며, 머신러닝 모델을 훈련하는 데 매우 적합해 보입니다. 이 백서에서는 서포트 벡터 머신을 훈련하기 위한 단열 양자 접근법을 설명합니다. 양자 접근법의 시간 복잡성이 고전적 접근법보다 훨씬 더 우수하다는 것을 보여줍니다. 다음으로, 5개의 벤치마크 데이터 세트(홍채, 위스콘신 유방암(WBC), 와인, 디지츠, 램벡)에 대해 파이썬의 Scikit-learn 라이브러리를 사용하는 고전적 접근 방식과 양자 접근 방식의 테스트 정확도를 비교합니다. 퀀텀 접근 방식이 기존 접근 방식과 동등한 수준의 정확도를 얻는다는 것을 보여줍니다. 마지막으로, 훈련 데이터 세트의 특징 수와 데이터 포인트 수가 증가함에 따라 양자 접근법과 기존 접근법의 총 훈련 시간을 계산하는 확장성 연구를 수행합니다. 확장성 연구 결과, 특징이 많은(수백만 개) 데이터 세트에서 퀀텀 접근 방식이 기존 접근 방식보다 3.5~4.5배 빠른 속도를 보이는 것으로 나타났습니다. [abs|pdf]

[66/89] Mini-batch Submodular Maximization

Keywords: monotone_decomposable_submodular, decomposable_submodular_function, negative_monotone_decomposable
Abstract: 우리는 일련의 제약 조건 하에서 음이 아닌 모노톤의 분해 가능한 서브 모듈 함수 $F=\sum_{i=1}^N f^i$를 최대화하기 위한 최초의 미니 배치 알고리즘을 제시합니다. 이론과 실제 모두에서 스파시파이어 기반 접근법보다 개선되었습니다. 우리는 실험적으로 우리의 알고리즘이 스파시파이어 기반 접근법에 의해 생성된 솔루션보다 훨씬 우수한 솔루션을 생성하는 것을 관찰했습니다. [abs|pdf]

[67/89] Reinforcement Learning for Graph Coloring: Understanding the Power and Limits of Non-Label Invariant Representations

Keywords: representation_graph_permuting, graph_coloring, graph_permuting
Abstract: 레지스터 할당은 최신 컴파일러에서 가장 중요한 문제 중 하나입니다. 사용자 변수의 수는 사실상 무제한이고 CPU 레지스터의 수는 적기 때문에 충돌 없이 레지스터에 변수를 할당하는 것은 복잡한 작업입니다. 이 작업은 레지스터 할당 문제를 그래프 색칠 문제로 캐스팅하는 방법을 보여줍니다. 파이토치(PyTorch) 및 오픈AI 체육관 환경과 같은 기술을 사용하여 근사 정책 최적화 모델이 그래프 색칠 문제를 해결하는 방법을 학습할 수 있음을 보여줄 것입니다. 또한 그래프의 행렬 표현을 취하고 순열함으로써 그래프의 라벨링이 모델의 성능에 중요하다는 것을 보여줄 것입니다. 그런 다음 이러한 순열 각각에 대한 모델의 효과를 테스트하고 동일한 그래프의 레이블을 다시 지정할 때 모델이 효과적이지 않음을 보여줍니다. 이 논문은 머신러닝 모델이 일관된 성능을 달성하기 위해 그래프의 불변 표현에 레이블을 재정렬해야 할 필요성을 보여주는 데 기여했습니다. [abs|pdf]

[68/89] Exploration and Improvement of Nerf-based 3D Scene Editing Techniques

Keywords: nerf_scene_editing, nerf_3d_scene, scenes_making_nerf
Abstract: NeRF의 고품질 장면 합성 기능은 제안된 지 몇 년 만에 학계에서 빠르게 받아들여져 3D 장면 표현과 합성에 상당한 진전이 있었습니다. 그러나 높은 계산 비용으로 인해 직관적이고 효율적인 장면 편집이 제한되어 장면 편집 분야에서 NeRF의 발전은 많은 과제에 직면해 있습니다. 본 논문에서는 최근 몇 년 동안 장면 또는 객체 편집 분야에서 NeRF에 대한 학자들의 선행 연구를 검토하고, 주로 새로운 합성 장면에서 장면 또는 객체의 모양과 질감을 변경하는 방법을 살펴봅니다; gaN 및 트랜스포머와 같은 잔여 모델과 NeRF의 결합을 통해 실시간 새로운 시점 편집 피드백, 텍스트 합성 3D 장면의 다중 모드 편집, 4D 합성 성능, 빛과 그림자 편집의 심층 탐색을 실현하여 처음에는 복잡한 장면에서 간접 터치 편집 및 세부 표현의 최적화를 달성하는 등 NeRF 장면 편집의 일반화 능력이 더욱 확장되었습니다. 현재 대부분의 NeRF 편집 방법은 터치 포인트와 간접 포인트의 재질에 초점을 맞추고 있지만, 더 복잡하거나 큰 3D 장면을 처리할 때는 정확도, 폭, 효율성, 품질 간의 균형을 맞추기가 어렵습니다. 이러한 과제를 극복하는 것이 향후 NeRF 3D 씬 편집 기술의 방향이 될 수 있습니다. [abs|pdf]

[69/89] Multi-agent deep reinforcement learning with centralized training and decentralized execution for transportation infrastructure management

Keywords: reinforcement_learning_drl, agent_deep_reinforcement, deep_reinforcement_learning
Abstract: 대규모 교통 인프라 시스템을 수명 주기 동안 관리하기 위한 다중 에이전트 심층 강화 학습(DRL) 프레임워크를 소개합니다. 이러한 엔지니어링 시스템의 수명 주기 관리는 계산 집약적인 작업으로, 고차원 공간에 존재하는 다양한 불확실성과 제약을 처리하면서 장기적인 위험과 비용을 줄일 수 있는 적절한 순차적 검사 및 유지보수 결정이 필요합니다. 지금까지는 정적 수명 또는 상태 기반 유지보수 방법과 위험 기반 또는 주기적 검사 계획이 이러한 종류의 최적화 문제를 대부분 해결해 왔습니다. 그러나 이러한 접근 방식에서는 최적성, 확장성, 불확실성의 한계가 종종 나타납니다. 이 연구의 최적화 문제는 관측 불확실성, 위험 고려 사항, 제한된 자원이 있는 확률적 순차적 의사 결정 설정에 대한 포괄적인 수학적 기반을 제공하는 제약된 부분 관측 가능한 마르코프 의사 결정 프로세스(POMDP)의 프레임워크에 투영됩니다. 상당히 큰 상태 및 행동 공간을 처리하기 위해 중앙 집중식 훈련 및 분산 실행(CTDE)이 포함된 심층 분산형 다중 에이전트 크리틱(DDMAC) DRL 방법(DDMAC-CTDE라고 함)이 개발되었습니다. 미국 버지니아주의 기존 교통 네트워크의 대표적이고 현실적인 예제 애플리케이션을 통해 DDMAC-CTDE 방법의 성능 강점이 입증되었습니다. 이 네트워크에는 비고정식 성능 저하, 기관에서 부과한 제약 조건, 교통 지연 및 위험 고려 사항이 있는 여러 교량 및 포장 도로 구성 요소가 포함되어 있습니다. 교통 네트워크에 대한 기존의 관리 정책과 비교했을 때, 제안된 DDMAC-CTDE 방법은 훨씬 더 뛰어난 성능을 발휘합니다. 전반적으로 제안된 알고리즘 프레임워크는 실제 제약과 복잡성 하에서 교통 인프라 관리를 위한 거의 최적의 솔루션을 제공합니다. [abs|pdf]

[70/89] Methods and strategies for improving the novel view synthesis quality of neural radiation field

Keywords: rendering_quality_nerf, quality_nerf_images, improve_rendering_quality
Abstract: 신경 방사장(NeRF) 기술은 2D 이미지에서 장면의 3D 암시적 모델을 학습하고 사실적인 신규 뷰 이미지를 합성할 수 있습니다. 이 기술은 업계에서 폭넓은 관심을 받고 있으며 응용 가능성도 높습니다. NeRF 이미지의 렌더링 품질을 개선해야 한다는 문제에 대응하여 지난 3년 동안 많은 연구자들이 렌더링 품질을 개선하기 위한 다양한 방법을 제안했습니다. 최신 관련 논문을 분류 및 검토하고, 품질 개선의 기술적 원리를 분석하며, 품질 개선 방법의 향후 발전 방향에 대해 논의합니다. 이 연구를 통해 연구자들은 이 분야의 기술 현황과 진화 맥락을 빠르게 이해할 수 있으며, 이는 보다 효율적인 알고리즘 개발과 관련 분야에서의 NeRF 기술 적용을 촉진하는 데 도움이 될 것입니다. [abs|pdf]

[71/89] AdaEmbed: Semi-supervised Domain Adaptation in the Embedding Space

Keywords: supervised_domain_adaptation, semi_supervised_domain, domain_adaptation_ssda
Abstract: 특히 실제 환경에서 레이블이 지정된 데이터가 빈번하게 부족하다는 점을 고려할 때, 반지도 학습 도메인 적응(SSDA)은 컴퓨터 비전에서 중요한 장애물입니다. 이러한 데이터 부족으로 인해 광범위한 데이터 세트에서 학습된 기초 모델이 새로운 도메인에 적용될 때 성능이 저하되는 경우가 많습니다. 유니티가 새롭게 제안한 SSDA 방법론인 AdaEmbed는 이러한 문제를 해결할 수 있는 유망한 솔루션을 제공합니다. 라벨이 지정되지 않은 데이터의 잠재력을 활용하는 AdaEmbed는 공유 임베딩 공간을 학습하여 라벨이 지정된 소스 도메인에서 라벨이 지정되지 않은 대상 도메인으로 지식을 쉽게 전송할 수 있도록 지원합니다. 이 모델은 설정된 임베딩 공간을 기반으로 정확하고 균일한 의사 레이블을 생성함으로써 기존 SSDA의 한계를 극복하여 성능을 크게 향상시킵니다. 이 방법의 효과는 도메인넷, 오피스-홈, VisDA-C와 같은 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 검증되었으며, AdaEmbed는 모든 기준선을 지속적으로 능가하는 성능을 보이며 SSDA의 새로운 기준을 제시했습니다. 간단한 구현과 높은 데이터 효율성을 갖춘 AdaEmbed는 레이블이 지정된 데이터가 부족한 실제 시나리오에 적합한 강력하고 실용적인 솔루션으로 주목받고 있습니다. 이 분야의 추가 연구와 적용을 촉진하기 위해 유니티는 반지도형 도메인 적응을 위한 통합 프레임워크의 코드베이스를 공유하고 있습니다. [abs|pdf]

[72/89] Enhancing In-context Learning via Linear Probe Calibration

Keywords: context_learning_icl, generative_pre_trained, trained_transformer_gpt
Abstract: 컨텍스트 내 학습(ICL)은 생성형 사전 학습 트랜스포머(GPT)와 유사한 모델을 활용하는 자연어 처리를 위한 새로운 패러다임입니다. 이 접근 방식은 문맥 내 데모가 포함된 프롬프트를 사용하여 새로운 쿼리 입력에 해당하는 출력을 생성합니다. 그러나 실제 사례에 ICL을 적용하면 샘플 수에 따라 확장되지 않으며, 다양한 프롬프트 템플릿과 데모 순열에 대한 견고성이 부족합니다. 이 백서에서는 먼저 섀넌 엔트로피에 기반한 새로운 메트릭에 따라 ICL을 사용하는 GPT와 유사한 모델이 신뢰할 수 없는 예측을 초래한다는 것을 보여줍니다. 그런 다음, 이 문제를 해결하기 위해 모델의 출력 확률을 보정하여 신뢰할 수 있는 예측과 향상된 성능을 제공하는 동시에 최소한의 추가 샘플(라벨링된 데이터 샘플 5개)만 필요로 하는 선형 프로브 보정(LinC)이라는 새로운 기법을 제안합니다. LinC는 다양한 벤치마크 데이터 세트에서 GPT 모델의 ICL 테스트 성능을 평균 최대 21%, 경우에 따라 최대 50%까지 크게 향상시키며, 특히 리소스가 부족한 환경에서 PEFT 방법의 성능을 크게 향상시킵니다. 또한 LinC는 예상되는 보정 오류를 낮추고 다양한 라벨 비율, 프롬프트 템플릿 및 데모 순열에 대해 매우 견고합니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[73/89] A Learning-based Declarative Privacy-Preserving Framework for Federated Data Management

Keywords: privacy_preserving_workflow, privacy_accuracy_federated, balance_privacy_accuracy
Abstract: 여러 프라이빗 데이터 사일로에서 연합된 쿼리 처리를 위해 프라이버시와 정확성의 균형을 맞추는 것은 어려운 일입니다. 이 글에서는 차등 프라이버시 확률 경사 하강(DP-SGD) 알고리즘을 사용해 훈련된 딥러닝 모델을 사용해 실제 데이터의 일부를 대체하여 쿼리에 응답하는 새로운 프라이버시 보호 기법을 자동화하는 엔드투엔드 워크플로우를 시연할 것입니다. 저희가 제안한 새로운 선언적 개인정보 보호 워크플로를 통해 사용자는 '어떻게 보호할지' 대신 '어떤 개인정보를 보호할지'를 지정할 수 있습니다. 내부적으로 시스템은 쿼리 모델 변환 계획과 하이퍼 파라미터를 자동으로 선택합니다. 동시에, 제안된 워크플로는 감사/컴플라이언스 및 최적화 목적을 위해 사람이 선택한 개인정보 보호 메커니즘을 검토하고 조정할 수 있도록 합니다. [abs|pdf]

[74/89] Evaluating Roadside Perception for Autonomous Vehicles: Insights from Field Testing

Keywords: performance_roadside_perception, effectiveness_roadside_perception, assess_performance_roadside
Abstract: 도로변 인지 시스템은 교통 안전을 강화하고 자율 주행 차량의 협력 주행을 촉진하는 데 점점 더 중요해지고 있습니다. 급속한 기술 발전에도 불구하고 새롭게 부상하고 있는 이 분야에는 이러한 시스템에 대한 표준화된 평가 방법과 벤치마크가 없다는 주요 과제가 남아 있습니다. 이러한 한계는 서로 다른 시스템의 성능을 효과적으로 평가하고 비교하는 능력을 저해하여 이 중요한 분야의 발전을 제약합니다. 이 백서에서는 도로변 인식 시스템의 성능을 평가하기 위해 특별히 고안된 종합적인 평가 방법론을 소개합니다. 이 방법론은 측정 기법, 측정 지표 선택, 실험적 시험 설계를 포함하며, 모두 실제 현장 테스트를 기반으로 하여 접근 방식의 실제 적용 가능성을 보장합니다.
우리는 다양한 기성 인식 시스템을 평가하기 위해 통제된 테스트 환경인 Mcity에서 방법론을 적용했습니다. 이러한 접근 방식을 통해 현실적인 시나리오에서 각 시스템의 성능을 심층적으로 비교 분석하여 각각의 강점과 한계에 대한 핵심 인사이트를 얻을 수 있었습니다. 이 연구 결과는 업계 표준 벤치마크 및 평가 방법의 개발에 정보를 제공하여 자율 주행 차량용 도로변 인식 시스템 개발 및 배포의 효율성을 향상시킬 수 있습니다. 이 논문이 도로변 인지 시스템의 평가 방법 표준화에 대한 필수적인 담론을 자극하여 이 기술의 지평을 넓힐 수 있기를 기대합니다. 또한, 연구 결과는 학계와 업계 모두에게 최신 인프라 기반 인지 시스템의 기능에 대한 포괄적인 이해를 제공할 것입니다. [abs|pdf]

[75/89] Development of an NLP-driven computer-based test guide for visually impaired students

Keywords: visually_impaired_students, impaired_students_utilizes, support_visually_impaired
Abstract: 최근 몇 년 동안 자연어 처리(NLP) 기술의 발전은 특히 시각 장애 학생(VIS)을 위한 시험 접근성 및 배타성 분야에 혁명을 일으켰습니다. CBT는 수년 전부터 시험을 전자적으로 관리하고, 시험 과정을 더 쉽게 만들고, 더 빠르고 정확한 결과를 제공하고, 응시자에게 더 큰 유연성과 접근성을 제공한다는 측면에서 그 타당성을 입증해 왔습니다. 하지만 시각장애인은 인쇄된 문서를 볼 수 없기 때문에 그 타당성을 느끼지 못했습니다. 따라서 이 백서에서는 시각 장애 학생을 위한 NLP 기반 컴퓨터 기반 시험 가이드를 제시합니다. 이 시스템은 시각장애 학생에게 실시간 지원과 도움을 제공하기 위해 사전 학습된 음성 기술을 사용합니다. 이 시스템은 NLP 기술을 활용하여 텍스트 기반 문제와 관련 옵션을 기계가 읽을 수 있는 형식으로 변환합니다. 그 후 사전 학습된 음성 기술 모델이 변환된 텍스트를 처리하여 VIS가 내용을 이해하고 분석할 수 있도록 합니다. 또한 샘플 오디오 데이터세트 레이블(A, B, C, D, E, F, G)을 사용하여 정확도를 테스트하여 시스템이 예측한 20개의 VIS에서 얻은 음성 녹음과 비교함으로써 이 사전 학습된 모델이 왜곡되지 않았는지 검증하여 정밀도, 재인용률 및 F1 점수에 대한 값을 얻었습니다. 이러한 메트릭은 사전 학습된 모델의 성능을 평가하는 데 사용되며, 평가된 시스템에서 더 나은 성능을 제공할 만큼 충분히 숙련되었음을 나타냅니다. 이 시스템에 채택된 방법론은 실제 인스턴스를 모델링하여 객체를 논의하고 구축하는 객체 지향 분석 및 설계 방법론(OOADM)입니다. [abs|pdf]

[76/89] OCT-SelfNet: A Self-Supervised Framework with Multi-Modal Datasets for Generalized and Robust Retinal Disease Detection

Keywords: selfnet_detecting_eye, self_supervised_robust, self_supervised_pretraining
Abstract: AI의 혁신적인 영향력과 로컬에서 학습된 알고리즘의 개발에도 불구하고 의료 AI에서 멀티모달 데이터로부터 일반화된 학습을 광범위하게 달성하는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 격차는 확장 가능한 의료 AI 솔루션의 실질적인 배포를 방해합니다. 이러한 문제를 해결하기 위해 유니티의 연구는 빛간섭단층촬영(OCT) 이미지를 사용하여 안과 질환을 감지하는 자기 감독형 강력한 머신러닝 프레임워크인 OCT-SelfNet을 개발했습니다. 이 연구에서는 여러 기관의 다양한 데이터 세트를 결합하여 보다 포괄적인 범위의 표현이 가능합니다. 유니티의 방법은 실제 임상 배포를 위한 솔루션을 제공함으로써 자체 감독 사전 훈련과 감독 미세 조정을 SwinV2 백본 기반의 마스크 자동 인코더와 결합하는 2단계 훈련 접근 방식을 사용하여 이 문제를 해결합니다. 서로 다른 인코더 백본, 낮은 데이터 설정, 보이지 않는 데이터 설정 및 증강 효과를 가진 세 가지 데이터 세트에 대한 광범위한 실험 결과, 모든 테스트에서 일관되게 77%를 초과하는 AUC-ROC 성능을 달성하여 기준 모델인 Resnet-50보다 우수한 성능을 보인 반면 기준 모델은 54%를 넘지 못했습니다. 또한, AUC-PR 지표의 경우, 우리가 제안한 방법은 42%를 초과하여 33%에 불과한 기준 모델에 비해 10% 이상 성능이 크게 향상되었음을 보여주었습니다. 이는 우리 접근법의 잠재력에 대한 이해에 기여하고 임상 환경에서의 유용성을 강조합니다. [abs|pdf]

[77/89] Contrastive Learning and Cycle Consistency-based Transductive Transfer Learning for Target Annotation

Keywords: domain_images_pretrained, domain_translation_network, domain_images_transductive
Abstract: 자동 목표 인식(ATR)에 주석을 다는 것은 매우 까다로운 작업으로, 주로 목표 도메인에 레이블이 지정된 데이터를 사용할 수 없기 때문입니다. 따라서 소스 도메인 이미지의 라벨링된 정보를 활용하여 최적의 타깃 도메인 분류기를 구축하는 것이 필수적입니다. 효과적인 ATR 주석을 위해 CycleGAN 기반 비쌍 도메인 번역 네트워크를 통합하는 전이적 전이 학습(TTL) 방법이 이전에 문헌에서 제안된 바 있습니다. 이 방법은 ATR에 대한 큰 잠재력을 보여주지만, 낮은 주석 성능, 높은 프레셰 시작 거리(FID) 점수, 합성 이미지의 시각적 아티팩트 존재로 인해 심각한 어려움을 겪습니다. 이러한 문제를 해결하기 위해 유니티는 현저히 낮은 FID 점수를 달성하는 하이브리드 대비 학습 기반 비쌍 도메인 번역(H-CUT) 네트워크를 제안합니다. 이 네트워크는 주의와 엔트로피를 모두 통합하여 도메인별 영역을 강조하고, 잡음 특징 혼합 모듈을 사용하여 높은 변동성의 합성 네거티브 패치를 생성하며, 변조된 잡음 대비 추정(MoNCE) 손실을 통해 최적의 전송을 사용하여 모든 네거티브 패치에 가중치를 부여하여 성능을 향상시킵니다. 우리가 제안한 대비 학습 및 주기 일관성 기반 TTL(C3TTL) 프레임워크는 두 개의 H-CUT 네트워크와 두 개의 분류기로 구성됩니다. 이 프레임워크는 주기 일관성, MoNCE, 신원 손실을 동시에 최적화합니다. C3TTL에서는 바이제션 매핑을 통해 재구성된 소스 도메인 이미지를 사전 학습된 분류기에 공급하여 최적의 목표 도메인 분류기를 안내하는 두 개의 H-CUT 네트워크가 사용되었습니다. 세 개의 ATR 데이터 세트에 대한 광범위한 실험 분석을 통해 제안된 C3TTL 방법이 민간 및 군용 차량과 선박 표적에 주석을 다는 데 효과적임을 입증했습니다. [abs|pdf]

[78/89] Towards a prioritised use of transportation infrastructures: the case of vehicle-specific dynamic access restrictions to city centres

Keywords: scarce_transport_infrastructure, regulation_urban_mobility, provisioning_transportation_services
Abstract: 대도시의 지방 당국이 직면해야 하는 주요 문제 중 하나는 도시 이동성 규제입니다. 대도시는 사람들의 효율적인 이동과 상품 유통을 위한 수단을 제공해야 합니다. 그러나 교통 서비스 제공은 배기가스 배출량 감소와 보다 건강한 생활 환경 조성과 같은 일반적인 글로벌 목표를 고려해야 하며, 이는 개인의 이익과 항상 일치하지 않을 수 있습니다. 도시 이동성은 일반적으로 이동성을 지원하는 모든 요소를 포함하는 교통 인프라를 통해 제공됩니다. 많은 경우 이러한 인프라 요소의 용량이 실제 수요보다 낮기 때문에 다양한 교통 활동이 이를 사용하기 위해 경쟁합니다. 이 백서에서는 부족한 교통 인프라 요소를 동적으로 우선순위를 정하여 사회의 관점에서 효용이 높은 교통 활동, 즉 오염을 덜 일으키고 사회에 더 많은 가치를 제공하는 활동에 우선적으로 할당해야 한다고 주장합니다. 이 논문에서는 사용 시간을 선험적으로 알 수 없는 시간 제한 요소라고 하는 특정 유형의 교통 인프라 요소의 사용 우선순위를 정하는 일반적인 모델을 정의하고, (i) 사용 가능한 주차 공간의 사용 수준에 따른 도심 내 차량별 동적 접근 제한과 (ii) 도심의 허용 가능한 대기질 수준을 지속적으로 보장하는 두 가지 사용 사례를 통해 그 역학 관계를 설명합니다. 저희는 제안을 평가하기 위해 SUMO 교통 시뮬레이션 도구를 사용하여 몇 가지 실험을 수행했습니다. [abs|pdf]

[79/89] Fine-tuning Large Language Models for Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection

Keywords: llms_text_classification, classification_monolingual_multilingual, text_classification_results
Abstract: SemEval-2024 과제 8은 다양한 언어와 도메인의 다양한 대규모 언어 모델(LLM)에서 기계 생성된 텍스트를 식별하는 과제를 소개합니다. 이 과제는 단일 언어 및 다국어에 대한 이진 분류(서브태스크 A), 다중 클래스 분류(서브태스크 B), 혼합 텍스트 감지(서브태스크 C)의 세 가지 하위 과제로 구성됩니다. 이 백서에서는 서브태스크 A와 B에 초점을 맞춥니다. 각 서브태스크는 훈련, 개발 및 테스트를 위한 세 가지 데이터 세트가 지원됩니다. 이 과제를 해결하기 위해 1) 특징 추출을 위해 자연어 전처리(NLP)와 함께 전통적인 머신 러닝(ML)을 사용하고, 2) 텍스트 분류를 위해 LLM을 미세 조정하는 두 가지 방법이 사용됩니다. 그 결과 트랜스포머 모델, 특히 LoRA-RoBERTa가 기존 ML 방법을 능가하는 것으로 나타났으며, 특히 기계 생성 텍스트를 식별하기 위한 다국어 컨텍스트에서 다수결 투표가 효과적이었습니다. [abs|pdf]

[80/89] GRATH: Gradual Self-Truthifying for Large Language Models

Keywords: generating_truthful_answers, truthfulness_data_optimizes, truthfulness_self_supervised
Abstract: 대규모 언어 모델(LLM)이 실제 애플리케이션에 점점 더 많이 배포됨에 따라 진실성은 가장 중요한 요소입니다. 그러나 기존 LLM은 TruthfulQA와 같은 벤치마크에서 보여준 저조한 성능에서 알 수 있듯이 여전히 진실한 답변과 콘텐츠를 생성하는 데 어려움을 겪고 있습니다. 이 문제를 해결하기 위해 유니티는 LLM의 진실성을 향상시키는 새로운 후처리 방법인 GRATH(GRAdual self-truTHifying)를 제안합니다. GRATH는 도메인 외부의 질문 프롬프트를 활용하여 해당 답변을 생성하고 직접 선호도 최적화(DPO)를 통해 모델을 적응적으로 최적화합니다. 이 과정에서 GRATH는 주석이 달린 답변을 요구하지 않고 자기 감독 방식으로 진실성을 학습합니다. 특히 GRATH는 먼저 LLM 자체에 질문과 정답 및 오답을 포함하는 쌍별 진실성 학습 데이터를 생성합니다. 그런 다음 DPO를 사용하여 모델을 미세 조정하여 답변 쌍 간의 차이를 학습합니다. 그 후 GRATH는 진실성 데이터를 반복적으로 개선하고 모델을 최적화하여 모델의 진실성을 점진적으로 개선합니다. 경험적으로, 다양한 7B-LLM을 사용하여 GRATH를 평가하고 벤치마크 데이터 세트에서 비슷하거나 더 큰 크기의 LLM과 비교합니다. 그 결과, GRATH는 다른 핵심 기능을 손상시키지 않으면서도 LLM의 진실성을 효과적으로 개선하는 것으로 나타났습니다. 특히, GRATH는 MC1 정확도가 54.71%, MC2 정확도가 69.10%로, Llama2-Chat-70B와 같은 대규모 모델의 정확도를 각각 23.62%, 24.18% 능가하는 등 TruthfulQA에서 최첨단 성능을 달성했습니다. [abs|pdf]

[81/89] Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation

Keywords: relational_reasoning_trajectory, reasoning_trajectory_prediction, prediction_social_robot
Abstract: 소셜 로봇 내비게이션은 일상 생활의 다양한 맥락에서 유용할 수 있지만 안전한 인간-로봇 상호작용과 효율적인 궤적 계획이 필요합니다. 다중 에이전트 상호 작용 시스템에서 쌍별 관계 모델링은 널리 연구되어 왔지만, 대규모 그룹 단위의 활동을 포착하는 능력은 제한적입니다. 이 논문에서는 동적으로 진화하는 관계 구조를 명시적으로 추론하는 체계적인 관계 추론 접근법을 제안하고, 다중 에이전트 궤적 예측 및 소셜 로봇 내비게이션에 대한 효과를 입증합니다. 노드 쌍(즉, 에이전트) 사이의 에지뿐만 아니라 여러 노드를 적응적으로 연결하는 하이퍼에지를 추론하여 비지도 방식으로 그룹 단위의 추론을 가능하게 하는 방법을 제안합니다. 우리의 접근 방식은 동적으로 진화하는 관계 그래프와 하이퍼그래프를 추론하여 관계의 진화를 포착하고, 궤적 예측기가 미래 상태를 생성하는 데 사용합니다. 한편, 학습된 관계의 선명도와 희소성, 관계 진화의 평활성을 정규화하여 학습 안정성과 모델 성능을 향상시키는 방법을 제안합니다. 제안된 접근 방식은 합성 군중 시뮬레이션과 실제 벤치마크 데이터 세트에서 검증됩니다. 실험을 통해 이 접근법이 합리적인 관계를 추론하고 최첨단 예측 성능을 달성한다는 것을 입증합니다. 또한 관계 추론과 궤적 예측을 체계적으로 통합하는 소셜 로봇 내비게이션을 위한 심층 강화 학습(DRL) 프레임워크를 제시합니다. 그룹 기반 군중 시뮬레이션에서 유니티의 방법은 밀집된 대화형 시나리오에서 안전성, 효율성, 사회적 규정 준수 측면에서 가장 강력한 기준선을 큰 차이로 능가하는 성능을 보였습니다. [abs|pdf]

[82/89] The Ethics of Interaction: Mitigating Security Threats in LLMs

Keywords: threats_language_learning, security_threats_language, ethical_repercussions_security
Abstract: 이 백서에서는 언어 학습 모델(LLM)에 대한 보안 위협으로 인해 발생하는 윤리적 문제를 포괄적으로 살펴봅니다. 이러한 복잡한 디지털 리포지토리는 일상 생활에 점점 더 많이 통합되면서 학습 데이터와 데이터 소스의 기밀성을 침해할 수 있는 공격의 주요 표적이 되고 있습니다. 이 백서에서는 이러한 보안 위협이 사회와 개인의 프라이버시에 미치는 미묘한 윤리적 영향에 대해 자세히 살펴봅니다. 프롬프트 인젝션, 탈옥, 개인 식별 정보(PII) 노출, 성적으로 노골적인 콘텐츠, 혐오 기반 콘텐츠 등 5가지 주요 위협을 면밀히 조사하여 단순한 신원 확인을 넘어 심각한 윤리적 결과와 강력한 방어 전략의 시급성을 평가합니다. LLM에 대한 의존도가 높아짐에 따라 이러한 시스템이 윤리적 규범의 범위 내에서 작동하도록 보장해야 할 필요성이 강조되고 있으며, 특히 오용 시 심각한 사회적, 개인적 피해를 초래할 수 있기 때문에 더욱 그렇습니다. 저희는 개발자와 디자이너가 백엔드 시스템을 선제적으로 강화하도록 안내하고 테스트 단계에서 LLM 챗봇 응답의 윤리적 측면을 면밀히 조사하는 두 가지 목적을 달성할 수 있는 LLM 맞춤형 평가 도구의 개념화 및 개발을 제안합니다. LLM 응답을 도덕적 맥락에서 인간에게 기대되는 응답과 비교함으로써 인공지능의 행동이 더 넓은 사회가 추구하는 윤리적 가치와 어느 정도 일치하는지 파악하고자 합니다. 궁극적으로 이 논문은 LLM이 제시하는 윤리적 문제를 강조할 뿐만 아니라 이러한 시스템에 대한 신뢰를 구축하기 위한 길을 제시합니다. [abs|pdf]

[83/89] Analyzing the Quality Attributes of AI Vision Models in Open Repositories Under Adversarial Attacks

Keywords: features_adversarial, features_adversarial_perturbations, contributing_features_adversarial
Abstract: AI 모델이 빠르게 진화함에 따라 HuggingFace와 같은 오픈 리포지토리에 자주 릴리스됩니다. 이러한 모델을 프로덕션 개발 라이프사이클에 통합하기 전에 품질 보증 검증을 수행하는 것이 필수적입니다. 균형 잡힌 정확도와 컴퓨팅 비용 측면에서 효율성을 평가하는 것 외에도 적대적 공격은 AI 모델의 견고성과 설명 가능성에 대한 잠재적 위협입니다. 한편, XAI는 사후에 입력과 출력의 근사치를 추정하는 알고리즘을 적용하여 기여하는 기능을 식별합니다. 적대적 섭동은 XAI 설명의 유용성을 떨어뜨릴 수 있으므로 추가 조사가 필요합니다. 이 백서에서는 AI 모델 정확도 검증, 벤치마크 섭동을 통한 견고성 평가, 설명의 유용성 비교, 오버헤드 평가 등 다운스트림 평가 작업을 위해 설계된 통합 프로세스를 소개합니다. CNN 기반, 트랜스포머 기반, 하이브리드 아키텍처를 포함한 6가지 컴퓨터 비전 모델, 3가지 유형의 섭동, 5가지 XAI 방법 등 90가지의 고유한 조합을 포함하는 평가 시나리오를 시연합니다. 이 프로세스는 적대적 섭동에 반응하는 식별된 핵심 영역의 관점에서 XAI 방법 중 설명 효용성을 보여줍니다. 이 프로세스는 각 AI 모델의 여러 속성을 보여주는 집계된 결과를 생성합니다. [abs|pdf]

[84/89] Agreement Technologies for Coordination in Smart Cities

Keywords: runtime_agreement_technologies, open_multiagent_systems, coordination_smart_city
Abstract: 오늘날 사회의 많은 과제는 분산형 개방형 시스템으로 해결할 수 있습니다. 지능형 교통, 스마트 에너지 그리드, 참여형 거버넌스 등 스마트 시티의 범주에 속하는 영역에서 특히 그렇습니다. 이러한 도메인을 위한 컴퓨터 애플리케이션을 설계할 때는 소프트웨어 에이전트라고 불리는 이러한 시스템의 요소들이 일반적으로 서로 다른 설계자에 의해 만들어지고 특정 이해관계자를 대신하여 작동한다는 사실을 고려해야 합니다. 또한 이러한 에이전트가 언제 시스템에 들어오고 나갈지, 그리고 새로운 에이전트가 어떤 이해관계를 대변할지는 설계 시점에 알 수 없습니다. 일반적으로 런타임에 일부만 직접 제어할 수 있기 때문에 이러한 시스템에서 조정을 유도하는 것은 특히 까다롭습니다. 합의 기술은 이러한 개방형 멀티에이전트 시스템을 개발하기 위한 도구와 메커니즘의 샌드박스를 말하며, 합의라는 개념을 기반으로 합니다. 이 백서에서는 합의 기술이 스마트 시티 영역에서 조정을 달성하는 데 적합한 수단이라고 주장하며, 몇 가지 실제 애플리케이션의 사례를 통해 이러한 주장을 뒷받침합니다. [abs|pdf]

[85/89] Emergent Dominance Hierarchies in Reinforcement Learning Agents

Keywords: underlies_cooperation_animal, cooperation_animal, agent_reinforcement
Abstract: 최신 강화 학습(RL) 알고리즘은 다양한 작업에서 인간을 능가하는 성능을 발휘할 수 있습니다. 다중 에이전트 강화 학습(MARL) 설정은 추가적인 과제를 제시하며, 다양한 동기를 가진 에이전트 그룹에서 성공적인 협력은 개인 목표와 그룹 목표 사이의 섬세한 균형에 달려 있습니다. 종종 인간의 제도에서 영감을 받은 사회적 관습과 규범은 이러한 균형을 맞추기 위한 도구로 사용됩니다.
이 백서에서는 동물 사회와 인간 사회 모두에서 협력의 근간이 되는 근본적이고 잘 연구된 사회적 관습에 대해 살펴봅니다: 바로 지배 계층입니다.
우리는 지배 계층에 대한 동물행동학 이론을 인공 에이전트에 적용하여 기존의 용어와 정의를 최대한 수정하지 않고 차용합니다. 우리는 명시적인 프로그래밍이나 내재적 보상 없이도 작동하는 RL 에이전트 집단이 지배 계층을 발명하고, 학습하고, 시행하고, 새로운 집단에 전달할 수 있음을 입증합니다. 이렇게 형성된 우위 계층은 닭, 생쥐, 물고기 및 기타 종에서 연구된 것과 유사한 구조를 가지고 있습니다. [abs|pdf]

[86/89] Instructional Fingerprinting of Large Language Models

Keywords: study_llm_fingerprinting, llm_fingerprinting, llm_fingerprinting_form
Abstract: 대규모 언어 모델(LLM)을 처음부터 학습하는 데 드는 막대한 비용 때문에 소유권 인증을 통해 지적 재산을 보호하고 다운스트림 사용자와 개발자가 라이선스 조건(예: 상업적 사용 제한)을 준수하도록 하기 위해 모델에 핑거프린팅을 하는 것이 필수적입니다. 이 연구에서는 초경량 인스트럭션 튜닝의 한 형태인 LLM 핑거프린팅에 대한 파일럿 연구를 소개합니다. 모델 퍼블리셔는 기밀 개인 키를 지정하고 이를 명령어 백도어로 이식하여 해당 키가 존재할 때 LLM이 특정 텍스트를 생성하도록 합니다. 널리 사용되는 11개의 LLM에 대한 결과, 이 접근 방식은 가볍고 모델의 정상적인 동작에 영향을 미치지 않는 것으로 나타났습니다. 또한 퍼블리셔의 오버클레임을 방지하고, 핑거프린트 추측 및 파라미터 효율적 학습에 대한 견고성을 유지하며, MIT 라이선스와 유사한 다단계 핑거프린팅을 지원합니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[87/89] Large-scale Reinforcement Learning for Diffusion Models

Keywords: deep_generative_models, model_bias_images, text_image_diffusion
Abstract: 텍스트-이미지 확산 모델은 고품질 이미지 생성을 위한 인상적인 능력을 입증한 심층 생성 모델의 한 종류입니다. 그러나 이러한 모델은 웹 규모의 텍스트-이미지 훈련 쌍에서 발생하는 암묵적 편향에 취약하며, 관심 있는 이미지의 측면을 부정확하게 모델링할 수 있습니다. 이로 인해 차선의 샘플, 모델 편향, 인간의 윤리와 선호도에 부합하지 않는 이미지가 생성될 수 있습니다. 이 백서에서는 수백만 개의 이미지에 대한 인간의 선호도, 구성성, 공정성 등 다양한 보상 함수 집합에 걸쳐 강화학습(RL)을 사용해 확산 모델을 개선하는 효과적인 확장 가능한 알고리즘을 제시합니다. 이러한 접근 방식이 인간의 선호도에 따라 확산 모델을 조정하는 기존 방법보다 훨씬 뛰어난 성능을 발휘하는 방법을 설명합니다. 또한, 사전 학습된 안정적 확산(SD) 모델을 크게 개선하여 기본 SD 모델보다 사람이 선호하는 샘플을 80.3% 더 많이 생성하는 동시에 생성된 샘플의 구성과 다양성을 모두 개선하는 방법을 설명합니다. [abs|pdf]

[88/89] LLM4EDA: Emerging Progress in Large Language Models for Electronic Design Automation

Keywords: automated_chip_design, electronic_design_automation, fully_automated_chip
Abstract: 무어의 법칙에 따라 최신 칩 설계의 복잡성과 규모가 급속도로 증가하고 있습니다. 전체 칩 설계 프로세스에서 직면하는 문제를 해결하기 위해 전자 설계 자동화(EDA)가 널리 적용되고 있습니다. 그러나 초대형 집적 회로의 발전으로 인해 칩 설계에 많은 시간과 리소스가 소요되고 상당한 사전 전문 지식이 필요해졌습니다. 또한 최적의 솔루션을 찾기 위해서는 중간에서 사람의 제어 활동이 필수적입니다. 시스템 설계 단계에서 회로는 일반적으로 텍스트 형식의 하드웨어 설명 언어(HDL)로 표현됩니다. 최근에는 컨텍스트 이해, 논리 추론, 정답 생성에서 큰 언어 모델(LLM)이 그 능력을 입증하고 있습니다. 회로를 텍스트 형식의 HDL로 표현할 수 있기 때문에 EDA 분야에서 완전 자동화된 칩 설계를 달성하고 전력, 성능 및 면적(PPA)이 개선된 회로를 생성하기 위해 LLM을 활용할 수 있는지 의문을 제기하는 것은 합리적입니다. 본 백서에서는 EDA 분야에서의 LLM 적용 사례를 다음과 같이 분류하여 체계적인 연구를 제시합니다: 1) 어시스턴트 챗봇, 2) HDL 및 스크립트 생성, 3) HDL 검증 및 분석. 또한 로직 합성, 물리 설계, 멀티모달 특징 추출, 회로 정렬 등에 LLM을 적용하는 데 초점을 맞춰 향후 연구 방향을 짚어봅니다. 이 분야의 최신 관련 논문은 다음 링크를 통해 확인할 수 있습니다. [abs|pdf]

[89/89] The Global Impact of AI-Artificial Intelligence: Recent Advances and Future Directions, A Review

Keywords: ai_impact_society, concerns_surrounding_ai, ai_emerging
Abstract: 인공지능(AI)은 경제, 의료, 교통 등 사회의 여러 측면을 변화시킬 수 있는 잠재력을 지닌 떠오르는 기술입니다. 이 글에서는 AI가 전 세계에 미치는 영향에 대한 최근 연구 문헌을 종합하여 잠재적인 혜택과 위험성을 살펴봅니다. 이 글에서는 경제, 윤리, 사회, 보안 및 개인정보 보호, 일자리 대체 측면에 미치는 영향 등 AI의 영향에 대해 중점적으로 다룹니다. 또한 편향성, 보안, 개인정보 침해 문제 등 AI 개발을 둘러싼 윤리적 우려에 대해 논의합니다. AI의 책임감 있는 개발과 배포를 위해서는 정부, 업계, 학계 간의 협력이 필수적입니다. 이 글은 AI가 사회 전반에 미치는 영향에 대한 인식과 이해를 증진하기 위한 대중의 참여와 교육의 중요성을 강조하며 마무리됩니다. [abs|pdf]