프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-10]

다각 2024. 1. 10. 19:01

[1/68] Deep Reinforcement Multi-agent Learning framework for Information Gathering with Local Gaussian Processes for Water Monitoring

Keywords: deep_reinforcement_learning, deep_convolutional_policy, convolutional_policy
Abstract: 수자원을 보존하기 위해서는 수자원의 오염을 지속적으로 모니터링해야 합니다. 본 논문에서는 수질을 효율적으로 모니터링하기 위해 자율 수면 차량으로 구성된 다중 에이전트 시스템을 제안합니다. 자율 수면 차량의 안전한 제어를 위해서는 측정값과 차량 상태에 따라 차량 정책이 작동할 수 있어야 합니다. 본 논문에서는 효과적인 모니터링 정책을 공동으로 얻기 위해 로컬 가우시안 프로세스와 심층 강화 학습을 사용할 것을 제안합니다. 로컬 가우시안 프로세스는 기존의 글로벌 가우시안 프로세스와 달리 이질적인 공간 상관관계로 정보를 정확하게 모델링하여 수질 정보를 보다 정확하게 포착할 수 있습니다. 정보 획득 보상을 통해 이 모델의 평균과 분산에 대한 관측에 대한 결정을 기반으로 하는 딥 컨볼루션 정책이 제안됩니다. 더블 딥 Q러닝 알고리즘을 사용하여 에이전트는 합의 기반 휴리스틱을 통해 안전한 방식으로 추정 오류를 최소화하도록 학습됩니다. 시뮬레이션 결과, 제안된 모델의 평균 절대 오차가 최대 24%까지 개선된 것으로 나타났습니다. 또한 1~3명의 에이전트를 사용한 훈련 결과, 제안된 접근 방식은 수질 변수 모니터링과 조류 번식 모니터링에서 최첨단 접근 방식에 비해 각각 20%와 24% 더 작은 평균 추정 오류를 반환하는 것으로 나타났습니다 [abs|pdf]

[2/68] i-Rebalance: Personalized Vehicle Repositioning for Supply Demand Balance

Keywords: vehicles_vehicle_agent, vehicle_agent, vehicle_agent_provide
Abstract: 차량호출 플랫폼은 수요와 공급의 균형을 맞춰야 하는 과제에 직면해 있습니다. 기존의 차량 재배치 기술은 운전자를 동질적인 행위자로 취급하고, 운전자가 재배치를 준수한다고 가정하여 결정론적으로 차량을 재배치하는 경우가 많습니다. 이 백서에서는 운전자가 고유한 순항 선호도를 가지고 있고 스스로 추천을 받아들일지 여부를 결정할 수 있는 보다 현실적이고 운전자 중심적인 시나리오를 고려합니다. 심층 강화 학습(DRL)을 이용한 개인화된 차량 위치 변경 기법인 i-Rebalance를 제안합니다. i-Rebalance는 실제 운전자 99명이 참여한 현장 사용자 연구를 통해 위치 변경 추천 수락에 대한 운전자의 결정을 추정합니다. 수요와 공급의 균형을 최적화하는 동시에 선호도 만족도를 높이기 위해 i-Rebalance는 이중 DRL 에이전트를 사용한 순차적 재배치 전략을 사용합니다: 그리드 에이전트는 유휴 차량의 재배치 순서를 결정하고, 차량 에이전트는 사전 정의된 순서에 따라 각 차량에 개인화된 추천을 제공합니다. 이러한 순차적 학습 전략은 기존의 공동 행동 방식에 비해 더 작은 행동 공간 내에서 더 효과적인 정책 훈련을 가능하게 합니다. 실제 운행 데이터를 평가한 결과, i-Rebalance는 운전자 수락률을 38.07%, 운전자 총 수입을 9.97% 개선하는 것으로 나타났습니다. [abs|pdf]

[3/68] Towards Explainable Artificial Intelligence (XAI): A Data Mining Perspective

Keywords: explainable_ai_xai, dnn_behavior_descriptors, models_dnn
Abstract: 심층 신경망(DNN)의 복잡성과 투명성 부족을 고려할 때, 이러한 시스템을 더 해석하기 쉽게 만들거나 접근 가능한 용어로 행동을 설명하기 위해 많은 노력을 기울여 왔습니다. 알고리즘과 모델 중심의 관점에 초점을 맞춘 대부분의 리뷰와 달리, 이 연구에서는 데이터 수집, 처리, 분석이 설명 가능한 AI(XAI)에 어떻게 기여하는지 살펴보는 '데이터 중심'의 관점을 취합니다. 우리는 기존 작업을 목적에 따라 세 가지 범주로 분류합니다. 데이터 포인트와 모델 결과의 상관관계를 파악하는 기능 속성과 추론 과정을 의미하는 딥 모델의 해석, 데이터 평가 및 표본 이상과 같은 학습 데이터의 뉘앙스가 의사결정 과정에 미치는 영향을 조사하는 학습 데이터의 영향, 데이터와 모델에서 잠재된 패턴을 발견하고 새로운 지식을 육성하여 사회적 가치와 과학적 발견을 발전시키는 도메인 지식의 인사이트입니다. 특히 이미지, 텍스트, 표 형식의 데이터는 물론 훈련 로그, 체크포인트, 모델, 기타 DNN 행동 설명자 등 다양한 양식의 데이터를 훈련하고 테스트하는 데이터 마이닝 작업에 XAI 방법론을 적용합니다. 이러한 방식으로 이 연구는 데이터 마이닝 방법과 애플리케이션의 관점에서 XAI에 대한 포괄적이고 데이터 중심적인 검토를 제공합니다. [abs|pdf]

[4/68] Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation

Keywords: avatar_creation_models, photorealistic_human_avatars, generative_pipeline_articulated
Abstract: 최근 제너레이티브 디퓨전 모델의 발전으로 이전에는 불가능했던 단일 입력 이미지나 텍스트 프롬프트에서 3D 에셋을 생성할 수 있게 되었습니다. 이 작업에서는 이러한 모델의 품질과 기능을 향상시켜 제어 가능한 사실적인 인간 아바타를 만드는 작업을 목표로 합니다. 이를 위해 3D 모퍼블 모델을 최첨단 멀티뷰 일관 확산 방식에 통합하여 이를 달성했습니다. 유니티는 관절형 3D 모델에 대한 생성 파이프라인의 정확한 컨디셔닝이 단일 이미지에서 새로운 뷰를 합성하는 작업에서 기준 모델 성능을 향상시킨다는 사실을 입증했습니다. 더 중요한 것은 이러한 통합을 통해 얼굴 표정 및 신체 포즈 제어를 생성 프로세스에 원활하고 정확하게 통합할 수 있다는 점입니다. 우리가 아는 한, 우리가 제안한 프레임워크는 보이지 않는 피사체의 단일 이미지에서 완전히 3D로 일관되고 애니메이션이 가능하며 사실적인 인간 아바타를 생성할 수 있는 최초의 확산 모델이며, 광범위한 정량적 및 정성적 평가를 통해 새로운 시각과 새로운 표정 합성 작업 모두에서 기존의 최첨단 아바타 생성 모델에 비해 우리의 접근 방식이 유리하다는 것을 입증했습니다. [abs|pdf]

[5/68] RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

Keywords: sparse_fine_tuning, efficient_fine_tuning, sparse_gpu_kernels
Abstract: 대규모 언어 모델(LLM)의 맥락에서 제한된 계산 및 메모리 예산 하에서 우수한 정확도를 제공할 수 있는 파라미터 효율적 미세 조정(PEFT) 방법을 살펴봅니다. 강력한 주성분 분석(PCA)에서 영감을 얻은 강력한 적응(RoSA)이라는 새로운 PEFT 방법을 소개합니다. 이 방법은 고정된 사전 훈련 가중치 세트 위에 저순위고밀도 구성 요소를 공동으로 훈련하여 전체 미세 조정(FFT) 솔루션의 성능에 효율적으로 근사화합니다. 우수한 성능을 위해 미세 조정이 필요한 초등학교 수학 및 SQL 쿼리 생성과 같은 일련의 까다로운 생성 작업을 수행한 결과, 동일한 매개변수 예산에서 RoSA가 LoRA와 순수 희소 미세 조정 모두에서 더 나은 성능을 발휘하는 것으로 나타났습니다. 유니티는 메모리 및 계산 효율이 높은 훈련을 가능하게 하는 스파스 GPU 커널의 형태로 훈련 알고리즘을 보완하기 위해 RoSA에 대한 시스템 지원을 제공합니다. 해당 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[6/68] Benchmark Analysis of Various Pre-trained Deep Learning Models on ASSIRA Cats and Dogs Dataset

Keywords: deep_learning_image, deep_learning, benchmarking_machine_learning
Abstract: 딥러닝의 가장 기본적인 응용 및 구현으로 이미지 분류가 인기를 얻고 있습니다. 유명 데이터 과학 커뮤니티에서는 머신러닝 알고리즘과 사전 학습된 모델을 벤치마킹할 수 있는 다양한 데이터 세트를 제공하고 있습니다. ASSIRA Cats & Dogs 데이터 세트도 그중 하나이며, 이 연구에서 전반적인 수용도와 벤치마크 표준을 위해 사용되었습니다. 다양한 유형의 옵티마이저와 손실 함수를 사용하여 다양한 사전 훈련된 모델을 비교합니다. 하이퍼파라미터는 모델에서 최상의 결과를 얻기 위해 변경됩니다. 이 접근 방식을 적용함으로써 학습 모델을 크게 변경하지 않고도 더 높은 정확도를 얻을 수 있었습니다. 실험을 실행하기 위해 엔비디아 지포스 GTX 1070이 탑재된 노트북, 엔비디아 지포스 RTX 3080Ti가 탑재된 노트북, 엔비디아 지포스 RTX 3090이 탑재된 데스크톱 등 세 가지 다른 컴퓨터 아키텍처를 사용했습니다. 획득한 결과는 이 데이터 세트에 대해 이전에 수행된 실험보다 정확도 측면에서 우월함을 보여줍니다. 이 실험에서 가장 높은 정확도인 99.65%는 NASNet Large를 사용하여 얻었습니다. [abs|pdf]

[7/68] Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Keywords: linear_attention_efficient, linear_attention_implementation, linear_attention_algorithms
Abstract: 선형 주의는 최근 기존의 소프트맥스 주의에 대한 유망한 대안으로 떠오르고 있는 효율적인 주의 메커니즘입니다. 선형 주의는 선형 계산 복잡성에서 토큰을 처리할 수 있기 때문에 이론적으로는 속도 저하 없이, 즉 고정된 메모리 소비량으로 다양한 길이의 시퀀스에 대해 일정한 훈련 속도를 유지하면서 무제한 길이의 시퀀스를 처리할 수 있습니다. 그러나 누적 합산(cumsum)의 문제로 인해 현재의 선형 주의 알고리즘은 인과적 환경에서 이론적 이점을 입증할 수 없습니다. 이 백서에서는 선형 주의의 이론적 계산적 이점을 실현할 수 있는 최초의 선형 주의 구현인 Lightning Attention-2를 소개합니다. 이를 위해 선형 주의 계산에서 블록 내 구성 요소와 블록 간 구성 요소를 개별적으로 처리하는 타일링 개념을 활용합니다. 구체적으로, 블록 내에는 기존의 주의 계산 메커니즘을 활용하고 블록 간에는 선형 주의 커널 트릭을 적용합니다. 타일링 기법은 GPU 하드웨어를 최대한 활용하기 위해 전진 및 후진 절차 모두에서 채택되었습니다. 유니티는 트리톤에서 알고리즘을 구현하여 IO를 인식하고 하드웨어 친화적으로 만들었습니다. 다양한 모델 크기와 시퀀스 길이에 대해 다양한 실험을 수행합니다. 라이트닝 어텐션-2는 입력 시퀀스 길이에 관계없이 일관된 훈련 및 추론 속도를 유지하며, 다른 어텐션 메커니즘보다 훨씬 빠릅니다. 소스 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[8/68] A novel framework for generalization of deep hidden physics models

Keywords: hidden_physics_models, physics_models_generalize, deep_hidden_physics
Abstract: 전체 시스템 정보를 알 수 없는 시스템을 모델링하는 것은 다양한 엔지니어링 및 산업 분야에서 자주 발생하는 문제로, 관련된 복잡한 물리학을 모두 고려하는 것이 불가능하거나 사용 가능한 리소스의 한계를 유지하기 위해 더 간단한 모델을 고려하기 때문입니다. 딥 히든 물리 모델과 같은 그레이박스 모델링의 최근 발전은 데이터와 물리학을 결합하여 이 문제를 해결합니다. 그러나 대부분의 실제 애플리케이션에서는 시스템 입력과 파라미터가 조금만 변경되거나 도메인 구성이 수정될 때마다 모델을 재학습하면 경제적으로 실행 불가능한 모델이 될 수 있기 때문에 모델 일반화 가능성이 핵심 문제입니다. 이 연구에서는 시스템 입력, 매개변수, 도메인의 변화에 대해 일반화할 수 있는 숨겨진 물리 모델에 대한 새로운 개선점을 제시합니다. 또한 이러한 접근 방식이 시스템 검색에서도 유망하며 변경된 시스템 입력, 매개변수 및 도메인 구성에 대한 숨겨진 물리학을 학습하는 데 도움이 된다는 것을 보여줍니다. [abs|pdf]

[9/68] Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks

Keywords: interpretable_deep_vision, representations_gan, inherently_interpretable_deep
Abstract: 이 논문에서는 시각적 분류 작업에서 모델의 해석 가능성과 성능을 향상시키기 위한 새로운 개념의 학습 프레임워크를 제시합니다. 우리의 접근 방식은 기본 분류기 네트워크에 비지도 설명 생성기를 추가하고 적대적 학습을 활용합니다. 훈련 중에 설명 모듈은 분류기의 잠재 표현에서 시각적 개념을 추출하도록 최적화되고, GAN 기반 모듈은 개념에서 생성된 이미지를 실제 이미지와 구별하는 것을 목표로 합니다. 이러한 공동 훈련 방식을 통해 모델은 내부적으로 학습한 개념을 사람이 해석할 수 있는 시각적 속성과 암묵적으로 일치시킬 수 있습니다. 포괄적인 실험을 통해 이 접근법의 견고함을 입증하는 동시에 일관된 개념 활성화를 생성합니다. 학습된 개념을 분석하여 객체 부분 및 시각적 속성과의 의미적 일치를 보여줍니다. 또한 적대적 훈련 프로토콜의 교란이 분류와 개념 획득 모두에 어떤 영향을 미치는지 연구합니다. 요약하자면, 이 연구는 실제 인식 작업을 위한 신뢰할 수 있는 AI를 개발하기 위한 핵심 요소인 작업과 연계된 개념 표현을 통해 본질적으로 해석 가능한 딥 비전 모델을 구축하기 위한 중요한 단계를 제시합니다. [abs|pdf]

[10/68] Applying Large Language Models API to Issue Classification Problem

Keywords: prioritizing_issue_reports, issue_reports_prioritization, prioritize_issue_reports
Abstract: 소프트웨어 엔지니어링에서는 리소스 할당을 최적화하고 중요한 문제를 신속하게 해결하기 위해 이슈 보고서의 우선순위를 효과적으로 지정하는 것이 중요합니다. 그러나 우선순위 지정을 위해 이슈 보고서를 수동으로 분류하는 작업은 힘들고 확장성이 부족합니다. 또는 많은 오픈 소스 소프트웨어(OSS) 프로젝트에서 이 작업을 위해 자동화된 프로세스를 사용하지만, 적절한 훈련을 위해 상당한 데이터 세트에 의존하고 있습니다. 이 연구에서는 소규모 데이터 세트로 학습할 때에도 이슈 우선순위 지정의 신뢰성을 보장하는 자동화된 접근 방식을 고안하고자 합니다. 우리가 제안하는 방법론은 이 작업을 효율적으로 처리할 수 있는 생성적 사전 훈련 트랜스포머(GPT)의 잠재력을 활용합니다. 이러한 모델의 기능을 활용하여 문제 보고서의 우선순위를 정확하게 지정하고, 신뢰성을 유지하면서 광범위한 학습 데이터의 필요성을 완화할 수 있는 강력한 시스템을 개발하는 것이 목표입니다. 저희는 연구를 통해 훈련 데이터 세트를 줄이면서 이슈 리포트에 정확하게 라벨을 지정하고 우선순위를 지정하는 신뢰할 수 있는 GPT 기반 접근 방식을 개발했습니다. 방대한 데이터 요구 사항에 대한 의존도를 줄이고 몇 번의 미세 조정에 집중함으로써, 이 방법론은 소프트웨어 엔지니어링에서 이슈 우선순위를 지정하는 데 더 접근하기 쉽고 효율적인 솔루션을 제공합니다. 저희 모델은 개별 프로젝트의 이슈 유형을 최대 93.2%의 정확도, 95%의 재인용률, 89.3%의 F1 점수로 예측했습니다. [abs|pdf]

[11/68] DebugBench: Evaluating Debugging Capability of Large Language Models

Keywords: programming_proficiency_debugging, complexity_debugging_notably, debugging_code_generation
Abstract: 대규모 언어 모델(LLM)은 뛰어난 코딩 능력을 입증해 왔습니다. 그러나 프로그래밍 능력의 또 다른 중요한 요소인 LLM의 디버깅 능력은 상대적으로 잘 알려지지 않았습니다. LLM의 디버깅 능력에 대한 이전의 평가는 데이터 유출 위험, 데이터 세트의 규모, 테스트된 버그의 다양성으로 인해 상당한 제약을 받았습니다. 이러한 단점을 극복하기 위해 4,253개의 인스턴스로 구성된 LLM 디버깅 벤치마크인 '디버그벤치'를 소개합니다. 이 벤치마크는 C++, Java, Python의 4가지 주요 버그 범주와 18가지 부차적인 유형을 다룹니다. 디버그벤치를 구축하기 위해 유니티는 LeetCode 커뮤니티에서 코드 스니펫을 수집하고, GPT-4로 소스 데이터에 버그를 이식하며, 엄격한 품질 검사를 거칩니다. 제로 샷 시나리오에서 두 개의 상용 모델과 세 개의 오픈 소스 모델을 평가합니다. 그 결과 (1) GPT-4와 같은 클로즈드 소스 모델은 사람에 비해 디버깅 성능이 떨어지는 반면, Code Llama와 같은 오픈 소스 모델은 합격률 점수를 얻지 못했고, (2) 디버깅의 복잡성은 버그 범주에 따라 현저하게 달라졌으며, (3) 런타임 피드백을 통합하는 것이 디버깅 성능에 분명한 영향을 미치지만 항상 도움이 되는 것은 아니라는 것을 발견했습니다. 그 연장선상에서 LLM 디버깅과 코드 생성을 비교하여 클로즈드 소스 모델의 경우 둘 사이에 강력한 상관관계가 있음을 밝혀냈습니다. 이러한 결과는 디버깅에서 LLM을 개발하는 데 도움이 될 것입니다. [abs|pdf]

[12/68] Agent Alignment in Evolving Social Norms

Keywords: agent_evolution_alignment, agent_evolution, alignment_ai_systems
Abstract: 대규모 언어 모델(LLM)에 기반한 에이전트가 인간의 생산과 생활의 다양한 영역에 점점 더 스며들면서 인간의 가치에 맞게 조정하는 것이 중요해지고 있습니다. 현재 AI 시스템의 정렬은 주로 인간의 개입을 통해 수동적으로 LLM을 정렬하는 데 중점을 두고 있습니다. 하지만 에이전트는 환경 피드백을 받고 스스로 진화하는 특성을 지니고 있어 이러한 LLM 정렬 방식은 부적절합니다. 이에 대응하여 에이전트 진화와 조정을 위한 진화적 프레임워크, 즉 적자생존의 원칙에 따라 에이전트 조정을 진화와 선택의 과정으로 전환하는 진화적 에이전트(EvolutionaryAgent)를 제안합니다. 사회 규범이 지속적으로 진화하는 환경에서는 현재의 사회 규범에 더 잘 적응한 에이전트가 생존 및 확산 확률이 높아지는 반면, 부적절하게 정렬된 에이전트는 시간이 지남에 따라 감소하게 됩니다. 다양한 관점에서 에이전트의 사회적 규범 적응도를 평가한 실험 결과에 따르면 EvolutionaryAgent는 일반적인 작업의 숙련도를 유지하면서 진화하는 사회적 규범에 점진적으로 더 잘 적응할 수 있는 능력이 있음을 보여줍니다. 에이전트의 기반이 되는 다양한 오픈 소스 및 클로즈드 소스 LLM을 대상으로 실시한 효과성 테스트 역시 이러한 접근 방식의 적용 가능성을 입증합니다. [abs|pdf]

[13/68] A Deep Network for Explainable Prediction of Non-Imaging Phenotypes using Anatomical Multi-View Data

Keywords: multi_view_learning, anatomical_multi_view, view_learning
Abstract: 대규모 데이터 세트에는 결과를 개선하기 위해 멀티뷰 학습 방법으로 활용할 수 있는 상호 보완적인 정보를 제공하는 여러 개의 특징 집합 또는 뷰가 포함되어 있는 경우가 많습니다. 우리는 각 뇌의 해부학적 구조가 여러 특징 집합으로 설명되는 해부학적 멀티뷰 데이터를 조사합니다. 특히 확산 MRI의 백질 미세 구조 및 연결성 특징 세트와 구조 MRI의 회백질 면적 및 두께 특징 세트에 중점을 둡니다. 인구통계(연령), 운동(근력), 인지(그림 어휘) 등 비영상 표현형의 예측을 개선하기 위해 멀티뷰 접근법을 적용하는 머신러닝 방법론에 대해 살펴봅니다. 다양한 해부학적 관점을 사용하여 예측 성능을 향상시킬 수 있는 설명 가능한 다중 관점 네트워크(EMV-Net)를 제시합니다. 이 네트워크에서 각각의 개별 해부학적 뷰는 뷰별 특징 추출기에 의해 처리되고 각 뷰에서 추출된 정보는 학습 가능한 가중치를 사용하여 융합됩니다. 그 다음에는 웨이블릿 변환 기반 모듈을 사용하여 여러 뷰에 걸쳐 상호 보완적인 정보를 얻은 다음 뷰별 정보를 보정하는 데 적용합니다. 또한 캘리브레이터는 해부학적 구조의 해석에 대한 중요도를 나타내는 주의도 기반 캘리브레이션 점수를 생성합니다. [abs|pdf]

[14/68] Masked Audio Generation using a Single Non-Autoregressive Transformer

Keywords: text_audio_generation, audio_generation, generated_audio
Abstract: 여러 오디오 토큰 스트림에서 직접 작동하는 마스킹된 생성 시퀀스 모델링 방법인 MAGNeT을 소개합니다. 이전 작업과 달리 MAGNeT은 단일 단계의 비자동 회귀 트랜스포머로 구성됩니다. 훈련 중에는 마스킹 스케줄러에서 얻은 마스킹된 토큰의 범위를 예측하고, 추론 중에는 여러 디코딩 단계를 통해 출력 시퀀스를 점진적으로 구성합니다. 생성된 오디오의 품질을 더욱 향상시키기 위해 사전 학습된 외부 모델을 활용하여 MAGNeT의 예측을 재점수하고 순위를 매기는 새로운 재점수 방법을 도입하여 이후 디코딩 단계에 사용합니다. 마지막으로, 자동 회귀 모델과 비자동 회귀 모델을 융합하여 처음 몇 초는 자동 회귀 방식으로 생성하고 나머지 시퀀스는 병렬로 디코딩하는 하이브리드 버전의 MAGNeT을 살펴봅니다. 텍스트-음악 및 텍스트-오디오 생성 작업에 대한 MAGNeT의 효율성을 입증하고 객관적인 지표와 인간 연구를 모두 고려하여 광범위한 경험적 평가를 수행합니다. 제안된 접근 방식은 평가된 기준선과 비슷하면서도 훨씬 빠릅니다(자동 회귀 기준선보다 7배 빠름). 제거 연구와 분석을 통해 지연 시간, 처리량, 생성 품질을 고려한 자동 회귀 모델링과 비자동 회귀 모델링 간의 장단점을 짚어보고 MAGNeT을 구성하는 각 구성 요소의 중요성에 대해 조명합니다. 샘플은 데모 페이지(https URL)에서 확인할 수 있습니다. [abs|pdf]

[15/68] Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

Keywords: classification_captioning_rely, classification_captioning, image_classification_captioning
Abstract: 이미지 분류 및 캡션과 같은 신경망의 시각 및 시각 언어 애플리케이션은 데이터 수집 프로세스가 까다로운 대규모 주석이 달린 데이터 세트에 의존합니다. 이러한 시간 소모적인 작업은 대규모 데이터 세트의 출현을 저해하고 연구자와 실무자의 선택의 폭을 제한합니다. 따라서 이미지를 수집하고 주석을 달기 위한 보다 효율적인 방법을 모색하고 있습니다. 이전에는 HTML 대체 텍스트에서 캡션을 수집하고 소셜 미디어 게시물을 크롤링했지만, 이러한 데이터 소스에는 노이즈, 희소성, 주관성 등의 문제가 있었습니다. 따라서 데이터의 청결성, 정보성, 유창성이라는 세 가지 기준을 충족하는 상업용 쇼핑 웹사이트를 활용합니다. 공개적으로 이용 가능한 이커머스 웹사이트의 이미지 캡션 쌍 1,500만 개가 포함된 대규모 공개 데이터셋인 Let's Go Shopping(LGS) 데이터셋을 소개합니다. 기존의 일반 도메인 데이터 세트와 비교할 때, LGS 이미지는 전경의 물체에 초점을 맞추고 배경은 덜 복잡합니다. LGS에 대한 실험 결과, 기존 벤치마크 데이터 세트에서 훈련된 분류기는 전자상거래 데이터로 쉽게 일반화되지 않는 반면, 특정 자체 감독 시각적 특징 추출기는 일반화를 더 잘 수행할 수 있는 것으로 나타났습니다. 또한 LGS는 전자상거래에 초점을 맞춘 고품질 이미지와 바이모달 특성으로 인해 비전-언어 바이모달 작업에 유리합니다: 이미지 캡션 모델이 더 풍부한 캡션을 생성하고 텍스트-이미지 생성 모델이 전자상거래 스타일 전송을 달성할 수 있도록 지원합니다. [abs|pdf]

[16/68] Evaluating Language Model Agency through Negotiations

Keywords: negotiation_games_evaluating, exploit_language_models, increasingly_exploit_language
Abstract: 기업, 조직, 정부에서 에이전트와 유사한 행동을 표현하는 언어 모델(LM)의 뛰어난 기능을 점점 더 많이 활용하고 있습니다. LM이 점점 더 많은 자율성을 가진 작업을 수행하기 위해 채택됨에 따라 신뢰할 수 있고 확장 가능한 평가 벤치마크가 절실히 요구되고 있습니다. 현재 주로 정적인 LM 벤치마크는 이러한 동적 애플리케이션을 평가하는 데 적합하지 않습니다. 따라서 저희는 협상 게임의 렌즈를 통해 LM 성능과 조정을 공동으로 평가할 것을 제안합니다. 이러한 공동 작업이 실제 배포 조건을 더 잘 반영하는 동시에 LM의 의사결정 프로세스에 대한 인사이트를 제공한다고 주장합니다. 결정적으로, 협상 게임을 통해 멀티턴 및 모델 간 상호 작용을 연구하고, 복잡성을 조절하고, 평가에서 우발적인 데이터 유출을 방지할 수 있습니다. 저희는 여러 주요 업체의 다양한 협상 게임에 대해 공개적으로 접근 가능한 6개의 LM을 대상으로 셀프플레이와 크로스플레이 성능을 모두 평가한 결과를 보고합니다. 주목할 만한 결과는 다음과 같습니다: (i) 오픈소스 모델은 현재 이러한 과제를 완수할 수 없으며, (ii) 협력적 협상 게임은 어려운 것으로 나타났고, (iii) 가장 강력한 모델이 항상 '승리'하는 것은 아닙니다. [abs|pdf]

[17/68] MERA: A Comprehensive LLM Evaluation in Russian

Keywords: multimodal_evaluation_russian, evaluation_russian_language, russian_language_benchmark
Abstract: 지난 몇 년 동안 AI 연구에서 가장 주목할 만한 발전 중 하나는 언어 모델(LM)의 부상으로 대표되는 기초 모델(FM)의 발전이었습니다. 모델의 규모가 커짐에 따라 LM은 측정 가능한 측면의 향상과 새로운 질적 특징의 개발을 보여줍니다. 그러나 연구자들의 관심과 LM 적용의 급속한 성장에도 불구하고 LM의 기능, 한계 및 관련 위험에 대한 이해는 여전히 더 잘 이루어져야 합니다. 이러한 문제를 해결하기 위해 러시아어를 지향하는 기초 모델을 평가하기 위한 새로운 지침 벤치마크인 개방형 러시아어 아키텍처 멀티모달 평가(MERA)를 소개합니다. 이 벤치마크는 11개 기술 영역의 생성 모델에 대한 21개 평가 과제를 포함하며 데이터 유출을 배제하기 위해 블랙박스 테스트로 설계되었습니다. 이 논문에서는 다른 양식으로 확장할 수 있는 제로 샷 및 소수 샷 고정 명령어 설정에서 FM과 LM을 평가하는 방법론을 소개합니다. 평가 방법론, MERA 평가를 위한 오픈 소스 코드 기반, 제출 시스템을 갖춘 리더보드를 제안합니다. 개방형 LM을 기준선으로 삼아 평가한 결과, 여전히 인간의 수준에 한참 못 미친다는 사실을 발견했습니다. 향후 연구를 안내하고, 획기적인 모델 기능을 예상하며, 평가 절차를 표준화하고, 잠재적인 사회적 단점을 해결하기 위해 MERA를 공개합니다. [abs|pdf]

[18/68] The Critique of Critique

Keywords: score_comprehensiveness_recall, language_description_assessing, comprehensiveness_recall_score
Abstract: 모델 생성 콘텐츠의 품질을 평가하기 위한 자연어 설명인 비평은 대규모 언어 모델(LLM)의 학습, 평가 및 개선에 필수적인 역할을 하는 것으로 입증되었습니다. 그러나 비평 자체의 품질을 평가하는 데는 원칙적인 이해가 부족합니다. 이 논문에서는 정확도 점수인 사실성과 회상도 점수인 포괄성이라는 두 가지 측면에서 비평을 평가하는 프레임워크인 메타비평이라는 비평의 비평을 개척합니다. 정확도와 리콜의 조화 평균을 F1 점수라고 하는 종합 평가로 산출합니다. 신뢰할 수 있는 평가 결과를 얻기 위해 비평을 보다 세밀하게 설명하는 원자 정보 단위(AIU)를 제안합니다. 메타크리틱은 각 AIU를 고려하고 각 AIU의 판단을 종합하여 전체 점수를 산출합니다. 또한, 평가 과정에는 복잡한 추론이 수반되기 때문에 MetaCritique는 각 판단을 뒷받침하는 자연어 근거를 제공합니다. 네 가지 과제(질문 답변, 추론, 수반, 요약)에 걸쳐 300개의 비평(2653개의 AIU)이 포함된 메타평가 데이터 세트를 구축하고, 비교 연구를 수행하여 그 타당성과 효과를 입증했습니다. 실험 결과, 메타크리틱으로 판단한 우수한 비평이 더 나은 개선으로 이어지는 것으로 나타나 메타크리틱을 통해 생성형 인공지능이 실제로 크게 발전할 수 있는 잠재력이 있음을 보여줍니다. 관련 코드와 메타평가 데이터 세트는 이 https URL에서 공개할 예정입니다. [abs|pdf]

[19/68] Exploring Prompt-Based Methods for Zero-Shot Hypernym Prediction with Large Language Models

Keywords: hypernymy_predictions_augmenting, improving_hypernymy_predictions, hypernymy_prediction_using
Abstract: 이 글에서는 대규모 언어 모델(LLM)을 사용하여 하이퍼니미 예측에 대한 제로 샷 접근 방식을 살펴봅니다. 이 연구에서는 텍스트 확률 계산에 기반한 방법을 사용하여 생성된 다양한 프롬프트에 적용합니다. 실험 결과 언어 모델 프롬프트의 효과와 고전적인 패턴 사이에 강력한 상관관계가 있음을 입증했으며, 이는 더 큰 모델로 이동하기 전에 작은 모델을 사용하여 예비 프롬프트를 선택할 수 있음을 나타냅니다. 또한 자동으로 식별된 동의어를 통해 추가 정보로 프롬프트를 보강하여 동의어 예측을 개선하고 하이퍼니미 예측을 개선하기 위한 프롬프트도 살펴봅니다. 상위 개념 예측을 위한 반복적 접근 방식이 개발되어 BLESS 데이터 세트의 품질을 더욱 향상시킵니다(MAP = 0.8). [abs|pdf]

[20/68] TechGPT-2.0: A large language model project to solve the task of knowledge graph construction

Keywords: entity_recognition, named_entity_recognition, entity_recognition_ner
Abstract: 대규모 언어 모델은 다양한 자연어 처리 작업에서 강력한 성능을 발휘해 왔습니다. 이 보고서에서는 NLP 애플리케이션의 명명된 개체 인식(NER) 및 관계 삼중 추출(RTE) 작업을 비롯한 지식 그래프 구축 작업에서 특히 대규모 언어 모델의 기능을 향상시키기 위해 설계된 프로젝트인 TechGPT-2.0을 소개합니다. 또한 중국 오픈 소스 모델 커뮤니티 내에서 연구에 액세스할 수 있는 LLM의 역할도 합니다. 두 개의 7B 대용량 언어 모델 가중치와 긴 텍스트 처리에 특화된 QLoRA 가중치를 제공하며, 특히 TechGPT-2.0은 화웨이의 Ascend 서버에서 훈련됩니다. TechGPT-1.0의 모든 기능을 계승하여 특히 의학 및 법률 분야에서 강력한 텍스트 처리 기능을 발휘합니다. 또한 모델에 새로운 기능을 도입하여 지리, 교통, 조직, 문학 작품, 생물학, 자연과학, 천체, 건축 등 다양한 영역의 텍스트를 처리할 수 있습니다. 또한 이러한 개선 사항을 통해 환각, 답변할 수 없는 쿼리, 긴 텍스트를 처리하는 모델의 숙련도가 강화되었습니다. 이 보고서는 Ascend 서버 디버깅, 명령어 미세 조정 데이터 처리, 모델 트레이닝에 대한 경험을 포함하여 화웨이의 Ascend 서버에 대한 전체 미세 조정 프로세스에 대한 포괄적이고 상세한 소개를 제공합니다. 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[21/68] Optimal Survival Trees: A Dynamic Programming Approach

Keywords: survival_tree_method, predicting_distinct_survival, provide_survival_tree
Abstract: 생존 분석은 과거 데이터를 기반으로 사망 시점 또는 기타 반복되지 않는 단일 사건을 연구하고 예측하지만, 일부 사례의 경우 실제 사망 시점을 알 수 없습니다. 생존 트리는 모집단을 재귀적으로 분할하고 각 리프 노드에서 뚜렷한 생존 분포를 예측함으로써 사람이 이해할 수 있는 간결한 모델에서 복잡한 비선형 관계를 발견할 수 있게 해줍니다. 또한 동적 프로그래밍을 사용하여 최적성 보장이 가능한 최초의 생존 트리 방법을 제공함으로써 휴리스틱의 최적성 갭을 평가할 수 있습니다. 최대 깊이 2까지의 트리를 계산하는 특수 알고리즘을 통해 방법의 확장성을 향상시킵니다. 실험 결과, 이 방법의 실행 시간은 실제 사례에서 일부 휴리스틱을 능가하는 동시에 최신 기술과 유사한 표본 외 성능을 달성하는 것으로 나타났습니다. [abs|pdf]

[22/68] Fighting Fire with Fire: Adversarial Prompting to Generate a Misinformation Detection Dataset

Keywords: misinformation_detection, generating_fake_news, factual_incorrectness_generated
Abstract: 최근 GPT, 바드, 라마 등 대규모 언어 모델(LLM)의 언어 생성 기능에 대한 성공으로 인해 가짜 뉴스 생성 및 잘못된 정보 확산을 통해 대중의 선동과 집단적 증오를 유도하는 데 오용될 수 있다는 우려가 제기될 수 있습니다. 잘못된 정보에 대한 실측 데이터 세트를 개발하는 기존의 방법은 데이터에 주석을 다는 데 많은 수작업이 필요하기 때문에 확장성이 떨어집니다. 이 백서에서는 잘못된 정보를 식별하기 위한 실버 표준 기반 진실 데이터 세트를 생성하는 LLM 기반 접근 방식을 제안합니다. 구체적으로 말하면, 신뢰할 수 있는 뉴스 기사가 주어졌을 때, 우리가 제안하는 접근 방식은 LLM이 원본 기사의 요약 버전을 자동으로 생성하도록 유도하는 것입니다. 우리가 제안한 접근 방식의 프롬프트는 생성된 요약본에서 잘못된 수량, 잘못된 속성 등 특정 유형의 사실적 오류를 생성하는 제어 메커니즘으로 작동합니다. 이 데이터 세트의 유용성을 조사하기 위해 잘못된 정보 탐지 작업을 위해 다양한 지도 모델을 훈련하는 일련의 실험을 수행합니다. [abs|pdf]

[23/68] TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction

Keywords: molecular_property_prediction, precise_prediction_molecular, prediction_molecular_activities
Abstract: 신약 발견과 개발의 성공은 분자 활동과 특성을 정확하게 예측하는 데 달려 있습니다. 인실리코 분자 특성 예측은 놀라운 잠재력을 보여주었지만, 지금까지는 대량의 데이터를 사용할 수 있는 분석에만 제한적으로 사용되어 왔습니다. 이 연구에서는 미세 조정된 대규모 언어 모델을 사용하여 텍스트 정보를 기반으로 한 생물학적 분석과 새로운 자기 지도 학습 접근법을 사용하는 샴 신경망인 Barlow Twins를 통합합니다. 이 아키텍처는 분석 정보와 분자 지문을 모두 사용하여 진정한 분자 정보를 추출합니다. 트윈부스터는 최첨단 제로 샷 학습 작업을 제공하여 눈에 보이지 않는 바이오 분석 및 분자의 특성을 예측할 수 있습니다. 놀랍게도 당사의 인공 지능 파이프라인은 FS-Mol 벤치마크에서 탁월한 성능을 보여줍니다. 이 획기적인 성과는 일반적으로 데이터가 부족한 중요한 물성 예측 작업에 딥러닝을 적용할 수 있음을 보여줍니다. 이 방법은 신약 발견 및 개발에서 활성 분자의 조기 식별을 가속화함으로써 새로운 치료제의 식별을 간소화할 수 있는 잠재력을 가지고 있습니다. [abs|pdf]

[24/68] Combining Embedding-Based and Semantic-Based Models for Post-hoc Explanations in Recommender Systems

Keywords: personalized_recommendations_explanations, explanations_recommendations_embedding, recommendations_embedding_based
Abstract: 데이터가 풍부한 오늘날의 환경에서 추천 시스템은 의사 결정 지원 시스템에서 중요한 역할을 합니다. 추천 시스템은 사용자에게 개인화된 추천과 이러한 추천에 대한 설명을 제공합니다. 임베딩 기반 모델은 널리 사용되고 있음에도 불구하고 해석 가능성이 부족하여 신뢰와 사용자 참여를 저해할 수 있는 경우가 많습니다. 이 백서에서는 임베딩 기반 모델과 시맨틱 기반 모델을 결합하여 추천 시스템에서 사후 설명을 생성하고, 온톨로지 기반 지식 그래프를 활용하여 해석 가능성과 설명 가능성을 개선하는 접근 방식을 제시합니다. 온톨로지는 구조화된 프레임워크 내에서 데이터를 구성함으로써 설명 생성에 필수적인 엔티티 간의 복잡한 관계를 모델링할 수 있게 해줍니다. 추천 시스템의 사후 설명을 위해 임베딩 기반 모델과 시맨틱 기반 모델을 결합하여 의미 있고 이해하기 쉬운 설명을 생성하고, 사용자의 신뢰와 만족도를 높이며, 잠재적으로 이커머스 부문에서 추천 시스템의 채택을 촉진하는 것을 목표로 정의한 프레임워크입니다. [abs|pdf]

[25/68] A Survey on Efficient Federated Learning Methods for Foundation Model Training

Keywords: federated_learning, federated_learning_fl, privacy_preserving_collaborative
Abstract: 연합 학습(FL)은 개인정보를 보호하는 협업 학습을 촉진하기 위해 확립된 기술로 자리 잡았습니다. 하지만 FL에 대한 새로운 접근 방식은 종종 소규모 딥러닝 모델만을 대상으로 그 기여도를 논의합니다. 트랜스포머 모델이 엄청난 성공을 거두면서 다음과 같은 질문이 생겼습니다: FL 애플리케이션에서 기초 모델을 운영하려면 무엇이 필요할까요? FL에서 계산과 통신이 비슷한 시간을 차지하는 경우가 많다는 점을 고려하여, FL 애플리케이션의 계산 및 통신 효율성 방법에 초점을 맞춘 새로운 분류법을 소개합니다. 즉, 이러한 방법은 훈련 시간을 최적화하고 클라이언트와 서버 간의 통신을 줄이는 것을 목표로 합니다. 또한 널리 사용되는 FL 프레임워크의 현황을 살펴보고 FL 연구와 그 밖의 분야에서 기존 접근법을 기반으로 한 미래의 연구 가능성에 대해 논의합니다. [abs|pdf]

[26/68] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

Keywords: video_generation_textual, fidelity_video_generation, video_generation
Abstract: 텍스트 설명에서 고화질의 비디오 생성에 대한 수요가 증가함에 따라 이 분야에 대한 연구가 활발히 진행되고 있습니다. 이 글에서는 텍스트-이미지 모델, 비디오 모션 생성기, 참조 이미지 임베딩 모듈 및 프레임 보간 모듈을 엔드투엔드 비디오 생성 파이프라인에 통합하는 MagicVideo-V2를 소개합니다. 이러한 아키텍처 설계의 이점을 활용하여 MagicVideo-V2는 뛰어난 충실도와 부드러움으로 미학적으로 만족스러운 고해상도 비디오를 생성할 수 있습니다. 대규모 사용자 평가를 통해 런웨이, 피카 1.0, 모프, 문 밸리 및 안정적인 비디오 확산 모델과 같은 주요 텍스트-투-비디오 시스템보다 우수한 성능을 입증했습니다. [abs|pdf]

[27/68] Image classification network enhancement methods based on knowledge injection

Keywords: deep_neural, deep_neural_network, construct_deep_neural
Abstract: 현재의 심층 신경망 알고리즘은 여전히 이미지-라벨 쌍과 같은 종단 간 학습 감독 방식에 머물러 있어 기존 알고리즘으로는 결과의 원인을 설명하기 어렵고 예측 로직의 이해와 분석이 어렵습니다. 현재의 알고리즘은 기존의 인간 지식 정보를 사용하지 않기 때문에 인간의 인지 모델과 일치하지 않아 사람이 사용하기에 적합하지 않습니다. 상기와 같은 문제점을 해결하기 위해, 본 발명은 인간 인지 모델을 사용하여 심층 신경망 훈련 모델을 구성하고, 기존의 인간 지식 정보를 사용하여 심층 신경망 훈련 모델을 구성하는 인간 지식 기반 심층 신경망 훈련 방법을 제공한다. 본 논문에서는 다단계 계층적 심층신경망 아키텍처와 다단계 계층적 심층신경망 프레임워크로 구성된 다단계 계층적 심층학습 알고리즘을 제안합니다. 실험 결과는 제안된 알고리즘이 신경망의 숨겨진 정보를 효과적으로 설명할 수 있음을 보여줍니다. 본 연구의 목표는 지식 주입이 분류 작업에 미치는 영향에 대한 분석을 제공하여 심층 신경망(DNN)의 해석 가능성을 개선하는 것입니다. 이를 위해 지식 데이터와 이미지 분류 데이터가 일치하는 지식 주입 데이터셋을 구축했습니다. 지식 주입 데이터 세트는 본 논문에서 실험을 위한 벤치마크 데이터 세트입니다. 우리의 모델은 다양한 규모에서 숨겨진 레이어의 해석 가능성 및 분류 작업 성능의 향상을 표현합니다. [abs|pdf]

[28/68] Empirical Analysis of Anomaly Detection on Hyperspectral Imaging Using Dimension Reduction Methods

Keywords: feature_selection_effective, hyperspectral_imaging, feature_selection
Abstract: 최근 연구에서는 자외선, 적외선 등 눈에 보이지 않는 파장을 시각화할 수 있는 초분광 이미징(HSI)을 이용해 제품 내 이물 검출을 시도하고 있습니다. HSI의 방대한 이미지 채널을 고려할 때, PCA나 UMAP와 같은 여러 가지 차원 축소 방법을 고려할 수 있지만 다음과 같은 근본적인 한계를 완화할 수는 없습니다: (1) HSI 캡처의 지연 시간. (2) 중요 채널의 설명 능력 저하. 본 논문에서는 앞서 언급한 방법들을 우회하기 위해 이상 징후 탐지 시 채널을 줄이는 방법 중 하나인 HSI를 제안합니다. 특징 추출 방법(예: PCA 또는 UMAP)과 달리 특징 선택은 영향력별로 특징을 분류하고 더 나은 설명력을 보여줄 수 있으므로 작업에 최적화되고 비용 효율적인 분광 카메라를 재설계할 수 있습니다. 합성된 MVTec AD 데이터 세트를 사용한 광범위한 실험 결과를 통해 특징 선택 방법이 이상 징후 감지 성능을 유지하면서 추론 단계에서 특징 추출 기반 접근 방식에 비해 6.90배 빠른 속도를 보인다는 것을 확인했습니다. 결국, 효과적이면서도 빠른 특징 선택의 장점을 확인할 수 있었습니다. [abs|pdf]

[29/68] Estimating Text Similarity based on Semantic Concept Embeddings

Keywords: semantic_concept_embeddings, word_embeddings_semantic, w2v_word_embeddings
Abstract: 사용하기 쉽고 정확도가 높기 때문에 Word2Vec(W2V) 단어 임베딩은 단어, 문장, 전체 문서의 의미적 표현과 의미적 유사성 추정에서 큰 성공을 거두고 있습니다. 하지만 표면 표현에서 직접 추출하기 때문에 인간의 사고 과정을 적절히 표현하지 못하고 매우 모호한 단어에 대해서는 성능이 떨어진다는 단점이 있습니다. 따라서 본 논문에서는 두 가지 단점을 모두 해결할 수 있는 멀티넷 시맨틱 네트워크(SN) 형식주의에 기반한 시맨틱 개념 임베딩(CE)을 제안합니다. 마케팅 타깃 그룹 분포 작업에 대한 평가 결과, 기존의 단어 임베딩과 시맨틱 CE를 결합하면 타깃 그룹 예측의 정확도를 높일 수 있는 것으로 나타났습니다. [abs|pdf]

[30/68] Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation

Keywords: streaming_requires_efficient, predict_transcoding_resolutions, adaptive_video_streaming
Abstract: 적응형 비디오 스트리밍은 이기종 네트워크 조건과 최종 사용자의 요구 사항을 충족하기 위해 효율적인 비트레이트 래더 구성이 필요합니다. 타이틀별로 최적화된 인코딩은 일반적으로 수많은 인코딩 파라미터를 탐색하여 각 비디오에 대한 파레토 최적 작동 지점을 찾습니다. 최근 연구자들은 인코딩 전 오버헤드 감소를 위해 콘텐츠에 최적화된 비트레이트 래더를 예측하려고 시도하고 있습니다. 하지만 기존 방법들은 일반적으로 파레토 전선에서 인코딩 파라미터를 추정하기 때문에 후속 프리인코딩이 필요합니다. 본 논문에서는 효율적인 비트레이트 래더 구성을 위해 미리 설정된 각 비트레이트에서 최적의 트랜스코딩 해상도를 직접 예측하는 방법을 제안합니다. 본 논문에서는 공간-시간적 특징을 포착하고 트랜스코딩 해상도를 예측하기 위해 시간 주의적 게이트 리커런트 네트워크를 다중 작업 분류 문제로 채택합니다. 이를 통해 콘텐츠에 최적화된 비트레이트 래더를 사전 인코딩 없이도 효율적으로 결정할 수 있음을 입증합니다. 이 방법은 1.21%의 약간의 비욘테가드 델타 비율 손실로 실측 비트레이트-해상도 쌍을 잘 근사화하며, 최첨단 고정 래더보다 훨씬 뛰어난 성능을 보입니다. [abs|pdf]

[31/68] IGNITE: Individualized GeNeration of Imputations in Time-series Electronic health records

Keywords: missingness_personalized_data, models_personalized_medicine, missingness_personalized
Abstract: 전자 건강 기록은 개인별 차이에 맞춰 치료가 이루어지는 개인 맞춤형 의료를 추진하는 데 유용한 수단입니다. 이를 위해 많은 데이터 기반 머신러닝 및 통계 모델은 환자의 생리적 및 치료 효과를 연구하기 위해 풍부한 종단적 EHR에 의존합니다. 그러나 종단적 EHR은 드물고 누락이 많은 경향이 있으며, 누락된 데이터는 환자의 근본적인 건강 상태를 반영할 수 있는 유용한 정보가 될 수도 있습니다. 따라서 개인 맞춤형 의료를 위한 데이터 기반 모델의 성공 여부는 생리학적 데이터, 치료법, 데이터의 결측값을 어떻게 EHR 데이터로 표현하느냐에 따라 크게 달라집니다. 이를 위해 유니티는 다변량 데이터에서 시간에 따른 환자의 기본 역학을 학습하여 개인의 인구통계학적 특성과 치료법에 따라 개인화된 현실적인 값을 생성하는 새로운 딥러닝 모델을 제안합니다. 우리가 제안한 모델인 IGNITE(시계열 전자 건강 기록의 개별화된 추정 생성)는 이중 단계 주의로 강화된 조건부 이중 변수 자동 인코더를 활용하여 개인에 대한 결측값을 생성합니다. IGNITE에서는 새로운 개별화된 누락 마스크(IMM)를 제안하여 모델이 개인의 관찰 데이터와 누락 패턴을 기반으로 값을 생성할 수 있도록 지원합니다. 또한 IGNITE의 용도를 누락 추정에서 개인화된 데이터 합성기로 확장하여 이전에 관찰되지 않았던 누락된 EHR을 생성하거나 다양한 애플리케이션을 위한 새로운 환자를 생성할 수도 있습니다. 공개적으로 사용 가능한 3개의 대규모 데이터 세트에서 모델을 검증한 결과, IGNITE가 누락된 데이터 재구성 및 작업 예측에서 최첨단 접근 방식보다 뛰어난 성능을 보였습니다. [abs|pdf]

[32/68] Machine unlearning through fine-grained model parameters perturbation

Keywords: computationally_efficacious_privacy, perturbed_unlearning_data, metrics_forgetting_rate
Abstract: 데이터 기록을 삭제하고 해당 데이터가 학습된 모델에 미치는 영향을 줄이는 머신 언러닝 기법은 사용자 개인정보 보호 목표에 도움이 되지만 상당한 계산 비용이 발생합니다. 가중치 섭동 기반 언러닝은 일반적인 접근 방식이지만, 일반적으로 매개변수를 전역적으로 수정해야 합니다. 유니티는 계산 비용을 감당할 수 있는 수준으로 유지하면서 개인정보 보호 요구 사항을 해결하는 세분화된 Top-K 및 Random-k 파라미터 교란 비정확 머신러닝 전략을 제안합니다.
또한 이러한 전략의 효과를 입증하기 위해 학습되지 않은 데이터와 남아 있는 데이터 모두에 대한 모델의 일반화 성능을 고려하여 머신러닝의 효과를 평가하는 문제도 해결합니다. 머신러닝 효과와 모델 일반화를 더 잘 평가하기 위해 잊어버림률과 메모리 유지율이라는 새로운 지표를 제안합니다. 그러나 부정확한 기계 언러닝의 경우, 현재의 지표는 언러닝 전략 적용 후 발생하는 망각의 정도를 정량화하기에 부적절합니다. 이 문제를 해결하기 위해 유니티는 언러닝 대상 데이터의 분포를 미묘하게 교란하는 SPD-GAN을 도입했습니다. 그런 다음, 교란된 언러닝 데이터에 대한 모델의 성능 차이를 언러닝 프로세스 전후에 측정하여 언러닝 정도를 평가합니다. 이러한 혁신적인 기술과 메트릭을 구현함으로써 모델 성능을 크게 저하시키지 않으면서도 머신러닝 애플리케이션에서 계산적으로 효과적인 개인정보 보호를 달성할 수 있습니다. 또한, 이 접근 방식은 비학습 정도를 평가하는 새로운 방법을 제공합니다. [abs|pdf]

[33/68] Representative Feature Extraction During Diffusion Process for Sketch Extraction with One Example

Keywords: efficient_sketch_extraction, stylized_sketches_images, extracting_sketches
Abstract: 이미지에서 다양한 양식화된 스케치를 생성하는 방법인 DiffSketch를 소개합니다. 이 접근 방식은 사전 학습된 확산 모델 내에서 심층 특징의 풍부한 의미로부터 대표적인 특징을 선택하는 데 중점을 둡니다. 이 새로운 스케치 생성 방법은 한 장의 수동 드로잉으로 훈련할 수 있습니다. 또한 훈련된 생성기를 간소화된 추출기로 추출하여 효율적인 스케치 추출을 보장합니다. 분석을 통해 노이즈 제거 확산 특징을 선택하고, 이렇게 선택된 특징을 VAE 특징과 통합하여 스케치를 생성합니다. 또한 조건부 생성 접근법을 사용하여 모델을 훈련하기 위한 샘플링 체계를 제안합니다. 일련의 비교를 통해 증류된 DiffSketch가 기존의 최첨단 스케치 추출 방법보다 성능이 뛰어날 뿐만 아니라 스케치 추출 작업에서 확산 기반 스타일화 방법을 능가한다는 것을 확인했습니다. [abs|pdf]

[34/68] Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive Learning

Keywords: knowledge_grounded_dialogue, dialogue_kgd_learns, dialogue_building_kgd
Abstract: 지식 기반 대화(KGD)는 주어진 대화 문맥과 외부 지식(예: 지식 그래프, KG)을 기반으로 유익한 응답을 생성하는 방법을 학습합니다. 최근에는 대규모 언어 모델(LLM)과 사전 학습 기법의 등장으로 지식 기반 대화가 큰 성공을 거두고 있습니다. 하지만 실제 애플리케이션에서 KGD 시스템을 구축할 때 직면할 수밖에 없는 다양한 현실적 노이즈가 있습니다. 예를 들어, 대화 컨텍스트에는 철자 오류나 약어와 같은 교란 요소가 포함될 수 있습니다. 또한, KG는 일반적으로 불완전하며 잘못된 사실이나 오래된 사실을 포함할 수도 있습니다. 이러한 현실 세계의 노이즈는 KGD 시스템의 견고성에 문제를 야기하고 현실 세계에서의 적용을 방해합니다. 이 논문에서는 KGD의 견고성을 개선하기 위한 엔티티 기반 대조 학습 프레임워크를 제안합니다. 구체적으로, KGD 샘플의 엔티티 정보를 활용하여 각각 의미와 무관한 섭동과 의미와 관련된 섭동을 포함하는 양성 및 음성 샘플을 생성합니다. 대조 학습 프레임워크는 KGD 모델이 이 두 가지 유형의 섭동을 인식하도록 하여 실제 애플리케이션에서 잠재적으로 노이즈가 있는 입력에 대해 유익한 반응을 생성하도록 보장합니다. 세 가지 벤치마크 데이터 세트에 대한 실험 결과, 우리의 방법은 자동 평가 점수 측면에서 새로운 최첨단 성능을 달성하여 그 효과와 잠재력을 입증했습니다. 또한, 노이즈가 있는 환경과 적은 수의 샷이 있는 환경 모두에서 비교 모델보다 더 나은 응답을 생성할 수 있음을 보여줍니다. [abs|pdf]

[35/68] Iterative Feedback Network for Unsupervised Point Cloud Registration

Keywords: point_cloud_registration, vision_point_cloud, cloud_registration_representation
Abstract: 컴퓨터 비전의 근본적인 문제인 포인트 클라우드 등록은 한 쌍의 포인트 클라우드를 정렬하기 위한 최적의 변환을 찾는 것을 목표로 합니다. 대부분의 기존 방법에서는 정보 흐름이 일반적으로 순방향으로 전달되기 때문에 상위 수준 정보에서 하위 수준 정보로의 안내가 부족합니다. 또한, 상위 레벨 정보가 지나치게 중복될 수 있으며, 이를 직접 사용할 경우 원래의 하위 레벨 정보와 충돌할 수 있습니다. 본 논문에서는 비지도 포인트 클라우드 등록을 위한 새로운 반복적 피드백 네트워크(IFNet)를 제안하며, 이 네트워크는 후속 상위 레벨 특징을 재라우팅하여 하위 레벨 특징의 표현을 효율적으로 강화합니다. 특히, 유니티의 IFNet은 일련의 피드백 등록 블록(FRB) 모듈을 기반으로 구축되며, 각 모듈은 피드포워드 리지드 변환 및 피드백 상위 레벨 피처 생성을 담당합니다. 이러한 FRB 모듈은 시간이 지남에 따라 계단식으로 반복적으로 펼쳐집니다. 또한 피드백 트랜스포머는 피드백 하이레벨 피처에서 관련 정보를 효율적으로 선택하도록 설계되어 하위 레벨 피처를 개선하는 데 활용됩니다. 또한 기하학 인식 기술자를 통합하여 네트워크가 대부분의 기하학 정보를 최대한 활용할 수 있도록 지원함으로써 보다 정확한 등록 결과를 얻을 수 있습니다. 다양한 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 IFNet의 우수한 등록 성능이 입증되었습니다. [abs|pdf]

[36/68] A Change Point Detection Integrated Remaining Useful Life Estimation Model under Variable Operating Conditions

Keywords: inform_degradation_data, operating_conditions_monitoring, online_monitoring_temporal
Abstract: 성능 저하 과정의 시작을 알려주는 상태 평가는 복잡한 장비의 신뢰성 있는 잔여 사용 수명(RUL) 추정을 위한 중요한 사전 단계입니다. 이 백서에서는 다양한 작동 조건에서도 개별 기기의 변화 지점을 감지하고, 학습된 변화 지점을 활용하여 RUL 추정 정확도를 개선하는 새로운 시간 역학 학습 기반 모델을 제안합니다. 오프라인 모델 개발 과정에서 다변량 센서 데이터를 분해하여 여러 작동 조건에서 일반화할 수 있고 정상적인 작동 역학을 대표하는 융합된 시간적 상관 관계 특징을 학습합니다. 정상 동작에 대한 모니터링 통계와 제어 한계 임계값은 이러한 학습된 시간적 특징을 바탕으로 동적으로 구성되며, 이를 통해 디바이스 수준의 변경 지점을 비지도 방식으로 감지할 수 있습니다. 그런 다음 감지된 변경 지점은 LSTM(장단기 메모리) 기반 RUL 추정 모델을 학습하기 위한 성능 저하 데이터 라벨링에 정보를 제공합니다. 온라인 모니터링 중에 쿼리 디바이스의 시간적 상관 관계 역학이 오프라인 학습에서 도출된 제어 한계를 위반하는지 모니터링합니다. 변경 지점이 감지되면 조기 예방 조치를 위해 잘 훈련된 오프라인 모델을 사용하여 디바이스의 RUL을 추정합니다. C-MAPSS 터보팬 엔진을 사례 연구로 사용한 결과, 제안한 방법은 이질적인 변화 지점을 고려하지 않는 기존 LSTM 기반 RUL 추정 모델과 비교했을 때 6가지 작동 조건의 두 가지 시나리오에서 정확도가 5.6%, 7.5% 향상되는 것으로 나타났습니다. [abs|pdf]

[37/68] Memory-Efficient Personalization using Quantized Diffusion Model

Keywords: tuning_quantized_diffusion, quantization_parameters_diffusion, quantized_diffusion_models
Abstract: Stable Diffusion XL, Imagen, Dall-E3와 같은 10억 개 매개변수 확산 모델의 등장으로 제너레이티브 AI 분야가 크게 발전했습니다. 그러나 이러한 대규모 모델은 높은 리소스 요구량과 느린 추론 속도로 인해 미세 조정 및 배포에 어려움을 겪습니다. 이 백서에서는 양자화된 확산 모델을 미세 조정하는 비교적 미개척 분야이면서도 유망한 영역으로 모험을 떠납니다. 세 가지 모델을 커스터마이징하여 강력한 기준선을 설정합니다: 양자화 매개변수 미세 조정을 위한 PEQA, 훈련 후 양자화를 위한 Q-Diffusion, 개인화를 위한 DreamBooth입니다. 분석 결과, 기준 모델 내에서 주제와 프롬프트 충실도 사이에 현저한 균형이 있는 것으로 나타났습니다. 이러한 문제를 해결하기 위해 확산 모델에서 각기 다른 시간 간격의 역할에서 영감을 얻은 두 가지 전략을 소개합니다: S1은 선택한 간격에서만 단일 미세 조정 매개변수 세트를 최적화하고, S2는 각각 다른 시간 간격에 특화된 여러 미세 조정 매개변수 세트를 생성합니다. 이러한 접근 방식은 개인화를 향상시킬 뿐만 아니라 신속한 충실도와 이미지 품질을 유지하여 질적, 양적으로 기준치를 크게 뛰어넘습니다. 이 코드는 공개적으로 사용할 수 있습니다. [abs|pdf]

[38/68] Deep Efficient Private Neighbor Generation for Subgraph Federated Learning

Keywords: subgraph_federated_learning, federated_learning_subgraph, subgraph_neighbors
Abstract: 베헤모스 그래프는 많은 현실적인 애플리케이션에서 여러 데이터 소유자가 분산된 하위 그래프로 조각화하여 개별적으로 저장하는 경우가 많습니다. 데이터 프라이버시를 해치지 않으면서도 전 세계적으로 일반화된 그래프 마이닝 모델을 얻기 위해 각 로컬 클라이언트가 전체 글로벌 그래프의 하위 그래프를 보유하는 하위 그래프 연합 학습(하위 그래프 FL) 시나리오를 고려하는 것은 당연한 일입니다. 교차 서브그래프 이웃이 누락되어 로컬 서브그래프에서 정보가 불완전하게 전파되는 고유한 문제를 극복하기 위해 기존 연구에서는 누락된 이웃 생성기와 GNN의 공동 FL을 통해 로컬 이웃을 증강하는 방법을 사용했습니다. 그러나 이러한 기술 설계는 FL의 유용성, 효율성, 프라이버시 목표와 관련하여 심각한 한계를 가지고 있습니다. 이 연구에서는 이러한 문제를 종합적으로 해결하기 위해 서브그래프 FL에서 이러한 문제를 해결할 수 있는 FedDEP를 제안합니다. FedDEP는 (1) 잠재적 누락 이웃의 GNN 임베딩을 활용한 심층 이웃 생성, (2) 임베딩 프로토타이핑을 통한 이웃 생성을 위한 효율적인 의사 FL, (3) 노이즈 없는 에지-로컬-차등-프라이버시를 통한 프라이버시 보호 등 일련의 새로운 기술 설계로 구성됩니다.
FedDEP의 정확성과 효율성을 분석하고 프라이버시에 대한 이론적 보장을 제공합니다.
네 가지 실제 데이터 세트에 대한 경험적 결과는 제안된 기법의 명확한 이점을 정당화합니다. [abs|pdf]

[39/68] Large Language Models for Robotics: Opportunities, Challenges, and Perspectives

Keywords: embodied_tasks_robots, robot_performance_embodied, embodied_task_planning
Abstract: 대규모 언어 모델(LLM)은 크게 확장되어 왔으며 다양한 영역에 걸쳐 점점 더 통합되고 있습니다. 특히 로봇 작업 계획의 영역에서 LLM은 고급 추론 및 언어 이해 능력을 활용하여 자연어 지시를 기반으로 정확하고 효율적인 실행 계획을 수립합니다. 그러나 로봇이 복잡한 환경과 상호 작용하는 구현된 작업의 경우, 텍스트 전용 LLM은 로봇의 시각적 인식과 호환성이 부족하여 종종 어려움을 겪습니다. 이 연구에서는 다양한 로봇 작업에 LLM과 멀티모달 LLM을 통합하는 새로운 방식에 대한 포괄적인 개요를 제공합니다. 또한 자연어 명령과 로봇의 시각적 인식을 결합하여 구현된 작업 계획을 향상시키기 위해 멀티모달 GPT-4V를 활용하는 프레임워크를 제안합니다. 다양한 데이터 세트를 기반으로 한 연구 결과에 따르면 GPT-4V는 구현된 작업에서 로봇의 성능을 효과적으로 향상시킵니다. 다양한 로봇 작업에서 LLM과 멀티모달 LLM에 대한 이 광범위한 조사 및 평가는 LLM 중심의 구현 지능에 대한 이해를 풍부하게 하고 인간-로봇-환경 상호작용의 격차를 해소하기 위한 미래지향적인 인사이트를 제공합니다. [abs|pdf]

[40/68] Coupling Graph Neural Networks with Fractional Order Continuous Dynamics: A Robustness Study

Keywords: graph_neural_fractional, graph_neural_ode, robustness_graph_neural
Abstract: 이 연구에서는 그래프 신경 실수차 미분 방정식(FDE) 모델의 견고성을 엄격하게 조사합니다. 이 프레임워크는 시간 분수 카푸토 도함수를 구현함으로써 기존의 그래프 신경(정수차) 편미분 방정식(ODE) 모델을 넘어서는 확장된 모델입니다. 분수 미적분을 활용하면 기존 그래프 신경 ODE 모델에서 볼 수 있는 메모리 없는 마르코비안 업데이트와 달리 기능 업데이트 프로세스 중에 장기 메모리를 고려할 수 있습니다. 그래프 신경 ODE 모델에 비해 그래프 신경 FDE 모델의 우월성은 공격이나 섭동이 없는 환경에서 입증되었습니다. 기존 문헌에서 적대적 공격이 있을 때 기존 그래프 신경 ODE 모델이 어느 정도의 안정성과 복원력을 갖는다는 것이 확인되었지만, 특히 적대적 조건에서 그래프 신경 FDE 모델의 견고성은 거의 연구되지 않았습니다. 이 논문에서는 그래프 신경 FDE 모델의 견고성에 대한 상세한 평가를 수행합니다. 본 논문에서는 그래프 신경 FDE 모델의 견고성 특성을 개괄적으로 설명하는 이론적 토대를 확립하고, 입력 및 그래프 토폴로지 교란에 직면했을 때 정수 차수 모델에 비해 더 엄격한 출력 섭동 한계를 유지한다는 점을 강조합니다. 또한 경험적 평가를 통해 그래프 신경망 FDE 모델의 향상된 견고성을 확인하여 적대적 견고성 애플리케이션에서의 잠재력을 강조했습니다. [abs|pdf]

[41/68] BD-MSA: Body decouple VHR Remote Sensing Image Change Detection method guided by multi-scale feature information aggregation

Keywords: image_change_detection, sensing_image_change, change_detection_bd
Abstract: 원격 감지 이미지 변화 감지(RSCD)의 목적은 같은 장소에서 촬영한 두 시간대 이미지 간의 차이를 감지하는 것입니다. 딥러닝은 RSCD 작업에 광범위하게 사용되어 결과 인식 측면에서 상당한 성과를 거두었습니다. 하지만 위성의 촬영 각도, 얇은 구름의 영향, 특정 조명 조건 등으로 인해 일부 원격탐사 사진에서 변화 영역의 가장자리가 흐릿해지는 문제는 현재의 RSCD 알고리즘으로는 제대로 처리할 수 없습니다. 이 문제를 해결하기 위해 훈련 및 예측 단계에서 특징 맵의 채널 및 공간 차원에서 글로벌 및 로컬 특징 맵 정보를 모두 수집하는 새로운 모델인 BD-MSA(Body Decouple Multi-Scale by fearure Aggregation change detection)를 제안했습니다. 이 접근 방식을 통해 변화 영역의 경계 정보를 성공적으로 추출하는 동시에 변화 영역의 본체를 경계에서 분리할 수 있습니다. 수많은 연구 결과, 본 논문에서 설명한 모델의 평가 지표와 평가 효과는 공개적으로 사용 가능한 데이터 세트인 DSIFN-CD와 S2Looking에 대해 다른 모델과 비교했을 때 가장 우수한 것으로 나타났습니다. [abs|pdf]

[42/68] Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs

Keywords: reasoning_based_prompting, based_prompting_reasoning, prompting_reasoning_augmented
Abstract: 이 백서에서는 비전문가인 마케터도 자연어 형태의 요구 사항만으로 타겟 사용자를 선택할 수 있는 새로운 사용자 타겟팅 방법을 살펴봅니다. 이 문제의 핵심은 자연어를 실용적인 구조화된 논리 언어로 변환하는 방법, 즉 마케터의 수요를 구조적으로 이해하는 것입니다. 대규모 언어 모델(LLM)의 인상적인 자연어 처리 능력을 고려할 때, 우리는 이 문제를 해결하기 위해 LLM을 활용하려고 합니다. 과거 연구에 따르면 연쇄 사고(CoT) 프롬프트를 통해 LLM의 추론 능력을 효과적으로 향상시킬 수 있는 것으로 나타났습니다. 그러나 기존 방법에는 여전히 몇 가지 한계가 있습니다. (1) 기존 방법은 단순한 "단계별로 생각해 봅시다"라는 주문을 사용하거나 프롬프트와 질문 간의 호환성을 고려하지 않고 데모에서 고정된 예제를 제공하므로 구조화된 언어 변환과 같은 일부 복잡한 추론 작업에서는 LLM이 효과적이지 못합니다. (2) 기존 방식은 폐쇄형 모델이나 지나치게 큰 모델에서 구현되는 경우가 많아 산업 현장의 실제 시나리오에는 적합하지 않습니다. 이에 본 논문에서는 두 가지 모듈로 구성된 ARALLM(즉, 유추 추론 증강 대규모 언어 모델)을 제안합니다: 유추 기반 프롬프트와 추론 증강 멀티태스크 모델 증류. [abs|pdf]

[43/68] StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For Multi-Agent Environments

Keywords: benchmark_spatial_reasoning, spatial_reasoning_dataset, learning_rl_starcraft
Abstract: 이벤트 예측, 에이전트 유형 식별 또는 누락된 데이터 대입과 같은 다중 에이전트 환경에서의 공간 추론 작업은 여러 애플리케이션(예: 센서 네트워크를 통한 자율 감시 및 강화 학습(RL)을 위한 하위 작업)에 중요합니다. 스타크래프트 II 게임 리플레이는 지능적인(그리고 적대적인) 멀티 에이전트 행동을 인코딩하며 이러한 작업을 위한 테스트베드를 제공할 수 있지만, 이러한 작업의 프로토타입을 위해 단순하고 표준화된 표현을 추출하는 것은 힘들고 재현성을 저해합니다. 반면, MNIST와 CIFAR10은 극도로 단순함에도 불구하고 신속한 프로토타이핑과 ML 방법의 재현성을 가능하게 했습니다. 이러한 데이터 세트의 단순성에 따라 복잡한 멀티 에이전트 동작을 보여주는 스타크래프트 II 리플레이를 기반으로 하면서도 MNIST와 CIFAR10만큼 사용하기 쉬운 벤치마크 공간 추론 데이터 세트를 구축했습니다. 구체적으로, 게임 결과 및 플레이어 종족과 같은 모든 관련 메타데이터를 포함하여 6만 개의 리플레이에서 360만 개의 요약 이미지를 생성하기 위해 255개의 연속된 게임 상태를 신중하게 요약합니다. 유니티는 단위 유형마다 하나의 채널을 포함하는 초분광 이미지(다중 스펙트럼 지리공간 이미지와 유사), CIFAR10을 모방한 RGB 이미지, MNIST를 모방한 그레이스케일 이미지 등 복잡성을 낮추는 세 가지 형식을 개발했습니다. 이 데이터세트를 공간 추론 방법의 프로토타입 제작에 어떻게 사용할 수 있는지 보여드립니다. 모든 데이터 세트, 추출 코드, 데이터 세트 로딩 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[44/68] Robust Image Watermarking using Stable Diffusion

Keywords: watermark_trainable_latent, watermarking_images_critical, watermark_attacks
Abstract: 이미지 워터마킹은 이미지 출처를 추적하고 소유권을 주장하는 데 매우 중요합니다. 가짜이지만 실제와 같은 이미지를 생성할 수 있는 안정적 확산과 같은 생성 모델의 등장으로 생성된 이미지를 확실하게 식별할 수 있도록 하는 워터마킹이 특히 중요해졌습니다. 하지만 안타깝게도 기존 방식과 동일한 안정적 확산 기술을 사용하면 삽입된 워터마크를 제거할 수 있습니다. 이 문제를 해결하기 위해 저희는 사전 학습된 안정적인 확산 모델을 사용하여 학습 가능한 잠재 공간에 워터마크를 주입함으로써 공격을 받아도 잠재 벡터에서 안정적으로 워터마크를 감지할 수 있는 ZoDiac을 소개합니다. MS-COCO, DiffusionDB, WikiArt의 세 가지 벤치마크에서 ZoDiac을 평가한 결과, ZoDiac은 98% 이상의 워터마크 탐지율과 6.4% 미만의 오탐률로 최신 워터마킹 방법보다 뛰어난 성능을 보이며 최첨단 워터마크 공격에 강력하다는 것을 확인했습니다. 저희의 연구는 안정적 확산이 강력한 워터마킹을 위한 유망한 접근 방식이며, 안정적 확산 기반 공격도 견딜 수 있음을 보여줍니다. [abs|pdf]

[45/68] FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild

Keywords: predict_funny_moments, funny_moment_detection, automatically_understanding_funny
Abstract: 코미디를 시청할 때 웃기는 순간(즉, 사람들을 웃기는 순간)을 자동으로 이해하는 것은 신체 언어, 대화, 문화 등 다양한 특징과 관련되어 있기 때문에 어려운 일입니다. 이 논문에서는 시각, 오디오, 텍스트 데이터에 대한 교차 주의와 자기 주의에 의존하여 동영상에서 웃긴 순간을 예측하는 모델인 FunnyNet-W를 제안합니다. 자막 형태의 지상 실측 데이터에 의존하는 대부분의 방법과 달리, 이 연구에서는 동영상에 자연스럽게 나타나는 양식을 활용합니다: (a) 장면 이해에 필수적인 시각적 정보를 포함하고 있는 비디오 프레임, (b) 억양, 높낮이, 일시 정지 등 재미있는 순간과 관련된 상위 수준의 단서를 포함하고 있는 오디오, (c) 음성-텍스트 모델로 자동 추출된 텍스트는 대규모 언어 모델에서 처리할 때 풍부한 정보를 제공할 수 있기 때문입니다. 훈련용 레이블을 얻기 위해 재미있는 오디오 순간을 찾아내어 레이블을 지정하는 비지도 접근 방식을 제안합니다. 시트콤 TBBT, MHD, MUStARD, 프렌즈, TED 강연 UR-Funny 등 5개의 데이터 세트에 대한 실험을 제공합니다. 광범위한 실험과 분석을 통해 퍼니넷-W가 시각적, 청각적, 텍스트적 단서를 성공적으로 활용하여 웃긴 순간을 식별한다는 것을 보여주며, 그 결과 퍼니넷-W가 야생에서 웃긴 순간을 예측할 수 있다는 것을 알 수 있습니다. FunnyNet-W는 실측 정보를 사용하든 사용하지 않든 모든 데이터 세트에서 멀티모달 단서를 통해 웃긴 순간을 감지하는 새로운 기술을 제시합니다. [abs|pdf]

[46/68] Learning Racing From an AI Coach: Effects of Multimodal Autonomous Driving Explanations on Driving Performance, Cognitive Load, Expertise, and Trust

Keywords: ai_coach_explanations, driving_experts_participants, driving_performance_cognitive
Abstract: 사전-사후 실험(n = 41)에서는 인간 운전 전문가의 지시에 따라 모델링된 AI 코치의 설명 커뮤니케이션이 미치는 영향을 테스트했습니다. 참가자들을 4개의 그룹으로 나누어 정보 유형('무엇'과 '왜'에 대한 설명)과 프레젠테이션 방식(청각 및 시각)의 두 가지 차원, 즉 AI 코치의 설명에 대해 평가했습니다. 이러한 기법을 활용한 AI 코칭 세션이 관찰 학습 맥락에서 운전 성과, 인지 부하, 자신감, 전문성, 신뢰에 어떤 영향을 미치는지 직접 비교합니다. 인터뷰를 통해 참가자의 학습 과정을 자세히 설명합니다. 연구 결과, AI 운전 코치가 초보자에게 운전 기술을 가르치는 데 유용할 수 있음을 알 수 있었습니다. 그룹 간 비교를 통해 정보의 유형과 양식이 수행 결과에 영향을 미친다는 사실을 발견했습니다. 정보가 주의를 집중시키고, 불확실성을 완화하며, 참가자가 경험하는 과부하에 영향을 미치는 방식에 따라 차이가 있었습니다. 이는 다시 참가자가 얼마나 성공적으로 학습할 수 있는지에 영향을 미쳤습니다. 연구 결과에 따르면 압도적이지 않으면서도 효과적인 HMI 커뮤니케이션을 설계할 때는 효율적이고 양식에 적합한 설명을 선택해야 합니다. 또한 커뮤니케이션을 인간의 학습 및 인지 프로세스에 맞춰야 할 필요성을 뒷받침합니다. 연구 결과를 종합하여 미래의 자율 주행 차량 HMI 및 AI 코치 설계에 대한 8가지 설계 시사점을 도출했습니다. [abs|pdf]

[47/68] Curiosity & Entropy Driven Unsupervised RL in Multiple Environments

Keywords: curiosity_driven_exploration, sampling_curiosity_dynamic, driven_exploration_alpha
Abstract: '다중 환경에서의 비지도 강화 학습'의 저자들은 여러 환경에서 비지도 RL을 처리하기 위한 방법인 알파-MEPOL을 제안합니다. 이 방법은 전체 환경 클래스의 상호작용을 사용하여 작업에 구애받지 않는 탐색 정책을 사전 학습한 다음, 감독을 통해 다양한 작업에 맞게 이 정책을 미세 조정합니다. 성능 향상을 목표로 이 작업을 확장했습니다. 엔트로피 기반 확률 분포를 사용한 궤적 샘플링, 동적 알파, 더 높은 KL 발산 임계값, 호기심 기반 탐색, 호기심에 대한 알파 백분위수 샘플링 등 다섯 가지의 새로운 수정 사항을 주로 제안하고 실험했습니다. 동적 알파 및 더 높은 KL 발산 임계값은 모두 이전 작업의 기준선에 비해 크게 개선된 결과를 제공했습니다. PDF 샘플링은 샘플 공간이 작을 때 기준 방법과 거의 동일하기 때문에 개선 효과를 제공하지 못했습니다. 고차원 환경에서는 호기심 기반 탐색을 추가하면 에이전트가 다양한 경험을 추구하고 미지의 영역을 더 많이 탐색하도록 장려하여 학습을 향상시킬 수 있습니다. 그러나 탐색 가능성이 제한되어 있고 에이전트가 실제로 알 수 있는 것이 거의 없는 저차원적이고 단순한 환경에서는 그 이점이 제한적입니다. 전반적으로 일부 실험에서는 기준선보다 성능이 향상되었으며, 추가 연구를 통해 유망해 보이는 몇 가지 방향이 있습니다. [abs|pdf]

[48/68] Interactive Multi-Objective Evolutionary Optimization of Software Architectures

Keywords: interactive_evolutionary_computation, objective_evolutionary_algorithm, objective_evolutionary
Abstract: 소프트웨어 사양을 작업하는 동안 설계자는 일반적으로 품질 기준을 충족하는지 확인하기 위해 다양한 아키텍처 대안을 평가해야 합니다. 이러한 품질 측면을 여러 소프트웨어 지표로 표현할 수 있더라도 다른 정성적 요소는 수치로 측정할 수 없지만 엔지니어의 노하우와 이전 경험에서 추출할 수 있습니다. 사실, 여러 솔루션의 강점뿐만 아니라 약점까지 파악하는 것은 인간이 의사 결정을 내리는 방식과 더 잘 맞는 것 같습니다. 인간을 참여시키는 것은 검색 기반 소프트웨어 엔지니어링 분야, 특히 초기 분석 단계의 인간 중심 활동에 새로운 도전을 가져옵니다. 이 백서에서는 대화형 진화 계산이 인간의 판단을 검색 프로세스에 통합하기 위한 기반이 될 수 있는 방법을 살펴봅니다. 소프트웨어 아키텍처를 발견하기 위해 양적 및 질적 기준을 모두 적용하여 다목적 진화 알고리즘을 안내하는 대화형 접근 방식이 제안됩니다. 얻은 피드백은 아키텍처 선호도를 사용하여 적합성 함수에 통합되어 알고리즘이 유망한 솔루션과 그렇지 않은 솔루션을 구분할 수 있도록 합니다. 실제 사용자를 대상으로 한 실험을 통해 제안된 상호작용 메커니즘이 전문가가 실제로 관심을 갖는 검색 공간의 영역으로 검색을 효과적으로 안내할 수 있다는 사실이 밝혀졌습니다. [abs|pdf]

[49/68] Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification

Keywords: audio_video_learning, learn_multimodal_videos, youtube_learn_multimodal
Abstract: 오디오와 비디오는 유튜브와 같은 주류 미디어 플랫폼에서 가장 많이 사용되는 두 가지 모달리티입니다. 본 연구에서는 멀티모달 비디오를 효과적으로 학습하기 위해 비디오 트랜스포머의 효과적인 시공간적 표현을 활용하여 동작 인식 정확도를 향상시키는 오디오 비디오 트랜스포머, AVT라는 새로운 오디오-비디오 인식 접근법을 제안합니다. 멀티모달 융합의 경우, 단순히 멀티모달 토큰을 크로스모달 트랜스포머로 연결하면 많은 연산 및 메모리 리소스가 필요하지만, 오디오-비디오 병목 현상 트랜스포머를 통해 크로스모달 복잡성을 줄입니다. 멀티모달 트랜스포머의 학습 효율성을 높이기 위해 다양한 오디오 및 비디오 표현을 공통의 멀티모달 표현 공간에 매핑하는 AVT 훈련에 오디오-비디오 대조 학습, 오디오-비디오 매칭, 마스크드 오디오 및 비디오 학습과 같은 자기 지도 목표를 통합합니다. 또한 AVT에서 시맨틱 오디오 활동을 학습하기 위해 마스크드 오디오 세그먼트 손실을 제안합니다. 세 개의 공개 데이터 세트와 두 개의 사내 데이터 세트에 대한 광범위한 실험 및 제거 연구를 통해 제안된 AVT의 효과가 일관되게 입증되었습니다. 특히 AVT는 키네틱스-사운드에서 이전의 최신 기술보다 8% 더 뛰어난 성능을 보였습니다. 또한 AVT는 오디오 신호를 활용하여 VG 사운드에서 이전의 최첨단 비디오 트랜스포머[25] 중 하나를 10% 능가합니다. 이전의 최첨단 멀티모달 방법 중 하나인 MBT[32]와 비교했을 때, AVT는 FLOPs 측면에서 1.3% 더 효율적이며, Epic-Kitchens-100에서 정확도를 3.8% 향상시킵니다. [abs|pdf]

[50/68] Cross-Speaker Encoding Network for Multi-Talker Speech Recognition

Keywords: cross_speaker_encoding, cross_speaker_representations, talker_speech_recognition
Abstract: 엔드투엔드 다중 화자 음성 인식은 여러 화자의 중첩된 음성을 직접 전사하는 효과적인 접근 방식으로 큰 관심을 받고 있습니다. 현재 방식은 일반적으로 1) 분기 인코더를 사용하는 단일 입력 다중 출력(SIMO) 모델 또는 2) 직렬화된 출력 훈련(SOT)을 사용하는 주의 기반 인코더-디코더 아키텍처 기반의 단일 입력 단일 출력(SISO) 모델을 채택합니다. 이 연구에서는 화자 간 표현을 통합하여 SIMO 모델의 한계를 해결하기 위해 화자 간 인코딩(CSE) 네트워크를 제안합니다. 또한, CSE 모델은 SOT와 통합되어 SIMO와 SISO의 장점을 모두 활용하면서 단점을 완화합니다. 우리가 아는 한, 이 작업은 다중 화자 음성 인식을 위해 SIMO와 SISO를 통합하려는 초기 노력의 결과물입니다. 두 명의 화자가 말하는 LibrispeechMix 데이터 세트에 대한 실험 결과, CES 모델은 SIMO 기준선보다 단어 오류율(WER)을 8% 감소시키는 것으로 나타났습니다. CSE-SOT 모델은 SOT 모델에 비해 전체적으로 10%, 고중첩 음성에서 16%의 WER을 줄였습니다. [abs|pdf]

[51/68] Online Test-Time Adaptation of Spatial-Temporal Traffic Flow Forecasting

Keywords: traffic_flow_forecasting, flow_forecasting_crucial, flow_forecasting_datasets
Abstract: 정확한 시공간적 교통 흐름 예측은 교통 관리자가 통제 조치를 시행하고 운전자가 최적의 이동 경로를 선택할 수 있도록 지원하는 데 매우 중요합니다. 교통 흐름 예측을 위한 기존의 딥러닝 기반 방법은 일반적으로 과거 데이터를 사용하여 모델을 학습시킨 다음 미래 데이터를 예측하는 데 사용합니다. 하지만 과거 데이터와 미래 데이터 사이의 시간적 편차로 인해 훈련된 모델의 성능이 저하되는 경우가 많습니다. 본 논문에서는 과거 데이터로 학습된 모델이 완전한 온라인 방식으로 미래 데이터에 더 잘 적응할 수 있도록 시공간적 교통 흐름 예측 문제에 대한 온라인 시험시간 적응 기법에 대한 첫 번째 연구를 수행합니다. 이를 위해 먼저 학습된 모델의 출력을 계절별 및 추세 주기별 부분으로 분해한 다음, 최신 관측 데이터를 항목별로 입력하여 테스트 단계에서 두 개의 개별 모듈로 보정하는 적응형 이중 보정(Adaptive Double Correction by Series Decomposition, ADCSD) 방법을 제안합니다. 제안하는 ADCSD 방식에서는 테스트 단계에서 학습된 모델 전체를 미세 조정하는 대신 학습된 모델 뒤에 라이트 네트워크를 연결하고, 데이터 항목이 관측될 때마다 테스트 과정에서 라이트 네트워크만 미세 조정합니다. 또한 시계열 변수마다 시간적 드리프트의 수준이 다를 수 있다는 점을 고려하여 두 가지 적응 벡터를 채택하여 시계열 변수마다 다른 가중치를 제공합니다. 4개의 실제 교통 흐름 예측 데이터 세트에 대한 광범위한 실험을 통해 제안된 ADCSD 방법의 효과가 입증되었습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[52/68] Learn Once Plan Arbitrarily (LOPA): Attention-Enhanced Deep Reinforcement Learning Method for Global Path Planning

Keywords: global_planning_tasks, deep_reinforcement, planning_tasks
Abstract: 심층 강화 학습(DRL) 방법은 최근 경로 계획 작업에서 가능성을 보였습니다. 그러나 글로벌 계획 작업을 처리할 때 이러한 방법은 수렴 및 일반화가 잘 되지 않는 등 심각한 문제에 직면합니다. 이러한 문제를 해결하기 위해 본 논문에서는 주의력 강화 DRL 방법인 LOPA(학습 후 임의로 계획하기)를 제안합니다. 먼저, 이러한 문제의 원인을 DRL의 관찰 관점에서 분석하여 기존의 설계가 관련 없는 지도 정보로 인해 DRL이 방해를 받는다는 것을 밝힙니다. 둘째, 관측의 핵심 정보에 대한 주의력을 향상시키기 위해 새로운 주의력 강화 메커니즘을 활용하는 LOPA를 개발합니다. 이러한 메커니즘은 두 단계로 구현됩니다: (1) 주의 모델을 구축하여 DRL의 관측을 로컬과 글로벌의 두 가지 동적 보기로 변환하여 LOPA가 주어진 지도의 핵심 정보에 집중하도록 유도하고, (2) 이중 채널 네트워크를 구축하여 이 두 가지 보기를 처리하고 이를 통합하여 향상된 추론 능력을 달성하는 것입니다. LOPA는 다목적 글로벌 경로 계획 실험을 통해 검증됩니다. 그 결과, LOPA는 융합 및 일반화 성능이 향상되었을 뿐만 아니라 경로 계획의 효율성도 크게 향상되었습니다. [abs|pdf]

[53/68] Robust Calibration For Improved Weather Prediction Under Distributional Shift

Keywords: weather_prediction_uncertainty, domain_weather_prediction, prediction_uncertainty_estimation
Abstract: 이 백서에서는 실세계 분포 변화 하에서 견고성과 불확실성에 대한 변화 챌린지의 일환으로 영역 외 기상 예측 및 불확실성 추정 개선에 대한 결과를 제시합니다. 우리는 컴퓨터 비전 영역에서 차용한 고급 데이터 증강 기법과 함께 여러 전문가를 활용하고 예측 불확실성의 강력한 post-hoc 보정을 통해 잠재적으로 표 형식 데이터에 대한 부스트 트리 모델보다 심층 신경망으로 더 정확하고 더 잘 보정된 결과를 얻을 수 있다는 사실을 발견했습니다. 몇 가지 지표를 사용해 예측을 정량화하고 성능을 향상시키기 위한 몇 가지 향후 연구 및 실험을 제안합니다. [abs|pdf]

[54/68] On The Potential of The Fractal Geometry and The CNNs Ability to Encode it

Keywords: features_learned_deep, classification_tasks_fractal, effectiveness_fractal_features
Abstract: 프랙탈 차원은 측정 척도에 따라 패턴이 어떻게 변하는지를 연구하여 객체의 복잡성에 대한 통계적 지표를 제공합니다. 여러 분류 작업에서 유용하지만, 프랙탈 차원은 딥러닝 애플리케이션에서 충분히 연구되지 않았습니다. 이 연구에서는 딥 모델에 의해 학습되는 특징을 조사하고 이러한 딥 네트워크가 프랙탈 차원만큼 복잡하고 높은 수준의 특징을 인코딩할 수 있는지 연구합니다. 특히, 상관관계 분석 실험을 통해 딥 네트워크가 어떤 레이어에서도 이러한 특징을 추출할 수 없음을 보여줍니다. 분석 연구와 사람의 평가를 결합하여 딥러닝 네트워크와 프랙탈 특징만으로 작동하는 모델 간의 차이점을 조사합니다. 또한 물체 구조가 분류 작업에 중요한 역할을 하는 애플리케이션에서 프랙탈 특징의 효과를 보여줍니다. 프랙탈 특징으로 얕은 네트워크를 훈련하면 더 적은 컴퓨팅 리소스를 사용하면서도 원시 데이터로 훈련된 심층 네트워크와 비슷한 성능을 달성하거나 경우에 따라서는 더 우수한 성능을 얻을 수 있음을 실증적으로 보여줍니다. 프랙탈은 분류의 정확도를 평균 30% 향상시키면서도 훈련에 필요한 시간은 최대 84%까지 줄였습니다. 이 실증 연구를 제안된 프랙탈 특징을 추출하는 데 드는 계산 비용에 대한 복잡도 분석과 결합하여 그 한계를 연구했습니다. [abs|pdf]

[55/68] Expanding Horizons in HCI Research Through LLM-Driven Qualitative Analysis

Keywords: typewriter_life_research, qualitative_analysis_hci, typewriter_life
Abstract: 아직도 타자기로 타이핑한 논문을 '전송'해야 한다면 연구는 어떻게 될까요? 우리의 삶과 연구 환경은 끊임없이 진화해 왔으며, 종종 새로운 방법론에 대한 논란의 여지가 있는 의견을 동반하기도 합니다. 이 백서에서는 대규모 언어 모델(LLM)을 사용하는 HCI의 질적 분석에 대한 새로운 접근 방식을 소개함으로써 이러한 변화를 수용합니다. 정성적 데이터 분석에 LLM을 사용하는 방법을 자세히 설명하고 성능 평가를 위해 SBART 코사인 유사성을 사용하는 정량적 프레임워크를 제시합니다. 연구 결과에 따르면 LLM은 기존 분석 방법의 효율성과 일치할 뿐만 아니라 고유한 인사이트를 제공합니다. 새로운 데이터 세트와 벤치마크를 통해 HCI 연구에서 LLM의 특성을 살펴보고, 이 분야에서 더 많은 탐색과 적용을 위한 잠재적인 길을 제시합니다. [abs|pdf]

[56/68] The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline

Keywords: poisoning_images, poisoning_images_equipped, copyrighted_material_training
Abstract: 실제와 구별하기 어려운 고품질 이미지를 생성하는 것으로 유명한 디퓨전 모델의 상용화로 인해 잠재적인 저작권 문제가 제기되고 있습니다. 교육 중에 저작권이 있는 자료에 대한 무단 액세스를 차단하고 이후 DM이 저작권이 있는 이미지를 생성하지 못하도록 하려는 시도가 있었지만, 이러한 솔루션의 효과는 아직 검증되지 않았습니다. 이 연구에서는 텍스트-이미지 유포 모델에 대한 백도어 데이터 중독 공격(SilentBadDiffusion)을 도입하여 DM의 저작권 보호와 관련된 취약점을 살펴봅니다. 이 공격 방식은 확산 모델의 학습 또는 미세 조정 프로세스에 대한 액세스나 제어 없이 작동하며, 깨끗한 학습 데이터 세트에 포이즈닝 데이터를 삽입하기만 하면 됩니다. 프롬프트가 포함된 중독 이미지로 구성된 이 데이터는 멀티모달 대규모 언어 모델과 텍스트 안내 이미지 인페인팅 기법의 강력한 기능을 활용하여 생성됩니다. 실험 결과와 분석을 통해 이 방법의 효과를 확인할 수 있습니다. 저작권을 침해하지 않는 스텔스 포이즈닝 데이터의 일부를 깨끗한 데이터 세트에 통합하여 의심의 여지가 없도록 함으로써, 특정 트리거 프롬프트에 의해 활성화되면 미세 조정된 확산 모델이 저작권이 있는 콘텐츠를 생성하도록 유도할 수 있습니다. 이러한 연구 결과는 기존의 저작권 보호 전략에 잠재적인 함정이 있음을 강조하며, DM의 오용에 대한 면밀한 조사와 예방 조치의 필요성을 강조합니다. [abs|pdf]

[57/68] Global-Aware Enhanced Spatial-Temporal Graph Recurrent Networks: A New Framework For Traffic Flow Prediction

Keywords: graph_recurrent_neural, novel_traffic_prediction, temporal_graph_recurrent
Abstract: 교통 흐름 예측은 교통 혼잡을 완화하고 교통 효율성을 높이는 데 중요한 역할을 합니다. 공간-시간 모델링을 위해 그래프 컨볼루션 네트워크와 순환 신경망을 결합하는 것은 이 분야에서 흔히 사용되는 전략이지만, 순환 신경망의 제한된 구조로 인해 전역 정보를 포착하는 능력이 제한됩니다. 공간 모델링의 경우, 많은 선행 연구에서 모든 시간 단계에서 고정되고 균일하다고 가정한 그래프 구조를 학습하는데, 이는 사실이 아닐 수 있습니다. 이 백서에서는 공간-시간 그래프 순환 신경망과 글로벌 인식 계층이라는 두 가지 핵심 구성 요소로 구성된 새로운 트래픽 예측 프레임워크인 글로벌 인식 강화 공간-시간 그래프 순환 네트워크(GA-STGRN)를 소개합니다. 이 프레임워크 내에서 세 가지 혁신적인 예측 모델이 공식화됩니다. 시퀀스 인식 그래프 신경망은 서로 다른 시간 단계에서 고정되지 않은 그래프를 학습하고 국소적인 시간적 관계를 포착하기 위해 제안되고 GRU(Gated Recurrent Unit)에 통합됩니다. 모델의 글로벌 인식을 향상시키기 위해 글로벌 인식 계층을 위해 세 가지 다른 글로벌 공간-시간 변환기와 유사한 아키텍처(GST^2)를 고안했습니다. 4개의 실제 트래픽 데이터 세트에 대한 광범위한 실험을 수행했으며, 그 결과 프레임워크와 세 가지 구체적인 모델의 우수성을 입증했습니다. [abs|pdf]

[58/68] Web Neural Network with Complete DiGraphs

Keywords: introducing_cycles_neuron, cycles_neuron, inspired_spiking_neural
Abstract: 이 논문에서는 네트워크를 시간대별로 연속적인 데이터를 처리하는 완전한 방향성 그래프로 구조화하여 생물학적 뇌를 보다 가깝게 모방하는 것을 목표로 하는 새로운 신경망 모델을 소개합니다. 기존의 신경망은 뉴런, 컨볼루션, 순환 등 뇌 구조를 모방한 구조로 이루어져 있습니다. 이 논문에서 제안하는 모델은 뉴런 연결에 주기를 도입하고 다른 네트워크 계층에서 흔히 볼 수 있는 순차적 특성을 제거하여 추가적인 구조적 특성을 추가합니다. 또한, 이 모델은 스파이크 신경망에서 영감을 얻은 연속적인 입력과 출력을 가지고 있어 네트워크가 단순히 최종 결과를 반환하는 것이 아니라 분류 과정을 학습할 수 있습니다. [abs|pdf]

[59/68] SynHIN: Generating Synthetic Heterogeneous Information Network for Explainable AI

Keywords: heterogeneous_graph_datasets, heterogeneous_graph_dataset, heterogeneous_graph_neural
Abstract: 그래프 신경망(GNN)은 전자상거래 스팸 탐지부터 소셜 네트워크 분류 문제에 이르기까지 다양한 영역에서 탁월한 성능을 발휘합니다. 그러나 공개 그래프 데이터 세트의 부족은 특히 이기종 정보 네트워크(HIN)에서 연구 진행을 방해합니다. GNN 해석 모델의 발전으로 인해 공정한 HIN 비교를 위한 데이터 세트에 대한 수요가 증가하고 있습니다. 이에 따라 유니티는 합성 이기종 정보 네트워크를 생성하는 고유한 방법인 SynHIN을 제안합니다. SynHIN은 실제 데이터 세트에서 모티프를 식별하고 그래프 통계를 요약하여 합성 네트워크를 구축합니다. 우리의 접근 방식은 인-클러스터 및 아웃-클러스터 병합 모듈을 활용하여 기본 모티프 클러스터로부터 합성 HIN을 구축합니다. 클러스터 내/외 병합과 실제 데이터 세트 제약 조건에 맞는 사후 가지치기 프로세스를 거친 후, 합성 그래프 통계가 참조 그래프와 밀접하게 일치하는지 확인합니다. SynHIN은 노드 분류 작업을 위한 합성 이기종 그래프 데이터 세트를 생성하며, 기본 모티프를 설명 기준 진실로 사용합니다. 이는 이기종 그래프 데이터 세트와 모티프 기준 진실의 부족을 해결하고 적응할 수 있어, 이기종 그래프 신경망 설명자를 평가하는 데 유용하다는 것이 입증되었습니다. 또한, 향후 이기종 그래프 설명자 모델 연구를 위한 벤치마크 데이터 세트를 제시합니다. 이번 연구는 HGNN에서 설명 가능한 AI를 향한 중요한 발걸음을 내디뎠습니다. [abs|pdf]

[60/68] Unsupervised Test-Time Adaptation via Plug-and-Play Transformer Modules

Keywords: scalable_domain_adaptation, domain_adaptation, new_domains_tuning
Abstract: LoRA, 어댑터, 시각적 프롬프트 튜닝(VPT)과 같은 파라미터 효율적 튜닝(PET) 방법은 변압기 모델 내의 작은 모듈을 튜닝하여 새로운 도메인에 적응할 수 있도록 하는 데 성공했습니다. 그러나 테스트 기간 동안 발생하는 도메인의 수는 매우 많을 수 있으며 데이터에는 일반적으로 레이블이 지정되지 않습니다. 따라서 새로운 도메인에 적응하는 것이 어렵고, 각 도메인에 맞게 튜닝된 맞춤형 모듈을 생성하는 것도 비현실적입니다. 이러한 문제를 해결하기 위해 이 연구에서는 플러그 앤 플레이 방식의 테스트 타임 도메인 적응 전략인 PLUTO를 소개합니다. 각기 다른 소스 도메인에 특화된 대규모 모듈 세트를 사전 학습하여 '모듈 스토어'를 효과적으로 생성합니다. 레이블이 지정되지 않은 데이터가 적은 대상 도메인이 주어지면, (1) 이 스토어에서 관련 모듈의 희소 하위 집합을 선택하고 (2) 가중치를 조정하지 않고 선택한 모듈의 가중치 조합을 생성하는 비지도 테스트 시간 적응(TTA) 방법을 도입합니다. 이러한 플러그 앤 플레이 특성 덕분에 한 번의 추론 호출로 가장 관련성이 높은 여러 소스 도메인을 활용할 수 있습니다. 종합적인 평가 결과, PLUTO는 다른 TTA 방법보다 균일하게 성능이 뛰어나며, ≤5개의 모듈만 선택해도 대부분의 이점을 추출할 수 있음을 입증했습니다. 높은 수준에서, 우리의 방법은 사전 훈련된 트랜스포머가 새로운 도메인에 동적으로 적응할 수 있는 기능을 갖추고 있어 효율적이고 확장 가능한 도메인 적응을 위한 새로운 패러다임에 동기를 부여합니다. [abs|pdf]

[61/68] The Concept of the Tactile Signature System for Individuals with Visual Impairments

Keywords: create_handwritten_signatures, handwritten_signatures_presents, handwritten_signatures
Abstract: 시각장애인이 자필 서명을 할 수 있는 접근 가능하고 효과적인 시스템의 부재는 시각장애인의 자립과 삶의 다양한 측면에 대한 완전한 참여에 큰 장애가 되고 있습니다. 이 연구에서는 시각 장애인이 자신만의 고유한 자필 서명을 할 수 있도록 지원하는 획기적인 접근 방식인 촉각 서명 시스템을 소개합니다. 이 시스템의 주요 기능은 다음과 같습니다: 개인화된 사용자 지정: 촉각 상호작용과 음성 알고리즘 안내를 통해 개인은 자신의 선호도와 자연스러운 필체 스타일을 반영하여 서명을 작성할 수 있습니다. 실시간 피드백: AI 기반 음성 안내와 분석을 통해 서명의 정확성과 일관성을 보장합니다. 접근성: 지역 서비스 센터에 설치하면 서명을 작성할 수 있는 안전하고 감독된 환경을 제공합니다. 시스템의 영향력은 개인 차원을 넘어선다: 포용성과 독립성을 촉진합니다: 시각장애인은 다른 사람에게 의존하지 않고도 법률 및 금융 거래에 참여할 수 있습니다. 동등한 기회를 부여하고 촉진합니다: 교육, 고용, 시민 참여에 더 쉽게 접근할 수 있습니다. 국제 협약에 부합합니다: 장애인이 사회에 완전히 참여할 수 있는 권리를 옹호합니다. 촉각 서명 시스템은 시각 장애인을 위한 포용적이고 접근 가능한 미래를 향한 중요한 발걸음입니다. [abs|pdf]

[62/68] DeepPhysiNet: Bridging Deep Learning and Atmospheric Physics for Accurate and Continuous Weather Modeling

Keywords: laws_deep_learning, nwp_deep_learning, deep_learning
Abstract: 정확한 일기 예보는 인간 활동에 매우 중요합니다. 현재 일기 예보에는 두 가지 패러다임이 있습니다: 수치적 일기 예보(NWP)와 딥러닝 기반 예측(DLP)이 그것입니다. NWP는 날씨 모델링에 대기 물리학을 활용하지만 데이터 활용도가 낮고 계산 비용이 높다는 단점이 있으며, DLP는 방대한 양의 데이터에서 직접 날씨 패턴을 학습할 수 있지만 물리 법칙을 통합하는 데 어려움을 겪습니다. 두 패러다임은 각각의 장단점을 가지고 있으며, NWP에서 채택한 물리 법칙은 좌표와 기상 변수 간의 관계를 설명하는 반면, DLP는 좌표를 고려하지 않고 기상 변수 간의 관계를 직접 학습하기 때문에 서로 호환되지 않습니다. 이러한 문제를 해결하기 위해 딥러닝 모델에 물리 법칙을 접목해 정확하고 연속적인 기상 시스템 모델링을 구현하는 딥피시넷 프레임워크를 도입했습니다. 먼저 온도, 기압, 풍속 등 개별 기상 변수에 대해 다층 퍼셉트론(MLP)을 기반으로 물리 네트워크를 구축합니다. 물리 네트워크는 좌표를 입력으로 받아 변수 값을 출력으로 생성함으로써 변수와 좌표 간의 관계를 설정합니다. 부분 미분 방정식(PDE) 형태의 물리 법칙을 손실 함수의 일부로 통합할 수 있습니다. 다음으로, 대량의 기상 데이터에서 날씨 패턴을 직접 학습하기 위해 딥러닝 기법을 기반으로 하이퍼 네트워크를 구축합니다. 하이퍼 네트워크의 출력은 물리 네트워크의 가중치의 일부를 구성합니다. 실험 결과, 딥피시넷은 물리 법칙을 성공적으로 통합하면 여러 작업을 동시에 수행하여 예보 정확도를 향상시킬 뿐만 아니라 NWP나 DLP로는 달성할 수 없는 연속적인 시공간 해상도 결과를 얻을 수 있음을 입증했습니다. [abs|pdf]

[63/68] MobileAgent: enhancing mobile control via human-machine interaction and SOP integration

Keywords: capable_automating_mobile, interactive_tasks_agents, automating_mobile_device
Abstract: 이제 대규모 언어 모델(LLM)을 중심으로 한 에이전트가 사용자를 위한 모바일 기기 작업을 자동화할 수 있습니다. 이러한 에이전트는 사용자의 모바일 조작을 학습하기 위해 미세 조정을 거친 후 온라인에서 높은 수준의 사용자 지침을 준수할 수 있습니다. 최종 목표가 달성될 때까지 목표 분해, 하위 목표의 순서 지정, 대화형 환경 탐색과 같은 작업을 수행합니다. 그러나 모바일 작업 중에는 개인화된 사용자 데이터와 관련된 개인 정보 보호 문제가 발생하여 사용자의 확인이 필요합니다. 또한 사용자의 실제 작업은 탐색적이기 때문에 행동 데이터가 복잡하고 중복되어 에이전트 학습에 어려움을 겪습니다. 이러한 문제를 해결하기 위해 실제 애플리케이션에서는 상담원과 사람 간의 대화형 작업을 설계하여 민감한 정보를 식별하고 개인화된 사용자 요구사항에 맞게 조정했습니다. 또한 복잡한 작업 실행에 대한 에이전트의 이해도를 높이기 위해 모델의 상황별 학습에 표준 운영 절차(SOP) 정보를 통합했습니다. 이러한 접근 방식은 애플리케이션 작동, 웹 검색, 웹 쇼핑 등 다단계 작업에 걸쳐 3만 개의 고유 지침을 포함하는 새로운 디바이스 제어 벤치마크 AitW에서 평가되었습니다. 실험 결과, SOP 기반 에이전트는 추가적인 추론 비용 없이도 66.92%의 전체 작업 성공률을 자랑하며 최첨단 성능을 달성하는 것으로 나타났습니다. [abs|pdf]

[64/68] From Prompt Engineering to Prompt Science With Human in the Loop

Keywords: codebook_construction_qualitative, generating_analyzing_data, llms_analyzing_data
Abstract: LLM이 우리 생활의 여러 측면으로 파고들면서 LLM 사용에 대한 면밀한 검토가 필요한 분야 중 하나는 과학 연구입니다. 연구 목적으로 데이터를 생성하거나 분석하기 위해 LLM을 사용하는 것이 인기를 얻고 있습니다. 하지만 이러한 응용 프로그램이 임시방편적인 결정과 엔지니어링 솔루션으로 인해 손상될 경우, 해당 연구와 그 결과 또는 해당 연구를 기반으로 한 향후 작업에 어떤 영향을 미칠지 우려해야 합니다. 우리는 연구에 LLM을 사용하는 데 있어 보다 과학적인 접근 방식이 필요합니다. 보다 체계적인 프롬프트 구축을 지원하기 위한 여러 가지 노력이 활발히 진행되고 있지만, 충분한 투명성, 객관성, 엄밀성을 갖춘 복제 가능하고 일반화 가능한 지식을 생산하기보다는 바람직한 결과를 달성하는 데 더 초점을 맞추고 있는 경우가 많습니다. 이 글에서는 이러한 문제를 해결하기 위해 질적 방법을 통한 코드북 구축에서 영감을 얻은 새로운 방법론을 제시합니다. 이 방법론은 사람이 직접 참여하고 다단계 검증 프로세스를 통해 데이터 분석을 위해 보다 체계적이고 객관적이며 신뢰할 수 있는 방법으로 LLM을 적용할 수 있는 토대를 마련합니다. 특히, 일련의 연구자들이 라벨링, 심의, 문서화의 엄격한 프로세스를 통해 주관성을 제거하고 신속한 생성 프로세스에 투명성과 재현성을 부여할 수 있는 방법을 보여줍니다. 이 방법론이 실제로 어떻게 적용될 수 있는지 보여주기 위해 일련의 실험을 제시합니다. [abs|pdf]

[65/68] Generation Z's Ability to Discriminate Between AI-generated and Human-Authored Text on Discord

Keywords: intelligence_ai_chatbots, ai_chatbots, ai_chatbots_chatgpt
Abstract: ChatGPT와 같은 생성형 인공지능(AI) 챗봇의 인기가 높아지면서 소셜 미디어에 혁신적인 영향을 미치고 있습니다. AI로 생성된 콘텐츠의 보급이 증가함에 따라 온라인상의 개인정보 보호 및 잘못된 정보에 대한 우려가 제기되고 있습니다. 소셜 미디어 플랫폼 중 AI 통합이 가능한 디스코드는 주로 'Z세대' 사용자층이 AI가 생성한 콘텐츠에 특히 많이 노출되어 있습니다. Z세대(n = 335명)를 대상으로 설문조사를 실시하여 Discord에서 AI가 생성한 텍스트와 사람이 작성한 텍스트를 구별하는 능력을 평가했습니다. 이 조사는 http URL 플랫폼에서 수신된 문자 메시지로 위장한 ChatGPT의 원샷 프롬프트를 사용했습니다. 인구통계학적 요인이 능력에 미치는 영향과 참가자들의 디스코드 및 인공지능 기술에 대한 친숙도를 조사했습니다. 그 결과, Z세대는 인공지능과 사람이 작성한 텍스트를 구분하지 못하는 것으로 나타났으며(p = 0.011), Discord에 대한 친숙도가 낮다고 스스로 보고한 사람들은 인공지능에 대한 경험이 있다고 스스로 보고한 사람들에 비해 사람이 작성한 것을 식별하는 능력이 향상되었습니다(p << 0.0001). 이번 연구 결과는 AI 기술과 Z세대에게 인기 있는 커뮤니케이션 방식 사이에 미묘한 관계가 있음을 시사하며, 인간과 컴퓨터의 상호작용, 디지털 커뮤니케이션, 인공지능 활용 능력에 대한 귀중한 인사이트를 제공합니다. [abs|pdf]

[66/68] Why is the User Interface a Dark Pattern? : Explainable Auto-Detection and its Analysis

Keywords: patterns_deceptive_user, dark_patterns_privacy, dark_patterns_deceptive
Abstract: 다크 패턴은 사용자가 의도하지 않은 방식으로 행동하도록 유도하는 온라인 서비스의 기만적인 사용자 인터페이스 디자인입니다. 사생활 침해, 금전적 손실, 정서적 고통과 같은 다크 패턴은 사용자에게 해를 끼칠 수 있습니다. 이러한 문제는 최근 몇 년 동안 상당한 논쟁의 대상이 되어 왔습니다. 이 논문에서는 해석 가능한 다크 패턴 자동 감지, 즉 특정 사용자 인터페이스에 다크 패턴이 있는 것으로 감지되는 이유를 연구합니다. 먼저 이커머스에서 다크 패턴을 자동으로 감지하기 위해 텍스트 기반 데이터 세트에 트랜스포머 기반의 사전 학습된 언어 모델인 BERT를 사용하여 모델을 학습시켰습니다. 그런 다음, 학습된 모델에 로컬 해석 가능한 모델 불가지론적 설명(LIME)과 샤플리 부가적 설명(SHAP) 등의 사후 설명 기법을 적용하여 어떤 용어가 다크 패턴으로 예측에 영향을 미치는지 밝혀냈습니다. 또한 다크 패턴에 영향을 미치는 용어를 추출하여 분석했습니다. 이러한 연구 결과는 다크 패턴에 의한 사용자 조작을 방지하고 보다 공평한 인터넷 서비스를 구축하는 데 도움이 될 수 있습니다. 다크패턴 분석 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[67/68] Working with Trouble and Failures in Conversation between Humans and Robots (WTF 2023) & Is CUI Design Ready Yet?

Keywords: conversation_humans_robots, robot_interaction_dialogue, conversational_user_interfaces
Abstract: 대화형 사용자 인터페이스 2023에 관한 ACM 컨퍼런스의 일부인 "인간과 로봇의 대화에서 발생하는 문제와 실패에 대한 작업"(WTF 2023)과 "CUI 디자인은 아직 준비되지 않았나?"라는 두 개의 공동 개최 워크숍의 워크숍 진행 상황을 소개합니다.
WTF 23은 인간과 로봇의 상호작용, 대화 시스템, 인간과 컴퓨터의 상호작용, 대화 분석 분야의 연구자들이 한자리에 모이는 것을 목표로 했습니다. 많은 발전에도 불구하고 로봇 음성 인터페이스는 여러 가지 면에서 여전히 취약하며, 이러한 인터페이스의 실패 경험은 로봇 전문가들 사이에서 흔히 볼 수 있습니다. 그러나 기술 문헌은 이러한 인터페이스의 우수한 성능에 대해 긍정적으로 왜곡되어 있습니다. 이 워크숍은 인간과 로봇의 상호작용에서 발생하는 의사소통 문제와 실패, 그리고 로봇이 아닌 음성 인터페이스에서 발생하는 관련 실패에 대해 논의할 수 있는 플랫폼을 제공하는 것을 목표로 합니다. 목표는 의사소통 실패에 대한 면밀한 조사, 그러한 실패의 분류 작업을 시작하고 가능한 완화 전략에 대한 사전 토론을 가능하게 하는 것입니다. 워크샵 웹사이트: 이 https URL
CUI 디자인이 준비되었나요? 학술 연구와 상업 시장 모두에서 CUI가 널리 보급됨에 따라 사용 가능하고 채택 가능한 CUI를 디자인하는 것이 더욱 중요해지고 있습니다. 상업적 용도의 CUI를 디자인하는 방법에 대한 연구는 계속 증가하고 있지만, 실제 CUI 디자인에 도움이 되는 디자인 리소스를 개발하는 전반적인 커뮤니티 관행에 대한 논의는 거의 이루어지지 않았습니다. 따라서 이 워크숍의 목적은 CUI 커뮤니티를 한자리에 모아 실제 CUI 디자인을 위한 도구 및 리소스 개발의 현재 관행, 이러한 도구 및 리소스의 채택(또는 채택하지 않음), 그리고 이 분야에 진입하는 신규 CUI 디자이너의 훈련 및 교육에 이러한 리소스가 어떻게 활용되는지에 대해 논의하는 것입니다. 워크숍 웹사이트: 이 https URL [abs|pdf]

[68/68] On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond

Keywords: offline_reinforcement_learning, sample_efficient_learning, known_offline_reinforcement
Abstract: 우리는 순차적 의사 결정을 위해 과거 데이터 세트에서 샘플을 효율적으로 학습하는 방법을 이해하고자 하며, 이는 오프라인 강화 학습(RL)으로 널리 알려져 있는 문제입니다. 또한, (값) 함수 근사치를 활용하면서 샘플 효율성을 누릴 수 있는 알고리즘에도 관심이 있습니다. 이 논문에서는 (1) 오프라인 RL에서 커버리지 측정에 대한 이전의 개념을 포괄하는 데이터 다양성 개념을 제안하고, (2) 이 개념을 사용하여 버전 공간(VS), 정규화 최적화(RO), 사후 샘플링(PS)에 기반한 세 가지 다른 종류의 오프라인 RL 알고리즘을 통합함으로써 이러한 근본적인 질문을 해결합니다. 우리는 표준 가정 하에서 VS 기반, RO 기반, PS 기반 알고리즘이 표준 가정 하에서 유한 및 선형 모델 클래스에 대한 최첨단 아차 최적성 경계를 복구하는 비교 가능한 샘플 효율성을 달성한다는 것을 입증합니다. 이 결과는 선행 연구에서 RO 기반 알고리즘의 샘플 복잡성이 VS 기반 알고리즘에 비해 불리하다고 제안한 반면, 오프라인 RL에서는 탐색적 특성으로 인해 후행 샘플링이 거의 고려되지 않는다는 점을 고려할 때 놀라운 결과입니다. 특히, 저희가 제안한 오프라인 RL을 위한 모델 없는 PS 기반 알고리즘은 새로운 알고리즘으로, 본질적으로 빈번주의적(즉, 최악의 경우)인 하위 최적성 바운드를 가지고 있습니다. [abs|pdf]