프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-02-07]

다각 2024. 2. 22. 08:59

[1/134] Can Generative Agents Predict Emotion?

Keywords: emotion_creation_agent, emotion_creation, agent_capturing_emotional
Abstract: 대규모 언어 모델(LLM)은 인간과 유사한 여러 가지 능력을 보여줬지만, LLM의 공감적 이해와 감정 상태는 아직 인간에 미치지 못합니다. 이 연구에서는 새로운 사건을 인지할 때 생성형 LLM 에이전트의 감정 상태가 어떻게 진화하는지를 조사하여 새로운 경험을 과거의 기억과 비교하는 새로운 아키텍처를 도입했습니다. 이러한 비교를 통해 에이전트는 감정 평가 이론에 따르면 감정 생성에 필수적인 새로운 경험을 맥락에서 이해할 수 있는 능력을 얻게 됩니다. 먼저 에이전트는 새로운 경험을 시계열 텍스트 데이터로 인식합니다. 에이전트는 각각의 새로운 입력을 인식한 후 규범이라고 하는 과거 관련 기억의 요약을 생성하고 새로운 경험을 이 규범과 비교합니다. 이 비교를 통해 에이전트가 새로운 경험에 대해 맥락에서 어떻게 반응하는지 분석할 수 있습니다. 상담원에게 정서 테스트인 PANAS를 실시하여 새로운 사건을 인지한 후 상담원의 감정 상태를 파악합니다. 마지막으로 새로운 경험이 상담원의 기억에 추가되어 향후 규범을 만드는 데 사용됩니다. 감정이 격한 상황에서 자연어로 다양한 경험을 생성함으로써 다양한 시나리오에서 제안된 아키텍처를 테스트합니다. 다양한 결과를 통해 컨텍스트를 도입하면 에이전트의 감정적 정렬이 때때로 개선될 수 있음을 알 수 있지만, 인간 평가자와의 추가 연구 및 비교가 필요합니다. 이 논문이 제너레이티브 에이전트의 정렬을 향한 또 다른 발걸음이 되기를 바랍니다. [abs|pdf]

[2/134] "Task Success" is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors

Keywords: embodied_ai_verification, scripted_verifiers_akin, scripted_verifiers
Abstract: 대규모 생성 모델은 의미 있는 후보 솔루션을 샘플링하는 데 유용하지만, 작업의 제약과 사용자 선호도를 간과하는 경우가 많습니다. 모델을 외부 검증자와 결합하고 검증 피드백에 따라 반복적 또는 점진적으로 최종 솔루션을 도출할 때 그 성능을 최대한 활용할 수 있습니다. 구현형 AI의 맥락에서 검증은 종종 지침에 명시된 목표 조건이 충족되었는지 여부를 평가하는 것만으로 이루어집니다. 하지만 이러한 에이전트가 일상 생활에 원활하게 통합되기 위해서는 단순한 작업 성공 여부를 넘어 광범위한 제약 조건과 선호도를 고려하는 것이 중요합니다(예: 로봇은 빵이 크게 변형되지 않도록 조심스럽게 빵을 잡아야 함). 그러나 로봇 작업의 무한한 범위를 고려할 때 바둑 게임이나 정리 증명과 같은 명시적 지식 작업에 사용되는 것과 유사한 스크립트화된 검증기를 구축하는 것은 불가능합니다. 그렇다면 제대로 된 검증자가 없는 경우, 거의 전지전능하다고 할 수 있는 대규모 시각 및 언어 모델(VLM)을 확장 가능한 행동 비평 도구로 사용해 동영상에서 바람직하지 않은 로봇의 행동을 포착할 수 있을까요? 이 질문에 답하기 위해 먼저 목표에 도달했지만 바람직하지 않은 로봇 정책의 다양한 사례를 포함하는 벤치마크를 구축합니다. 그런 다음 VLM 크리틱을 종합적으로 평가하여 로봇의 강점과 실패 모드를 더 깊이 이해합니다. 평가 결과를 바탕으로 VLM 비평을 효과적으로 활용하는 방법에 대한 가이드라인을 제공하고 피드백을 반복적인 정책 개선 프로세스에 통합하는 실용적인 방법을 소개합니다. 데이터 세트와 코드베이스는 다음 https URL에서 공개됩니다. [abs|pdf]

[3/134] Human-Like Geometric Abstraction in Large Pre-trained Neural Networks

Keywords: human_geometric_abilities, cognitive_science_geometric, human_geometric
Abstract: 인간은 추상적 구조를 인식하고 조작하는 놀라운 능력을 가지고 있으며, 이는 특히 기하학 영역에서 두드러집니다. 인지 과학의 최근 연구에 따르면 신경망은 이러한 능력을 공유하지 않으며, 인간의 기하학적 능력은 인간의 정신적 표상에 있는 개별적인 기호 구조에서 비롯된다고 결론지었습니다. 그러나 인공 지능(AI)의 발전은 신경망이 모델 크기와 학습 데이터의 양 측면에서 표준 아키텍처를 확장한 후 인간과 유사한 추론 능력을 발휘하기 시작했음을 시사합니다. 이 연구에서는 기하학적 시각 처리에 대한 인지 과학의 경험적 결과를 재검토하고 기하학적 시각 처리의 세 가지 주요 편향, 즉 복잡성, 규칙성, 부분과 관계에 대한 지각에 대한 민감성을 확인합니다. 또한 인간의 이러한 편향을 조사하는 문헌의 과제를 테스트하여 AI에 사용되는 사전 학습된 대규모 신경망 모델이 인간과 더 유사한 추상적 기하학적 처리를 보인다는 사실을 발견했습니다. [abs|pdf]

[4/134] Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction

Keywords: multimodal_game_instructions, enabling_comprehend_gameplay, task_guidance_agents
Abstract: 제너럴리스트 에이전트를 개발하는 것은 인공 지능의 오랜 목표입니다. 다양한 작업의 광범위한 오프라인 데이터 세트를 활용한 이전의 노력은 강화 학습 내 멀티태스킹 시나리오에서 놀라운 성능을 보였으나, 이러한 작업은 새로운 작업으로 기능을 확장하는 데 어려움을 겪었습니다.최근의 접근 방식은 텍스트 안내 또는 시각적 궤적을 의사 결정 네트워크에 통합하여 작업별 맥락적 단서를 제공하는 유망한 방향을 제시하지만 텍스트 안내 또는 시각적 궤적에만 의존하는 것은 작업의 맥락 정보를 정확하게 전달하기에 충분하지 않은 것으로 관찰됩니다.본 논문에서는 에이전트가 게임플레이 지침을 이해할 수 있는 향상된 형태의 작업 지침을 탐색하여 "읽기-투-플레이" 기능을 촉진하고, 시각적 작업에서 멀티모달 지침 튜닝의 성공에서 영감을 얻어 시각 기반 RL 작업을 장기 비전 작업으로 간주하고 지침 튜닝을 의사 결정 변환기에 통합하기 위한 멀티모달 게임 지침 세트를 구성하며, 실험 결과 멀티모달 게임 지침을 통합하면 의사 결정 변환기의 멀티태스킹 및 일반화 기능이 크게 향상되는 것을 입증했습니다. [abs|pdf]

[5/134] Advancing Legal Reasoning: The Integration of AI to Navigate Complexities and Biases in Global Jurisprudence with Semi-Automated Arbitration Processes (SAAPs)

Keywords: ai_legal_analysis, intelligence_ai_legal, analysis_court_judgments
Abstract: 이 연구는 미국, 영국, 르완다, 스웨덴, 홍콩 등 5개국에 걸친 법원 판결을 분석하는 새로운 접근법으로 구성되어 있습니다. 이 연구는 또한 인공지능(AI)의 최신 발전과 법률 분석의 교차점을 탐구하며, 다양한 관할권에서 법률의 일관된 적용을 보장하기 위해 인간의 편견을 식별하고 법원 판결의 자동화되고 타당하며 일관된 다면 논증을 촉진하는 데 있어 AI(특히 생성적 AI)의 역할을 강조합니다. 이 논문에서는 고급 언어 모델(ALM)과 새로 도입된 인간-AI 협업 프레임워크를 통합하여 법률 실무에서 고급 언어 모델(ALM)을 사용한 근거 이론 기반 연구 설계를 분석하고자 합니다. SHIRLEY는 다양한 법적 결정에서 논리적 불일치와 편견을 탐지하는 데 중점을 둔 AI 기반 애플리케이션(OpenAI의 GPT 기술 위에 구축됨)의 이름입니다. 셜리 분석은 집계되며, 셜리 편향 탐지의 상대적 편차를 식별하기 위해 SAM(ALM이라고도 함)이라는 비교 지향적 AI 기반 애플리케이션과 함께 제공됩니다. 또한, 반자율 중재 프로세스 내에서 ALM인 SARA를 통해 CRITIC이 생성됩니다. 비즈니스 및 인권 중재에 관한 헤이그 규칙에 따라 앞서 언급한 AI 애플리케이션(SHIRLEY와 함께 SAM)이 식별한 편견과 질적 뉘앙스를 비판적으로 평가하기 위해 AI 중재인 활용에 새로운 접근 방식이 도입됩니다. 이 반자동 중재 프로세스(SAAP)는 AI와 인간 기반 협업 분석의 하이브리드 시스템을 통해 미묘한 논쟁의 결과인 '이해'를 보장함으로써 법적 판단의 무결성과 공정성을 유지하는 것을 목표로 합니다. [abs|pdf]

[6/134] Position Paper: Against Spurious Sparks-Dovelating Inflated AI Claims

Keywords: human_biases_general, human_biases, common_ai_portrayal
Abstract: 인간은 주변 사물에서 '인간'과 같은 특성을 보려는 경향이 있습니다. 우리는 자동차에 이름을 붙이고, 애완동물이나 가전제품에 말을 걸면서 마치 그것들이 다른 사람처럼 우리를 이해할 수 있는 것처럼 생각합니다. 의인화라고 불리는 이러한 행동은 기계 학습(ML)에서도 주목받고 있으며, 대규모 언어 모델(LLM)에서 인간과 유사한 지능을 인식한다고 주장합니다. 이 포지션 페이퍼에서는 직업적 인센티브, 인간의 편견, 일반적인 방법론적 설정을 고려하여 현재 인공 일반 지능(AGI)에 대한 검색이 어떻게 LLM에 인간과 같은 특성을 과도하게 부여하는 퍼펙트 스톰이 될 수 있는지에 대해 논의합니다. 여러 실험을 통해 잠재 공간에서 인간이 해석할 수 있는 패턴을 발견하는 것이 놀라운 결과가 아님을 증명합니다. 또한 미디어에서 흔히 볼 수 있는 AI에 대한 묘사를 고려할 때, 우리는 학계가 AI 연구 결과를 해석하고 소통할 때 각별한 주의를 기울이고 학문적 진실성의 원칙을 더욱 인식할 것을 촉구합니다. [abs|pdf]

[7/134] A call for embodied AI

Keywords: embodied_ai_introduce, propose_embodied_ai, embodied_ai
Abstract: 유니티는 인공 지능을 추구하기 위한 다음 기본 단계로 구현형 AI를 제안하며, 이를 현재의 AI 발전, 특히 대규모 언어 모델과 나란히 배치합니다. 철학, 심리학, 신경과학, 로봇공학 등 다양한 분야에서 구현형 개념의 진화 과정을 살펴보고, EAI가 정적 학습의 고전적 패러다임과 어떻게 차별화되는지 강조합니다. 구현형 AI의 범위를 넓혀 인지 아키텍처에 기반한 이론적 프레임워크를 소개하며, 구현형 에이전트의 필수 구성 요소인 지각, 행동, 기억, 학습을 강조합니다. 이 프레임워크는 프리스톤의 능동적 추론 원칙과 일치하며, EAI 개발에 대한 포괄적인 접근 방식을 제공합니다. AI 분야의 진전에도 불구하고 새로운 AI 학습 이론의 정립과 첨단 하드웨어의 혁신과 같은 중대한 과제는 여전히 남아 있습니다. 이번 토론은 향후 구현형 AI 연구를 위한 기초적인 가이드라인을 제시합니다. 실제 환경에서 인간 및 다른 지능형 개체와 원활하게 소통하고 협업하며 공존할 수 있는 구현형 AI 에이전트를 만드는 것의 중요성을 강조하며, AI 커뮤니티가 다각적인 과제를 해결하고 AGI를 향한 여정에 놓인 기회를 포착할 수 있도록 이끌고자 합니다. [abs|pdf]

[8/134] RevOrder: A Novel Method for Enhanced Arithmetic in Language Models

Keywords: improving_arithmetic_operations, arithmetic_operations_large, improving_arithmetic
Abstract: 이 논문에서는 덧셈, 뺄셈, n-자리 1자리 곱셈 작업에서 출력 자릿수를 반대로 하여 대규모 언어 모델(LLM)의 산술 연산을 개선하는 새로운 기법, RevOrder를 소개합니다. 이 방법은 방정식의 복잡성을 평가하기 위해 도입한 새로운 지표인 순차적 중간 자릿수(CSID)를 $\mathcal{O}(1)$로 크게 줄였습니다. 종합적인 테스트를 통해 RevOrder는 기본적인 산술 연산에서 완벽한 정확도를 달성했을 뿐만 아니라 특히 기존 모델이 어려움을 겪는 큰 숫자의 나눗셈 작업에서 LLM의 성능을 크게 향상시켰습니다. RevOrder를 구현하면 훈련과 추론 단계 모두에서 비용 효율적입니다. 또한 GSM8K 수학 작업에서 LLaMA2-7B 모델을 미세 조정하는 데 RevOrder를 적용하면 방정식 계산 오류가 46% 감소하고 전체 점수가 41.6점에서 44.4점으로 증가하는 등 상당한 개선 효과를 얻을 수 있습니다. [abs|pdf]

[9/134] QuantAgent: Seeking Holy Grail in Trading by Self-Improving Large Language Model

Keywords: knowledge_base_agent, agent_learning, agent_mining_trading
Abstract: 계획을 수립하고 실제 문제를 해결하는 대규모 언어 모델(LLM)에 기반한 자율 에이전트가 각광받고 있지만, 양적 투자와 같은 특수한 도메인에 맞게 에이전트를 조정하는 것은 여전히 어려운 과제입니다. 핵심 과제는 에이전트의 학습 프로세스를 위한 도메인별 지식 기반을 효율적으로 구축하고 통합하는 것입니다. 이 백서에서는 이러한 과제를 해결하기 위한 원칙적인 프레임워크를 소개합니다. 내부 루프에서는 에이전트가 지식 기반에서 가져와 응답을 개선하고, 외부 루프에서는 이러한 응답을 실제 시나리오에서 테스트하여 새로운 인사이트로 지식 기반을 자동으로 향상시킵니다. 또한, 이 접근 방식을 통해 에이전트가 입증 가능한 효율성으로 점진적으로 최적의 행동에 근접할 수 있음을 보여줍니다. 경험적 결과는 실행 가능한 재무 신호를 발견하고 재무 예측의 정확성을 향상시키는 QuantAgent의 능력을 보여줍니다. [abs|pdf]

[10/134] Deep Outdated Fact Detection in Knowledge Graphs

Keywords: outdated_fact_detection, identify_outdated_facts, deep_outdated_fact
Abstract: 지식 그래프(KG)는 다양한 영역에서 그 방대한 잠재력으로 인해 큰 주목을 받고 있습니다. 그러나 오래된 사실 문제는 실제 정보가 진화함에 따라 KG의 전반적인 품질에 영향을 미치면서 KG에 도전 과제가 되고 있습니다. 오래된 사실 탐지를 위한 기존 솔루션은 수동 인식에 의존하는 경우가 많습니다. 이에 본 백서에서는 KG 내에서 오래된 사실을 식별하기 위해 설계된 새로운 딥러닝 기반 프레임워크인 DEAN(Deep outdatEd fAct detectioN)을 소개합니다. DEAN은 실체와 관계에 대한 포괄적인 모델링을 통해 사실들 사이의 암묵적인 구조 정보를 포착한다는 점에서 차별화됩니다. 잠재된 오래된 정보를 효과적으로 찾아내기 위해 DEAN은 엔티티 수에 따라 가중치를 부여한 사전 정의된 관계 대 노드(R2N) 그래프를 기반으로 한 대조적 접근 방식을 사용합니다. 실험 결과는 최신 기준 방법에 비해 DEAN의 효과와 우월성을 입증합니다. [abs|pdf]

[11/134] Consistent Joint Decision-Making with Heterogeneous Learning Models

Keywords: decisions_diverse_models, consistency_decisions_diverse, integer_linear_programming
Abstract: 이 백서에서는 외부 지식을 활용하면서 다양한 모델이 내린 의사결정의 일관성을 높이는 새로운 의사결정 프레임워크를 소개합니다. 정수 선형 프로그래밍(ILP) 프레임워크를 활용하여 의사결정의 사전 확률, 신뢰도(불확실성), 모델의 예상 정확도에 대한 정보를 통합함으로써 다양한 모델의 예측을 전 세계적으로 정규화되고 비교 가능한 값으로 매핑합니다. 경험적 연구를 통해 여러 데이터 세트에 대한 기존 기준선보다 더 우수한 접근 방식을 입증했습니다. [abs|pdf]

[12/134] Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents

Keywords: reinforcement_learning_rl, formulas_reward_machines, learning_progress_agent
Abstract: 강화 학습(RL)은 인공 에이전트가 다양한 행동을 학습할 수 있도록 하는 데 상당한 진전을 이루었습니다. 하지만 효과적인 정책을 학습하려면 많은 수의 환경 상호작용이 필요한 경우가 많습니다. 샘플의 복잡성 문제를 완화하기 위해 최근의 접근 방식은 선형 시간 논리(LTL$_f$) 공식이나 보상 머신(RM)과 같은 높은 수준의 작업 사양을 사용하여 에이전트의 학습 진행을 안내합니다. 이 연구에서는 환경 상호작용의 수를 최소화하면서 높은 수준의 작업 사양을 기반으로 에이전트를 초기 상태에서 목표 상태로 안내하는 일련의 RL 정책을 학습하는 논리적 사양 안내 동적 작업 샘플링(LSTS)이라는 새로운 접근 방식을 제안합니다. 이전 작업과 달리 LSTS는 환경 역학이나 보상 기계에 대한 정보를 가정하지 않으며, 성공적인 목표 정책으로 이어지는 유망한 작업을 동적으로 샘플링합니다. 그리드월드에서 LSTS를 평가한 결과, 보상 머신을 위한 Q-학습과 논리적 사양으로부터의 구성적 RL(DIRL)과 같은 최신 RM 및 오토마톤 가이드 RL 기준선에 비해 복잡한 순차적 의사결정 문제에서 임계값 도달 시간이 개선된 성능을 달성함을 보여줍니다. 또한 부분적으로 관찰 가능한 로봇 작업과 연속 제어 로봇 조작 작업 모두에서 샘플 효율성 측면에서 RM 및 오토마톤 가이드 RL 기준선보다 우수한 성능을 보임을 입증했습니다. [abs|pdf]

[13/134] torchmSAT: A GPU-Accelerated Approximation To The Maximum Satisfiability Problem

Keywords: maxsat_using_backpropagation, existing_maxsat_solvers, maxsat_solvers
Abstract: 이산 구조 분석에서 머신러닝 기법의 괄목할 만한 성과로 인해 이를 조합 최적화 알고리즘에 통합하는 데 큰 관심이 쏠리고 있습니다. 일반적으로 이러한 방법론은 학습된 모델을 솔빙 루프 내에 주입하여 검색 프로세스의 효율성을 향상시킴으로써 기존 솔버를 개선합니다. 이 연구에서는 최대 만족 문제(MaxSAT)의 해를 근사화할 수 있는 미분 가능한 단일 함수를 도출합니다. 그런 다음 미분 함수를 모델링하기 위한 새로운 신경망 아키텍처를 제시하고, 역전파를 사용하여 점진적으로 MaxSAT를 해결합니다. 이 접근 방식은 훈련 과정이 풀이 알고리즘으로 작동하기 때문에 레이블이 지정된 데이터나 신경망 훈련 단계가 필요하지 않습니다. 또한 GPU의 연산 능력을 활용하여 이러한 계산을 가속화합니다. 까다로운 MaxSAT 인스턴스에 대한 실험 결과에 따르면, 우리가 제안한 방법론은 기본 SAT 솔버에 대한 훈련이나 액세스 없이도 기존의 두 가지 MaxSAT 솔버보다 성능이 뛰어나고 솔루션 비용 측면에서도 다른 솔버와 동등한 수준인 것으로 나타났습니다. 수많은 NP-하드 문제를 MaxSAT로 줄일 수 있다는 점을 감안할 때, 이 새로운 기법은 신경망 GPU 가속의 이점을 누릴 수 있는 차세대 솔버를 위한 길을 열어줍니다. [abs|pdf]

[14/134] Self-Discover: Large Language Models Self-Compose Reasoning Structures

Keywords: self_discovered_reasoning, intrinsic_reasoning_structures, task_intrinsic_reasoning
Abstract: 일반적인 프롬프트 방식으로는 해결하기 어려운 복잡한 추론 문제를 해결하기 위해 LLM이 과제에 내재된 추론 구조를 스스로 발견할 수 있는 일반적인 프레임워크인 셀프 디스커버(SELF-DISCOVER)를 소개합니다. 이 프레임워크의 핵심은 LLM이 비판적 사고, 단계적 사고와 같은 여러 가지 원자적 추론 모듈을 선택하고, 이를 디코딩 과정에서 LLM이 따를 수 있는 명시적 추론 구조로 구성하는 자기 발견 프로세스입니다. SELF-DISCOVER는 빅벤치하드, 근거 에이전트 추론, MATH와 같은 까다로운 추론 벤치마크에서 GPT-4와 PaLM 2의 성능을 CoT(Chain of Thought)에 비해 최대 32%까지 크게 향상시킵니다. 또한 셀프 디스커버리는 추론 연산이 10~40배 더 적게 필요하면서도 CoT-자기 일관성과 같은 추론 집약적인 방법보다 20% 이상 뛰어난 성능을 발휘합니다. 마지막으로, 자체 발견한 추론 구조가 PaLM 2-L에서 GPT-4, GPT-4에서 Llama2에 이르기까지 모든 모델군에 보편적으로 적용 가능하며, 인간의 추론 패턴과 공통점을 공유한다는 것을 보여줍니다. [abs|pdf]

[15/134] Comparing Abstraction in Humans and Large Language Models Using Multimodal Serial Reproduction

Keywords: humans_communicate_abstractions, multimodal_serial_reproduction, modality_humans_communicate
Abstract: 인간은 노이즈가 많은 감각 데이터에서 유용한 추상적 세계관을 추출합니다. 연속적 재현을 통해 우리는 한 사람이 자극을 관찰하고 이를 다음 사람에게 재현하여 연쇄적인 재현을 형성하는 전화 게임과 유사한 패러다임을 통해 사람들이 세상을 어떻게 해석하는지를 연구할 수 있습니다. 과거의 연쇄 재생산 실험은 일반적으로 단일 감각 양식을 사용했지만, 인간은 종종 언어를 통해 세계의 추상적 개념을 서로에게 전달합니다. 언어가 추상화 형성에 미치는 영향을 조사하기 위해, 우리는 시각적 자극을 받은 사람에게 이를 언어적 형식으로 재현하도록 요청하고 그 반대의 경우도 마찬가지인 새로운 다중 모드 연속 재현 프레임워크를 구현했습니다. 인간과 GPT-4를 대상으로 단일 모드와 다중 모드 연쇄를 실행한 결과, 언어를 양식으로 추가하는 것이 GPT-4보다 인간의 재현에 더 큰 영향을 미친다는 사실을 발견했습니다. 이는 인간의 시각적 표현과 언어적 표현이 GPT-4의 표현보다 더 해리될 수 있음을 시사합니다. [abs|pdf]

[16/134] Improving Contextual Congruence Across Modalities for Effective Multimodal Marketing using Knowledge-infused Learning

Keywords: modal_marketing_campaigns, modal_campaigns_assessment, multi_modal_marketing
Abstract: 여러 모드로 순간을 포착할 수 있는 스마트 기기의 보급으로 사용자들은 온라인에서 멀티모달 정보를 경험할 수 있게 되었습니다. 그러나 대규모 언어(LLM)와 시각 모델(LVM)은 모달 간 의미 관계를 통해 전체적인 의미를 포착하는 데는 여전히 한계가 있습니다. 명시적이고 상식적인 지식(예: 지식 그래프)이 없는 시각 언어 모델(VLM)은 방대한 말뭉치에서 높은 수준의 패턴을 캡처하여 암시적 표현을 학습할 뿐, 필수적인 맥락적 교차 모드 단서를 놓치고 있습니다. 이 연구에서는 지식 그래프 형태의 명시적 상식 지식을 대규모 VLM과 결합하여 다운스트림 작업의 성과를 개선하고 멀티모달 마케팅 캠페인의 효과를 예측하는 프레임워크를 설계합니다. 마케팅 애플리케이션은 우리의 방법을 평가하기 위한 강력한 지표를 제공하지만, 우리의 접근 방식은 설득력 있는 멀티모달 캠페인을 조기에 발견하고 마케팅 이론을 평가 및 보강할 수 있게 해줍니다. [abs|pdf]

[17/134] Toward Human-AI Alignment in Large-Scale Multi-Player Games

Keywords: human_ai_gameplay, behavior_ai_players, ai_gameplay
Abstract: 복잡한 멀티 에이전트 게임에서 인간과 AI의 조율을 달성하는 것은 게임플레이를 향상시키는 신뢰할 수 있는 AI 에이전트를 만드는 데 매우 중요합니다. 유니티는 낮은 수준의 정책 대신 높은 수준의 행동 작업에 초점을 맞춘 해석 가능한 작업 세트 프레임워크를 사용하여 이러한 정렬을 평가하는 방법을 제안합니다. 유니티의 접근 방식은 세 가지 요소로 구성됩니다. 먼저, Xbox의 블리딩 엣지(10만 개 이상의 게임)의 방대한 인간 게임플레이 데이터를 분석하여 복잡한 작업 공간에서 행동 패턴을 발견합니다. 이 작업 공간은 전투-도피, 탐험-탐색, 솔로-멀티 에이전트 등 해석 가능한 축을 포착하는 행동 매니폴드의 기본 집합으로 사용됩니다. 둘째, 사전 학습된 생성형 인과 트랜스포머를 사용하여 블리딩 엣지를 플레이하도록 AI 에이전트를 훈련하고 그 행동을 측정합니다. 셋째, 제안된 행동 매니폴드에 인간과 AI의 게임플레이를 투영하여 비교 및 대조합니다. 이를 통해 정책의 차이를 더 높은 수준의 행동 개념으로 해석할 수 있습니다. 예를 들어, 인간 플레이어는 전투-도피 및 탐험-착취 행동에서 다양성을 보이는 반면, AI 플레이어는 획일성을 보이는 경향이 있다는 것을 발견했습니다. 또한, AI 에이전트는 주로 솔로 플레이를 하는 반면, 인간은 협력 및 경쟁하는 멀티 에이전트 패턴을 자주 사용합니다. 이러한 극명한 차이는 인간과 연계된 애플리케이션에서 해석 가능한 평가, 설계 및 AI 통합의 필요성을 강조합니다. 유니티의 연구는 멀티플레이어 게임에서 해석 가능한 인간-에이전트 조율에 대한 측정 가능한 프레임워크를 제공함으로써 AI, 특히 제너레이티브 AI 연구의 조율 논의를 발전시켰습니다. [abs|pdf]

[18/134] Extended Version of: On the Structural Hardness of Answer Set Programming: Can Structure Efficiently Confine the Power of Disjunctions?

Keywords: treewidth_disjunctive_programs, parameterized_complexity_landscapes, detailed_parameterized_complexity
Abstract: 답변 집합 프로그래밍(ASP)은 지식 표현에 중점을 둔 일반적인 문제 모델링 및 해결 프레임워크로, 산업 응용 분야에서 빠르게 성장하고 있습니다. 지금까지 복잡성에 대한 연구는 경도를 특성화하고 그 원인을 파악하는 것, 이분법적 결과 형태의 세분화된 인사이트, 매개변수화된 세부적인 복잡성 지형도를 도출하는 데 그쳤습니다. 안타깝게도 잘 알려진 매개변수 트리폭 분리 프로그램의 경우 합리적인 복잡도 가정 하에서 두 배의 지수 런타임이 필요합니다. 이는 금방 한계에 도달합니다. 우리는 프로그램의 규칙 구조(발생 그래프)에서 분리형 ASP의 구조적 매개변수 분류를 다룹니다.
먼저 다항식 커널을 제공하여 프로그램의 구조에 부분 집합 최소화가 표현되어 있지 않음에도 불구하고 정점 커버 크기 측면에서 단일 지수 런타임을 얻습니다. 그런 다음 정점 커버 크기와 트리 폭 사이의 더 나은 구조적 매개 변수에 주목합니다. 여기서는 이 범위에서 가장 두드러진 매개 변수인 트리 깊이, 피드백 버텍스 크기, 클리크 폭에 대해 지수 하한을 두 배로 제공합니다. 이를 바탕으로 안타깝게도 버텍스 커버 크기를 넘어서는 옵션은 제한적이라는 것을 알 수 있습니다. 우리의 결과는 정규 프로그램에서 분리형 프로그램으로의 새로운 감소에 의존하여 복잡성 증가를 기하급수적인 매개변수 압축과 교환하는 심층적인 경도 연구를 제공합니다. [abs|pdf]

[19/134] Neural networks for abstraction and reasoning: Towards broad generalization in machines

Keywords: visual_reasoning_tasks, abstraction_reasoning_corpus, perceptual_abstraction_reasoning
Abstract: 지난 반세기 동안 인공 지능 연구는 추상화와 추론이라는 인간의 특성을 재현하기 위해 노력해 왔으며, 인간이 쉽게 생각하는 환경에서 최소한의 예제로부터 새로운 개념을 학습할 수 있는 컴퓨터 시스템을 만들려고 시도했습니다. 특정 신경망은 인상적인 범위의 문제를 해결할 수 있지만, 훈련 데이터 이외의 상황에 대한 광범위한 일반화는 이 http URL 이 작업에서는 광범위한 일반화에 대한 알고리즘을 테스트하기 위해 도입된 추상적 시각 추론 과제 데이터 세트인 추상화 및 추론 코퍼스(ARC)를 풀기 위한 몇 가지 새로운 접근 방식을 살펴봅니다. 10만 달러의 상금이 걸린 세 차례의 국제 대회에도 불구하고 최고의 알고리즘은 여전히 대부분의 ARC 과제를 해결하지 못하고 있으며, 기계 학습을 전혀 사용하지 않고 복잡한 수작업 규칙에 의존하고 있습니다. 최근 신경망의 발전으로 이 과제를 해결할 수 있을지 다시 한 번 살펴봅니다.
먼저, 드림코더의 신경 기호 추론 솔버를 ARC에 적용합니다. 드림코더는 인간의 직관을 모방하는 신경망을 사용하여 추론을 수행하기 위해 맞춤형 도메인별 언어로 프로그램을 자동으로 작성합니다. 우리는 드림코더가 ARC 과제를 해결할 수 있는 지각 추상화 및 추론 언어(PeARL) 언어를 제시하고, 이전의 최적 구현을 크게 개선할 수 있는 새로운 인식 모델을 제안합니다. 또한 대규모 언어 모델(LLM)이 ARC 과제를 해결할 수 있는 새로운 인코딩 및 증강 체계를 제안하고, 가장 큰 모델이 일부 ARC 과제를 해결할 수 있음을 발견합니다. LLM은 최첨단 솔버와 다른 문제 그룹을 해결할 수 있으며, 다른 접근법을 보완하는 흥미로운 방법을 제공합니다. 유니티는 앙상블 분석을 수행하여 모델을 결합하면 어떤 시스템보다 더 나은 결과를 얻을 수 있습니다. 마지막으로, 향후 ARC에 대한 연구를 더 쉽게 할 수 있도록 arckit Python 라이브러리를 공개합니다. [abs|pdf]

[20/134] Beyond Text: Improving LLM's Decision Making for Robot Navigation via Vocal Cues

Keywords: human_robot_conversations, robot_conversations, robot_conversations_approach
Abstract: 이 연구는 인간과 로봇의 상호작용에 사용되는 텍스트 기반 대규모 언어 모델(LLM)의 중요한 단점을 강조하며, 대화 양식으로서 텍스트만으로는 이러한 애플리케이션에 적합하지 않다는 것을 보여줍니다. LLM은 이러한 인간 대화에서 텍스트를 처리하는 데는 탁월하지만, 모호성과 불확실성으로 인해 로봇 및 기타 AI 시스템에 대한 신뢰가 약화될 수 있는 소셜 내비게이션과 같은 시나리오에서 구두 지시의 뉘앙스를 처리하는 데는 어려움을 겪습니다. 텍스트를 넘어 이러한 오디오 응답의 언어적 특징에 추가로 집중함으로써 이러한 단점을 해결할 수 있습니다. 이러한 기능은 문자 그대로의 문구(어휘 내용)가 아닌 말투를 통해 의미와 뉘앙스를 전달하는 음성 커뮤니케이션의 한 측면입니다. 이러한 기능의 하위 섹션과 함께 오디오 트랜스 크립 션을 통합하여 인간과 로봇 간의 대화에서 영향력과 관련성에 중점을 두어 LLM 의사 결정을 개선하는 접근 방식인 "Beyond Text"를 소개합니다. 이 접근 방식은 70.26%의 승률을 달성하여 기존 LLM의 48.30%를 능가할 뿐만 아니라, 텍스트 전용 언어 모델보다 승률 감소율이 22.44% 낮은 것으로 나타나 토큰 조작 공격에 대한 견고성을 강화합니다. '비욘드 텍스트'는 텍스트 기반 안내와 인간 음성 정보 언어 모델을 원활하게 통합하여 소셜 로봇 내비게이션과 광범위한 인간-로봇 상호 작용의 진보를 의미합니다. [abs|pdf]

[21/134] Delivery Optimized Discovery in Behavioral User Segmentation under Budget Constrain

Keywords: optimized_discovery_behavioral, discovering_behavioral_segments, behavioral_user_segmentation
Abstract: 온라인에서 사용자의 행동 발자국을 통해 기업은 행동 기반 사용자 세그먼트(또는 세그먼트)를 발견하고 사용자에게 세그먼트별 메시지를 전달할 수 있습니다. 세그먼트를 발견한 후 페이스북이나 구글과 같이 선호하는 미디어 채널을 통해 사용자에게 메시지를 전달하는 것은 쉽지 않은데, 이는 행동 세그먼트의 사용자 중 일부만이 미디어에서 일치하는 사용자를 찾고, 일치하는 사용자 중 일부만이 실제로 메시지를 보기(노출)에 성공할 수 있기 때문입니다. 고품질의 검색 결과도 전달에 실패하면 무용지물이 됩니다. 행동 세그먼트를 발견하기 위한 정교한 알고리즘이 많이 존재하지만, 이러한 알고리즘은 전달 요소를 무시합니다. 이 문제는 (i) 디스커버리는 기업 데이터의 행동 데이터 공간(예: 사용자 클릭)에서 수행되는 반면, 전달은 미디어가 정의한 정적 데이터 공간(예: 지역, 연령)에 기반한다는 점, (ii) 기업은 예산 제약 하에 작업한다는 점 때문에 더욱 복잡해집니다. 크리테오는 행동 사용자 세분화의 최적화된 발견을 위한 확률적 최적화 기반 알고리즘을 도입하고 공동 최적화를 위한 새로운 지표를 제공합니다. 예산 제약 하에서 최적화를 통한 전송과 학습 기반 구성요소를 통한 발견을 함께 활용합니다. Google의 공개 데이터 세트와 자체 데이터 세트에 대한 광범위한 실험을 통해 전송 지표를 개선하고, 예산 지출을 줄이며, 검색에서 강력한 예측 성능을 달성함으로써 이러한 접근 방식의 효과를 입증했습니다. [abs|pdf]

[22/134] BetterV: Controlled Verilog Generation with Discriminative Guidance

Keywords: verilog_generation_framework, verilog_generation, propose_verilog_generation
Abstract: 최신 집적 회로(IC)의 복잡성이 증가함에 따라 자동화된 회로 설계 방법이 필요해졌습니다. 최근에는 설계 프로세스를 용이하게 하기 위한 하드웨어 설계 언어 생성에 대한 연구가 활발히 진행되고 있습니다. 이 연구에서는 처리된 도메인별 데이터 세트에서 대규모 언어 모델(LLM)을 미세 조정하고 특정 설계 요구 사항에 대한 지침을 제공하기 위해 생성 판별자를 통합하는 Verilog 생성 프레임워크인 BetterV를 제안합니다. Verilog 모듈은 인터넷에서 수집, 필터링 및 처리되어 깨끗하고 풍부한 데이터 세트를 형성합니다. 인스트럭트 튜닝 방법은 LLM을 미세 조정하여 Verilog에 대한 지식을 이해하도록 특별히 설계되었습니다. 또한, 데이터를 보강하여 훈련 세트를 보강하고 특정 다운스트림 작업에 대한 생성 판별기를 훈련하는 데도 사용되며, 이를 통해 LLM이 Verilog 구현을 최적화할 수 있도록 지침을 제공합니다. BetterV는 구문적으로나 기능적으로 올바른 Verilog를 생성할 수 있는 기능을 갖추고 있으며, 이는 VerilogEval 머신 벤치마크에서 GPT-4를 능가하는 성능을 발휘할 수 있습니다. 작업별 생성 판별기의 도움으로 BetterV는 합성을 위한 넷리스트 노드 감소 및 부울 만족도(SAT) 해결을 통한 검증 런타임 감소 등 다양한 전자 설계 자동화(EDA) 다운스트림 작업에서 놀라운 개선을 달성할 수 있습니다. [abs|pdf]

[23/134] HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Keywords: red_teaming_evaluations, adversarial_training, attacks_demonstrating_harmbench
Abstract: 자동화된 레드팀화는 대규모 언어 모델(LLM)의 악의적인 사용과 관련된 위험을 발견하고 완화하는 데 상당한 잠재력을 가지고 있지만, 이 분야에는 새로운 방법을 엄격하게 평가할 수 있는 표준화된 평가 프레임워크가 부족합니다. 이 문제를 해결하기 위해 자동화된 레드팀 구성을 위한 표준화된 평가 프레임워크인 HarmBench를 도입했습니다. 이전에는 레드팀 평가에서 고려하지 않았던 몇 가지 바람직한 특성을 파악하고 이러한 기준을 충족하도록 HarmBench를 체계적으로 설계했습니다. 18개의 레드팀 구성 방법과 33개의 목표 LLM 및 방어를 대규모로 비교하여 새로운 인사이트를 도출합니다. 또한 다양한 공격에 대해 LLM의 견고성을 크게 향상시키는 매우 효율적인 적대적 훈련 방법을 소개하여 HarmBench를 통해 공격과 방어의 코드 개발이 어떻게 가능한지 보여줍니다. HarmBench의 오픈소스는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[24/134] Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science

Keywords: safeguarding_scientific_agents, scientific_agents, agents_scientific
Abstract: 대규모 언어 모델(LLM)로 구동되는 지능형 에이전트는 다양한 분야에서 자율적으로 실험을 수행하고 과학적 발견을 촉진하는 데 상당한 가능성을 보여주었습니다. 이러한 기능은 유망한 반면, 안전에 대한 신중한 고려가 필요한 새로운 취약점도 존재합니다. 그러나 이러한 취약점에 대한 포괄적인 연구가 이루어지지 않아 관련 문헌에 현저한 공백이 존재합니다. 이 포지션 페이퍼는 과학 분야 내 LLM 기반 에이전트의 취약점을 철저히 조사하여 오용과 관련된 잠재적 위험을 조명하고 안전 조치의 필요성을 강조함으로써 이러한 공백을 메웁니다. 먼저 사용자 의도, 특정 과학 분야, 외부 환경에 대한 잠재적 영향 등을 고려하여 과학적 LLM 에이전트에 내재된 잠재적 위험에 대한 포괄적인 개요를 제공합니다. 그런 다음 이러한 취약점의 기원을 파헤치고 기존의 제한된 작품에 대한 범위 검토를 제공합니다. 이러한 분석을 바탕으로 식별된 위험을 완화하기 위해 인간 규제, 에이전트 조정, 환경 피드백에 대한 이해(에이전트 규제)를 포함하는 세 가지 프레임워크를 제안합니다. 또한 과학적 에이전트 보호와 관련된 한계와 과제를 강조하고 이러한 문제를 효과적으로 해결하기 위한 개선된 모델, 강력한 벤치마크, 포괄적인 규정의 개발을 지지합니다. [abs|pdf]

[25/134] Intelligent Collective Escape of Swarm Robots Based on a Novel Fish-inspired Self-adaptive Approach with Neurodynamic Models

Keywords: escape_swarm_robots, collective_escape_swarm, swarm_robots
Abstract: 물고기 떼는 단순한 개체 간 상호작용부터 집단 이동과 포식자로부터의 역동적인 탈출에 이르기까지 고효율의 집단 행동을 보여줍니다. 물고기의 군집 행동은 일반적으로 군집 로봇의 제어 아키텍처를 설계하는 데 좋은 영감이 됩니다. 이 논문에서는 군집 로봇의 집단 탈출을 위해 물고기에서 영감을 얻은 새로운 자기 적응적 접근 방식을 제안합니다. 또한, 인력과 반발력의 조합을 통해 충돌 없는 탈출 로봇 궤적을 생성하기 위해 생체 영감 신경망(BINN)을 도입합니다. 또한 동적 환경에 대응하기 위해 신경역학 기반의 자기 적응 메커니즘을 제안하여 변화하는 환경 속에서 군집 로봇의 자기 적응 성능을 향상시킵니다. 시뮬레이션 및 실험 결과에 따르면 물고기의 탈출 기동과 유사하게 군집 로봇은 위협으로부터 집단적으로 벗어날 수 있는 것으로 나타났습니다. 여러 비교 연구를 통해 제안된 접근 방식이 시스템 성능의 효과와 효율성, 복잡한 환경에서의 유연성과 견고성을 크게 향상시킬 수 있음을 입증했습니다. [abs|pdf]

[26/134] Acute kidney injury prediction for non-critical care patients: a retrospective external and internal validation study

Keywords: kidney_injury_aki, acute_kidney, acute_kidney_injury
Abstract: 배경: 신장 배설 기능의 저하인 급성 신장 손상(AKI)은 입원 환자의 최대 18%에서 발생합니다. AKI가 진행되면 돌이킬 수 없는 신장 손상으로 이어질 수 있습니다. 연구 방법: 이 후향적 코호트 연구에는 피츠버그 대학 의료 센터(UPMC)(n = 46,815명)와 플로리다 대학 의료 센터(UFH)(n = 127,202명)의 비집중치료실에 입원한 성인 환자가 포함됩니다. 향후 48시간 이내에 2단계 이상의 AKI로의 진행을 예측하기 위해 딥러닝과 기존 머신러닝 모델을 개발하여 비교했습니다. 각 사이트에 대한 로컬 모델(UFH에 대해 훈련된 UFH 모델, UPMC에 대해 훈련된 UPMC 모델)과 두 사이트의 환자 개발 코호트로 별도의 모델(UFH-UPMC 모델)을 훈련했습니다. 각 사이트의 모델을 내부 및 외부에서 검증하고 성별과 인종에 따른 하위 그룹 분석을 수행했습니다. 결과: 2단계 이상의 AKI는 UFH 및 UPMC 환자의 각각 3%(n=3,257), 8%(n=2,296)에서 발생했습니다. UFH 테스트 코호트의 수신기 작동 곡선 곡선 면적(AUROC) 값은 0.77(UPMC 모델)에서 0.81(UFH 모델)이었고, UPMC 테스트 코호트의 AUROC 값은 0.79(UFH 모델)에서 0.83(UPMC 모델) 사이였습니다. UFH-UPMC 모델은 UFH 테스트 코호트에서 0.81(95% 신뢰구간[CI] [0.80, 0.83]), UPMC 테스트 코호트에서 0.82(95% CI [0.81,0.84])의 AUROC를 달성했으며, 정밀도 회수 곡선 값(AUPRC)의 면적은 UFH에서 0.6(95% CI, [0.05, 0.06]), UPMC 테스트 코호트에서 0.13(95% CI, [0.11,0.15])이었습니다. 동적 추정 사구체 여과율, 신독성 약물 부담, 혈중 요소 질소는 모든 모델과 의료 센터에서 가장 높은 영향력을 가진 상위 세 가지 기능으로 남았습니다. 결론: 현지에서 개발된 모델은 다른 기관에서 테스트했을 때 변별력이 약간 감소한 것으로 나타났으며, 영향을 미치는 상위 기능 세트는 모든 모델과 기관에서 동일하게 유지되었습니다. [abs|pdf]

[27/134] COPS: A Compact On-device Pipeline for real-time Smishing detection

Keywords: cybercrime_aimed_mobile, phishing_detection_benchmark, fraudulent_messages_urls
Abstract: 스마트폰은 일상 생활에서 없어서는 안 될 필수품이 되었으며 통신부터 온라인 쇼핑까지 거의 모든 것을 할 수 있습니다. 하지만 사용량이 증가함에 따라 모바일 기기를 노리는 사이버 범죄도 급증하고 있습니다. 특히 스미싱 공격은 최근 몇 년 동안 크게 증가한 것으로 나타났습니다. 공격자가 평균 수명 주기가 15시간 미만인 새로운 사기성 웹사이트를 매일 생성하기 때문에 이 문제는 더욱 악화되고 있습니다. 이로 인해 악성 URL 데이터베이스를 유지하는 표준 관행이 무력화되고 있습니다. 이를 위해 새로운 온디바이스 파이프라인을 제안합니다: 사기성 메시지와 URL의 특징을 지능적으로 식별하여 사용자에게 실시간으로 경고하는 COPS입니다. COPS는 스미싱 및 URL 피싱 탐지를 위한 3.46MB 크기의 디스엔탱글드 베리에이션 오토인코더 기반 탐지 모듈이 포함된 경량 파이프라인으로, 오픈 데이터 세트에서 벤치마킹합니다. 두 작업 모두에서 각각 98.15%와 99.5%의 정확도를 달성했으며, 오탐률과 오양성률은 0.037과 0.015에 불과해 리소스가 제한된 디바이스에서도 실시간 알림을 보장한다는 추가적인 이점과 함께 이전 작업보다 뛰어난 성능을 보였습니다. [abs|pdf]

[28/134] Multi-line AI-assisted Code Authoring

Keywords: provides_inline_suggestions, codecompose_ai_assisted, inline_suggestions
Abstract: CodeCompose는 대규모 언어 모델(LLM)로 구동되는 AI 지원 코드 작성 도구로, Meta의 수만 명의 개발자에게 인라인 제안을 제공합니다. 이 백서에서는 한 줄 제안 표시에서 여러 줄 제안으로 제품을 확장한 방법을 소개합니다. 이러한 진화를 위해서는 개발자를 위한 제안의 사용성을 개선하는 데 있어 몇 가지 고유한 과제를 극복해야 했습니다.
첫째, 여러 줄의 제안은 개발자의 기존 코드를 계속 이동하기 때문에 생산성과 만족도를 떨어뜨리는 '방해' 효과가 발생할 수 있습니다.
둘째, 여러 줄의 제안을 생성하는 데 시간이 훨씬 더 오래 걸리므로 사용자의 체감 지연 시간을 줄이기 위한 몇 가지 혁신적인 투자를 소개합니다. 이러한 모델 호스팅 최적화를 통해 다중 회선 제안 대기 시간을 2.5배 단축했습니다.
마지막으로, 수만 명의 엔지니어를 대상으로 실험을 실시하여 다중 라인 제안이 사용자 경험에 미치는 영향을 파악하고 이를 단일 라인 제안과 대조했습니다. 실험 결과, (i) 여러 줄 제안은 전체 수락 문자의 42%를 차지하지만(표시된 제안의 경우 16%에 불과함), (ii) 여러 줄 제안은 사용자의 키 입력 절감률을 9%에서 17%로 거의 두 배 가까이 증가시켰습니다. 여러 줄 코드 작성 기능은 Meta의 모든 엔지니어에게 배포되었으며, 여러 줄 제안을 거부한 엔지니어는 1% 미만입니다. [abs|pdf]

[29/134] Hierarchical Delay Attribution Classification using Unstructured Text in Train Management Systems

Keywords: attribution_codes_based, delay_attribution_codes, attribution_codes
Abstract: EU 지침은 열차 지연에 대한 체계적인 후속 조치를 규정하고 있습니다. 스웨덴에서는 스웨덴 교통국이 적절한 지연 원인 코드를 등록하고 할당합니다. 그러나 이 지연 원인 코드는 수작업으로 할당되기 때문에 복잡한 작업이 필요합니다. 본 논문에서는 이벤트 설명을 기반으로 지연 속성 코드를 할당하기 위한 머신러닝 기반 의사 결정 지원 방법을 연구합니다. TF-IDF를 사용하여 텍스트를 변환하고 랜덤 포레스트와 서포트 벡터 머신의 두 가지 모델을 무작위 균일 분류기와 스웨덴 교통청의 분류 성능과 비교하여 평가합니다. 또한 문제를 계층적 접근 방식과 평면적 접근 방식으로 모델링합니다. 결과는 계층적 접근 방식이 평면 접근 방식보다 더 나은 성능을 보인다는 것을 보여줍니다. 두 접근 방식 모두 무작위 균일 분류기보다는 성능이 좋지만 수동 분류보다는 성능이 떨어집니다. [abs|pdf]

[30/134] An Exploration of Clustering Algorithms for Customer Segmentation in the UK Retail Market

Keywords: customer_segmentation_marketing, customer_segmentation, develop_customer_segmentation
Abstract: 최근 온라인 구매에 대한 사람들의 인식이 크게 높아졌습니다. 이로 인해 온라인 리테일 플랫폼과 고객 구매 행동에 대한 더 나은 이해의 필요성이 대두되었습니다. 리테일 기업들은 많은 양의 고객 구매를 처리해야 하는 압박을 받고 있으며, 이를 위해서는 보다 정확하고 효율적인 고객 세분화를 위한 정교한 접근 방식이 필요합니다. 고객 세분화는 고객 중심의 서비스를 지원하여 수익성을 향상시키는 마케팅 분석 도구입니다. 본 논문에서는 리테일 시장 산업의 의사결정 프로세스를 개선하기 위한 고객 세분화 모델을 개발하는 것을 목표로 합니다. 이를 위해 UCI 머신러닝 리포지토리에서 확보한 영국 기반의 온라인 리테일 데이터 세트를 활용했습니다. 이 리테일 데이터 세트는 541,909개의 고객 기록과 8개의 특징으로 구성되어 있습니다. 이 연구에서는 고객 가치를 정량화하기 위해 RFM(최근성, 빈도, 금전적) 프레임워크를 채택했습니다. 그 후, K-평균 클러스터링, 가우스 혼합 모델(GMM), 노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링(DBSCAN), 응집 클러스터링, 계층을 이용한 균형 잡힌 반복 축소 및 클러스터링(BIRCH) 등 여러 가지 최신(SOTA) 클러스터링 알고리즘을 비교했습니다. 그 결과 GMM은 실루엣 점수 0.80으로 다른 접근법보다 우수한 성능을 보였습니다. [abs|pdf]

[31/134] Use of Multi-CNNs for Section Analysis in Static Malware Detection

Keywords: malware_detection, malware_detection_focuses, research_malware_detection
Abstract: 멀웨어 탐지에 대한 기존 연구는 거의 전적으로 탐지율에 초점을 맞추고 있습니다. 그러나 경우에 따라서는 알고리즘의 결과를 이해하거나 분석가가 파일에서 어디를 조사해야 하는지 등 더 많은 정보를 얻는 것도 중요합니다. 이를 위해 저희는 휴대용 실행 파일을 분석하는 새로운 모델을 제안합니다. 이 방법은 파일을 여러 섹션으로 분할한 다음 각 섹션을 이미지로 변환하여 컨볼루션 신경망을 훈련시켜 식별된 각 섹션을 구체적으로 처리하는 방식으로 구성됩니다. 그런 다음, 최종 점수에서 각 섹션의 중요도에 대한 분석을 개선할 수 있는 모델을 사용하여 CNN이 반환한 모든 점수를 사용하여 최종 탐지 점수를 계산합니다. [abs|pdf]

[32/134] The Use of a Large Language Model for Cyberbullying Detection

Keywords: models_cyberbullying, use_models_cyberbullying, models_cyberbullying_cb
Abstract: 소셜 미디어의 지배력으로 인해 가해자의 괴롭힘 채널이 다양해졌습니다. 안타깝게도 사이버 괴롭힘(CB)은 오늘날 사이버 세계에서 가장 널리 퍼져 있는 현상으로, 시민들의 정신적, 육체적 건강에 심각한 위협이 되고 있습니다. 따라서 온라인 포럼, 블로그, 소셜 미디어 플랫폼에서 괴롭힘 콘텐츠를 방지하고 우리 사회에 미치는 영향을 관리하기 위한 강력한 시스템을 개발해야 할 필요성이 대두되고 있습니다. 이를 위해 여러 가지 머신러닝(ML) 알고리즘이 제안되었습니다. 그러나 높은 수준의 불균형과 일반화 문제로 인해 그 성능이 일관적이지 않습니다. 최근 몇 년 동안 BERT 및 RoBERTa와 같은 대규모 언어 모델(LLM)은 여러 자연어 처리(NLP) 작업에서 최첨단(SOTA) 결과를 달성했습니다. 하지만 안타깝게도 이러한 LLM은 CB 탐지에 광범위하게 적용되지는 않았습니다. 이 백서에서는 사이버 괴롭힘(CB) 탐지에 이러한 모델을 사용하는 방법을 살펴봤습니다. 기존 연구(Formspring 및 Twitter)에서 새로운 데이터 세트(D2)를 준비했습니다. 데이터 세트 D1과 D2에 대한 실험 결과, RoBERTa가 다른 모델보다 우수한 성능을 보였습니다. [abs|pdf]

[33/134] A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation

Keywords: shot_classification, language_image_pretraining, methods_shot_classification
Abstract: 대조적 언어-이미지 사전 훈련(CLIP)은 놀라운 제로 샷 능력으로 인기를 얻고 있습니다. 최근의 연구는 다운스트림 작업에서 CLIP의 성능을 향상시키기 위해 신속한 학습 및 어댑터와 같은 효율적인 미세 조정 방법을 개발하는 데 중점을 두고 있습니다. 그러나 이러한 방법은 여전히 추가적인 학습 시간과 컴퓨팅 리소스가 필요하기 때문에 리소스가 제한된 디바이스에서는 바람직하지 않습니다. 이 백서에서는 고전적인 알고리즘인 가우시안 판별 분석(GDA)을 다시 살펴보고 이를 CLIP의 다운스트림 분류에 적용합니다. 일반적으로 GDA는 각 클래스의 특징이 동일한 공분산을 갖는 가우스 분포를 따른다고 가정합니다. 베이즈 공식을 활용하면 분류기를 클래스 평균과 공분산으로 표현할 수 있으며, 이를 통해 학습 없이도 데이터에서 추정할 수 있습니다. 시각적 양식과 텍스트 양식의 지식을 통합하기 위해 CLIP 내에서 원래의 제로 샷 분류기와 함께 앙상블합니다. 17개의 데이터 세트에 대한 광범위한 결과를 통해 우리의 방법이 소수 샷 분류, 불균형 학습 및 분포 외 일반화에 대한 최첨단 방법을 능가하거나 비슷한 결과를 달성한다는 것을 검증했습니다. 또한, 우리의 방법을 기반에서 새로운 일반화 및 비지도 학습으로 확장하여 경쟁 접근법보다 우월함을 다시 한 번 입증했습니다. 이 코드는 이 https URL에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[34/134] An Optimal House Price Prediction Algorithm: XGBoost

Keywords: house_price_prediction, prediction_house_prices, accurate_prediction_house
Abstract: 주택 가격에 대한 정확한 예측은 부동산 및 모기지 대출을 포함한 다양한 분야의 기본 요건입니다. 부동산 가치는 물리적 특성에 의해서만 결정되는 것이 아니라 주변 지역의 영향을 크게 받는다는 사실은 널리 알려져 있습니다. 예산 제약의 균형을 맞추면서 개인의 다양한 주택 수요를 충족하는 것은 부동산 개발업체의 주요 관심사입니다. 이를 위해 주택 가격 예측 문제를 회귀 과제로 설정하고 독립 변수의 유의성을 표현할 수 있는 다양한 머신러닝 기법을 활용했습니다. 미국 아이오와주 에임스시의 주택 데이터셋을 활용하여 주택 가격 예측을 위한 서포트 벡터 회귀, 랜덤 포레스트 회귀, XGBoost, 다층 퍼셉트론 및 다중 선형 회귀 알고리즘을 비교했습니다. 그 후 주택 가격에 영향을 미치는 주요 요인을 파악했습니다. 그 결과, 주택 가격 예측에 가장 우수한 성능을 보이는 모델은 XGBoost였습니다. [abs|pdf]

[35/134] Improved Generalization of Weight Space Networks via Augmentations

Keywords: learning_deep_weight, deep_weight_spaces, augmentation_weight_spaces
Abstract: 신경망이 다른 신경망의 가중치를 처리하는 심층 가중치 공간(DWS)에서의 학습은 다른 유형의 신경망에 대한 추론뿐만 아니라 2D 및 3D 신경 필드(INR, NeRF)에도 적용되면서 새롭게 떠오르는 연구 방향입니다. 안타깝게도 가중치 공간 모델은 상당한 과적합으로 어려움을 겪는 경향이 있습니다. 이러한 과적합의 원인을 경험적으로 분석한 결과, DWS 데이터 세트의 다양성 부족이 주요 원인인 것으로 나타났습니다. 주어진 객체는 다양한 가중치 구성으로 표현될 수 있지만, 일반적인 INR 훈련 세트는 동일한 객체를 표현하는 INR 간의 다양성을 포착하지 못합니다. 이 문제를 해결하기 위해 가중치 공간에서 데이터 증강을 위한 전략을 살펴보고 가중치 공간에 적합한 믹스업 방법을 제안합니다. 두 가지 설정에서 이 방법의 효과를 입증합니다. 분류에서는 최대 10배 더 많은 데이터를 사용하는 것과 비슷한 수준으로 성능을 향상시킵니다. 자기 지도 대조 학습에서는 다운스트림 분류에서 5~10%의 상당한 성능 향상을 가져옵니다. [abs|pdf]

[36/134] Multi-class Road Defect Detection and Segmentation using Spatial and Channel-wise Attention for Autonomous Road Repairing

Keywords: road_defect_detection, pavement_detection_segmentation, annotated_road_defect
Abstract: 자율 도로 보수 시스템을 개발하기 위해서는 도로 포장의 결함 검출과 분할이 필수적입니다. 그러나 도로 포장 영상의 텍스처적 단순성, 결함 형상의 다양성, 클래스 간 형태적 모호성 때문에 멀티 클래스 결함 검출과 분할을 동시에 수행하는 인스턴스 분할 방법을 개발하는 것은 어려운 일입니다. 본 논문에서는 다중 클래스 도로 결함 검출 및 분할을 위한 새로운 엔드투엔드 방법을 제안합니다. 제안된 방법은 공간 및 채널 차원의 글로벌 표현을 학습하는 데 사용할 수 있는 여러 공간 및 채널 차원의 관심 블록으로 구성됩니다. 이러한 주의 블록을 통해 도로 결함의 형태 정보(공간적 특성)와 이미지의 색상 및 깊이 정보에 대한 보다 전역적으로 일반화된 표현을 학습할 수 있습니다. 프레임워크의 효과를 입증하기 위해 9개의 도로 결함 클래스로 주석이 달린 새로 수집된 데이터 세트에 대해 다양한 제거 연구와 기존 방법과의 비교를 수행했습니다. 실험 결과, 우리가 제안한 방법은 다중 클래스 도로 결함 검출 및 분할 방법에서 기존의 최첨단 방법보다 우수한 성능을 보였습니다. [abs|pdf]

[37/134] Link Prediction with Relational Hypergraphs

Keywords: prediction_relational_hypergraphs, link_prediction_relational, link_prediction_knowledge
Abstract: 지식 그래프를 사용한 링크 예측은 그래프 머신 러닝에서 철저히 연구되어 왔으며, 성공적인 애플리케이션을 통해 그래프 신경망 아키텍처의 풍부한 환경으로 이어졌습니다. 그럼에도 불구하고 이러한 아키텍처의 성공을 관계형 하이퍼그래프를 사용한 링크 예측으로 옮기는 것은 여전히 어려운 과제입니다. 관계형 하이퍼엣지의 존재로 인해 링크 예측은 $k$의 다양한 선택에 대한 $k$ 노드 간의 작업이 되며, 이는 모든 관계가 이진($k=2$)인 지식 그래프를 사용한 링크 예측보다 훨씬 더 어렵습니다. 이 논문에서는 관계형 하이퍼그래프를 이용한 링크 예측을 위한 두 가지 프레임워크를 제안하고, 해당 관계형 Weisfeiler-Leman 알고리즘과 몇 가지 자연스러운 논리 형식주의를 통해 결과 모델 아키텍처의 표현력을 철저히 분석합니다. 광범위한 경험적 분석을 통해 다양한 관계형 하이퍼그래프 벤치마크에서 제안된 모델 아키텍처의 성능을 검증합니다. 그 결과, 모델 아키텍처는 귀납적 링크 예측에 대한 모든 기준을 크게 능가하며, 전이적 링크 예측에 대한 최첨단 결과를 도출합니다. 따라서 이 연구는 그래프 신경망을 완전한 관계형 구조에 적용할 수 있는 가능성을 열어줍니다. [abs|pdf]

[38/134] Deep Learning for Multivariate Time Series Imputation: A Survey

Keywords: deep_learning_imputation, time_series_imputation, learning_imputation_methods
Abstract: 어디에나 존재하는 결측치는 다변량 시계열 데이터를 부분적으로 관측하게 하여 시계열의 무결성을 파괴하고 효과적인 시계열 데이터 분석을 방해합니다. 최근 딥러닝 대입 기법은 손상된 시계열 데이터의 품질을 향상시켜 다운스트림 작업의 성능을 향상시키는 데 괄목할 만한 성과를 보이고 있습니다. 본 논문에서는 최근 제안된 딥러닝 대입 방법에 대한 종합적인 조사를 수행합니다. 먼저, 검토된 방법들에 대한 분류법을 제안한 다음, 각 방법의 강점과 한계를 강조하여 체계적인 검토를 제공합니다. 또한 실증 실험을 통해 다양한 방법을 연구하고 다운스트림 작업에 대한 개선점을 비교합니다. 마지막으로 다변량 시계열 대입에 대한 향후 연구의 미해결 과제를 짚어봅니다. 정기적으로 유지 관리되는 다변량 시계열 추정 논문 목록을 포함하여 이 작업의 모든 코드와 구성은 GitHub 리포지토리에서 확인할 수 있습니다. [abs|pdf]

[39/134] Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models

Keywords: vision_language_models, pretrained_vision_language, predictions_model_craft
Abstract: 사전 학습된 비전 언어 모델(VLM)이 등장하면서 다운스트림 작업을 위해 모델을 미세 조정하는 데 상당한 노력을 기울여 왔습니다. 효율적인 미세 조정 방법을 설계하는 데 많은 진전이 있었음에도 불구하고 이러한 방법을 사용하려면 모델의 매개변수에 액세스해야 하는데, 모델 소유자가 모델 소유권을 보호하기 위해 모델을 블랙박스로 제공하는 경우가 많기 때문에 어려움이 있을 수 있습니다. 이 백서에서는 입력 프롬프트와 모델의 출력 예측에만 액세스할 수 있는 블랙박스 VLM을 다운스트림 작업에 맞게 미세 조정하기 위한 Collaborative Fine-Tuning (CraFT) 접근법을 제안합니다. CraFT는 텍스트 프롬프트를 학습하기 위한 프롬프트 생성 모듈과 잔여 스타일의 출력 예측을 개선하기 위한 예측 개선 모듈의 두 가지 모듈로 구성됩니다. 또한 이러한 모듈 전반에서 일관된 최적화를 촉진하기 위해 보조 예측 일관성 손실을 도입했습니다. 이러한 모듈은 새로운 협업 훈련 알고리즘에 의해 최적화됩니다. 15개 데이터 세트에 대한 소수의 샷 분류에 대한 광범위한 실험을 통해 CraFT의 우수성이 입증되었습니다. 그 결과, CraFT는 16개의 샷 데이터 세트와 8,000개의 쿼리만으로 약 12%의 상당한 이득을 얻을 수 있었습니다. 또한, 크래프트는 화이트박스 방식에 비해 트레이닝 속도가 더 빠르고 배포 시 메모리 사용량이 약 1/80에 불과한 반면, 비용은 1.62%에 불과합니다. [abs|pdf]

[40/134] Systematic Biases in LLM Simulations of Debates

Keywords: simulate_political_debates, ability_simulate_political, simulate_political
Abstract: 최근 자연어 처리의 발전, 특히 대규모 언어 모델(LLM)의 등장으로 인간의 행동을 정확하게 재현하도록 설계된 컴퓨터 시뮬레이션을 구축할 수 있는 흥미로운 가능성이 열렸습니다. 그러나 LLM은 간단한 연역적 규칙이 없는 복잡한 통계 학습자이기 때문에 예상치 못한 동작이 발생하기 쉽습니다. 이 연구에서는 특히 정치적 논쟁을 시뮬레이션하는 LLM의 능력에 초점을 맞춰 인간 상호작용을 시뮬레이션하는 데 있어 LLM의 한계를 강조합니다. 연구 결과에 따르면 LLM 에이전트는 특정 정치적 관점에서 토론을 유도함에도 불구하고 모델에 내재된 사회적 편견에 따르는 경향이 있습니다. 이러한 경향은 인간 사이에서 잘 정립된 사회적 역학 관계에서 벗어나는 행동 패턴을 초래합니다. 저희는 자동 자가 미세 조정 방법을 사용하여 이러한 관찰을 강화했으며, 이를 통해 LLM 내에서 편향을 조작하고 이후 에이전트가 변경된 편향에 부합하는 것을 입증했습니다. 이러한 결과는 에이전트가 이러한 편향을 극복하는 데 도움이 되는 방법을 개발하기 위한 추가 연구의 필요성을 강조하며, 이는 보다 현실적인 시뮬레이션을 만들기 위한 중요한 단계입니다. [abs|pdf]

[41/134] Generative Modeling of Graphs via Joint Diffusion of Node and Edge Attributes

Keywords: generation_edge_attributes, outperforms_graph_generation, edges_graph_generation
Abstract: 그래프 생성은 다양한 엔지니어링 및 과학 분야에서 필수적인 요소입니다. 그럼에도 불구하고 기존 방법론은 엣지 속성의 생성을 간과하는 경향이 있습니다. 그러나 에지 속성이 필수적인 중요한 애플리케이션이 존재하며, 이러한 상황에서는 기존의 방법론이 부적합할 수 있습니다. 또한, 약간의 변형이 가능하지만 경험적 조사에 따르면 그래프 구성 요소 간의 상호 작용을 제대로 모델링하지 못하기 때문에 그 효율성이 제한적인 것으로 나타났습니다. 이 문제를 해결하기 위해 모든 그래프 구성 요소를 고려하는 그래프 생성을 위한 노드와 에지의 공동 점수 기반 모델을 제안합니다. 이 접근 방식은 (i) 노드와 에지 속성을 주의 모듈에 결합하여 두 가지 요소를 기반으로 샘플을 생성하고, (ii) 그래프 확산 과정에서 노드, 에지 및 인접성 정보가 상호 의존적이라는 두 가지 주요한 특징을 제공합니다. 에지 특성이 중요한 실제 데이터 세트와 합성 데이터 세트가 포함된 까다로운 벤치마크에서 이 방법을 평가합니다. 또한 에지 값을 통합하는 새로운 합성 데이터 세트를 소개합니다. 또한, 그래프로 표현되는 교통 상황의 생성이라는 방법의 특성상 이 방법의 이점을 크게 활용할 수 있는 새로운 애플리케이션을 제안합니다. 이 방법은 다른 그래프 생성 방법보다 성능이 뛰어나며 에지 관련 측정에서 상당한 이점을 보여줍니다. [abs|pdf]

[42/134] HEAM : Hashed Embedding Acceleration using Processing-In-Memory

Keywords: organized_tier_memory, tier_memory, heterogeneous_memory_architecture
Abstract: 오늘날의 데이터 센터에서 개인화 추천 시스템은 특히 임베딩 작업을 수행할 때 대용량 메모리와 높은 대역폭의 필요성과 같은 문제에 직면합니다. 이전 접근 방식은 메모리 제한 문제를 해결하고 메모리 대역폭을 확장하기 위해 DIMM 기반 니어 메모리 처리 기술에 의존하거나 3D 스택 DRAM을 도입했습니다. 하지만 이러한 솔루션은 개인화 추천 시스템의 규모가 커지는 것을 감당하기에는 역부족입니다. 추천 모델은 수십 테라바이트가 넘는 크기로 성장하여 기존의 단일 노드 추론 서버에서 효율적으로 실행하기가 어려워졌습니다. 임베딩 테이블 용량을 줄이기 위해 다양한 알고리즘 방법이 제안되었지만, 메모리 액세스가 증가하거나 메모리 리소스를 비효율적으로 활용하는 결과를 초래하는 경우가 많습니다. 본 논문에서는 임베딩 테이블의 크기를 줄이기 위한 기술인 컴포지션 임베딩이 활용되는 추천 시스템을 가속화하기 위해 3D 스택 DRAM과 DIMM을 통합한 이기종 메모리 아키텍처인 HEAM을 소개합니다. 이 아키텍처는 기존 DIMM, 기본 다이 수준의 메모리 내 처리(PIM)를 갖춘 3D 적층형 DRAM, 룩업 테이블을 통합한 뱅크 그룹 수준의 PIM으로 구성된 3계층 메모리 계층 구조로 구성되어 있습니다. 이 설정은 시간적 위치 및 임베딩 테이블 용량과 같은 컴포넌트 임베딩의 고유한 측면을 수용하도록 특별히 설계되었습니다. 이 설계는 뱅크 액세스를 효과적으로 줄이고, 액세스 효율성을 개선하며, 전반적인 처리량을 향상시켜 기준선 대비 6.3배의 속도 향상과 58.9%의 에너지 절감 효과를 가져옵니다. [abs|pdf]

[43/134] AlbNews: A Corpus of Headlines for Topic Modeling in Albanian

Keywords: topically_labeled_news, labeled_news_headlines, topic_modeling
Abstract: 알바니아어와 같이 자원이 부족한 언어에 사용할 수 있는 텍스트 말뭉치가 부족하다는 것은 자연어 처리 작업 연구에 있어 심각한 장애물입니다. 이 백서에서는 알바니아어로 된 600개의 주제별 레이블이 지정된 뉴스 헤드라인과 2600개의 레이블이 지정되지 않은 뉴스 헤드라인을 모은 AlbNews를 소개합니다. 이 데이터는 토픽 모델링 연구를 수행하는 데 자유롭게 사용할 수 있습니다. AlbNews 샘플로 훈련된 일부 기존 머신러닝 분류기의 초기 분류 점수를 보고합니다. 이 결과는 기본 모델이 앙상블 학습 모델을 능가하며 향후 실험의 기준이 될 수 있음을 보여줍니다. [abs|pdf]

[44/134] Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning

Keywords: pretrained_model_gradients, rank_attention_tuning, pretrained_model_focus
Abstract: 대규모 사전 학습된 모델을 다운스트림 작업에 맞게 미세 조정할 때 매개변수 효율적 미세 조정(PEFT) 방법을 사용하면 학습 가능한 매개변수가 적은 사전 학습된 모델을 효과적으로 미세 조정할 수 있지만 GPU 메모리 소비가 많고 학습 속도가 느리다는 단점이 있습니다. 이러한 방법의 학습 가능한 파라미터는 사전 학습된 모델과 얽혀 있기 때문에 미세 조정 중에 고정된 사전 학습된 모델의 파라미터와 관련된 그라데이션을 계산하고 저장해야 합니다. 유니티는 파라미터뿐만 아니라 사전 학습된 네트워크의 출력도 동결하여 학습 가능한 모듈을 사전 학습된 모델에서 분리하는 저순위 주의 측면 튜닝(LAST)을 제안합니다. LAST는 낮은 순위의 셀프 어텐션 모듈로만 구성된 사이드 네트워크를 훈련합니다. 사이드 네트워크는 사전 훈련된 모델을 동결된 특징 추출기로 간주하여 사전 훈련된 모델의 중간 출력을 가져와 작업별 지식을 학습하는 데 집중합니다. 또한 LAST는 여러 최적화 목표에 걸쳐 고도로 병렬화될 수 있으므로 최적의 하이퍼파라미터를 찾는 등의 다운스트림 작업 적응에 매우 효율적이라는 것을 보여줍니다. LAST는 기존 PEFT 방식에 비해 GPU 메모리 사용량은 약 30%, 훈련 시간은 60%에 불과하지만 훨씬 더 높은 정확도를 달성하여 VTAB-1K 및 기타 시각적 적응 작업에서 이전의 최첨단 방식보다 성능이 뛰어납니다. [abs|pdf]

[45/134] Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent Deep Reinforcement Learning

Keywords: agent_deep_reinforcement, rewarding_strategies_agents, deep_reinforcement
Abstract: 다중 에이전트 심층 강화 학습(MADRL) 문제는 종종 희소 보상이라는 문제에 직면합니다. 이러한 문제는 에이전트 간의 조정이 필요할 때 더욱 두드러집니다. 한 에이전트의 행동뿐만 아니라 여러 에이전트의 공동 행동에 따라 성능이 달라지기 때문에 적절한 솔루션을 찾는 것이 훨씬 더 어려워집니다. 이러한 맥락에서 에이전트 그룹은 가장 효율적인 전략을 결정하기 위해 다양한 공동 전략을 적극적으로 탐색함으로써 이점을 얻을 수 있습니다. 이 논문에서는 에이전트들이 집단적으로 새로운 행동을 보일 때 보상을 주는 전략에 대한 접근 방식을 제안합니다. 중앙 집중식 학습과 탈중앙화 실행 패러다임을 따르는 다중 에이전트 내재적 동기 부여 방법인 공동 내재적 동기 부여(JIM, Joint Intrinsic Motivation)를 제시합니다. JIM은 지속적인 환경에서 작동하도록 설계된 중앙 집중식 신규성 측정에 따라 공동 궤적을 보상합니다. 이 접근법의 강점은 최첨단 MADRL 방법의 단점을 드러내도록 설계된 합성 환경과 시뮬레이션된 로봇 작업에서 모두 입증되었습니다. 그 결과 최적의 전략이 고도의 조정을 필요로 하는 과제를 해결하는 데 공동 탐색이 매우 중요하다는 것을 알 수 있었습니다. [abs|pdf]

[46/134] Tabular Data: Is Attention All You Need?

Keywords: mlp_architectures_tabular, architectures_tabular_datasets, deep_learning
Abstract: 딥러닝은 AI 분야에 혁명을 일으켰으며 이미지 및 텍스트 데이터와 관련된 애플리케이션에서 괄목할 만한 성과를 이끌어냈습니다. 안타깝게도 구조화된 표 형식 데이터에 대한 신경망의 장점에 대한 결정적인 증거는 아직 없습니다. 이 백서에서는 표 형식 데이터에서 신경망을 그라디언트 부스트 의사결정 트리와 비교하는 대규모 실증 연구와 트랜스포머 기반 아키텍처를 잔여 연결이 있는 기존 다층 퍼셉트론(MLP)과 비교하는 대규모 실증 연구를 소개합니다. 이전 연구와 달리, 우리의 경험적 연구 결과는 신경망이 의사결정 트리에 비해 경쟁력이 있음을 보여줍니다. 또한, 트랜스포머 기반 아키텍처가 표 형식의 데이터 세트에서 기존 MLP 아키텍처의 단순한 변형보다 성능이 떨어지지 않는다고 평가했습니다. 결과적으로 이 백서는 연구 및 실무자 커뮤니티가 향후 표 형식 데이터 애플리케이션에 신경망을 배포할 때 정보에 입각한 선택을 내리는 데 도움이 될 것입니다. [abs|pdf]

[47/134] Boosting Adversarial Transferability across Model Genus by Deformation-Constrained Warping

Keywords: decowa_cnn_surrogates, adversarial_examples_generated, adversarial
Abstract: 대리 모델에 의해 생성된 적대적 예제는 일반적으로 알 수 없는 대상 시스템에 대한 전이성이 제한적입니다. 이 문제를 해결하기 위해 많은 전이성 향상 접근법(예: 입력 변환 및 모델 증강)이 제안되었습니다. 그러나 이러한 방법들은 대리 모델과 다른 모델 속성을 가진 시스템을 공격할 때 성능이 좋지 않습니다. 본 논문에서는 모델 속을 넘나드는 공격에 효과적으로 적용할 수 있는 변형-제한 워핑 공격(Deformation-Constrained Warping Attack, DeCoWA)이라는 새롭고 일반적인 공격 전략을 제안합니다. 구체적으로 DeCoWA는 먼저 탄성 변형, 즉 변형 제약 워핑(DeCoW)을 통해 입력 예제를 증강하여 증강된 입력의 풍부한 로컬 디테일을 확보합니다. 무작위 변형으로 인한 글로벌 시맨틱의 심각한 왜곡을 방지하기 위해 DeCoW는 새로운 적응형 제어 전략으로 워핑 변환의 강도와 방향을 더욱 제한합니다. 광범위한 실험을 통해 CNN 서로게이트에서 DeCoWA로 만든 전송 가능한 예제가 이미지 분류, 비디오 동작 인식, 오디오 인식 등 다양한 작업에서 트랜스포머의 성능을 크게 저해할 수 있음을 입증했습니다(또는 그 반대의 경우도 마찬가지). 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[48/134] Identifying Student Profiles Within Online Judge Systems Using Explainable Artificial Intelligence

Keywords: instance_learning_mil, inferring_feedback_student, instance_learning
Abstract: 온라인 심사(OJ) 시스템은 학생이 개발한 코드를 빠르고 객관적으로 평가할 수 있기 때문에 프로그래밍 관련 코스에서 일반적으로 고려됩니다. 이러한 평가는 일반적으로 제출물이 과제를 성공적으로 완수했는지 여부와 같은 루브릭에 기반한 단일 결정을 제공합니다. 하지만 교육적 맥락에서는 이러한 정보가 불충분하다고 간주될 수 있으므로 학생과 교수자 모두 과제의 전반적인 개발에 대한 추가 피드백을 받는 것이 유익할 수 있습니다. 이 작업은 OJ가 수집한 정보를 추가로 활용하고 학생과 강사 모두에게 자동으로 피드백을 추론하여 이러한 한계를 극복하는 것을 목표로 합니다. 보다 정확하게는 학습 기반 체계, 특히 다중 인스턴스 학습(MIL)과 고전적인 머신 러닝 공식을 사용하여 학생의 행동을 모델링하는 것을 고려합니다. 또한 사람이 이해할 수 있는 피드백을 제공하기 위해 설명 가능한 인공 지능(XAI)을 고려하고 있습니다. 이 제안은 컴퓨터 과학 학위 과정의 프로그래밍 관련 과목에서 약 90명의 학생이 제출한 2,500개의 과제로 구성된 연구 사례를 고려하여 평가되었습니다. 그 결과 제안서의 유효성이 입증되었습니다: 이 모델은 OJ에 제공된 제출물에서 추론된 행동 패턴만을 바탕으로 사용자의 결과(과제 합격 또는 불합격)를 유의미하게 예측할 수 있습니다. 또한 이 제안은 실패하기 쉬운 학생 그룹과 프로필은 물론 기타 관련 정보를 식별할 수 있으며, 이는 결국 학생과 교수자 모두에게 피드백으로 제공됩니다. [abs|pdf]

[49/134] Discovery of the Hidden World with Large Language Models

Keywords: causal_representation_assistant, causal_learning_module, extraction_causal_factors
Abstract: 과학은 알려진 사실과 관찰의 조합에서 새로운 인과 관계를 발견하는 데서 출발합니다. 기존의 인과관계 발견 방식은 주로 전문가가 제공한 고품질의 측정 변수에 의존하여 인과관계를 찾습니다. 그러나 이러한 인과 관계 변수는 일반적으로 광범위한 실제 애플리케이션에서 사용할 수 없습니다. 전 세계의 방대한 관측 데이터로부터 풍부한 지식을 학습하도록 훈련된 대규모 언어 모델(LLM)의 등장은 원시 관측 데이터에서 높은 수준의 숨겨진 변수를 발견하는 데 도움을 줄 수 있는 새로운 기회를 제공합니다. 이에 따라, 유니티는 COAT(Causal representatiOn AssistT)를 소개합니다. COAT는 구조화되지 않은 데이터에서 잠재적인 인과 관계를 추출하는 요인 제안자로서 LLM을 통합합니다. 또한 데이터 값을 수집하는 데 사용되는 추가 정보(예: 주석 기준)를 제공하고 원시 비정형 데이터를 정형 데이터로 추가 파싱하도록 LLM에 지시할 수도 있습니다. 주석이 달린 데이터는 인과 학습 모듈(예: FCI 알고리즘)에 공급되어 데이터에 대한 엄격한 설명과 함께 LLM의 인과 요인 추출을 더욱 개선하기 위한 유용한 피드백을 제공합니다. 리뷰 등급 분석과 신경병증 진단에 대한 두 가지 사례 연구를 통해 근본적인 인과 체계를 밝혀내는 데 있어 COAT의 효과를 검증합니다. [abs|pdf]

[50/134] Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs

Keywords: data_leaked_models, data_leaking_models, large_language_models
Abstract: 자연어 처리(NLP) 연구는 점점 더 대규모 언어 모델(LLM)의 사용에 초점을 맞추고 있으며, 가장 인기 있는 모델 중 일부는 완전히 또는 부분적으로 오픈 소스입니다. 특히 학습 데이터와 관련하여 모델 세부 정보에 대한 접근성이 부족하기 때문에 연구자들 사이에서 데이터 오염에 대한 우려가 계속 제기되고 있습니다. 이 문제를 해결하기 위한 여러 시도가 있었지만, 일화적인 증거와 시행착오에 그쳤습니다. 또한, 사용자로부터 얻은 데이터를 사용해 모델을 반복적으로 개선하는 '간접적 데이터 유출' 문제도 간과하고 있습니다. 이 연구에서는 데이터 오염의 맥락에서 오늘날 가장 많이 사용되는 LLM인 OpenAI의 GPT-3.5와 GPT-4를 사용한 작업을 처음으로 체계적으로 분석했습니다. 255개의 논문을 분석하고 OpenAI의 데이터 사용 정책을 고려하여 모델 출시 후 첫 1년 동안 해당 모델에 유출된 데이터의 양을 광범위하게 문서화했습니다. 이 모델들이 263개의 벤치마크에서 전 세계적으로 470만 개의 샘플에 노출된 것으로 보고되었습니다. 동시에 불공정하거나 누락된 기준선 비교, 재현성 문제 등 검토된 논문에서 드러난 여러 가지 평가 오류를 문서화했습니다. 이 결과는 다른 연구자들이 우리의 노력에 기여할 수 있는 공동 프로젝트로서 https URL에 공개됩니다. [abs|pdf]

[51/134] Large Language Models to Enhance Bayesian Optimization

Keywords: large_language_models, bayesian_optimization_bo, bayesian_optimization
Abstract: 베이지안 최적화(BO)는 복잡하고 평가 비용이 많이 드는 블랙박스 함수를 최적화하기 위한 강력한 접근 방식입니다. 특히 하이퍼파라미터 튜닝을 비롯한 많은 애플리케이션에서 그 중요성이 강조되고 있지만, 그 효과는 탐색과 활용의 균형을 효율적으로 맞추는 데 달려 있습니다. BO 방법에는 상당한 진전이 있었지만, 이 균형을 맞추는 것은 여전히 섬세한 과정으로 남아 있습니다. 이러한 관점에서, 저희는 BO 내에 대규모 언어 모델(LLM)의 기능을 통합하는 새로운 접근 방식인 $\texttt{LLAMBO}$를 소개합니다. 높은 수준에서, 우리는 자연어 용어로 BO 문제를 구성하여 LLM이 과거 평가에 따라 유망한 솔루션을 반복적으로 제안할 수 있도록 합니다. 좀 더 구체적으로, 우리는 문맥 이해, 단발성 학습 숙련도, LLM의 도메인 지식을 결합하여 모델 기반 BO의 다양한 구성 요소를 향상시킬 수 있는 방법을 탐구합니다. 연구 결과에 따르면 $\texttt{LLAMBO}$는 제로 샷 웜스타트에서 효과적이며, 특히 관측이 드문 검색 초기 단계에서 대리 모델링과 후보 샘플링을 개선합니다. 이 접근 방식은 컨텍스트에 따라 수행되며 LLM 미세 조정이 필요하지 않습니다. 또한, 모듈식으로 설계되어 개별 구성요소를 기존 BO 프레임워크에 통합하거나 엔드투엔드 방식으로 통합적으로 작동할 수 있습니다. 유니티는 다양한 벤치마크, 독점 및 합성 작업에서 강력한 경험적 성능을 강조하면서 하이퍼파라미터 튜닝 문제에 대한 $\texttt{LLAMBO}$의 효과를 실증적으로 검증했습니다. [abs|pdf]

[52/134] Embedding Large Language Models into Extended Reality: Opportunities and Challenges for Inclusion, Engagement, and Privacy

Keywords: virtual_avatars_narratives, virtual_avatars, avatars_narratives_facilitate
Abstract: 최근 컴퓨터 그래픽, 하드웨어, 인공 지능(AI), 인간과 컴퓨터의 상호작용이 발전함에 따라 확장 현실(XR) 기기와 설정이 더욱 보편화될 것으로 보입니다. 이러한 디바이스와 설정은 시선 및 손 추적기와 같은 다양한 감지 방식을 통해 사용자에게 인터랙티브하고 매력적인 몰입형 경험을 제공하지만, 많은 비플레이어 캐릭터는 미리 스크립팅된 방식이나 기존 AI 기술을 통해 활용됩니다. 이 백서에서는 사용자 프로필에 따라 신속하게 엔지니어링하고 특정 목적에 맞게 LLM을 미세 조정하여 보다 포용적인 경험을 촉진하기 위해 가상 아바타 또는 내러티브에 포함시켜 XR에서 대규모 언어 모델(LLM)을 사용할 것을 주장합니다. 이러한 포용성은 XR 사용의 다양성을 촉진할 것이라고 생각합니다. 또한, LLM의 다양한 대화 기능을 통해 사용자들이 XR 환경에 더 많이 참여함으로써 일상 생활에서 XR이 더 많이 사용될 수 있을 것으로 생각합니다. 마지막으로, 사용자가 LLM 기반 환경에 제공한 정보와 센서를 통해 얻은 생체 인식 데이터를 결합하면 새로운 프라이버시 침해가 발생할 수 있다고 추측합니다. 이러한 프라이버시 침해 가능성을 연구하는 동안 사용자의 프라이버시 우려와 선호도도 함께 조사해야 합니다. 요약하자면, 몇 가지 어려움에도 불구하고 XR에 LLM을 내장하는 것은 여러 가지 기회를 가진 유망하고 새로운 연구 분야입니다. [abs|pdf]

[53/134] DistiLLM: Towards Streamlined Distillation for Large Language Models

Keywords: compressing_teacher_model, language_models_suffer, knowledge_distillation_kd
Abstract: 지식 증류(KD)는 교사 모델을 더 작은 학생 모델로 압축하여 추론 비용과 메모리 사용량을 줄이면서 모델 기능을 보존하는 데 널리 사용됩니다. 하지만 현재 자동 회귀 시퀀스 모델(예: 대규모 언어 모델)을 위한 KD 방법은 표준화된 목적 함수가 없다는 문제가 있습니다. 게다가 최근 학습-추론 불일치 문제를 해결하기 위해 학생이 생성한 결과물을 사용하면서 계산 비용이 크게 증가했습니다. 이러한 문제를 해결하기 위해 자동 회귀 언어 모델을 위한 보다 효과적이고 효율적인 KD 프레임워크인 DistiLLM을 소개합니다. DistiLLM은 두 가지 구성 요소로 이루어져 있습니다: (1) 새로운 스큐 쿨백-라이블러 발산 손실의 이론적 특성을 밝히고 이를 활용하는 방법, (2) 학생이 생성한 결과물의 활용 효율을 높이기 위해 설계된 적응형 오프 정책 접근법. 지시를 따르는 과제를 포함한 광범위한 실험을 통해 최근의 KD 방식에 비해 최대 4.3배의 속도 향상을 달성하면서 고성능 학생 모델을 구축하는 데 있어 DistiLLM이 효과적임을 입증했습니다. [abs|pdf]

[54/134] MOMENT: A Family of Open Time-series Foundation Models

Keywords: trained_time_series, dataset_training_onerous, datasets_limited_supervision
Abstract: 범용 시계열 분석을 위한 오픈소스 기초 모델 제품군인 MOMENT를 소개합니다. 시계열 데이터에 대한 대규모 모델의 사전 훈련은 (1) 대규모의 일관된 공개 시계열 리포지토리의 부재와 (2) 다양한 시계열 특성으로 인해 다중 데이터 집합 훈련이 번거롭기 때문에 어렵습니다. 또한 (3) 특히 리소스, 시간, 감독이 제한된 시나리오에서 이러한 모델을 평가할 수 있는 실험적 벤치마크는 아직 초기 단계에 머물러 있습니다. 이러한 문제를 해결하기 위해 Facebook은 시계열 더미라고 하는 대규모의 다양한 공개 시계열 모음을 수집하고 시계열별 과제를 체계적으로 해결하여 대규모 다중 데이터 세트 사전 학습을 실현합니다. 마지막으로, 최근의 연구를 바탕으로 제한된 감독 환경에서 다양한 작업과 데이터 세트에 대한 시계열 기초 모델을 평가할 수 있는 벤치마크를 설계합니다. 이 벤치마크에 대한 실험은 최소한의 데이터와 작업별 미세 조정을 통해 사전 훈련된 모델의 효과를 입증합니다. 마지막으로, 사전 학습된 대규모 시계열 모델에 대한 몇 가지 흥미로운 경험적 관찰 결과를 제시합니다. 익명으로 사용할 수 있는 코드는 anonymous.4open.science/r/BETT-773F/에서 확인할 수 있습니다. [abs|pdf]

[55/134] Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models

Keywords: geometric_reasoning_capabilities, geometric_reasoning_skills, geometric_reasoning_improves
Abstract: 대규모 언어 모델(LLM)은 수학적 및 알고리즘 작업에서 점점 더 뛰어난 능력을 발휘하고 있지만, 기하학적 추론 능력은 잘 알려지지 않았습니다. 우리는 인간의 수학적 추론 발달에 있어 가장 기본적인 단계 중 하나인 건설적인 기하학적 문제 해결에서 LLM의 능력을 조사합니다. 우리의 연구는 유사한 영역에서 많은 성공을 거둔 최첨단 LLM이 이 영역에서 직면한 주목할 만한 도전 과제를 보여줍니다. LLM은 대상 변수 선택에 편향성을 보이고 2D 공간 관계에 어려움을 겪으며, 종종 물체와 그 위치를 잘못 표현하거나 착각하기도 합니다. 이를 위해 내부 대화를 통해 기존 추론 잠재력을 향상시키는 LLM 기반 다중 에이전트 시스템을 공식화하는 프레임워크를 소개합니다. 이 연구는 현재 기하학적 추론에 있어 LLM의 한계를 강조하고 자기 수정, 협업, 다양한 역할 전문화를 통해 기하학적 추론 능력을 향상시킵니다. [abs|pdf]

[56/134] Position Paper: Toward New Frameworks for Studying Model Representations

Keywords: mechanistic_interpretability_representations, exploration_mechanistic_interpretability, interpretability_representations
Abstract: 기계적 해석 가능성(MI)은 신경망이 학습하는 정확한 알고리즘을 리버스 엔지니어링하여 AI 모델을 이해하는 것을 목표로 합니다. 지금까지 MI에 관한 대부분의 연구는 사소하고 토큰과 연관된 행동과 기능을 연구했습니다. 그러나 대부분의 기능은 그렇게 사소한 것이 아니며, 이러한 네트워크 내부의 숨겨진 표현을 분석 단위로 연구해야 한다고 주장합니다. 우리는 문헌 검토를 수행하고, 기능과 행동에 대한 표현을 공식화하고, 그 중요성과 평가를 강조하며, 표현의 기계적인 해석 가능성에 대한 기본적인 탐색을 수행합니다. 논의와 탐색 결과를 통해 우리는 표상을 연구하는 것이 중요하지만 연구가 부족한 분야이며, 현재 MI에서 확립된 방법으로는 표상을 이해하기에 충분하지 않다는 우리의 입장을 정당화하고, 연구 커뮤니티가 표상을 연구하기 위한 새로운 프레임워크를 향해 노력할 것을 촉구합니다. [abs|pdf]

[57/134] ANLS* -- A Universal Document Processing Metric for Generative Large Language Models

Keywords: classification_tasks_anls, discriminative_models, classification_tasks
Abstract: 전통적으로 문서 분류 및 정보 추출과 같은 작업에는 판별 모델이 주로 선택되어 왔습니다. 이러한 모델은 사전 정의된 제한된 수의 클래스에 속하는 예측을 수행하여 이진 참/거짓 평가를 용이하게 하고 F1 점수와 같은 메트릭을 직접 계산할 수 있게 해줍니다. 그러나 최근 생성형 대규모 언어 모델(GLLM)이 발전하면서 다운스트림 데이터 세트와 계산 비용이 많이 드는 미세 조정이 필요 없는 향상된 제로 샷 기능으로 인해 이 분야의 변화가 촉발되었습니다. 그러나 판별 모델에 사용되는 이진 참/거짓 평가가 GLLM의 예측에는 적용되지 않기 때문에 GLLM을 평가하는 것은 어려운 과제입니다. 이 백서에서는 정보 추출 및 분류 작업을 포함한 다양한 작업을 평가하기 위한 생성 모델에 대한 새로운 메트릭인 ANLS를 소개합니다. ANLS 메트릭은 기존 ANLS 메트릭을 드롭인 대체 방식으로 확장한 것으로, 이전에 보고된 ANLS 점수와 여전히 호환됩니다. ANLS* 메트릭을 사용한 7가지 데이터 세트와 3가지 GLLM에 대한 평가도 제공되어 제안된 메트릭의 중요성을 보여줍니다. 또한 문서에 대한 프롬프트를 생성하는 새로운 접근 방식인 SFT를 LATIN과 같은 다른 프롬프트 기법과 비교하여 벤치마킹했습니다. 21개 사례 중 15개 사례에서 SFT는 다른 기법보다 성능이 뛰어났으며, 때로는 최대 15% 포인트까지 개선되었습니다.
출처는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[58/134] A new method for optical steel rope non-destructive damage detection

Keywords: detection_steel_ropes, images_steel_ropes, damage_detection_steel
Abstract: 이 논문에서는 고도가 높은 환경(공중 로프웨이)에서 강철 로프의 비파괴 손상 탐지를 위한 새로운 알고리즘을 소개합니다. 이 알고리즘은 두 가지 주요 구성 요소로 이루어져 있습니다: 첫째, 복잡한 배경에서 강철 로프를 정확하게 추출하기 위해 RGBD-UNet이라는 세그멘테이션 모델을 설계했습니다. 이 모델은 제안된 CMA 모듈을 통해 색상과 깊이 정보를 처리하고 결합할 수 있는 기능을 갖추고 있습니다. 둘째, 정상 강선과 비정상 강선을 구분하기 위해 VovNetV3.5라는 탐지 모델을 개발했습니다. 이 모델은 VovNet 아키텍처와 DBB 모듈을 통합하여 성능을 향상시킵니다. 또한 세분화 모델의 일반화 능력을 향상시키기 위해 새로운 배경 증강 방법을 제안합니다. 세분화 모델과 탐지 모델의 훈련 및 테스트를 위해 다양한 시나리오의 강철 로프 이미지가 포함된 데이터 세트가 생성됩니다. 실험 결과 기준 모델에 비해 상당한 개선이 이루어졌습니다. 제안된 데이터 세트에서 탐지 모델이 달성한 최고 정확도는 0.975, 세분화 모델이 달성한 최대 F값은 0.948에 달했습니다. [abs|pdf]

[59/134] SEABO: A Simple Search-Based Method for Offline Imitation Learning

Keywords: offline_imitation_learning, reward_learning_offline, offline_reinforcement_learning
Abstract: 오프라인 강화 학습(RL)은 정적인 오프라인 데이터 세트로부터 학습할 수 있고 환경과 상호작용할 필요가 없다는 점 때문에 많은 주목을 받고 있습니다. 그럼에도 불구하고 오프라인 RL의 성공 여부는 보상 레이블로 주석이 달린 오프라인 전환에 크게 좌우됩니다. 실제로는 보상 기능을 수작업으로 제작해야 하는 경우가 많은데, 이는 때때로 어렵고 노동 집약적이거나 비효율적입니다. 이러한 문제를 해결하기 위해 오프라인 모방 학습(IL) 설정에 초점을 맞추고 전문가 데이터와 라벨이 없는 데이터를 기반으로 보상 함수를 얻는 것을 목표로 합니다. 이를 위해 간단하면서도 효과적인 검색 기반 오프라인 IL 방법인 SEABO를 제안합니다. SEABO는 비지도 학습 방식으로 전문가 데모에서 가장 가까운 이웃에 가까운 전환에 더 큰 보상을 할당하고 그렇지 않은 경우 더 작은 보상을 할당합니다. 다양한 D4RL 데이터 세트에 대한 실험 결과에 따르면 SEABO는 하나의 전문가 궤적만 주어졌을 때 실측 보상을 사용하는 오프라인 RL 알고리즘과 경쟁할 수 있으며, 많은 작업에서 사전 보상 학습 및 오프라인 IL 방법을 능가하는 성능을 발휘할 수 있는 것으로 나타났습니다. 또한, 전문가 데모에 관찰 데이터만 포함된 경우에도 SEABO가 잘 작동한다는 것을 입증했습니다. 코드는 이 https URL에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[60/134] ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs

Keywords: sparse_activation_efficient, sparse_activation, exhibit_sparse_activation
Abstract: 스파스 계산은 비활성 뉴런의 계산을 동적으로 건너뛰는 방식으로 리소스가 부족한 상황에서 대규모 언어 모델(LLM)을 추론할 수 있는 강력한 솔루션을 제공합니다. 기존의 접근 방식은 활성화 값의 0을 활용하는 ReLU 기반 LLM에 초점을 맞추지만, 우리는 활성화 값 0을 넘어 스파스 LLM의 범위를 넓힙니다. 뉴런 출력 크기와 맞춤형 크기 임계값을 통해 뉴런 활성화를 정의하는 일반적인 방법을 소개하여 비 ReLU LLM도 희소 활성화를 나타냄을 증명합니다. 희소 연산을 위한 가장 효율적인 활성화 함수를 찾기 위해 희소성과 성능 간의 균형, 희소성의 예측 가능성, 하드웨어 친화성의 세 가지 측면에서 LLM의 희소성을 검토하는 체계적인 프레임워크를 제안합니다. 우리는 ReLU, SwiGLU, ReGLU, ReLU$^2$ 등 다양한 활성화 함수를 사용하는 LLM에 대해 철저한 실험을 수행합니다. 그 결과, ReLU$^2$를 사용하는 모델이 세 가지 평가 측면 모두에서 우수한 것으로 나타났으며, 이는 희소 LLM의 효율적인 활성화 함수로서의 잠재력을 보여줍니다. 향후 연구를 촉진하기 위해 코드를 공개할 예정입니다. [abs|pdf]

[61/134] Face Detection: Present State and Research Directions

Keywords: face_detection_accuracy, face_detection_issues, face_detection
Abstract: 사람이 등장하는 이미지를 처리하는 대부분의 컴퓨터 비전 애플리케이션은 얼굴 인식 기능을 핵심 구성 요소로 사용합니다. 얼굴 인식에 대한 많은 연구에도 불구하고 얼굴 인식에는 여전히 문제가 있습니다. 얼굴 인식의 정확도와 속도는 아직 더 향상될 수 있습니다. 이 리뷰 논문은 이 분야에서 이루어진 진전 사항과 여전히 해결해야 할 중요한 문제를 보여줍니다. 이 논문은 얼굴 인식 분야의 연구 프로젝트로 채택할 수 있는 연구 방향을 제시합니다. [abs|pdf]

[62/134] No-Regret Reinforcement Learning in Smooth MDPs

Keywords: guarantees_reinforcement_learning, reinforcement_learning_rl, algorithms_regret_minimization
Abstract: 연속 상태 및/또는 행동 공간 문제가 있는 경우 강화 학습(RL)에 대한 무후회 보장을 얻는 것은 여전히 이 분야의 주요 미해결 과제 중 하나입니다. 최근 다양한 해결책이 제시되고 있지만, 매우 특수한 환경을 제외하고는 일반적인 문제는 여전히 해결되지 않고 있습니다. 이 논문에서는 마르코프 의사결정 과정(MDP)에 대한 새로운 구조적 가정, 즉 $\nu-$평활성을 도입하여 지금까지 제안된 대부분의 설정(예: 선형 MDP 및 립시츠 MDP)을 일반화합니다. 이 까다로운 시나리오에 대응하기 위해 우리는 $\nu-$-smooth MDP에서 후회 최소화를 위한 두 가지 알고리즘을 제안합니다. 두 알고리즘은 모두 레전드 다항식에 기반한 직교 특징 맵을 통해 MDP 표현을 구축하는 아이디어를 기반으로 합니다. 첫 번째 알고리즘인 $\textsc{Legendre-Eleanor}$는 약한 가정 하에서 후회 없음 속성을 보관하지만 계산적으로 비효율적인 반면, 두 번째 알고리즘인 $\textsc{Legendre-LSVI}$는 더 작은 종류의 문제에 대해 다항식 시간 내에 실행됩니다. 후회 속성을 분석한 후, 우리의 결과를 RL 이론의 최신 결과와 비교하여 우리의 알고리즘이 최상의 보증을 달성한다는 것을 보여줍니다. [abs|pdf]

[63/134] AirPhyNet: Harnessing Physics-Guided Neural Networks for Air Quality Prediction

Keywords: physics_knowledge_neural, air_quality_prediction, prediction_airphynet_specifically
Abstract: 대기질 예측 및 모델링은 개인과 당국이 정보에 입각한 결정을 내릴 수 있도록 공중 보건 및 환경 관리에서 중추적인 역할을 합니다. 기존의 데이터 기반 모델은 이 분야에서 가능성을 보였지만, 특히 데이터가 희박하거나 불완전한 시나리오에서 장기적인 예측 정확도가 제한될 수 있으며, 견고한 물리적 기반이 부족한 블랙박스 딥러닝 구조에 의존하는 경우가 많아 예측의 투명성과 해석 가능성이 떨어집니다. 이러한 한계를 해결하기 위해 이 백서에서는 대기질 예측을 위한 물리 유도 신경망(AirPhyNet)이라는 새로운 접근 방식을 제시합니다. 구체적으로, 공기 입자 이동에 대한 두 가지 잘 정립된 물리학 원리(확산과 대류)를 미분 방정식 네트워크로 표현하여 활용합니다. 그런 다음 그래프 구조를 활용하여 물리학 지식을 신경망 아키텍처에 통합하고 잠재적 표현을 활용하여 공기질 데이터 내의 시공간적 관계를 포착합니다. 두 가지 실제 벤치마크 데이터 세트에 대한 실험 결과, AirPhyNet은 다양한 리드 타임(24시간, 48시간, 72시간), 희박한 데이터, 급격한 변화 예측 등 다양한 테스트 시나리오에서 최첨단 모델보다 성능이 뛰어나며 예측 오류를 최대 10%까지 감소시키는 것으로 입증되었습니다. 또한 사례 연구를 통해 당사 모델이 입자 이동의 기본 물리적 프로세스를 포착하고 실제 물리적 의미를 지닌 정확한 예측을 생성한다는 사실이 추가로 검증되었습니다. [abs|pdf]

[64/134] Soft Prompt Tuning for Cross-Lingual Transfer: When Less is More

Keywords: trained_language_models, lingual_transfer_performance, cross_lingual_transfer
Abstract: 소프트 프롬프트 튜닝(SPT)은 파라미터를 수정하지 않고도 학습 가능한 임베딩 또는 소프트 프롬프트를 PLM의 입력 레이어에 삽입하여 사전 학습된 언어 모델(PLM)을 특정 작업에 맞게 조정하는 파라미터 효율적인 방법입니다. 이 백서에서는 언어 간 전송을 위한 SPT의 잠재력을 조사합니다. 소프트 프롬프트와 모델 파라미터를 모두 미세 조정하는 경우가 많은 언어 간 전송용 SPT에 대한 이전 연구와 달리, 본 논문에서는 모델 파라미터를 고정하고 소프트 프롬프트만 학습함으로써 SPT의 원래 의도에 충실합니다. 이를 통해 전체 모델 미세 조정에 따른 계산 비용과 스토리지 오버헤드를 줄일 수 있을 뿐만 아니라 SPT에 내재된 바로 이러한 매개변수 효율성이 언어적으로 먼 언어에 대한 언어 간 전송 성능을 향상시킬 수 있음을 입증합니다. 또한 프롬프트의 길이나 재매개변수화 등 프롬프트와 관련된 다양한 요인이 언어 간 전송 성능에 어떤 영향을 미치는지 살펴봅니다. [abs|pdf]

[65/134] MolTC: Towards Molecular Relational Modeling In Language Models

Keywords: molecular_relational_learning, molecular_interaction_prediction, molecular_relational
Abstract: 분자 쌍 간의 상호작용을 이해하는 것을 목표로 하는 분자 관계 학습(MRL)은 생화학 연구를 발전시키는 데 중추적인 역할을 합니다. 최근에는 방대한 지식 저장소와 고급 논리적 추론 기능으로 잘 알려진 대규모 언어 모델(LLM)이 효율적이고 효과적인 MRL을 위한 유망한 방법으로 떠오르고 있습니다. 하지만 이러한 방법은 잠재력에도 불구하고 주로 텍스트 데이터에 의존하기 때문에 분자 그래프에 내재된 풍부한 구조적 정보를 충분히 활용하지 못합니다. 게다가 통합된 프레임워크의 부재는 다양한 데이터 세트에서 학습한 상호작용의 근거를 공유하는 데 방해가 되기 때문에 정보 활용도를 더욱 떨어뜨립니다. 이러한 문제를 해결하기 위해 본 연구에서는 분자 쌍의 풍부한 그래픽 정보를 효율적으로 통합할 수 있는 생각의 사슬(Chain-of-Thought, CoT) 이론에 따른 분자 상호작용 예측을 위한 새로운 LLM 기반 멀티모달 프레임워크, 즉 MolTC를 제안합니다. 통합 MRL을 달성하기 위해 MolTC는 데이터 세트 간 정보 교환을 위한 동적 매개변수 공유 전략을 혁신적으로 개발하고, 다중 계층적 CoT 원리를 도입하여 훈련 패러다임을 개선합니다. 4,000,000개 이상의 분자 쌍을 포함하는 12개의 다양한 데이터 세트에서 수행된 실험을 통해 현재 GNN 및 LLM 기반 기준선보다 이 방법이 우수하다는 것을 입증했습니다. 또한, 생화학 LLM 개발을 위한 포괄적인 분자 대화형 지침 데이터 세트가 구축되어 있으며, 여기에는 MolTC가 포함됩니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[66/134] Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification

Keywords: features_keywords_propaganda, language_propaganda_stylistic, propaganda_stylistic_features
Abstract: 이 논문은 프로파간다의 언어와 그 문체적 특징을 조사합니다. 이 논문에서는 전문 기관에서 선전 출처로 확인된 웹사이트에서 추출한 뉴스 기사로 구성된 멀티소스, 다국어, 멀티모달 데이터 세트인 PPN 데이터 세트(Propagandist Pseudo-News의 약자)를 소개합니다. 이 데이터 세트의 제한된 샘플을 일반 프랑스 언론의 기사와 무작위로 혼합하고 URL을 마스킹하여 11개의 고유 라벨을 사용하여 사람이 주석을 다는 실험을 수행했습니다. 그 결과, 인간 어노테이터는 각 라벨에서 두 가지 유형의 언론사를 안정적으로 구분할 수 있는 것으로 나타났습니다. 우리는 주석가가 사용한 단서를 식별하고 이를 기계 분류와 비교하기 위해 다양한 NLP 기술을 제안합니다. 여기에는 담론의 모호성과 주관성을 측정하는 분석기 VAGO, 기준이 되는 TF-IDF, 두 가지 RoBERTa 기반 모델, 구문을 사용하는 CATS, 구문과 의미적 특징을 결합한 XGBoost의 네 가지 분류기가 포함됩니다.
키워드: 선전, 가짜 뉴스, 설명 가능성, AI 정렬, 모호성, 주관성, 과장, 문체 분석 [abs|pdf]

[67/134] Large Language Models As MOOCs Graders

Keywords: peer_grading_moocs, convenient_peer_grading, peer_grading_guided
Abstract: 대규모 온라인 공개 강좌(MOOC)는 컴퓨터와 인터넷만 있으면 전 세계 누구나 무료로 교육을 받을 수 있는 문을 열어줍니다. 이러한 학습의 민주화에도 불구하고 이러한 강좌에 대규모로 등록하는 수강생은 한 명의 강사가 모든 학생의 작문 과제를 평가하는 것이 거의 불가능하다는 것을 의미합니다. 따라서 간단한 루브릭에 따라 동료가 채점하는 방식이 선택되는 경우가 많습니다. 동료 채점은 편리하지만 신뢰성과 타당성 측면에서 부족한 경우가 많습니다. 이 연구에서는 18개의 서로 다른 설정을 사용하여 MOOC에서 동료 채점을 대체하기 위해 대규모 언어 모델(LLM)을 활용할 수 있는 가능성을 살펴봅니다. 특히 두 가지 최신 LLM에 초점을 맞춥니다: GPT-4와 GPT-3.5, 세 가지 코스에 걸쳐 있습니다: 입문 천문학, 우주생물학, 천문학의 역사와 철학입니다. LLM을 가르칠 때는 제로 샷 연쇄 사고(Zero-shot-CoT) 프롬프트 기법의 변형에 기반한 세 가지 프롬프트를 사용합니다: 교수자가 제공한 정답과 결합된 제로샷-CoT, 교수자가 공식화한 정답과 루브릭을 모두 결합한 제로샷-CoT, 교수자가 제공한 정답과 LLM이 생성한 루브릭을 결합한 제로샷-CoT. 연구 결과에 따르면 교수자가 제공한 답안 및 루브릭과 통합된 제로 샷-CoT는 동료 채점에 비해 교수자가 부여한 성적과 더 일치하는 성적을 생성하는 것으로 나타났습니다. 그러나 천문학의 역사와 철학 코스는 다른 코스에 비해 채점 측면에서 더 까다로운 것으로 나타났습니다. 마지막으로, 이 연구는 특히 잘 정의된 루브릭이 있는 과목에서 MOOC의 채점 시스템을 자동화하는 데 있어 유망한 방향을 제시합니다. [abs|pdf]

[68/134] Learning a Decision Tree Algorithm with Transformers

Keywords: optimized_decision_trees, greedy_decision_trees, strong_decision_trees
Abstract: 의사 결정 트리는 특히 표 형식의 데이터에서 높은 예측 성능을 달성할 수 있는 해석 기능으로 잘 알려져 있습니다. 전통적으로 의사 결정 트리는 트리의 모든 노드에서 데이터를 분할하는 재귀 알고리즘을 통해 구성됩니다. 그러나 로컬 세그먼트에 최적화된 의사 결정 트리는 글로벌 일반화를 가져오지 못할 수 있기 때문에 최적의 파티션을 식별하는 것은 어려운 일입니다. 이 문제를 해결하기 위해 기존 알고리즘의 필터링된 출력에 대해 트랜스포머 기반 모델을 학습시켜 분류를 위한 강력한 의사결정 트리를 생성하는 MetaTree를 도입했습니다. 특히, 많은 수의 데이터 세트에 욕심 많은 의사 결정 트리와 최적화된 의사 결정 트리를 모두 적용합니다. 그런 다음 강력한 일반화 성능을 달성하는 트리를 생성하도록 메타트리를 훈련시킵니다. 이러한 훈련을 통해 메타트리는 이러한 알고리즘을 모방할 뿐만 아니라 상황에 따라 전략을 지능적으로 조정하여 우수한 일반화 성능을 달성할 수 있습니다. [abs|pdf]

[69/134] MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

Keywords: language_models_mobilevlm, performance_specifically_mobilevlm, mobilevlm
Abstract: 새로운 아키텍처 설계의 섬세한 오케스트레이션, 모바일 VLM에 맞춘 개선된 트레이닝 체계, 풍부한 고품질 데이터 세트 큐레이션이 VLM의 성능을 크게 향상시킬 수 있음을 입증하는 MobileVLM을 기반으로 대폭 개선된 비전 언어 모델 제품군인 MobileVLM V2를 소개합니다. 특히 MobileVLM V2 1.7B는 3B 규모의 훨씬 더 큰 VLM에 비해 표준 VLM 벤치마크에서 더 나은 또는 동등한 성능을 달성합니다. 특히 3B 모델은 7B 이상 규모의 다양한 VLM보다 성능이 뛰어납니다. 해당 모델은 다음 https URL에서 공개됩니다. [abs|pdf]

[70/134] Digital Twin Mobility Profiling: A Spatio-Temporal Graph Learning Approach

Keywords: twin_mobility_profiling, transportation_mobility_profiling, traffic_mobility_data
Abstract: 빅데이터 시대가 도래하면서 모빌리티 프로파일링은 방대한 양의 모빌리티 데이터를 활용하여 지능형 교통 시스템을 구축할 수 있는 실용적인 방법이 되었습니다. 모빌리티 프로파일링은 모빌리티 데이터에서 도시 교통의 잠재적 패턴을 추출할 수 있으며, 다양한 교통 관련 애플리케이션에 매우 중요합니다. 그러나 모빌리티 프로파일링은 높은 수준의 복잡성과 방대한 양의 데이터로 인해 큰 도전에 직면해 있습니다. 디지털 트윈(DT) 기술은 네트워크의 가상 표현을 디지털 방식으로 생성하여 네트워크의 동작을 시뮬레이션함으로써 비용 효율적이고 성능 최적화된 관리를 위한 기반을 마련합니다. 트래픽 시나리오의 복잡한 시공간적 특징을 포착하기 위해 시공간적 상관관계 표현을 완성하는 데 도움이 되는 정렬 다이어그램을 구성하고, 세분화된 상관관계, 즉 시공간적 상호 작용을 학습하기 위해 확장 정렬 컨볼루션 네트워크(DACN)를 설계합니다. 모빌리티 네트워크 DT 모델에서 노드 프로파일을 학습하기 위해 디지털 트윈 모빌리티 프로파일링(DTMP) 프레임워크를 제안합니다. 세 가지 실제 데이터 세트에 대해 광범위한 실험을 수행했습니다. 실험 결과는 DTMP의 효과를 입증합니다. [abs|pdf]

[71/134] SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems

Keywords: adversarial_policies_induce, adversarial_policies, generate_adversarial_policies
Abstract: 최근 다중 에이전트 강화 학습(MARL)의 발전으로 드론의 군집 제어, 로봇 팔을 이용한 협업 조작, 다중 표적 포위 등 다양한 응용 분야가 열렸습니다. 그러나 MARL을 배포하는 과정에서 발생할 수 있는 잠재적인 보안 위협은 더 많은 주의와 철저한 조사가 필요합니다. 최근 연구에 따르면 공격자는 피해자의 취약점을 빠르게 악용하고 적대적인 정책을 생성하여 피해자가 특정 작업에서 실패하도록 유도할 수 있습니다. 예를 들어, 초인적인 수준의 바둑 인공지능의 승률을 20% 정도로 낮출 수 있습니다. 이러한 공격은 주로 2인 경쟁 환경에 초점을 맞추며, 공격자가 전 세계 상태를 완벽하게 관찰할 수 있다고 가정합니다.
이 연구에서는 다중 에이전트 경쟁 환경에서 공격자가 피해자에 대한 부분적인 관찰로 제한되어 있어도 적대적인 정책을 생성할 수 있는 능력을 처음으로 공개합니다. 특히, 부분적 관찰의 영향을 완화하기 위해 여러 개의 서브게임을 구성하는 개념을 통합하고 공격자의 악용 능력을 향상시키기 위해 서브정책 간의 전환 공유를 제안하는 새로운 블랙박스 공격(SUB-PLAY)을 제안합니다. 세 가지 일반적인 부분 가시성 제한 상황에서 SUB-PLAY의 효과를 광범위하게 평가했습니다. 시각화 결과에 따르면 적대적 정책은 피해자의 정책 네트워크에 상당히 다른 활성화를 유도하는 것으로 나타났습니다. 또한, 적대적 정책으로 인한 보안 위협을 완화하는 방법을 모색하기 위한 세 가지 잠재적 방어 방법을 평가하여 경쟁 환경에서 MARL을 배포하기 위한 건설적인 권장 사항을 제공합니다. [abs|pdf]

[72/134] Similarity-based Neighbor Selection for Graph LLMs

Keywords: attributed_graphs_tags, improving_graph_representation, text_attributed_graphs
Abstract: 텍스트 어트리뷰션 그래프(TAG)는 언어 학습 모델(LLM)로 직접 처리하기에는 고유한 과제를 안고 있지만, 광범위한 상식적 지식과 강력한 추론 기능은 태그의 노드 분류에 큰 가능성을 제시합니다. 이 분야의 이전 연구에서는 데이터 세트 분할의 불일치와 고급 LLM의 저활용으로 인해 더욱 복잡해진 과도한 스쿼싱, 이질성, 비효율적인 그래프 정보 통합과 같은 문제로 어려움을 겪어왔습니다. 이러한 문제를 해결하기 위해 유사도 기반 이웃 선택(SNS)을 도입했습니다. SNS는 SimCSE와 고급 이웃 선택 기법을 사용해 선택된 이웃의 품질을 효과적으로 개선함으로써 그래프 표현을 개선하고 오버스쿼싱과 이질성 같은 문제를 완화합니다. 또한, 귀납적이고 훈련이 필요 없는 접근 방식인 SNS는 기존 GNN 방식보다 뛰어난 일반화 및 확장성을 보여줍니다. 표준 데이터 세트 파티셔닝 관행을 준수하는 종합적인 실험을 통해, SNS는 LLM과의 간단한 즉각적인 상호작용을 통해 지속적으로 바닐라 GNN을 능가하고 노드 분류에서 PubMed와 같은 데이터 세트에서 최첨단 결과를 달성하여 그래프 구조 이해에 있어 LLM의 잠재력을 보여줍니다. 이 연구는 LLM 애플리케이션에서 그래프 구조 통합의 중요성을 더욱 강조하고 노드 분류에서 성공할 수 있는 핵심 요소를 파악합니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[73/134] Empowering Language Models with Active Inquiry for Deeper Understanding

Keywords: question_answering, targeted_questioning_uncover, interactive_language_models
Abstract: 대규모 언어 모델(LLM)의 등장으로 자연어를 통해 인공 지능 시스템과 상호작용하는 방식이 혁신적으로 변화했습니다. 하지만 LLM은 사용자의 의도가 불확실하기 때문에 종종 사용자의 질문을 잘못 해석하여 도움이 되지 않는 응답을 내놓기도 합니다. 인간과의 자연스러운 상호작용에서는 모호한 정보를 파악하기 위해 목표가 있는 질문을 통해 명확성을 추구합니다. 따라서 이 백서에서는 LLM에 이와 같은 수준의 대화형 참여를 부여하기 위해 고안된 LaMAI(능동적 질문이 포함된 언어 모델)를 소개합니다. LaMAI는 능동적 학습 기법을 활용하여 가장 유익한 질문을 제기함으로써 역동적인 양방향 대화를 촉진합니다. 이러한 접근 방식은 문맥의 간극을 좁힐 뿐만 아니라 LLM의 결과물을 개선하여 사용자의 기대에 더 가깝게 맞출 수 있습니다. 대화 맥락을 파악하기 어려운 다양하고 복잡한 데이터 세트에 대한 경험적 연구를 통해 LaMAI의 효과가 입증되었습니다. 이 방법은 답변 정확도를 31.9%에서 50.9%로 향상시켜 다른 주요 질문-응답 프레임워크보다 뛰어난 성능을 보였습니다. 또한 사람이 참여하는 시나리오에서 LaMAI는 82% 이상의 사례에서 기준 방법보다 우수하거나 비슷한 수준의 답변을 일관되게 생성합니다. LaMAI의 적용 가능성은 다양한 LLM과의 성공적인 통합을 통해 더욱 입증되었으며, 이는 대화형 언어 모델의 미래에 대한 잠재력을 강조합니다. [abs|pdf]

[74/134] Clarify: Improving Model Robustness With Natural Language Corrections

Keywords: prevent_misconceptions, natural_language_feedback, misconceptions_prevent_misconceptions
Abstract: 지도 학습에서 모델은 정적 데이터 세트에서 상관관계를 추출하도록 훈련됩니다. 이는 종종 높은 수준의 오해에 의존하는 모델로 이어집니다. 이러한 오개념을 방지하려면 반드시 학습 데이터 외에 추가 정보를 제공해야 합니다. 기존 방법에는 가짜 특징에 대한 레이블이나 균형 잡힌 분포의 추가 레이블 데이터와 같은 추가적인 인스턴스 수준 감독이 포함됩니다. 이러한 전략은 원본 학습 데이터에 가까운 규모의 추가 주석이 필요하기 때문에 대규모 데이터 세트의 경우 비용이 엄청나게 많이 들 수 있습니다. 유니티는 모델의 오해에 대한 자연어 피드백이 더 효율적인 추가 감독 방식이라는 가설을 세웠습니다. 이에 따라 모델의 오개념을 대화식으로 수정하는 새로운 인터페이스와 방법인 Clarify를 소개합니다. 사용자는 클래리파이를 통해 모델의 일관된 오류 패턴을 설명하는 짧은 텍스트 설명만 제공하면 됩니다. 그런 다음 완전히 자동화된 방식으로 이러한 설명을 사용하여 훈련 데이터에 가중치를 부여하거나 추가 타겟 데이터를 수집하여 훈련 프로세스를 개선합니다. 사용자 연구에 따르면 비전문가인 사용자도 Clarify를 통해 모델의 오개념을 성공적으로 설명할 수 있으며, 두 데이터 세트에서 최악의 그룹 정확도를 평균 17.1% 개선한 것으로 나타났습니다. 또한, Clarify를 사용하여 ImageNet 데이터 세트에서 31개의 새로운 하드 하위 집단을 찾아 수정함으로써 소수 분할 정확도를 21.1%에서 28.7%로 개선했습니다. [abs|pdf]

[75/134] MMAUD: A Comprehensive Multi-Modal Anti-UAV Dataset for Modern Miniature Drone Threats

Keywords: uav_threat_detection, uav_dataset, anti_uav_dataset
Abstract: 유해한 탑재물을 운반하거나 독립적으로 피해를 입힐 수 있는 잠재력을 지닌 소형 무인 항공기(UAV)가 제기하는 진화하는 문제에 대응하기 위해 종합적인 멀티모달 안티-UAV 데이터 세트인 MMAUD를 소개합니다. MMAUD는 드론 탐지, UAV 유형 분류, 궤적 추정에 중점을 두어 최신 위협 탐지 방법론의 중대한 격차를 해결합니다. MMAUD는 스테레오 비전, 다양한 라이다, 레이더, 오디오 어레이 등 다양한 감각 입력을 결합한 것이 특징입니다. 열화상 및 RGB를 사용하여 특정 유리한 지점에서 캡처한 데이터 세트보다 더 높은 충실도로 실제 시나리오를 처리하는 데 필수적인 고유한 오버헤드 공중 감지 기능을 제공합니다. 또한, MMAUD는 라이카가 생성한 정확한 실측 데이터를 제공하여 신뢰성을 높이고 다른 데이터 세트에서는 볼 수 없었던 알고리즘과 모델을 자신 있게 개선할 수 있습니다. 대부분의 기존 작업은 데이터 세트를 공개하지 않기 때문에 MMAUD는 정확하고 효율적인 솔루션을 개발하는 데 귀중한 자원이 됩니다. 우리가 제안한 방식은 비용 효율적이고 적응성이 뛰어나 사용자가 새로운 무인 항공기 위협 탐지 도구를 실험하고 구현할 수 있습니다. 저희 데이터 세트는 주변 중장비 소리를 통합하여 실제 시나리오를 면밀히 시뮬레이션합니다. 이러한 접근 방식은 데이터 세트의 적용 가능성을 높여 실제 차량 운행 중에 직면하는 문제를 정확하게 포착합니다. MMAUD는 무인항공기 위협 탐지, 분류, 궤적 추정 기능 등을 발전시키는 데 중추적인 역할을 할 수 있을 것으로 기대됩니다. 데이터 세트, 코드, 설계는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[76/134] GenLens: A Systematic Evaluation of Visual GenAI Model Outputs

Keywords: evaluation_tools_genai, genai_model_developers, tools_genai_development
Abstract: 컴퓨터 비전 분야에서 생성적 AI(GenAI) 모델이 빠르게 발전함에 따라 품질과 공정성을 보장하기 위한 효과적인 평가 방법이 필요합니다. 기존 툴은 주로 데이터 세트 품질 보증과 모델 설명 가능성에 초점을 맞추기 때문에 모델 개발 중 GenAI 결과물 평가에는 상당한 격차가 존재합니다. 현재 관행은 개발자의 주관적인 시각적 평가에 의존하는 경우가 많아 확장성과 일반화 가능성이 부족할 수 있습니다. 이 논문은 산업 현장에서 GenAI 모델 개발자와 함께 형성 연구를 수행하여 이러한 격차를 해소합니다. 연구 결과는 모델 개발 초기 단계에서 GenAI 모델 결과물을 체계적으로 평가할 수 있도록 설계된 시각적 분석 인터페이스인 GenLens의 개발로 이어졌습니다. GenLens는 장애 사례 개요 및 주석 달기, 문제 태그 및 분류 사용자 지정, 여러 사용자의 주석을 집계하여 협업을 강화하기 위한 정량화 가능한 접근 방식을 제공합니다. 모델 개발자를 대상으로 한 사용자 연구에 따르면 GenLens가 워크플로우를 효과적으로 개선하는 것으로 나타났으며, 높은 만족도와 업무에 통합하려는 강한 의지가 이를 입증합니다. 이 연구는 GenAI 개발에서 강력한 초기 단계 평가 도구의 중요성을 강조하며, 공정하고 고품질의 GenAI 모델을 발전시키는 데 기여합니다. [abs|pdf]

[77/134] ServeFlow: A Fast-Slow Model Architecture for Network Traffic Analysis

Keywords: traffic_machine_learning, network_traffic_analysis, traffic_analysis_increasingly
Abstract: 인터넷이 통합되고 트래픽이 더욱 암호화됨에 따라 네트워크 트래픽 분석에 복잡한 머신 러닝 모델이 점점 더 많이 사용되고 있습니다. 그러나 고대역폭 네트워크에서는 흐름이 모델 추론 속도보다 더 빨리 도착할 수 있습니다. 네트워크 흐름의 시간적 특성으로 인해 트래픽이 많은 다른 머신 러닝 애플리케이션에서 활용되는 단순한 스케일아웃 접근 방식은 한계가 있습니다. 이에 본 백서에서는 네트워크 트래픽 분석 작업을 위한 머신러닝 모델 서빙 솔루션인 ServeFlow를 소개합니다. 이 솔루션은 수집할 패킷 수와 개별 흐름에 적용할 모델을 신중하게 선택하여 지연 시간 최소화, 높은 서비스 속도, 높은 정확도 사이의 균형을 달성합니다. 동일한 작업에서 모델에 따라 추론 시간이 2.7배136.3배까지 차이가 날 수 있으며, 패킷 간 대기 시간의 중간값은 추론 시간보다 68배 더 긴 경우가 많습니다! ServeFlow는 76.3%의 플로우를 16ms 이내에 추론할 수 있으며, 이는 서비스 속도를 높이고 비슷한 정확도를 유지하면서 엔드투엔드 서빙 대기 시간 중앙값을 40.5배나 단축한 것입니다. 플로우당 수천 개의 기능이 있는 경우에도 16코어 CPU 상용 서버에서 초당 48.5만 개 이상의 새로운 플로우를 서비스할 수 있으며, 이는 도시 수준의 네트워크 백본에서 관찰되는 플로우 속도와 일치합니다. [abs|pdf]

[78/134] A Survey of Privacy Threats and Defense in Vertical Federated Learning: From Model Life Cycle Perspective

Keywords: federated_learning, vertical_federated_learning, federated_learning_paradigm
Abstract: 수직 연합 학습(VFL)은 동일한 샘플 세트를 공유하지만 서로 다른 특징을 가진 여러 참가자가 공동으로 머신 러닝 모델을 학습하는 연합 학습 패러다임입니다. VFL은 원시 데이터를 공유하지 않고도 협업 머신러닝을 가능하게 하지만, 여전히 다양한 개인정보 위협에 취약합니다. 이 백서에서는 VFL의 프라이버시 공격과 방어에 대한 최신 현황을 처음으로 종합적으로 조사합니다. 공격과 방어의 특성을 기반으로 공격과 방어에 대한 분류법을 제시하고 미해결 과제와 향후 연구 방향에 대해 논의합니다. 특히, 머신러닝의 여러 단계에서 발생하는 개인정보 보호 위협과 그에 따른 대응책을 살펴봄으로써 모델의 수명 주기를 중심으로 논의를 구성합니다. 이 설문조사는 연구 커뮤니티를 위한 리소스일 뿐만 아니라, 실무자가 모델의 수명 주기 전반에 걸쳐 데이터 프라이버시를 보호할 수 있도록 명확한 지침과 실행 가능한 인사이트를 제공합니다. [abs|pdf]

[79/134] Minds versus Machines: Rethinking Entailment Verification with Language Models

Keywords: curated_entailment_verification, comprehensively_curated_entailment, reasoning_leveraging_insights
Abstract: 인간은 담화를 이해하기 위해 텍스트 이해 과정에서 수많은 추론을 합니다. 이 논문은 인간과 최첨단 대규모 언어 모델(LLM) 간의 추론 판단의 공통점과 차이점을 이해하는 것을 목표로 합니다. 종합적으로 선별된 수반 검증 벤치마크를 활용하여 다양한 추론 범주에서 인간과 LLM의 성능을 모두 평가합니다. 이 벤치마크에는 다중 문장 전제와 다양한 지식 유형을 포함하는 세 가지 범주(NLI, 문맥 QA, 근거)의 데이터 세트가 포함되어 있어 복잡한 추론 사례에서 추론 능력을 평가할 수 있습니다. 특히 이번 연구 결과는 확장된 컨텍스트에서 다중 홉 추론에 있어서는 LLM이 우월한 반면, 단순한 연역적 추론이 필요한 작업에서는 인간이 더 뛰어나다는 것을 보여줍니다. 이러한 인사이트를 활용하여 GPT-3.5를 능가하고 GPT-4와 경쟁할 수 있도록 미세 조정된 Flan-T5 모델을 소개하며, 수반 조건 검증을 위한 강력한 오픈 소스 솔루션을 제공합니다. 실제 적용 사례로, 모델 생성 설명의 자체 일관성을 향상시키는 데 있어 미세 조정된 모델이 세 가지 객관식 질문-답변 데이터 세트에서 평균 6%의 성능 향상을 가져오는 효과를 보여줍니다. [abs|pdf]

[80/134] RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

Keywords: models_reward_generation, pretrained_models_reward, leveraging_feedbacks_vision
Abstract: 효과적인 보상 함수를 설계하기 위해서는 많은 사람의 노력과 시행착오를 반복하는 과정이 필요하기 때문에 보상 엔지니어링은 강화 학습(RL) 연구에서 오랫동안 난제로 남아 있었습니다. 이 백서에서는 시각 언어 기반 모델(VLM)의 피드백을 활용하여 작업 목표에 대한 텍스트 설명과 에이전트의 시각적 관찰만으로 에이전트가 새로운 작업을 학습할 수 있는 보상 함수를 자동으로 생성하는 방법인 RL-VLM-F를 제안합니다. 이 접근 방식의 핵심은 이러한 모델에 작업 목표의 텍스트 설명을 기반으로 에이전트의 이미지 관찰 쌍에 대한 선호도를 부여하도록 쿼리한 다음, 노이즈가 많고 일관성이 없는 원시 보상 점수를 직접 출력하도록 하는 대신 선호도 레이블에서 보상 함수를 학습하는 것입니다. RL-VLM-F는 사람의 감독 없이도 고전적인 제어는 물론 단단하고 관절이 있으며 변형 가능한 물체의 조작 등 다양한 영역에서 효과적인 보상과 정책을 성공적으로 생성하며, 동일한 가정 하에 보상 생성을 위해 대규모 사전 학습 모델을 사용하는 이전 방법보다 성능이 뛰어나다는 것을 입증했습니다. [abs|pdf]

[81/134] Effective Protein-Protein Interaction Exploration with PPIretrieval

Keywords: protein_interaction_exploration, protein_interactions_ppis, protein_protein_interactions
Abstract: 단백질-단백질 상호작용(PPI)은 신호 전달, 수송, 면역 방어 등 수많은 세포 기능을 조절하는 데 매우 중요한 역할을 합니다. 다중 사슬 단백질 복합체 구조 예측의 정확도가 향상됨에 따라, 방대한 복합체 세계를 효과적으로 탐색하여 잠재적인 PPI를 식별하는 것이 과제로 떠올랐습니다. 이 글에서는 단백질-단백질 상호작용 탐색을 위한 최초의 딥러닝 기반 모델인 PPIretrieval을 제안합니다. 이 모델은 기존 PPI 데이터를 활용하여 단백질 표면의 풍부한 기하학적 및 화학적 정보를 캡처하여 임베딩 공간에서 잠재적 PPI를 효과적으로 검색합니다. 보이지 않는 쿼리 단백질과 관련 결합 부위가 제공되면 PPIretrieval은 임베딩 공간에서 해당 결합 부위와 함께 잠재적인 결합 파트너를 효과적으로 식별하여 단백질-단백질 복합체 형성을 용이하게 합니다. [abs|pdf]

[82/134] Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning

Keywords: indirect_reasoning_ir, novel_indirect_reasoning, indirect_reasoning
Abstract: 최근 대규모 언어 모델(LLM)이 복잡한 추론을 수행할 수 있는 능력을 향상시키는 데 관심이 집중되고 있습니다. 그러나 기존의 연쇄 추론(Chain-of-Thought), 자기 일관성(Self-Consistency) 등의 방법은 주로 직접 추론(DR) 프레임워크를 따르기 때문에 DR로는 해결할 수 없는 수많은 현실 세계의 과제를 해결하는 데 어려움을 겪게 됩니다. 따라서 본 논문에서는 LLM의 추론 능력을 강화하기 위해 모순과 모순의 논리를 활용하여 사실 추론 및 수학적 증명과 같은 IR 과제를 해결하는 새로운 간접 추론(IR) 방법을 제안합니다. 구체적으로 방법론은 두 단계로 구성됩니다. 먼저, 역설의 논리적 등가성을 활용하여 데이터와 규칙을 보강함으로써 LLM의 이해도를 높입니다. 둘째, 원래의 DR 프로세스와 논리적으로 동등한 모순에 의한 증명을 기반으로 LLM이 IR을 수행하도록 유도하는 일련의 프롬프트 템플릿을 설계합니다. 우리의 IR 방식은 간단하면서도 효과적이며, 기존 DR 방식과 바로 통합하여 LLM의 추론 능력을 더욱 향상시킬 수 있습니다. GPT-3.5-turbo와 Gemini-pro와 같은 유명 LLM을 대상으로 한 실험 결과에 따르면, IR 방식은 기존 DR 방식에 비해 사실 추론의 정확도는 27.33%, 수학적 증명은 31.43% 향상되는 것으로 나타났습니다. 또한 IR과 DR을 결합한 방법은 IR 또는 DR만 사용하는 방법보다 훨씬 뛰어난 성능을 보여 우리 전략의 효과를 더욱 입증했습니다. [abs|pdf]

[83/134] Symbol Correctness in Deep Neural Networks Containing Symbolic Layers

Keywords: neural_layers_symbolic, dnn_explainability_transfer, neural_symbolic
Abstract: 지각과 논리적 추론을 결합한 AI 작업을 처리하기 위해 최근 연구에서는 전통적인 신경층에 더해 추론 중에 기호 풀러가 평가하는 기호 표현식(예: 수능 공식, 논리 프로그램)을 포함하는 신경심층 심층신경망(NS-DNN)을 도입했습니다. 우리는 NS-DNN의 설계와 분석을 안내할 수 있는 직관적이고 높은 수준의 원칙, 즉 입력 데이터의 (일반적으로 알려지지 않은) 실측값 기호 표현에 대해 신경 계층이 예측하는 중간 기호의 정확성인 기호 정확성을 식별하고 공식화합니다. 우리는 심볼 정확도가 일반적으로 훈련이 불가능함에도 불구하고 NS-DNN 설명성과 전이 학습에 필수적인 속성이라는 것을 증명합니다. 또한 기호 정확성의 프레임워크가 신경-기호 경계에서 모델 행동을 추론하고 소통할 수 있는 정확한 방법을 제공하고, NS-DNN 훈련 알고리즘이 직면한 근본적인 트레이드오프에 대한 통찰력을 제공한다는 것을 보여줍니다. 이를 통해 이전 작업에서 모호성이 있었던 중요한 지점을 파악하고, 향후 NS-DNN 개발을 지원할 수 있는 프레임워크를 제공합니다. [abs|pdf]

[84/134] Transductive Reward Inference on Graph

Keywords: learning_reward_inference, transductive_reward_inference, graph_transductive_reward
Abstract: 이 연구에서는 오프라인 강화학습에서 라벨이 없는 데이터에 대한 보상을 효과적으로 추정할 수 있는 보상 정보 전파 그래프에 대한 전이적 추론 접근법을 제시합니다. 보상 추론은 실제 시나리오에서 효과적인 정책을 학습하기 위한 핵심 요소이지만, 의료 및 로봇 공학처럼 직접적인 환경 상호작용이 너무 비싸거나 비윤리적이며 보상 함수에 접근하기 어려운 경우 보상 추론은 매우 중요합니다. 크리테오의 연구는 그래프에서 정보 전파의 맥락적 속성에 기반한 보상 추론 방법을 개발하는 데 중점을 두고 있으며, 제한된 수의 인간 보상 주석을 활용하여 레이블이 없는 데이터에 대한 보상을 추론합니다. 사용 가능한 데이터와 제한된 보상 주석을 모두 활용하여 보상 전파 그래프를 구성하고, 에지 가중치에 보상과 관련된 다양한 영향 요인을 통합합니다. 그 후, 구축된 그래프를 전이적 보상 추론에 사용해 라벨이 없는 데이터에 대한 보상을 추정합니다. 또한 변환적 추론 과정을 여러 번 반복하는 동안 고정점의 존재를 확인하고 적어도 국부적 최적점에 수렴하는 것을 증명합니다. 이동 및 로봇 조작 작업에 대한 경험적 평가를 통해 접근 방식의 효율성을 검증합니다. 추론된 보상을 적용하면 오프라인 강화 학습 작업의 성능이 향상됩니다. [abs|pdf]

[85/134] Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm

Keywords: pretraining_finetuning_paradigm, common_pretrained_checkpoint, checkpoint_conjecture_pretraining
Abstract: 사전 학습 후 미세 조정 패러다임은 최신 딥 러닝의 대세가 되었습니다. 이 연구에서는 공통의 사전 학습된 체크포인트에서 초기화되고 서로 다른 작업에서 미세 조정되는 모델에서 흥미로운 선형 현상을 발견했는데, 이를 교차 작업 선형성(CTL)이라고 합니다. 구체적으로, 미세 조정된 두 모델의 가중치를 선형 보간하면 가중치가 보간된 모델의 특징은 각 레이어에서 미세 조정된 두 모델의 특징을 선형 보간한 것과 거의 동일해집니다. 이러한 교차 작업 선형성은 동료 문헌에서 발견되지 않았습니다. 우리는 동일한 사전 학습된 체크포인트에서 시작하는 미세 조정된 모델에서 CTL이 일관되게 발생한다는 것을 뒷받침하는 포괄적인 경험적 증거를 제공합니다. 사전 학습-미세 조정 패러다임에서 신경망은 본질적으로 매개변수 공간에서 특징 공간으로 매핑하는 선형 맵으로 기능한다고 추측합니다. 이러한 관점을 바탕으로 본 연구에서는 특히 매개변수 공간에서 특징 공간으로 연산을 변환함으로써 모델 병합/편집을 설명하는 새로운 통찰력을 제시합니다. 또한 사전 학습의 영향력을 강조하면서 CTL의 출현에 대한 근본적인 요인을 더 깊이 파헤칩니다. [abs|pdf]

[86/134] CAMBranch: Contrastive Learning with Augmented MILPs for Branching

Keywords: samples_imitation_learning, imitation_learning_strong, imitation_learning_particularly
Abstract: 최근에는 혼합 정수 선형 프로그래밍(MILP)을 해결하기 위한 분기 및 경계(B&B) 분기 정책을 개선하기 위해 머신 러닝 프레임워크가 도입되었습니다. 이러한 방법은 주로 스트롱 브랜칭의 모방 학습에 의존하며, 우수한 성능을 보여주었습니다. 그러나 모방 학습, 특히 강한 분기를 위한 전문가 샘플을 수집하는 것은 시간이 많이 걸리는 작업입니다. 이러한 문제를 해결하기 위해, 저희는 원래의 MILP에서 제한된 전문가 데이터에 가변 시프트를 적용하여 증강 MILP(AMILP)를 생성하는 프레임워크인 Contrastive Learning
with Augmented MILPs for Branching (CAMBranch)를 제안합니다. 이 접근 방식을 통해 상당한 수의 라벨링된 전문가 샘플을 수집할 수 있습니다. CAMBranch는 모방 학습을 위해 MILP와 AMILP를 모두 활용하며, 대조 학습을 통해 모델의 MILP 특징 포착 능력을 향상시켜 분기 결정의 품질을 개선합니다. 실험 결과에 따르면 전체 데이터 세트의 10%만으로 훈련된 CAMBranch는 우수한 성능을 보여줍니다. 제거 연구는 이 방법의 효과를 더욱 검증합니다. [abs|pdf]

[87/134] Enhancing LLM-Based Coding Tools through Native Integration of IDE-Derived Static Context

Keywords: code_completion_propose, code_completion, code_completion_evidenced
Abstract: 대규모 언어 모델(LLM)은 코드 완성 분야에서 괄목할 만한 성공을 거두었으며, 이는 Copilot과 같은 코드 지원 서비스를 개발하는 데 필수적인 역할을 하는 데서 알 수 있듯이 그 중요성이 입증되었습니다. 파일 내 컨텍스트에 대해 학습된 현재의 LLM은 단일 소스 파일의 코드를 완성하는 데 매우 효과적입니다. 하지만 파일 간 정보가 필요한 대규모 소프트웨어 프로젝트에서 리포지토리 수준의 코드 완성을 수행하기는 어렵습니다. LLM 기반의 리포지토리 수준 코드 완성에 대한 기존 연구는 파일 간 컨텍스트를 식별하고 통합하지만, 정확도가 낮고 LLM의 컨텍스트 길이가 제한되어 있다는 단점이 있습니다. 이 논문에서는 통합 개발 환경(IDE)이 리포지토리 수준의 코드 완성을 위해 직접적이고 정확한 실시간 파일 간 정보를 제공할 수 있다고 주장합니다. 본 논문에서는 자체 개선을 위한 교차 컨텍스트 구성 및 진단 결과를 위해 IDE의 기본 정적 컨텍스트를 활용하는 실용적인 프레임워크인 IDECoder를 제안합니다. IDECoder는 IDE에서 제공되는 풍부한 교차 컨텍스트 정보를 활용하여 저장소 수준 코드 완성의 LLM 기능을 향상시킵니다. 저희는 IDECoder의 성능을 검증하기 위해 예비 실험을 진행했으며, 이러한 시너지 효과가 향후 유망한 트렌드라는 것을 확인했습니다. [abs|pdf]

[88/134] Partially Recentralization Softmax Loss for Vision-Language Models Robustness

Keywords: nlp_vulnerable_adversarial, adversarial_robustness_pre, multimodal_nlp_vulnerable
Abstract: 자연어 처리 작업(NLP)에서 대규모 언어 모델이 획기적인 발전을 이루면서 멀티모달 기술이 큰 인기를 얻고 있습니다. 그러나 멀티모달 NLP는 입력에 대한 교란으로 인해 모델의 출력이 크게 변경될 수 있는 적대적 공격에 취약한 것으로 나타났습니다. 컴퓨터 비전과 NLP 모델 모두에서 여러 가지 방어 기법이 제안되었지만, 모델의 멀티모달 견고성은 충분히 연구되지 않았습니다. 이 논문에서는 사전 학습된 멀티모달 모델의 손실 함수를 수정하여 상위 K 소프트맥스 출력을 제한함으로써 제공되는 적대적 견고성을 연구합니다. 평가와 점수를 기반으로 한 실험 결과, 미세 조정 후 사전 학습된 모델의 적대적 견고성이 널리 사용되는 공격에 대해 크게 향상될 수 있음을 보여줍니다. 이러한 종류의 손실 함수의 출력 다양성, 일반화 및 견고성과 성능의 트레이드오프와 같은 추가 연구가 진행되어야 합니다. 이 논문이 승인된 후 코드를 사용할 수 있습니다 [abs|pdf]

[89/134] Neural Network Approximators for Marginal MAP in Probabilistic Circuits

Keywords: product_networks_efficiently, sum_product_networks, neural_networks_approximate
Abstract: 합산곱 네트워크와 같은 확률적 회로(PC)는 대규모 다변량 확률 분포를 효율적으로 표현합니다. PC는 네트워크의 크기에 따라 선형적으로 확장되는 한계 추론(MAR) 작업을 시간 내에 해결할 수 있기 때문에 베이지안 및 마르코프 네트워크와 같은 다른 확률적 표현보다 실제로 선호됩니다. 안타깝게도 이러한 모델에서 최대 사후 추정(MAP) 및 한계 추정(MMAP) 작업은 여전히 NP-하드로 남아 있습니다. 정수 선형 프로그래밍과 같은 최적화 문제에 대한 근사 솔루션을 생성하기 위해 신경망을 사용하는 최근의 연구에서 영감을 받아, 신경망을 사용하여 PC에서 (M)MAP 추론을 근사화하는 접근 방식을 제안합니다. 이 접근법의 핵심 아이디어는 연속 다선형 함수를 사용해 쿼리 변수에 대한 할당 비용을 근사화한 다음, 후자를 손실 함수로 사용하는 것입니다. 새로운 방법의 두 가지 주요 장점은 자가 지도가 가능하고 신경망이 학습된 후 솔루션을 출력하는 데 선형적인 시간만 필요하다는 점입니다. 여러 벤치마크 데이터 세트에서 새로운 접근 방식을 평가한 결과, 이 방법이 실제로 PC에서 MMAP 작업을 해결하는 데 사용되는 세 가지 경쟁 선형 시간 근사치인 최대 곱 추론, 최대 한계 추론 및 순차적 추정보다 성능이 뛰어나다는 것을 보여주었습니다. [abs|pdf]

[90/134] Leveraging Large Language Models for Hybrid Workplace Decision Support

Keywords: workspace_suggestions_reasoning, suggestions_explanations_workers, suggestions_reasoning_extends
Abstract: 대규모 언어 모델(LLM)은 다양한 텍스트 처리 작업을 수행하고 제안된 작업이나 결정에 대한 텍스트 설명을 제공할 수 있는 잠재력을 가지고 있습니다. 하이브리드 업무 시대에 LLM은 하이브리드 업무 계획을 설계하는 작업자에게 지능적인 의사 결정 지원을 제공할 수 있습니다. 특히 수많은 의사 결정 요소의 균형을 맞추는 작업자에게 제안과 설명을 제공하여 작업자의 업무 경험을 향상시킬 수 있습니다. 이 백서에서는 LLM의 추론 능력을 활용하여 하이브리드 업무 환경의 업무 공간에 대한 의사 결정 지원 모델을 제시합니다. 먼저 적합한 업무공간을 제안하는 LLM의 기능을 살펴봅니다. 프롬프트의 가이드라인을 뛰어넘는 추론 능력과 작업 공간에서 사용 가능한 리소스 간의 절충점을 관리할 수 있다는 사실을 발견했습니다. WeWork는 광범위한 사용자 연구를 통해 업무공간 선택에 대한 근로자의 의사결정 과정을 이해하고 시스템의 효과를 평가합니다. 우리는 근로자의 결정이 LLM의 제안과 설명에 의해 영향을 받을 수 있음을 관찰했습니다. 연구 참여자들은 이유 제공 여부와 관계없이 이 시스템이 편리하다고 평가했습니다. 연구 결과는 직원들이 하이브리드 업무공간에서 업무공간을 선택할 때 LLM 기반 시스템의 이점을 누릴 수 있음을 보여줍니다. [abs|pdf]

[91/134] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

Keywords: retrieval_augmented_planning, augmented_planning_rap, text_multimodal_environments
Abstract: 최근의 발전으로 인해 이제 로보틱스, 게임, API 통합 등의 분야에서 점점 더 복잡해지는 의사 결정 애플리케이션을 위한 에이전트로 대규모 언어 모델(LLM)을 배포할 수 있게 되었습니다. 하지만 인간 본연의 행동인 과거의 경험을 현재의 의사 결정 프로세스에 반영하는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 유니티는 과거의 경험을 현재 상황과 맥락에 맞게 동적으로 활용하여 에이전트의 플래닝 역량을 강화할 수 있도록 설계된 검색-증강 플래닝(RAP) 프레임워크를 제안합니다. RAP는 텍스트 전용 환경과 멀티모달 환경 모두에서 탁월한 성능을 발휘하여 다양한 업무에 적합하다는 점에서 차별화됩니다. 경험적 평가에 따르면 RAP는 텍스트 시나리오에서 SOTA 성능을 달성하고 구현된 작업에서 멀티모달 LLM 에이전트의 성능을 현저히 향상시키는 등 그 효과가 입증되었습니다. 이러한 결과는 복잡한 실제 애플리케이션에서 LLM 에이전트의 기능과 적용 가능성을 발전시키는 데 있어 RAP의 잠재력을 보여줍니다. [abs|pdf]

[92/134] Assessing the Impact of Distribution Shift on Reinforcement Learning Performance

Keywords: reproducibility_crisis_reinforcement, reinforcement_learning_rl, reproducibility_crisis
Abstract: 머신러닝 연구는 재현성 문제를 해결하기 위해 진전을 보이고 있습니다. 특히 강화 학습(RL)은 고유한 문제에 직면해 있습니다. 학습 중에 최적의 정책으로 성공적으로 수렴되었음을 보여주는 점 추정치와 플롯의 비교는 과적합 또는 실험 설정에 대한 의존성을 모호하게 만들 수 있습니다. RL 분야의 연구자들은 각 알고리즘의 장단점을 더 잘 이해하기 위해 불확실성을 고려한 신뢰도 지표를 제안했지만, 과거 연구의 권장 사항은 분포를 벗어난 관측값의 존재를 가정하지 않았습니다. 이 글에서는 분포 변화 하에서 RL 알고리즘의 견고성을 측정하는 일련의 평가 방법을 제안합니다. 여기에 제시된 도구는 에이전트가 환경에서 행동하는 동안 시간 경과에 따른 성능을 고려해야 할 필요성을 주장합니다. 특히 시계열 분석을 관찰 RL 평가의 한 방법으로 추천합니다. 또한 RL과 시뮬레이션된 동적 환경의 고유한 속성을 통해 평가에서 인과적 영향의 측정을 정당화할 수 있는 더 강력한 가정을 세울 수 있음을 보여줍니다. 그런 다음 이러한 도구를 단일 에이전트 및 다중 에이전트 환경에 적용하여 테스트 시간 동안 배포 이동을 도입하는 것이 미치는 영향을 보여줍니다. 이 방법론은 분포 이동이 있을 때 엄격한 RL 평가를 위한 첫 번째 단계로 제시합니다. [abs|pdf]

[93/134] Continual Domain Adversarial Adaptation via Double-Head Discriminators

Keywords: adversarial_adaptation_continual, domain_adversarial_adaptation, domain_adaptation_benchmark
Abstract: 지속적인 환경에서의 도메인 적대적 적응은 이전 소스 도메인 데이터에 액세스하는 데 제한이 있기 때문에 상당한 어려움이 있습니다. 지속적인 학습에 대한 광범위한 연구에도 불구하고, 메모리 리플레이 접근법의 표준 설정인 소수의 저장된 소스 도메인 데이터만으로는 적대적 적응 작업을 효과적으로 수행할 수 없습니다. 이러한 한계는 소수의 소스 도메인 샘플로 $\gH$-발산에 대한 잘못된 경험적 추정으로 인해 발생합니다. 이 문제를 해결하기 위해 본 논문에서는 소스 학습 단계에서만 훈련되는 소스 전용 도메인 판별자를 추가로 도입하여 이중 헤드 판별자 알고리즘을 제안합니다. 사전 학습된 소스 전용 도메인 판별자를 도입하면 소스 도메인 측면에서 $\gH$ 발산 관련 적대적 손실의 경험적 추정 오차가 감소됨을 증명합니다. 기존 도메인 적응 벤치마크에 대한 추가 실험 결과, 제안한 알고리즘은 소스 도메인에서의 망각을 크게 완화하면서 모든 범주의 목표 도메인 적응 작업에서 2$%$ 이상의 개선을 달성하는 것으로 나타났습니다. [abs|pdf]

[94/134] MQuinE: a cure for "Z-paradox'' in knowledge graph embedding models

Keywords: knowledge_graph_embedding, knowledge_graph_tasks, knowledge_graph
Abstract: 지식 그래프 임베딩(KGE) 모델은 링크 예측과 정보 검색을 포함한 많은 지식 그래프 작업에서 최첨단 결과를 달성했습니다. 실제로 KGE 모델의 우수한 성능에도 불구하고, 우리는 $Z-paradox$라고 불리는 일부 인기 있는 기존 KGE 모델의 표현력에서 결함을 발견했습니다. 본 논문에서는 Z-역설의 존재에 착안하여 대칭/비대칭, 역, 1-N/N-1/N-N, 구성 관계 등 다양한 관계 패턴을 이론적으로 정당화할 수 있는 강력한 표현력을 유지하면서도 Z-역설을 겪지 않는 새로운 KGE 모델인 $MQuinE$를 제안합니다. 실제 지식 기반에 대한 실험 결과, Z-역설은 실제로 기존 KGE 모델의 성능을 저하시키며 일부 까다로운 테스트 샘플에서 20% 이상의 정확도 저하를 유발할 수 있는 것으로 나타났습니다. 실험 결과, MQuinE는 Z-역설의 부정적인 영향을 완화하고 링크 예측 작업에서 기존 KGE 모델을 눈에 띄게 능가할 수 있음을 입증했습니다. [abs|pdf]

[95/134] LLM Multi-Agent Systems: Challenges and Open Problems

Keywords: agent_systems_blockchain, multi_agent_systems, multi_agent
Abstract: 이 백서에서는 다중 에이전트 시스템의 기존 작업을 살펴보고 아직 충분히 해결되지 않은 과제를 식별합니다. 다중 에이전트 시스템 내에서 개별 에이전트의 다양한 기능과 역할을 활용함으로써 이러한 시스템은 협업을 통해 복잡한 작업을 처리할 수 있습니다. 작업 할당 최적화, 반복적인 토론을 통한 강력한 추론 촉진, 복잡하고 다층적인 컨텍스트 정보 관리, 다중 에이전트 시스템 내의 복잡한 상호 작용을 지원하기 위한 메모리 관리 강화에 대해 논의합니다. 또한 블록체인 시스템에서 멀티 에이전트 시스템의 잠재적 적용 가능성을 살펴보고 실제 분산 시스템에서의 개발과 적용에 대해 알아봅니다. [abs|pdf]

[96/134] Diffusion World Model

Keywords: offline_reinforcement_learning, reinforcement_learning_dwm, offline_learning_synthetic
Abstract: 다단계 미래 상태와 보상을 동시에 예측할 수 있는 조건부 확산 모델인 확산 세계 모델(DWM)을 소개합니다. 기존의 1단계 동역학 모델과 달리, DWM은 한 번의 포워드 패스로 긴 지평선 예측을 제공하므로 재귀적 쿼리가 필요하지 않습니다. 또한 DWM을 모델 기반 가치 추정에 통합하여 DWM에서 샘플링한 미래 궤적을 통해 단기 수익률을 시뮬레이션합니다. 오프라인 강화 학습의 맥락에서 DWM은 생성적 모델링을 통한 보수적인 가치 정규화로 볼 수 있습니다. 또는 합성 데이터로 오프라인 Q러닝을 가능하게 하는 데이터 소스로 볼 수도 있습니다. D4RL 데이터 세트에 대한 실험을 통해 장거리 시뮬레이션에 대한 DWM의 견고성을 확인할 수 있었습니다. 절대 성능 측면에서 DWM은 44%의 성능 향상으로 원스텝 다이나믹스 모델을 크게 능가하며, 최첨단 성능을 달성했습니다. [abs|pdf]

[97/134] Distinguishing the Knowable from the Unknowable with Language Models

Keywords: identifying_epistemic_uncertainty, models_confident_token, large_language_models
Abstract: 우리는 자유 형식 텍스트에 대한 대규모 언어 모델(LLM)의 출력에서 (기본 분포의 엔트로피를 반영하는) 알레토릭 불확실성과는 대조적으로 (지식 부족을 반영하는) 인식적 불확실성을 식별할 수 있는 가능성을 연구합니다. 기준 진실 확률이 없는 경우, 주어진 LLM의 불확실성을 (대략적으로) 풀기 위해 훨씬 더 큰 모델을 기준 진실의 프록시로 사용하는 설정을 살펴봅니다. 우리는 고정된 사전 훈련된 모델의 임베딩에 대해 훈련된 작은 선형 프로브가 토큰 수준에서 더 큰 모델이 더 신뢰할 수 있는 시점을 정확하게 예측하고, 한 텍스트 영역에서 훈련된 프로브가 다른 영역으로 일반화된다는 것을 보여줍니다. 한 걸음 더 나아가, 동일한 작업에서 사소하지 않은 정확도를 달성하는 완전 비지도 방법을 제안합니다. 이러한 결과를 종합해 볼 때, LLM에는 다양한 유형의 불확실성에 대한 내부 표현이 자연스럽게 포함되어 있어 다양한 실제 환경에서 모델 신뢰도에 대한 보다 유익한 지표를 고안하는 데 잠재적으로 활용될 수 있다는 증거로 해석할 수 있습니다. [abs|pdf]

[98/134] VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation

Keywords: videos_pretraining_deep, action_prediction_learn, driving_videos_pretraining
Abstract: 실외 시각-언어 내비게이션(VLN)은 에이전트가 자연어 지시를 기반으로 실제와 같은 3D 실외 환경을 탐색해야 합니다. 기존 VLN 방식은 내비게이션 환경의 다양성 부족과 제한된 학습 데이터로 인해 성능에 한계가 있습니다. 이러한 문제를 해결하기 위해 미국 내 여러 도시의 주행 영상에 존재하는 다양한 실외 환경을 활용하고 자동 생성된 내비게이션 명령어와 동작으로 증강하여 실외 VLN 성능을 개선하는 VLN-Video를 제안합니다. VLN-Video는 직관적인 고전적 접근 방식과 최신 딥러닝 기술의 장점을 결합한 것으로, 템플릿 채우기를 사용하여 근거가 있는 내비게이션 지침을 생성하고 이미지 회전 유사성 기반 내비게이션 동작 예측기와 결합하여 주행 비디오에서 VLN 스타일 데이터를 얻어 딥러닝 VLN 모델을 사전 학습합니다. 유니티는 세 가지 프록시 작업을 통해 터치다운 데이터 세트와 주행 비디오에서 생성된 비디오 증강 데이터 세트로 모델을 사전 학습합니다: 마스킹 언어 모델링, 명령어 및 궤적 매칭, 다음 동작 예측을 통해 시간적으로 인식되고 시각적으로 정렬된 명령어 표현을 학습합니다. 학습된 명령어 표현은 터치다운 데이터 세트에서 미세 조정할 때 최첨단 내비게이터에 맞게 조정됩니다. 경험적 결과에 따르면 VLN-Video는 작업 완료율에서 이전 최신 모델보다 2.1% 더 뛰어난 성능을 보이며 터치다운 데이터 세트에서 새로운 최신 기술을 달성했습니다. [abs|pdf]

[99/134] Projected Generative Diffusion Models for Constraint Satisfaction

Keywords: projected_generative_diffusion, generative_diffusion_models, generative_diffusion
Abstract: 생성적 확산 모델은 순차적인 프로세스를 통해 원시 노이즈에서 일관된 콘텐츠를 강력하게 합성하는 데 탁월합니다. 그러나 구체적이고 엄격한 기준을 준수하는 결과물이 필요한 시나리오에 직접 적용하려면 몇 가지 심각한 문제에 직면하게 됩니다. 이 백서에서는 이러한 문제를 극복하기 위해 기존의 확산 모델 샘플링을 제약된 최적화 문제로 재구성하는 접근 방식인 예상 생성 확산 모델(PGDM)을 소개합니다. 이를 통해 반복적인 예측 방법을 적용하여 생성된 데이터가 지정된 제약 조건이나 물리적 원리를 충실히 준수하도록 보장할 수 있습니다. 이 논문은 제한된 제약 조건 하에서 실현 가능한 하위 분포로부터 출력을 합성하는 PGDM의 능력에 대한 이론적 지원을 제공하는 동시에 복잡한 비볼록 제약 조건과 일반 미분 방정식의 경우 대규모의 경험적 증거를 제공합니다. 이러한 기능은 비디오 생성의 물리학 기반 모션, 경로 계획의 궤적 최적화, 재료 과학의 형태학적 특성 준수를 통해 입증되었습니다. [abs|pdf]

[100/134] Preliminary Report on Mantis Shrimp: a Multi-Survey Computer Vision Photometric Redshift Model

Keywords: cnns_interpretability, modal_astronomical_datasets, ai_science_astronomy
Abstract: 대규모 공개 멀티모달 천문학 데이터 세트의 가용성은 인공지능 과학과 천문학 과학의 경계를 넘나드는 새로운 연구를 수행할 수 있는 기회를 제공합니다. 광도적 적색편차 추정은 천문학의 잘 정립된 하위 분야입니다. 이전 연구에 따르면 컴퓨터 비전 모델은 일반적으로 카탈로그 기반 모델보다 성능이 뛰어나지만, 이러한 모델은 두 개 이상의 기기나 센서의 이미지를 통합할 때 추가적인 복잡성에 직면하게 됩니다. 이 보고서에서는 자외선(GALEX), 광학(PanSTARRS), 적외선(UnWISE) 이미지를 융합한 광도 적색편차 추정을 위한 다중 조사 컴퓨터 비전 모델인 '맨티스 슈림프'를 개발하는 과정을 자세히 설명합니다. 딥러닝 해석 가능성 진단을 사용하여 모델이 다양한 입력 정보를 어떻게 활용하는지를 측정합니다. 해석 가능성 메트릭을 통해 CNN의 동작을 추론하고, 특히 은하 속성에 대한 물리적으로 근거한 지식의 관점에서 결과를 구성합니다. [abs|pdf]

[101/134] Deep Reinforcement Learning for Picker Routing Problem in Warehousing

Keywords: modeling_picker_tours, reinforcement_learning_offers, reinforcement_learning
Abstract: 오더 피커 라우팅은 창고 운영 관리에서 중요한 문제입니다. 문제의 복잡성과 빠른 솔루션의 필요성 때문에 실무에서는 차선책 알고리즘이 자주 사용됩니다. 그러나 강화 학습은 기존의 휴리스틱에 대한 매력적인 대안으로, 속도와 정확성 측면에서 기존 방법보다 뛰어난 성능을 발휘할 수 있습니다. 이 글에서는 강화 학습을 사용하여 학습된 피커 투어 모델링을 위한 주의 기반 신경망을 소개합니다. 이 방법은 다양한 문제 매개변수에서 기존 휴리스틱과 비교 평가하여 그 효율성을 입증합니다. 우리가 제안한 방법의 주요 장점은 경로의 복잡성을 줄일 수 있는 옵션을 제공할 수 있다는 점입니다. [abs|pdf]

[102/134] Resolving Transcription Ambiguity in Spanish: A Hybrid Acoustic-Lexical System for Punctuation Restoration

Keywords: punctuation_restoration_spanish, lexical_punctuation_restoration, spanish_conversational_datasets
Abstract: 문장 부호 복원은 자동 음성 인식(ASR) 시스템 다음으로 중요한 단계로, 성적서 가독성을 높이고 후속 자연어 처리 작업을 용이하게 하기 위한 것입니다. 그럼에도 불구하고 기존의 어휘 기반 접근 방식은 구두점이 없는 선언문과 의문문 사이에 모호성이 자주 발견되는 스페인어에서 구두점 복원 작업을 해결하기에는 부적절합니다. 본 연구에서는 모듈식 프로세스를 통해 청각적 신호와 어휘적 신호를 통합하는 스페인어 전사를 위한 새로운 하이브리드 청각-어휘 구두점 복원 시스템을 제안합니다. 실험 결과에 따르면 제안된 시스템은 공개 및 내부 스페인어 대화 데이터 세트 모두에서 물음표의 F1 점수와 전반적인 문장 부호 복원을 효과적으로 개선할 수 있습니다. 또한 LLM(대규모 언어 모델)과의 벤치마크 비교를 통해 정확도, 신뢰성 및 지연 시간 측면에서 우리의 접근 방식이 우월하다는 것을 알 수 있습니다. 또한 ASR 모듈의 단어 오류율(WER)도 우리가 제안한 시스템의 이점을 보여줍니다. [abs|pdf]

[103/134] Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains

Keywords: accurate_summarization_news, zero_shot_summarizers, shot_generated_summaries
Abstract: 최근 연구에 따르면 대규모 언어 모델(LLM)은 사람의 평가에 따라 수동으로 작성된 참조 요약과 비슷하거나 심지어 더 나은 요약을 제로 샷(즉, 명시적인 감독 없이)으로 생성할 수 있는 것으로 나타났습니다. 그러나 이러한 선행 연구는 거의 전적으로 뉴스 기사 요약의 평가에 초점을 맞추었습니다. 제로 샷 요약기는 다른 (잠재적으로 더 전문화된) 영역에서 어떻게 작동할까요? 이번 연구에서는 표준 뉴스 벤치마크 외에도 생의학 기사, 법률 법안 등 특수한 영역에서 제로샷으로 생성된 요약문을 평가합니다(참고용 표준 뉴스 벤치마크 포함). 특히 결과물의 사실성에 중점을 둡니다. 요약의 불일치를 식별하고 이러한 오류를 체계적으로 분류하기 위해 도메인 전문가로부터 주석을 수집합니다. 사전 학습 코퍼스에서 특정 도메인의 빈도가 해당 도메인에서 생성된 기사 요약의 추출성과 충실도에 영향을 미치는지 분석합니다. 수집된 모든 주석은 뉴스 기사를 넘어 사실에 입각한 정확한 요약의 측정과 실현을 위한 추가 연구를 촉진하기 위해 공개합니다. 데이터 세트는 다음 https URL에서 다운로드할 수 있습니다 [abs|pdf]

[104/134] An Inpainting-Infused Pipeline for Attire and Background Replacement

Keywords: aesthetic_changes_inpainting, creation_inpaint_masks, input_inpainting_masks
Abstract: 최근 몇 년 동안 생성적 인공 지능(GenAI)의 획기적인 발전은 다양한 영역에 큰 영향을 미치며 패러다임의 전환을 촉발했습니다. 이 연구에서는 특히 이미지 조작을 강조하는 GenAI와 컴퓨터 비전의 고급 기술을 활용한 통합 접근 방식을 살펴봅니다. 이 방법론은 깊이 추정, 깊이 정보에 기반한 인페인트 마스크 생성, 잠재 일관성 모델(LCM)과 함께 안정적 확산을 활용한 배경 생성 및 교체, 인페인트 파이프라인을 통한 후속 의상 교체 및 미적 변화 적용 등 여러 단계를 거쳐 전개됩니다. 이 연구에서 수행된 실험은 시각적으로 매력적인 콘텐츠를 제작할 수 있는 잠재력을 강조하면서 방법론의 효율성을 강조합니다. 이러한 첨단 기술의 융합을 통해 사용자는 인페인팅 마스크를 직접 입력하지 않고도 개인의 사진을 입력하고 특정 프롬프트에 따라 옷과 배경을 수정하도록 조작할 수 있어 피사체를 창의적인 상상의 풍경 속에 효과적으로 배치할 수 있습니다. [abs|pdf]

[105/134] Curriculum reinforcement learning for quantum architecture search under hardware errors

Keywords: quantum_architecture_search, circuit_architecture_quantum, variational_quantum_algorithms
Abstract: 잡음이 많은 중간 규모의 양자 시대의 핵심 과제는 현재 디바이스의 한계와 호환되는 유용한 회로를 찾는 것입니다. 가변 양자 알고리즘(VQA)은 회로 아키텍처를 수정하고 외부 루프에서 개별 게이트 파라미터를 최적화함으로써 잠재적인 해결책을 제시합니다. 그러나 매개변수 최적화가 어려울 수 있으며, 알고리즘의 전반적인 성능은 처음에 선택한 회로 아키텍처에 따라 크게 달라집니다. 유용한 회로 아키텍처를 자동으로 설계하기 위해 여러 양자 아키텍처 검색(QAS) 알고리즘이 개발되었습니다. 매개변수 최적화의 경우, 노이즈 효과가 최적화 알고리즘의 성능과 최종 결과에 큰 영향을 미치는 것으로 관찰되었으며, 이는 주요 연구 분야입니다. 그러나 그에 못지않게 중요할 수 있는 아키텍처 검색에 대한 노이즈의 영향은 제대로 이해되지 않았습니다. 이 연구는 현실적인 VQA 배포의 문제를 해결하기 위해 고안된 커리큘럼 기반 강화 학습 QAS(CRLQAS) 알고리즘을 도입하여 이러한 격차를 해결합니다. 이 알고리즘은 (i) 가능한 회로의 탐색 공간을 효율적으로 탐색하기 위해 3D 아키텍처 인코딩과 환경 역학에 대한 제한, (ii) 에이전트가 더 짧은 회로를 찾도록 유도하는 에피소드 중단 방식, (iii) 더 빠른 수렴을 위한 최적화 도구로서 동시 섭동 확률론적 근사법의 새로운 변형을 통합합니다. 연구를 용이하게 하기 위해 우리는 알고리즘에 최적화된 시뮬레이터를 개발하여 폴리-리우빌 기반에서 폴리-전달 행렬 형식주의를 사용하여 잡음이 많은 양자 회로를 시뮬레이션할 때 계산 효율성을 크게 향상시켰습니다. 양자 화학 작업에 초점을 맞춘 수치 실험을 통해 CRLQAS는 잡음이 없는 환경과 잡음이 있는 환경 모두에서 여러 지표에 걸쳐 기존 QAS 알고리즘보다 성능이 뛰어나다는 것을 입증했습니다. [abs|pdf]

[106/134] Early prediction of onset of sepsis in Clinical Setting

Keywords: scoring_methodology_sepsis, methodology_sepsis_detection, sepsis_detection_outlined
Abstract: 이 연구는 미국 뉴욕 브롱크스에 위치한 몬테피오레 메디컬 센터의 비식별화된 임상 데이터를 사용해 패혈증의 초기 발병을 예측하는 머신러닝 모델의 사용을 제안합니다. 훈련 데이터 세트의 80%에 해당하는 107개의 특징(원본 및 파생 특징 포함)을 활용하여 XGBoost 모델을 훈련하는 지도 학습 방식을 채택했습니다. 그 후, 나머지 20%의 테스트 데이터에 대해 모델을 평가했습니다. 이 모델은 훈련 단계에서 전혀 볼 수 없었던 예측 데이터에 대해 검증되었습니다. 개별 환자 수준에서 모델의 성능과 예측의 적시성을 평가하기 위해 피지오넷 패혈증 챌린지 백서에 설명된 대로 패혈증 감지를 위해 널리 알려진 채점 방법론인 정규화된 효용 점수를 사용했습니다. F1 점수, 민감도, 특이도, 플래그 비율과 같은 메트릭도 고안되었습니다. 이 모델은 임계값 0.3에서 테스트 데이터에서 0.494, 예후 데이터에서 0.378의 정규화된 효용 점수를 얻었습니다. 동일한 임계값에서 테스트 데이터와 전향적 데이터의 F1 점수는 각각 80.8%와 67.1%로, 임상 의사결정 프로세스에 효과적으로 통합될 수 있는 잠재력을 보여주었습니다. 이러한 결과는 이 모델의 강력한 예측 능력과 임상 의사결정 프로세스에 실질적인 영향을 미칠 수 있는 잠재력을 입증합니다. [abs|pdf]

[107/134] SWAG: Storytelling With Action Guidance

Keywords: story_generation_techniques, story_generation, story_generation_typically
Abstract: 자동화된 긴 형식의 스토리 생성은 일반적으로 원샷 제작을 위해 긴 문맥의 대형 언어 모델(LLM)을 사용하는데, 이는 응집력 있는 콘텐츠를 만들 수는 있지만 반드시 매력적인 콘텐츠는 아닙니다. 저희는 LLM을 사용한 스토리텔링에 대한 새로운 접근 방식인 SWAG(스토리텔링 위드 액션 가이던스)를 소개합니다. 이 접근 방식은 두 가지 모델 피드백 루프를 통해 스토리 작성을 검색 문제로 축소합니다. 하나의 LLM은 스토리 콘텐츠를 생성하고, 다른 보조 LLM은 스토리의 향후 방향을 유도하기 위한 차선책인 '액션'을 선택하는 데 사용됩니다. 연구 결과, SWAG는 GPT-4와 사람의 평가를 통해 이전의 엔드투엔드 스토리 생성 기법을 훨씬 능가하는 것으로 나타났으며, 오픈소스 모델만을 사용한 SWAG 파이프라인은 GPT-3.5-Turbo를 능가하는 것으로 나타났습니다. [abs|pdf]

[108/134] Trillion Parameter AI Serving Infrastructure for Scientific Discovery: A Survey and Vision

Keywords: deep_learning, trillion_parameter_models, models_trillion_parameters
Abstract: 딥러닝 방법은 연구를 혁신하고, 새로운 기술을 가능하게 하며, 궁극적으로 새로운 발견으로 이어지고 있습니다. 더 뛰어난 성능의 AI 모델에 대한 수요가 계속 증가함에 따라 이제 우리는 1조 개 이상의 매개변수를 가진 모델, 즉 화웨이의 PanGu-$\Sigma$와 같은 1조 매개변수 모델(TPM)의 시대로 접어들고 있습니다. 과학계의 특정 요구 사항을 충족하는 TPM 사용자 및 공급업체 생태계에 대한 비전을 설명합니다. 그런 다음 과학적 연구와 발견을 가능하게 하는 TPM을 제공하기 위한 시스템 설계의 중요한 기술적 과제와 미해결 문제를 간략하게 설명합니다. 특히, 연구자들의 다양하고 유연한 요구사항을 지원하기 위한 포괄적인 소프트웨어 스택과 인터페이스의 요구사항에 대해 설명합니다. [abs|pdf]

[109/134] ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context Environment Design

Keywords: deep_reinforcement_learning, deep_reinforcement, using_deep_reinforcement
Abstract: 심층 강화 학습(RL)을 사용하여 훈련된 자율 에이전트는 훈련 중에 접한 환경과 특성을 공유하더라도 새로운 환경에 성공적으로 일반화하는 능력이 부족한 경우가 많습니다. 이 연구에서는 개별 환경 인스턴스 또는 레벨의 샘플링이 RL 에이전트의 제로샷 일반화(ZSG) 능력에 어떤 영향을 미치는지 조사합니다. 기본 레이어를 공유하는 딥 액터 크리티컬 아키텍처의 경우, 가치 손실에 따라 레벨의 우선순위를 지정하면 생성된 훈련 데이터에서 에이전트의 내부 표현과 훈련 레벨 세트 간의 상호 정보를 최소화할 수 있다는 사실을 발견했습니다. 이는 특정 적응형 샘플링 전략에 의해 달성되는 암시적 정규화에 대한 새로운 이론적 정당성을 제공합니다. 그런 다음 데이터 생성 메커니즘을 더 잘 제어할 수 있는 비지도 환경 설계(UED) 방법에 주목합니다. 기존의 UED 방법은 훈련 분포를 크게 변화시킬 수 있으며, 이는 곧 낮은 ZSG 성능으로 이어집니다. 과적합과 분포 이동을 방지하기 위해 유니티는 상황에 맞는 환경 설계(ICED)를 도입했습니다. ICED는 초기 레벨 파라미터 세트에 대해 학습된 가변 자동 인코더를 사용하여 레벨을 생성하여 분포 편차를 줄이고 적응형 레벨 샘플링 전략 및 UED 방식에 비해 ZSG를 크게 개선합니다. [abs|pdf]

[110/134] The Information of Large Language Model Geometry

Keywords: large_language_models, embeddings_large_language, language_models
Abstract: 이 논문에서는 대규모 언어 모델(LLM)의 임베딩에 인코딩된 정보를 조사합니다. 시뮬레이션을 수행하여 표현 엔트로피를 분석하고 모델 크기와의 힘의 법칙 관계를 발견합니다. 이러한 관찰을 바탕으로 스케일링 법칙 현상을 설명하기 위해 (조건부) 엔트로피에 기반한 이론을 제안합니다. 또한 정보 이론과 회귀 기법을 사용하여 LLM의 자동 회귀 구조를 탐구하고 마지막 토큰과 이전 컨텍스트 토큰 간의 관계를 살펴봅니다. 특히, 새로운 토큰의 정보 획득과 리지 회귀 사이의 이론적 연관성을 확립합니다. 또한, 의미 있는 토큰을 선택하는 데 있어 올가미 회귀가 때때로 밀접하게 관련된 관심도 가중치를 능가하는 효과를 보이는지 살펴봅니다. 마지막으로, 통제 실험을 통해 정보가 특정 '의미 있는' 토큰에만 집중되지 않고 여러 토큰에 분산되어 있음을 확인합니다. [abs|pdf]

[111/134] Preference-free Alignment Learning with Regularized Relevance Reward

Keywords: regularized_relevance_reward, reward_models_improving, relevance_reward
Abstract: 인간의 선호도로부터 학습하는 것은 대규모 언어 모델(LLM)을 인간의 가치에 맞추는 데 있어 핵심적인 요소로 여겨져 왔습니다. 그러나 일반적인 믿음과는 달리, 우리의 예비 연구에 따르면 인간의 선호도 데이터 세트로 훈련된 보상 모델은 주제에서 벗어난 긴 응답에 짧은 응답보다 더 높은 점수를 주는 경향이 있는 것으로 나타났습니다. 이러한 관찰에 착안하여 '관련성'을 정렬의 핵심 목표로 삼는 선호도 없는 접근 방식을 모색합니다. 첫 번째 시도에서 우리는 리트리버가 얻은 관련성 점수만으로는 강화 학습의 보상으로 활용할 때 보상 해킹, 즉 원치 않는 지름길에 대한 과도한 최적화에 취약하다는 사실을 발견했습니다. 이를 완화하기 위해 효과적인 귀납적 편향을 바닐라 관련성에 통합하여 서로를 정규화함으로써 보상 함수가 혼합된 결과를 낳습니다: 정규화된 관련성 보상($R^3$). r^3$은 강력한 보상 신호를 제공함으로써 선호도 벤치마크에서 성능을 크게 향상시킵니다. 특히, $R^3$는 사람의 선호도 데이터 세트가 필요하지 않기 때문에(즉, 선호도가 필요하지 않기 때문에) 오픈 소스 보상 모델보다 선호도를 개선하는 데 더 뛰어난 성능을 보입니다. 분석 결과, $R^3$은 부작용을 최소화하면서 인간의 선호도를 높이는 데 장점이 있음을 보여줍니다. 마지막으로, $R^3$의 일반화 가능성을 보여줌으로써 추가 데이터 세트 비용 없이도 다양한 백본과 규모의 인스트럭션 튜닝 모델을 지속적으로 개선할 수 있음을 보여줍니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[112/134] Psychological Assessments with Large Language Models: A Privacy-Focused and Cost-Effective Approach

Keywords: analyze_text_comments, text_comments_reddit, text_comments
Abstract: 이 연구는 첫째, 자살 위험에 대한 사전 정의된 심리적 평가를 뒷받침하는 중요한 발췌문을 찾아내는 것, 둘째, 사전 지정된 자살 위험 수준을 입증하기 위해 자료를 요약하는 것, 이 두 가지 주요 목표를 달성하기 위해 대규모 언어 모델(LLM)을 사용하여 Reddit 사용자의 텍스트 댓글을 분석하는 방법을 살펴봅니다. 이 작업은 로컬에서 실행할 수 있는 '오픈 소스' LLM을 사용하도록 제한하여 데이터 프라이버시를 강화합니다. 또한 컴퓨팅 요구사항이 적은 모델을 우선시하여 제한된 컴퓨팅 예산으로 운영되는 개인과 기관 모두가 액세스할 수 있도록 합니다. 구현된 전략은 신중하게 만들어진 프롬프트와 문법에만 의존하여 LLM의 텍스트 완성을 안내합니다. 단순함에도 불구하고 평가 지표는 뛰어난 결과를 보여 주므로 개인 정보 보호에 중점을 둔 비용 효율적인 접근 방식입니다. 이 작업은 컴퓨터 언어학 및 임상 심리학(CLPsych) 2024 공유 과제의 일부입니다. [abs|pdf]

[113/134] UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing

Keywords: test_generation, enhancing_test_generation, tests_trained_code
Abstract: 고품질 코드를 생성하는 데 있어 대규모 언어 모델(LLM)의 놀라운 능력은 소프트웨어 테스트 커뮤니티에서 점점 더 많은 관심을 받고 있습니다. 그러나 기존의 코드 LLM은 테스트 목적의 코드와 다른 코드를 구분하지 않고 수집한 코드 조각을 대상으로 학습했기 때문에 정확하고 완전한 테스트를 생성하는 데 만족스럽지 못한 성능을 보이는 경우가 많습니다. 이 백서에서는 단위 테스트 합성을 위한 LLM의 성능을 향상시킬 수 있는 대규모 데이터 세트 UniTSyn을 소개합니다. 테스트를 테스트 대상 함수와 연결하는 것은 LLM이 예상되는 동작과 검증할 논리 경로를 추론하는 데 매우 중요합니다. UniTSyn은 언어 서버 프로토콜을 활용하여 취약하고 확장하기 어려운 프로젝트별 실행 설정이나 언어별 휴리스틱 없이 초점 테스트 쌍을 수집하는 까다로운 목표를 달성합니다. 5개 주요 프로그래밍 언어에 걸쳐 270만 개의 초점 테스트 쌍을 포함하고 있어 LLM의 테스트 생성 능력을 향상시키는 데 활용될 수 있습니다. UniTSyn에 대한 자세한 내용은 표 1에서 확인할 수 있습니다. 유니티의 실험 결과, UniTSyn을 기반으로 자동 회귀 모델을 구축하면 단위 테스트 표현을 학습하고 이해하는 데 상당한 이점을 얻을 수 있으며, 그 결과 모든 평가 대상 프로그래밍 언어에서 생성 정확도와 코드 커버리지가 향상되는 것으로 나타났습니다. 코드와 데이터는 공개적으로 제공됩니다. [abs|pdf]

[114/134] PixelGen: Rethinking Embedded Camera Systems

Keywords: embedded_camera, embedded_camera_systems, architecture_embedded_camera
Abstract: 임베디드 카메라 시스템은 어디에나 존재하며, 무선 임베디드 시스템의 가장 널리 배포된 예입니다. 이 시스템은 가시광선이나 적외선으로 비춰진 주변 환경을 포착하여 세상의 모습을 담아냅니다. 널리 사용되고 있음에도 불구하고 임베디드 카메라 시스템의 아키텍처는 변하지 않았으며, 이로 인해 한계가 있습니다. 임베디드 카메라는 세상의 극히 일부분만 시각화합니다. 또한 에너지 집약적이기 때문에 배터리 수명이 제한적입니다. 이러한 임베디드 카메라 시스템을 새롭게 재해석한 PixelGen을 소개합니다. 특히 픽셀젠은 센서, 트랜시버, 저해상도 이미지 및 적외선 비전 센서를 결합하여 더 넓은 세상을 포착합니다. 단순성, 낮은 비트 전송률 및 전력 소비를 위해 의도적으로 선택되어 에너지 효율적인 플랫폼의 정점을 찍습니다. 이러한 단순함에도 불구하고 캡처한 데이터를 트랜스포머 기반 이미지 및 언어 모델을 사용하여 처리하여 새로운 환경 표현을 생성할 수 있음을 보여줍니다. 예를 들어 저전력, 저해상도 흑백 카메라를 사용하면서도 고화질 이미지를 생성할 수 있음을 보여줍니다. 또한 픽셀젠의 기능은 기존 사진 촬영을 넘어 음파와 같이 기존 카메라로는 보이지 않는 현상을 시각화할 수 있습니다. 픽셀젠은 수많은 새로운 애플리케이션을 구현할 수 있으며, 확장 현실 헤드셋에 투사된 주변 환경을 독특하게 시각화할 수 있음을 보여줍니다. 픽셀젠은 기존 카메라를 뛰어넘어 연구와 사진 촬영에 새로운 길을 열어줄 것으로 믿습니다. [abs|pdf]

[115/134] A generalized decision tree ensemble based on the NeuralNetworks architecture: Distributed Gradient Boosting Forest (DGBF)

Keywords: distributed_gradient_boosting, randomforest_gradientboosting_datasets, structured_tree_ensemble
Abstract: 랜덤포레스트와 그라디언트부스팅과 같은 트리 앙상블 알고리즘은 현재 불연속형 또는 표 형식 데이터를 모델링하는 데 주로 사용되는 방법이지만, 딥러닝 문제와 비정형 데이터 모델링의 핵심 기능인 다층 구조로 인해 뉴럴 네트워크처럼 원시 데이터로부터 계층적 표현 학습을 수행할 수 없습니다. 이러한 한계는 트리 알고리즘의 수학적 특성으로 인해 역전파를 통해 학습할 수 없다는 사실 때문입니다. 그러나 이 연구에서는 배깅과 부스팅의 수학적 공식을 결합하여 트리 간의 분산 표현 학습 과정을 통해 자연스럽게 (역전파를 사용하지 않고) 그래프 구조화 트리 앙상블 알고리즘을 정의할 수 있음을 보여줍니다. 우리는 이 새로운 접근 방식을 분산 그라디언트 부스팅 포레스트(DGBF)라고 부르며, 랜덤포레스트와 그라디언트부스팅이 모두 DGBT의 특정 그래프 아키텍처로 표현될 수 있음을 증명합니다. 마지막으로 9개 데이터 세트 중 7개 데이터 세트에서 분산 학습이 랜덤포레스트와 그라디언트부스팅보다 성능이 뛰어나다는 것을 확인했습니다. [abs|pdf]

[116/134] Survival and grade of the glioma prediction using transfer learning

Keywords: glioblastoma_transfer_learning, glioblastoma_image_dataset, transfer_learning
Abstract: 교모세포종은 치료하지 않으면 기대 수명이 3~6개월에 불과한 악성 뇌종양입니다. 따라서 교모세포종의 생존율과 병기를 정확하게 감지하고 예측하는 것이 매우 중요합니다. 이 연구는 전이 학습 기법을 사용한 새로운 접근 방식을 소개합니다. 가장 적합한 아키텍처를 식별하기 위해 EfficientNet, ResNet, VGG16, Inception 등 다양한 사전 훈련된 네트워크를 철저한 최적화를 통해 테스트했습니다. 교모세포종 이미지 데이터 세트에 전이 학습을 적용하여 생존율과 종양 등급 예측이라는 두 가지 목표를 달성하기 위해 모델을 미세 조정했으며, 실험 결과 생존 예측에서 65%의 정확도를 보이며 환자를 단기, 중기, 장기 생존 카테고리로 분류했습니다. 또한 종양 등급 예측은 97%의 정확도를 달성하여 저등급 신경교종(LGG)과 고등급 신경교종(HGG)을 정확하게 구분했습니다. 이 접근법의 성공은 현재의 최첨단 방법을 능가하는 전이 학습의 효과에 기인합니다. 결론적으로, 이 연구는 교모세포종의 생존율과 등급을 예측할 수 있는 유망한 방법을 제시합니다. 전이 학습은 특히 대규모 데이터 세트가 제한된 시나리오에서 예측 모델을 향상시킬 수 있는 잠재력을 보여줍니다. 이러한 연구 결과는 교모세포종 환자를 위한 진단 및 치료 접근법을 개선할 수 있는 가능성을 제시합니다. [abs|pdf]

[117/134] Entire Chain Uplift Modeling with Context-Enhanced Learning for Intelligent Marketing

Keywords: context_enhanced_learning, bias_subsequent_marketing, subsequent_marketing_decisions
Abstract: 온라인 마케팅에서 필수적인 업리프트 모델링은 개별 치료 효과(ITE)를 예측하여 쿠폰이나 할인과 같은 다양한 전략이 사용자별로 미치는 영향을 정확하게 측정하고자 합니다. 이커머스 환경에서 사용자 행동은 노출, 클릭, 전환 등 정의된 순차적 연쇄를 따릅니다. 마케팅 전략은 이 연쇄의 각 단계에서 다양한 상승 효과를 발휘하여 클릭률과 전환율과 같은 지표에 영향을 미칩니다. 이러한 유용성에도 불구하고, 기존 연구는 특정 치료법 내에서 모든 단계의 상호 영향을 고려하지 않았고 치료법 정보를 충분히 활용하지 않아 후속 마케팅 결정에 상당한 편향성을 초래할 가능성이 있습니다. 우리는 이 두 가지 문제를 연쇄 편향 문제와 치료 비적응 문제로 구분합니다. 이 백서에서는 이러한 문제를 해결하기 위해 고안된 컨텍스트 강화 학습을 통한 전체 체인 유플리프트 방법(ECUP)을 소개합니다. ECUP는 크게 두 가지 구성 요소로 이루어져 있습니다: 1) 사용자 행동 패턴을 활용하여 전체 체인 공간에서 ITE를 추정하고, 각 작업에 대한 치료의 다양한 영향을 모델링하며, 작업 사전 정보를 통합하여 모든 단계에서 컨텍스트 인식을 향상시켜 다양한 작업에 대한 치료의 영향을 포착하는 전체 체인 강화 네트워크와 2) 비트 수준의 특징 상호작용을 통해 세분화된 치료 모델링을 용이하게 하여 적응형 특징 조정이 가능한 치료 강화 네트워크로 구성되어 있습니다. 공공 및 산업 데이터 세트에 대한 광범위한 실험을 통해 ECUP의 효과가 검증되었습니다. 또한, ECUP은 메이투안 음식 배달 플랫폼에 배포되어 수백만 명의 일일 활성 사용자에게 서비스를 제공하고 있으며, 관련 데이터 세트는 향후 연구를 위해 공개되었습니다. [abs|pdf]

[118/134] Detection of tortured phrases in scientific literature

Keywords: undocumented_tortured_phrases, papers_tortured_phrases, escape_plagiarism_detection
Abstract: 이 논문에서는 과학 논문에서 소위 고문 문구를 추출하는 다양한 자동 감지 방법을 제시합니다. 이러한 고문 문구(예: 신호 대 잡음 대신 깃발 대 함성)는 표절 탐지를 피하기 위해 사용되는 의역 도구의 결과물입니다. 우리는 데이터 세트를 구축하고 이전에 문서화되지 않은 고문 문구를 표시하기 위한 몇 가지 전략을 평가했습니다. 제안되고 테스트된 방법은 언어 모델과 임베딩 유사성 또는 마스킹된 토큰의 예측을 기반으로 합니다. 그 결과, 토큰 예측을 사용하고 점수를 청크 수준으로 전파하는 접근 방식이 가장 좋은 결과를 제공하는 것으로 나타났습니다. 리콜 값은 0.87, 정밀도 값은 0.61로, 도메인 전문가에게 검증을 위해 제출할 새로운 고문 구문을 검색할 수 있었습니다. [abs|pdf]

[119/134] Empirical and Experimental Perspectives on Big Data in Recommendation Systems: A Comprehensive Survey

Keywords: big_data_algorithms, big_data_techniques, algorithms_recommendation_systems
Abstract: 이 조사 논문은 추천 시스템의 빅데이터 알고리즘에 대한 종합적인 분석을 제공하여 기존 문헌의 깊이와 정확성 부족을 해결합니다. 이 보고서는 현재 알고리즘에 대한 철저한 분석과 정확한 분류를 위한 새로운 계층적 분류법이라는 두 가지 접근 방식을 제안합니다. 이 분류법은 방법론 범주에서 시작하여 특정 기법으로 좁혀지는 3단계 계층구조를 기반으로 합니다. 이러한 프레임워크는 알고리즘을 체계적이고 포괄적으로 분류할 수 있게 해주며, 연구자들이 다양한 알고리즘과 기법 간의 상호 관계를 이해하는 데 도움을 줍니다. 광범위한 알고리즘을 포괄하는 이 분류법은 먼저 알고리즘을 네 가지 주요 분석 유형으로 분류합니다: 사용자 및 항목 유사성 기반 방법, 하이브리드 및 결합 접근법, 딥 러닝 및 알고리즘 방법, 수학적 모델링 방법으로 분류하고, 이를 다시 하위 범주와 기법으로 세분화합니다. 이 백서는 기법을 구분하기 위해 경험적 평가와 실험적 평가를 모두 통합했습니다. 경험적 평가는 네 가지 기준에 따라 기법의 순위를 매깁니다. 실험적 평가는 동일한 카테고리, 하위 카테고리, 기술 및 하위 기술에 속하는 알고리즘의 순위를 매깁니다. 또한 이 논문은 추천 시스템에서 빅데이터 기법의 미래 전망을 조명하여 이 분야의 잠재적 발전과 추가 연구 기회를 강조합니다 [abs|pdf]

[120/134] Uncertainty-Aware Explainable Recommendation with Large Language Models

Keywords: explanations_recommendation_boost, text_based_explanations, recommendation_task_explanation
Abstract: 추천 시스템 내에서 설명을 제공하면 특히 사용자에게 맞는 추천 항목을 선택한 이유를 자세히 설명함으로써 사용자 만족도를 높이고 신뢰를 쌓을 수 있습니다. 이 영역의 주된 접근 방식은 텍스트 기반 설명을 생성하는 것이며, 특히 대규모 언어 모델(LLM)을 적용하는 데 중점을 두고 있습니다. 그러나 설명 가능한 추천을 위해 LLM을 개선하는 것은 시간 제약과 컴퓨팅 리소스의 한계로 인해 비현실적인 것으로 드러났습니다. 이에 대한 대안으로 현재의 접근 방식은 LLM이 아닌 프롬프트를 훈련하는 것입니다. 이 연구에서는 사용자 및 항목 입력의 ID 벡터를 GPT-2의 프롬프트로 활용하는 모델을 개발했습니다. 추천 작업과 설명 작업을 모두 최적화하기 위해 멀티태스크 학습 프레임워크 내에서 공동 훈련 메커니즘을 사용했습니다. 이 전략을 통해 사용자의 관심사를 보다 효과적으로 탐색하여 추천 효과와 사용자 만족도를 향상시킬 수 있습니다. 실험 결과, 제안한 방식은 Yelp, 트립어드바이저, 아마존 데이터셋에서 각각 1.59 DIV, 0.57 USR, 0.41 FCR을 달성해 설명력 평가 지표에서 4개의 SOTA 방식보다 우수한 성능을 보였습니다. 또한 제안한 모델이 세 가지 공개 데이터셋에서 안정적인 텍스트 품질을 보장할 수 있음을 확인했습니다. [abs|pdf]

[121/134] NanoNER: Named Entity Recognition for nanobiology using experts' knowledge and distant supervision

Keywords: nanoner_named_entity, entity_recognition_ner, entity_occurrences_nanoner
Abstract: 여기에서는 나노생물학을 위한 명명된 개체 인식(NER) 모델인 NanoNER의 훈련과 평가에 대해 소개합니다. NER은 구조화되지 않은 텍스트에서 특정 엔티티를 식별하는 것으로 구성되며 자연어 처리(NLP) 및 정보 추출의 주요 작업인 경우가 많습니다. 이 모델의 목표는 도메인 전문가가 해당 도메인의 필수 지식을 구성하는 것으로 이전에 식별한 엔티티를 인식하는 것입니다. 도메인 어휘와 분류법을 제공하는 온톨로지에 의존하여 전문가가 해당 도메인과 관련된 엔티티를 결정할 수 있도록 반복적인 프로세스를 구현했습니다. 그런 다음 NER에서 원거리 지도 학습의 잠재력을 탐구하여 이 방법을 통해 최소한의 추가 인력으로 주석이 달린 데이터의 양을 늘릴 수 있는 방법을 지원했습니다. 12만 개 이상의 엔티티가 포함된 728개의 나노생물학 논문 전문으로 구성된 전체 말뭉치에서 NanoNER는 이전에 알려진 엔티티를 인식하는 데 0.98의 F1 점수를 얻었습니다. 또한 이 모델은 0.77~0.81의 정밀도 점수를 기록하며 텍스트에서 새로운 개체를 발견하는 능력도 입증했습니다. 제거 실험을 통해 이를 추가로 확인하고 외부 리소스에 대한 접근 방식의 의존성을 평가할 수 있었습니다. 이 논문은 접근 방식의 리소스 의존성을 강조하는 동시에 제거된 용어의 최대 30%까지 재발견할 수 있는 능력을 확인했습니다. 이 논문은 사용된 방법론, 실험 설계 및 주요 연구 결과를 자세히 설명하여 향후 전문 영역의 NER 관련 연구에 귀중한 통찰력과 방향을 제시합니다. 또한, 최소한의 인력을 필요로 하는 접근 방식이기 때문에 다른 전문 분야에도 일반화할 수 있다고 생각합니다. [abs|pdf]

[122/134] A Comprehensive Survey on Graph Reduction: Sparsification, Coarsening, and Condensation

Keywords: graph_reduction_methods, graph_reduction_techniques, graph_reduction
Abstract: 실제 세계의 많은 데이터 세트는 다양한 영역에 걸쳐 자연스럽게 그래프로 표현될 수 있습니다. 그러나 그래프 데이터 세트의 복잡성과 크기가 증가함에 따라 분석과 계산에 상당한 어려움이 있습니다. 이에 따라 그래프의 필수 속성을 유지하면서 큰 그래프를 단순화할 수 있는 그래프 축소 기법이 각광받고 있습니다. 이번 설문조사에서는 그래프 스파스화, 그래프 거칠기, 그래프 압축 등 그래프 축소 기법에 대한 포괄적인 이해를 돕는 것을 목표로 합니다. 특히, 이러한 방법들에 대한 통합된 정의를 확립하고 계층적 분류법을 도입하여 해결해야 할 과제를 분류합니다. 그런 다음 이러한 방법의 기술적 세부 사항을 체계적으로 검토하고 다양한 시나리오에서 실제 적용 사례를 강조합니다. 또한, 그래프 축소 기법의 지속적인 효과를 보장하기 위한 중요한 연구 방향에 대해 간략히 설명하고, 이 https URL에서 종합적인 논문 목록을 제공합니다. 이 설문조사가 문헌 간 격차를 해소하고 이 유망한 분야의 발전을 촉진할 수 있기를 바랍니다. [abs|pdf]

[123/134] Harnessing Network Effect for Fake News Mitigation: Selecting Debunkers via Self-Imitation Learning

Keywords: adversarial_self_imitation, self_imitation_learning, imitation_learning
Abstract: 이 연구는 진정한 뉴스를 전파하는 디벙커를 배치하여 소셜 네트워크에서 가짜 뉴스의 영향력을 최소화하는 것을 목표로 합니다. 이는 강화 학습 문제로 구성되며, 각 단계에서 한 명의 사용자가 진정한 뉴스를 전파하도록 선택됩니다. 문제는 소셜 네트워크에서 정보가 전파되는 과정에서 개별 디벙커 선택에 따른 '순' 효과를 파악할 수 없고, 완화 노력에 따른 집단적 효과만 관찰할 수 있는 에피소드 보상입니다. 기존의 자기 모방 학습(SIL) 방법은 에피소드 보상으로부터 학습하는 데는 가능성을 보였지만, 샘플 효율성이 낮기 때문에 가짜 뉴스 완화를 실제로 적용하는 데는 적합하지 않습니다. 가짜 뉴스 완화를 위한 보다 효과적인 디벙커 선택 정책을 학습하기 위해 이 연구에서는 가짜 뉴스 완화를 위한 두 가지 개선 사항, 즉 부정적 샘플로부터의 학습과 현재 관찰된 상태를 동일한 캠페인의 이전 상태-행동 쌍과 통합하여 '실제' 환경 상태를 포착하는 증강 상태 표현으로 구성된 NAGASIL - 부정적 샘플링 및 상태 증강 생성적 적대적 자기 모방 학습을 제안합니다. 두 개의 소셜 네트워크에 대한 실험 결과, 나가실은 표준 GASIL 및 최첨단 가짜 뉴스 완화 모델보다 우수한 성능을 보였습니다. [abs|pdf]

[124/134] Techniques to Detect Crime Leaders within a Criminal Network: A Survey, Experimental, and Comparative Evaluations

Keywords: identifying_crime_leaders, crime_leaders_predicting, leaders_criminal_networks
Abstract: 이 조사 보고서는 범죄 네트워크 내에서 범죄 리더를 식별하는 데 사용되는 기법과 알고리즘에 대한 철저한 분석을 제공합니다. 각 기법에 대해 그 효과와 한계, 개선 가능성, 향후 전망에 대해 살펴봅니다. 범죄 리더를 식별하고 범죄를 예측하는 알고리즘에 초점을 맞춘 기존 조사 논문이 직면한 주요 과제는 이러한 알고리즘을 효과적으로 분류하는 것입니다. 이 논문에서는 이러한 한계를 해결하기 위해 알고리즘을 보다 세부적인 범주와 특정 기법으로 계층적으로 분류하는 새로운 방법론적 분류법을 제안합니다. 이 백서에는 다양한 기법의 순위를 매기기 위한 경험적 및 실험적 평가가 포함되어 있습니다. 방법론적 분류, 경험적 평가, 실험적 비교를 결합하면 범죄 지도자를 식별하는 기술과 알고리즘에 대한 미묘하고 포괄적인 이해가 가능해져 연구자들이 정보에 입각한 결정을 내리는 데 도움이 됩니다. 또한, 이 논문은 범죄 지도자 식별 기술의 미래 전망에 대한 귀중한 통찰력을 제공하며, 잠재적인 발전과 추가 연구의 기회를 강조합니다. 다음은 경험적 분석 결과 및 실험적 인사이트와 함께 저희가 고안한 솔루션에 대한 개요입니다: (1) 페이지랭크와 고유벡터 중심성은 네트워크 연결을 매핑하는 데 신뢰할 수 있으며, (2) 카츠 중심성은 간접적인 연결을 통해 영향력 있는 범죄자를 효과적으로 식별할 수 있어 범죄 네트워크에서 그 중요성을 강조하고, (3) 현재 모델은 범죄자의 영향력 수준, 사회경제적 맥락의 중요성, 범죄 네트워크와 계층 구조의 동적 특성을 구체적으로 설명하지 못하며, (4) 범죄 활동과 관계의 유동성을 반영하기 위해 시간적 역학 및 감정 분석을 통합하는 등 주요 범죄자 탐지를 개선할 수 있는 개선안을 제시합니다. [abs|pdf]

[125/134] When Geoscience Meets Generative AI and Large Language Models: Foundations, Trends, and Future Challenges

Keywords: geoscience_comprising_generative, sustainability_generative_ai, generative_artificial_intelligence
Abstract: 생성적 인공 지능(GAI)은 다양한 방식의 합성 데이터와 결과물 생성을 약속하는 떠오르는 분야입니다. GAI는 최근 생물학, 의학, 교육, 법률, 컴퓨터 과학, 금융에 이르는 광범위한 응용 분야에서 인상적인 결과를 보여주고 있습니다. 안전성, 효율성, 지속가능성 향상을 위해 노력하는 가운데, 제너레이티브 AI는 핵심적인 차별화 요소로 부상하며 이 분야의 패러다임 전환을 예고하고 있습니다. 이 백서에서는 지구과학 분야에서 제너레이티브 AI와 대규모 언어 모델의 잠재적 적용 가능성을 살펴봅니다. 최근 머신러닝과 딥러닝 분야의 발전으로 지구과학 및 지구 시스템 역학과 관련된 다양한 예측 문제, 시뮬레이션, 다기준 의사결정 문제를 해결하는 데 제너레이티브 모델이 유용하게 활용될 수 있게 되었습니다. 이 설문조사에서는 생성적 적대 신경망(GAN), 물리학 정보 신경망(PINN), 생성적 사전 학습 트랜스포머(GPT) 기반 구조로 구성된 지구과학 분야에서 사용되어 온 여러 GAI 모델에 대해 설명합니다. 이러한 도구는 데이터 생성/증강, 초고해상도, 범색채 선명화, 연무 제거, 복원, 지표면 변화 등 여러 분야에서 지구과학 커뮤니티에 도움을 주었습니다(단, 이에 국한되지 않음). 물리적 해석, 악의적인 사용 사례, 신뢰성 확보와 같은 몇 가지 과제는 여전히 남아 있습니다. 그 외에도 GAI 모델은 데이터 기반 모델링과 불확실성 정량화에 대한 탁월한 능력을 통해 기후 변화, 도시 과학, 대기 과학, 해양 과학, 행성 과학을 지원하는 등 지구과학 커뮤니티에 가능성을 보여주고 있습니다. [abs|pdf]

[126/134] Respect the model: Fine-grained and Robust Explanation with Sharing Ratio Decomposition

Keywords: novel_explainable_ai, explainable_ai, activation_pattern_prediction
Abstract: 기본 모델의 의사 결정 과정을 진정성 있게 설명하는 데 있어 기존 설명 방법의 진실성에 의문이 제기되어 왔습니다. 기존 방식은 모델을 충실하게 표현하는 데서 벗어났기 때문에 적대적인 공격에 취약했습니다. 이러한 문제를 해결하기 위해 유니티는 모델의 추론 과정을 충실히 반영하여 설명의 견고성을 대폭 강화한 새로운 설명가능 인공지능(XAI) 방법인 공유비율분해(SRD)를 제안합니다. 뉴런 수준을 강조하는 기존의 방식과 달리, 필터 간의 복잡한 비선형적 상호 작용을 고려하기 위해 벡터 관점을 채택했습니다. 또한 비활성 뉴런의 중요성을 강조하고 활성 뉴런과 비활성 뉴런을 포함한 모든 관련 정보를 캡슐화하여 관련성을 재정의할 수 있도록 활성화-패턴-온리 예측(APOP)이라는 흥미로운 관찰을 도입했습니다. 유니티의 방법인 SRD는 포인트별 특징 벡터(PFV)를 재귀적으로 분해하여 모든 레이어에서 고해상도 유효 수신 필드(ERF)를 제공합니다. [abs|pdf]

[127/134] Transfer Learning With Densenet201 Architecture Model For Potato Leaf Disease Classification

Keywords: deep_learning_method, classification_accuracy_potato, deep_learning_classification
Abstract: 감자 식물은 인간에게 유익한 식물입니다. 일반적으로 다른 식물과 마찬가지로 감자 식물에도 질병이 있으며,이 질병을 즉시 치료하지 않으면 식량 생산량이 크게 감소합니다. 따라서 질병 방제를 효과적이고 효율적으로 수행 할 수 있도록 질병을 빠르고 정확하게 감지 할 필요가 있습니다. 감자 잎병의 분류는 직접 할 수 있습니다. 하지만 감자 잎을 공격하는 병의 종류가 다양하고 증상이 동일하게 보이기 때문에 증상이 항상 병의 종류를 설명할 수는 없습니다. 또한 인간은 감자 잎 병의 식별 결과를 판단하는 데 결함이 있기 때문에 때로는 개인 간의 식별 결과가 다를 수 있습니다. 따라서 감자 잎마름병의 분류 과정에 딥러닝을 활용하면 시간을 단축하고 분류 정확도를 높일 수 있을 것으로 기대된다. 본 연구에서는 딥러닝 방식에 DenseNet201 아키텍처를 사용했습니다. 이 연구에서 DenseNet201 알고리즘을 사용한 이유는 이 모델이 감자 잎의 중요한 특징을 식별하고 새로운 질병의 초기 징후를 인식할 수 있기 때문입니다. 이 연구는 기존 분류 방법과 비교하여 감자 잎병의 분류 정확도를 높이는 데 있어 DenseNet201 아키텍처를 사용한 전이 학습 방법의 효과를 평가하는 것을 목표로 했습니다. 이 연구에서는 두 가지 유형의 시나리오, 즉 탈락자 수 비교와 세 가지 옵티마이저 비교를 사용했습니다. 이 테스트는 드롭아웃 0.1과 Adam 최적화 기법을 사용하여 훈련 시 99.5%, 검증 시 95.2%, 혼동 행렬 시 96%의 정확도를 가진 최상의 모델을 생성합니다. 이 연구에서는 데이터 테스트를 사용하여 구축된 모델에 40개의 이미지를 테스트했습니다. 이 모델에 대한 테스트 결과 감자 잎병 분류 정확도가 92.5%라는 새로운 기록을 세웠습니다. [abs|pdf]

[128/134] Reinforcement-learning robotic sailboats: simulator and preliminary results

Keywords: real_robotic_sailing, robotic_sailing, robotic_sailing_vessel
Abstract: 이 연구는 무인수상정(USV) 디지털 트윈을 사용하여 실제 실험을 재현하는 가상 해양 환경을 개발할 때의 주요 과제와 문제점에 초점을 맞춥니다. 자율 항해 및 제어를 위한 강화 학습(RL) 에이전트 사용을 고려하여 가상 세계를 구축하기 위한 주요 기능을 소개합니다. 이를 염두에 두고 시뮬레이션 방정식(물리 및 수학)의 정의, 효과적인 구현, 시뮬레이션 제어 및 인식(센서)을 위한 전략을 RL과 함께 사용하는 방법에 관한 주요 문제를 다룹니다. 실제 로봇 항해 선박을 기반으로 기능적인 디지털 트윈을 만드는 데 필요한 모델링, 구현 단계 및 과제를 제시합니다. 실제 선박에 적용할 RL 기반 항법 알고리즘을 개발하는 데 바로 적용할 수 있습니다. [abs|pdf]

[129/134] Unsupervised Salient Patch Selection for Data-Efficient Reinforcement Learning

Keywords: salient_patches_attention, spirl_atari_games, based_deep_reinforcement
Abstract: 비전 기반 심층 강화 학습(RL)의 샘플 효율을 개선하기 위해 입력 이미지에서 중요한 패치를 자동으로 추출하는 새로운 방법인 SPIRL을 제안합니다. 마스크드 자동 인코더에 이어 SPIRL은 무작위로 샘플링된 패치에서 이미지를 재구성하기 위해 자가 감독 방식으로 사전 학습된 비전 트랜스포머 모델을 기반으로 합니다. 그런 다음 이러한 사전 학습된 모델을 활용하여 인접한 패치에서 재구성하기 어려운 것으로 정의된 두드러진 패치를 감지하고 선택할 수 있습니다. RL에서 SPIRL 에이전트는 주의 모듈을 통해 선택된 두드러진 패치를 처리합니다. 유니티는 아타리 게임에서 SPIRL을 경험적으로 검증하여 기존의 모델 기반 방법과 키포인트 기반 모델 등 관련 최신 방법과 비교하여 데이터 효율성을 테스트합니다. 또한 모델의 해석 능력을 분석합니다. [abs|pdf]

[130/134] Large-scale Generative AI Models Lack Visual Number Sense

Keywords: reliably_number_objects, suggesting_visual_number, number_objects_visual
Abstract: 인간은 숫자를 세지 않고도 시각적 장면에서 사물의 수를 쉽게 판단할 수 있으며, 이러한 능력은 다양한 동물 종과 언어 발달 및 공식적인 학교 교육을 받기 전의 아기들에게서 입증된 바 있습니다. 숫자 판단은 작은 집합에서는 오류가 없는 반면, 큰 집합에서는 응답이 근사치가 되고 목표 개수에 비례하여 변동성이 증가합니다. 이러한 반응 패턴은 물체의 특징(예: 색상이나 모양)이 다양함에도 불구하고 모든 종류의 항목에서 관찰되며, 이는 우리의 시각적 수 감각이 추상적인 숫자 표현에 의존한다는 것을 시사합니다. 이 연구에서는 대규모 트랜스포머 아키텍처에 기반한 생성형 인공지능(AI) 모델이 단순한 시각적 자극에서 물체의 개수를 안정적으로 명명하거나 1~10개 범위의 목표 개수가 포함된 이미지를 생성할 수 있는지 조사했습니다. 놀랍게도, 고려된 기초 모델 중 인간과 유사한 방식으로 수행된 모델은 없었습니다: 모두 적은 수에도 눈에 띄는 오류를 범했고, 응답의 변동성이 체계적으로 증가하지 않았으며, 오류의 패턴이 물체 범주에 따라 달라졌습니다. 이번 연구 결과는 첨단 AI 시스템이 인간의 수리 능력과 수학적 발달의 기초가 되는 숫자에 대한 직관적 이해를 뒷받침하는 기본 능력이 여전히 부족하다는 것을 보여줍니다. [abs|pdf]

[131/134] Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with Large Language Models

Keywords: point_cloud_scenes, editing_point_cloud, editing_3d_objects
Abstract: 이 백서에서는 대규모 언어 모델(LLM)을 활용하여 포인트 클라우드 씬 내에서 3D 인식, 생성 및 편집 작업을 통합하는 통합 프레임워크인 Uni3D-LLM에 대해 소개합니다. 이 프레임워크는 사용자가 자연어 설명의 다양한 기능에 따라 장면 내 지정된 위치에서 오브젝트를 손쉽게 생성하고 수정할 수 있도록 지원합니다. Uni3D-LLM은 자연어의 표현력을 활용하여 3D 오브젝트의 생성 및 편집을 정밀하게 명령할 수 있으므로 운영 유연성과 제어성이 크게 향상됩니다. 포인트 클라우드를 통합 표현 공간에 매핑함으로써 Uni3D-LLM은 교차 애플리케이션 기능을 구현하여 3D 오브젝트의 정확한 인스턴스화부터 인터랙티브 디자인의 다양한 요구사항에 이르기까지 다양한 작업을 원활하게 실행할 수 있도록 지원합니다. 포괄적이고 엄격한 실험을 통해 포인트 클라우드의 이해, 생성 및 편집에 있어 Uni3D-LLM의 효율성이 검증되었습니다. 또한 포인트 클라우드 인식 모듈을 통합하는 것이 생성 및 편집 프로세스에 미치는 영향을 평가하여 실제 애플리케이션에 대한 접근 방식의 상당한 잠재력을 확인했습니다. [abs|pdf]

[132/134] Physical Reservoir Computing Enabled by Solitary Waves and Biologically-Inspired Nonlinear Transformation of Input Data

Keywords: reservoir_computing_rc, reservoir_computing, efficiently_forecast_chaotic
Abstract: 저수지 컴퓨팅(RC) 시스템은 무작위 연결로 이루어진 인공 신경망의 비선형 동적 특성을 이용해 혼란스러운 시계열을 효율적으로 예측할 수 있습니다. RC 시스템의 다양성은 기존 RC 알고리즘의 하드웨어 대응 방식과 보다 효율적인 RC 유사 방식에 대한 추가 연구를 촉진했습니다. 이 논문에서는 살아있는 생물학적 뇌의 비선형 프로세스에서 영감을 받아 흐르는 액체 필름의 표면에서 여기된 독방파를 사용하여 입력 데이터의 비선형 변환에 무작위성의 효과를 대체하는 물리적 RC 시스템을 실험적으로 검증합니다. 최소한의 계산 능력으로 마이크로 컨트롤러를 사용하여 모든 작업을 수행함으로써, 우리는 그렇게 설계된 RC 시스템이 기존 RC 알고리즘의 '차세대' 개선에 대한 기술적으로 간단한 하드웨어 대응 역할을 함을 입증합니다. [abs|pdf]

[133/134] Artificial Intelligence for EEG Prediction: Applied Chaos Theory

Keywords: eeg_data_sequence, eeg_sequences, inherent_eeg_sequences
Abstract: 본 연구에서는 32개 뇌파 채널에 걸친 데이터의 시퀀스 간 예측에 초점을 맞춰 복잡한 뇌파 데이터 분석의 영역을 탐구합니다. 이 연구는 응용 카오스 이론과 동적 시스템 이론의 원리를 조화롭게 융합하여 새로운 기능 집합을 생성하고 딥러닝 모델의 표현 능력을 강화합니다. 이러한 노력의 초석은 EEG 시퀀스에 내재된 비선형적이고 고차원적인 시간적 종속성을 포착할 수 있도록 세심하게 보정된 트랜스포머 기반의 시퀀스 간 아키텍처입니다. 신중한 아키텍처 설계, 매개변수 초기화 전략, 최적화 기법을 통해 계산 편의성과 예측 성능 사이의 복잡한 균형을 찾아냈습니다. 우리 모델은 놀라운 일반화 가능성과 견고성을 입증하며 뇌파 데이터 시퀀스 예측의 선구자 역할을 하고 있습니다. 이번 연구 결과는 뇌파 데이터 역학에 대한 이해를 넓힐 뿐만 아니라 신경과학과 그 밖의 다양한 시간적 순서 예측 작업에 적용할 수 있는 강력한 분석 프레임워크를 공개했습니다. [abs|pdf]

[134/134] On Diffusion Modeling for Anomaly Detection

Keywords: diffusion_based_anomaly, supervised_anomaly_detection, anomaly_detection_benchmarks
Abstract: 제너레이티브 모델링에서 인상적인 성능으로 잘 알려진 확산 모델은 밀도 기반 이상 징후 탐지를 위한 매력적인 후보입니다. 이 백서에서는 비지도 및 반지도 이상 징후 탐지를 위한 다양한 확산 모델링의 변형을 살펴봅니다. 특히, 노이즈 제거 확산 확률 모델(DDPM)이 이상 징후 탐지 벤치마크에서 성능이 뛰어나지만 계산 비용이 많이 든다는 사실을 발견했습니다. 이상 징후 탐지에 적용할 때 DDPM을 단순화하면 자연스럽게 확산 시간 추정(DTE)이라는 대안적인 접근 방식을 사용하게 됩니다. DTE는 주어진 입력에 대한 확산 시간에 따른 분포를 추정하고 이 분포의 모드 또는 평균을 이상 징후 점수로 사용합니다. 이 밀도에 대한 분석 형태를 도출하고 심층 신경망을 활용하여 추론 효율을 높입니다. ADBench 벤치마크에 대한 경험적 평가를 통해 모든 확산 기반 이상 탐지 방법이 반지도 및 비지도 설정 모두에서 경쟁력 있는 성능을 발휘한다는 것을 입증했습니다. 특히, DTE는 이 벤치마크에서 DDPM보다 훨씬 빠른 추론 시간을 달성하는 동시에 더 우수한 성능을 보였습니다. 이러한 결과는 확산 기반 이상 징후 탐지가 표준 비지도 및 반지도 이상 징후 탐지 설정에 대한 기존 방법과 최신 딥 러닝 기술에 대한 확장 가능한 대안으로 자리매김하고 있음을 보여줍니다. [abs|pdf]