프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-02-12]

다각 2024. 2. 22. 18:13

[1/95] Understanding the Weakness of Large Language Model Agents within a Complex Android Environment

Keywords: task_evaluation_androidarena, planning_llm_agents, challenges_motivate_androidarena
Abstract: 대규모 언어 모델(LLM)은 지능형 에이전트가 브라우저나 게임과 같은 도메인별 소프트웨어 내에서 복잡한 작업을 실행할 수 있는 역량을 강화해 왔습니다. 하지만 운영 체제와 같은 범용 소프트웨어 시스템에 적용할 경우 LLM 에이전트는 세 가지 주요 과제에 직면하게 됩니다. 첫째, 작업 공간이 방대하고 동적이기 때문에 LLM 에이전트가 최신 상태를 유지하고 정확한 응답을 제공하는 데 어려움이 있습니다. 둘째, 실제 작업에는 애플리케이션 간 협력이 필요한 경우가 많기 때문에 LLM 에이전트에게 원시안적인 계획이 요구됩니다. 셋째, 에이전트는 보안 문제 및 선호도와 같은 사용자 제약 조건에 맞춰 최적의 솔루션을 찾아야 합니다. 이러한 과제는 최신 운영 체제에서 LLM 에이전트를 평가하기 위해 설계된 환경 및 벤치마크인 AndroidArena의 동기가 됩니다. 높은 인력 비용을 해결하기 위해 확장 가능하고 반자동화된 방식으로 벤치마크를 구성하도록 설계했습니다. 작업 평가에서 AndroidArena는 정확하고 적응적인 지표를 통합하여 고유하지 않은 솔루션의 문제를 해결합니다. 그 결과 최첨단 LLM 에이전트조차도 교차 앱 시나리오에서 특정 제약 조건을 준수하는 데 어려움을 겪는 것으로 나타났습니다. 또한 이해, 추론, 탐색, 성찰이라는 네 가지 핵심 역량의 부족이 LLM 에이전트의 실패의 주요 원인으로 밝혀졌습니다. 또한 성찰의 실패에 대한 실증적 분석을 제공하고, 제안한 탐색 전략으로 성공률을 27%까지 향상시켰습니다. 이 연구는 LLM 에이전트의 세분화된 약점을 이해하는 데 귀중한 통찰력을 제시하는 최초의 연구이며, 향후 이 분야의 연구를 위한 방향을 제시합니다. AndroidArena의 환경, 벤치마크 및 평가 코드는 이 https URL에서 공개됩니다. [abs|pdf]

[2/95] Predictive representations: building blocks of intelligence

Keywords: adaptive_behavior, reinforcement_learning_prescribes, attention_successor_representation
Abstract: 적응적 행동은 종종 미래의 사건을 예측해야 합니다. 강화 학습 이론은 어떤 종류의 예측 표현이 유용하고 어떻게 계산할 수 있는지를 규정합니다. 이 논문에서는 이러한 이론적 아이디어를 인지 및 신경과학에 관한 연구와 통합합니다. 특히 엔지니어링 도구와 뇌 기능 모델로 널리 응용되고 있는 승계자 표현(SR)과 그 일반화에 주목합니다. 이러한 융합은 특정 종류의 예측 표상이 지능의 다양한 구성 요소로 기능할 수 있음을 시사합니다. [abs|pdf]

[3/95] The Quantified Boolean Bayesian Network: Theory and Experiments with a Logical Graphical Model

Keywords: probabilistic_reasoning_qbbn, boolean_bayesian_network, bayesian_network_qbbn
Abstract: 이 백서에서는 논리적이고 확률적인 추론에 대한 통합된 시각을 제공하는 정량화된 부울 베이지안 네트워크(QBBN)를 소개합니다. QBBN은 정보 검색 분야에서 큰 인기를 끌고 있는 대규모 언어 모델(LLM)의 핵심적인 문제, 즉 LLM이 환각을 일으킨다는 문제를 해결하기 위한 것입니다. 베이지안 네트워크는 구조상 설명할 수 있는 답변만 반환할 수 있기 때문에 환각을 일으킬 수 없습니다. 무한한 수의 부울 변수에 대한 베이지안 네트워크를 구성하여 인간 언어의 기본이 되는 논리적 추론을 표현하는 방법을 보여드립니다. 이를 위해 일관성과 완전성을 증명할 수 있는 일차 미적분학의 키-값 버전을 생성하여 이를 수행합니다. 이 모델은 완전히 관찰된 데이터에 대해 사소하게 훈련되지만 추론은 결코 사소하지 않다는 것을 보여줍니다. 베이지안 네트워크에서 정확한 추론은 (즉, $N$ 변수에 대해 $\Omega(2^N)$라는 계산이 나올 정도로) 까다롭습니다. 추론의 경우, 수렴이 보장되지는 않지만 실제로는 종종 수렴하는 것으로 나타난 루프 신념 전파(LBP)를 사용하는 방법을 조사합니다. 실험 결과, LBP는 실제로 매우 안정적으로 수렴하는 것으로 나타났으며, 분석 결과 LBP 한 라운드에 걸리는 시간은 $O(N2^n)$이며, 여기서 $N$은 고려되는 변수의 수를, $n$은 어떤 요인에 대한 들어오는 연결의 수를 제한하며, 더 개선이 가능할 수 있음을 보여줬습니다. 저희 네트워크는 특히 논리 추론에 더 가깝게 연결되는 부울 대수에서 AND와 OR 게이트를 번갈아 사용하도록 설계되어 확장된 버전의 네트워크에 대한 완전성 증명이 가능하며, 구체적이면서도 적절한 경로를 따라 추론할 수 있어 속도가 빠릅니다. [abs|pdf]

[4/95] Introspective Planning: Guiding Language-Enabled Agents to Refine Their Own Uncertainty

Keywords: aware_plans_robotic, plans_robotic_task, introspective_planning
Abstract: 대규모 언어 모델(LLM)은 고급 추론 능력을 발휘하여 로봇이 자연어 명령을 이해하고 적절한 근거를 통해 높은 수준의 작업을 전략적으로 계획할 수 있게 해줍니다. 그러나 LLM 환각으로 인해 로봇이 사용자 목표와 맞지 않거나 극단적인 경우 안전하지 않은 계획을 자신 있게 실행할 수 있습니다. 또한 자연어 명령어에 내재된 모호성은 특히 유효한 옵션이 여러 개 존재하는 상황에서 작업의 불확실성을 유발할 수 있습니다. 이 문제를 해결하려면 언어 전문가가 이러한 불확실성을 파악하고 사전에 명확하게 설명해야 합니다. 이 백서에서는 미세 조정이 필요 없는 로봇 작업 실행을 위한 불확실성 인식 계획을 수립할 때 LLM을 안내하는 체계적인 방법으로서 내성적 계획의 개념을 살펴봅니다. 우리는 작업 수준의 로봇 계획에서 불확실성 정량화를 조사하고 내성적 계획이 최신 LLM 기반 계획 접근 방식에 비해 성공률과 안전성을 크게 향상시킨다는 사실을 입증합니다. 또한 컨포멀 예측과 함께 내성적 계획의 효과를 평가하여 이 조합이 더 엄격한 신뢰 구간을 산출함으로써 불필요한 사용자 설명 쿼리를 줄이면서 통계적 성공 보장을 유지한다는 사실을 밝혀냈습니다. [abs|pdf]

[5/95] ACTER: Diverse and Actionable Counterfactual Sequences for Explaining and Diagnosing RL Policies

Keywords: actionable_counterfactual_sequences, actionable_diverse_counterfactual, actionable_counterfactual
Abstract: 디버깅을 활성화하고 사용자의 신뢰를 유지하며 개인화된 정책을 개발하려면 강화 학습(RL)에서 실패가 발생하는 방식과 이를 방지할 수 있는 방법을 이해하는 것이 필요합니다. 실패를 피할 수 있는 가장 가까운 세계를 검색하여 실패의 책임을 할당하고 실패를 이해하는 데 종종 사실과 반대되는 추론이 사용되어 왔습니다. 그러나 현재 RL의 역사적 상태 설명은 현재 상태의 특징만을 사용하여 결과를 설명할 수 있을 뿐 부정적인 결과를 어떻게 예방할 수 있었는지에 대한 실행 가능한 수단을 제공하지 못합니다. 이 연구에서는 실패를 피할 수 있는 방법에 대한 실행 가능한 조언을 제공하는 사실과 반대되는 시퀀스를 생성하는 알고리즘인 ACTER(Actionable Counterfactual Sequences for Explaining Reinforcement Learning Outcomes)를 제안합니다. ACTER는 실패로 이어지는 행동을 조사하고 진화 알고리즘 NSGA-II를 사용하여 확률적 환경에서도 최소한의 변경과 높은 확실성으로 실패를 방지하는 사실과 반대되는 행동 시퀀스를 생성합니다. 또한 ACTER는 사용자가 원하는 방식에 가장 적합한 방식으로 오류를 수정할 수 있도록 여러 가지 다양한 카운터팩츄얼 시퀀스 세트를 생성합니다. 또한 카운터팩츄얼 시퀀스의 다양성을 평가하는 데 사용할 수 있는 세 가지 다양성 메트릭을 소개합니다. 불연속적인 동작과 연속적인 동작이 모두 포함된 두 가지 RL 환경에서 ACTER를 평가하여 실행 가능하고 다양한 카운터팩츄얼 시퀀스를 생성할 수 있음을 보여줍니다. 사용자 연구를 수행하여 ACTER가 생성한 설명이 사용자가 오류를 식별하고 수정하는 데 어떻게 도움이 되는지 살펴봅니다. [abs|pdf]

[6/95] On the Fly Detection of Root Causes from Observed Data with Application to IT Systems

Keywords: causal_discovery_offline, causal_discovery, leverage_causal_discovery
Abstract: 이 백서에서는 임계값 기반 IT 시스템을 표현하는 데 적합한 새로운 구조적 인과 모델을 소개하고 이러한 시스템에서 이상 현상의 근본 원인을 신속하게 탐지하도록 설계된 새로운 알고리즘을 제시합니다. 근본 원인이 인과 관계가 없는 경우 이 방법은 올바른 것으로 입증되며, 이 가정을 완화하기 위해 에이전트의 개입을 기반으로 한 확장 방법을 제안합니다. 저희 알고리즘과 에이전트 기반 확장 기능은 오프라인 데이터에서 인과 관계 발견을 활용하고 온라인 데이터에서 새로운 이상 징후를 발견하면 하위 그래프 탐색에 참여합니다. 광범위한 실험을 통해 대체 구조적 인과 관계 모델이나 실제 IT 모니터링 데이터에서 생성된 데이터에 적용했을 때에도 이 방법의 우수한 성능을 입증했습니다. [abs|pdf]

[7/95] Le Nozze di Giustizia. Interactions between Artificial Intelligence, Law, Logic, Language and Computation with some case studies in Traffic Regulations and Health Care

Keywords: logic_legal_ai, legal_ai, mathematical_logic_legal
Abstract: 이 백서의 중요한 목표는 인공 지능을 사용하는 법률 커뮤니티에 수학적 논리의 기초를 전달하는 것입니다. 인공지능이 무엇인지 분석한 후, 신경망과 머신러닝은 제쳐두고 규칙 기반 인공지능으로 구분하기로 결정했습니다. 규칙 기반 AI는 초보적인 형태로 설명되는 공식적인 방법을 허용합니다. 그런 다음 수학적 논리가 법적 규칙 기반 AI 실무와 어떻게 상호 작용하는지 살펴보겠습니다. 수학적 논리가 AI 애플리케이션에 어떤 한계와 복잡성을 부과하는지 살펴볼 것입니다. 수학적 논리와 법률 AI 간의 한계와 상호 작용을 논리적, 계산적, 수학적 세 가지 범주로 분류합니다. 이러한 상호작용을 보여주기 위한 예시는 주로 유럽의 교통 규정에서 가져온 것입니다. 이 논문은 AI가 어디에 어떻게 사용될 수 있는지, 그리고 사회를 형성하는 기본 메커니즘에 대한 몇 가지 성찰로 마무리됩니다. [abs|pdf]

[8/95] Human Aesthetic Preference-Based Large Text-to-Image Model Personalization: Kandinsky Generation as an Example

Keywords: generate_personalized_painterly, quickly_generate_aesthetically, generate_aesthetically
Abstract: 신경 생성 기능이 발전함에 따라 예술 커뮤니티에서는 회화적인 콘텐츠를 제작하기 위해 GenAI(생성형 인공 지능)를 적극적으로 수용하고 있습니다. 대규모 텍스트-이미지 모델은 미학적으로 만족스러운 결과물을 빠르게 생성할 수 있습니다. 그러나 이 과정은 비결정적일 수 있으며 사용자가 원하는 결과를 얻기 위해 효과적인 프롬프트를 구성하는 데 어려움을 겪기 때문에 지루한 시행착오가 수반되는 경우가 많습니다. 이 백서에서는 사용자가 자신의 미적 취향을 반영한 맞춤형 아트 스타일로 개인화된 회화 콘텐츠를 자동으로 생성할 수 있는 프롬프트 없는 생성 방식을 소개합니다. 이 접근 방식은 '의미 주입'을 활용하여 특정 예술 스타일로 아티스트 모델을 사용자 지정하고, 나아가 유전 알고리즘을 활용하여 실시간 반복적인 인간 피드백을 통해 프롬프트 생성 프로세스를 최적화하는 것을 포함합니다. 이 접근 방식은 아티스트 모델이 생성한 이미지에 대한 사용자의 미적 평가와 선호도에만 의존함으로써 사용자의 미적 취향과 맞춤형 예술적 스타일을 아우르는 개인화된 모델을 생성합니다. [abs|pdf]

[9/95] Modelling Human Values for AI Reasoning

Keywords: human_values_ai, values_ai, model_human_values
Abstract: 오늘날 가장 중요한 사회적 과제 중 하나는 상호 작용하는 에이전트(인간과 인공)로 구성된 커뮤니티 내에서 인간의 가치에 부합하는 행동 또는 행동을 가능하게 하는 AI 시스템을 구축하는 것입니다. 이 과제를 해결하기 위해 명시적인 계산 표현을 위한 인간 가치의 공식 모델을 자세히 설명합니다. 우리가 알기로는 아직까지 이러한 시도는 없었는데, AI에 가치를 통합하는 연구가 증가하고 있다는 점을 고려하면 놀라운 일이 아닐 수 없습니다. 지난 수십 년 동안 사회심리학에서 인간 가치의 본질을 탐구한 풍부한 연구를 출발점으로 삼아 이러한 공식 모델을 제공하기 시작했습니다. 이 모델이 어떻게 가치에 대한 AI 기반 추론을 위한 기본 장치를 제공하고 실제 사용 사례에서 적용 가능성을 입증할 수 있는지 보여드립니다. 또한 이 모델이 사회심리학 연구의 핵심 아이디어를 어떻게 포착하는지 설명하고, 향후 AI에서 인간의 가치에 대한 통합적이고 학제적인 연구를 위한 로드맵을 제안합니다. 가치를 자동으로 추론하는 기능은 가치 정렬 문제를 해결하는 데 도움이 될 뿐만 아니라 개인과 커뮤니티가 더 많은 정보를 바탕으로 가치에 부합하는 결정을 내릴 수 있도록 지원하는 AI 시스템을 설계하는 데도 용이합니다. 점점 더 많은 개인과 조직이 자신의 가치를 보다 명확하게 이해하고 자신의 행동과 태도가 가치를 제대로 반영하고 있는지 탐구하고자 하는 동기를 부여받고 있습니다. 인간의 가치 모델링에 대한 연구를 통해 이러한 증가하는 요구를 충족할 수 있는 AI 시스템을 설계하고 배포할 수 있습니다. [abs|pdf]

[10/95] Prompt Learning on Temporal Interaction Graphs

Keywords: temporally_aware_prompts, bridging_temporal_semantic, interaction_graph_prompting
Abstract: 시간적 상호작용 그래프(TIG)는 실제 시스템을 표현하는 데 널리 활용되고 있습니다. TIG에 대한 표현 학습을 용이하게 하기 위해 연구자들은 일련의 TIG 모델을 제안했습니다. 그러나 이러한 모델은 '선 훈련, 후 예측' 훈련 패러다임에서 사전 훈련과 사후 예측 사이에 여전히 두 가지 어려운 격차에 직면해 있습니다. 첫째, 사전 학습 데이터와 추론 데이터 간의 시간적 불일치로 인해 동적으로 진화하는 데이터에 대한 먼 미래의 예측에서 모델의 적용 가능성이 심각하게 저하됩니다. 둘째, 사전 작업과 다운스트림 작업 간의 의미론적 차이는 애플리케이션 시나리오 전반에 걸쳐 학습 및 예측 기능을 조정하는 데 어려움을 겪기 때문에 실제 적용을 방해합니다.
최근에는 모델 일반화를 위한 경량 메커니즘으로 '사전 학습, 프롬프트' 패러다임이 부상하고 있습니다. 이 패러다임을 적용하면 앞서 언급한 문제를 해결할 수 있는 잠재적인 해결책이 될 수 있습니다. 그러나 이 패러다임을 TIG에 적용하는 것은 간단하지 않습니다. 정적 그래프 컨텍스트에서 프롬프트를 적용하면 시간에 민감한 동적 요소에 대한 고려가 부족하고 표현력이 부족하기 때문에 시간적 설정에서 부족함을 느낄 수 있습니다. 이 문제를 해결하기 위해 TIG 모델과 원활하게 통합되어 시간적 및 의미적 격차를 해소하는 다목적 프레임워크인 시간적 상호 작용 그래프 프롬프트(TIGPrompt)를 소개합니다. 세부적으로는 다양한 작업에 대해 시간 인식 프롬프트를 제공하는 시간 프롬프트 생성기를 제안합니다. 이러한 프롬프트는 감독 데이터가 거의 없이 프롬프트 생성기의 튜닝에만 의존하는 최소한의 디자인이 돋보입니다. 다양한 컴퓨팅 리소스 수요를 충족하기 위해 확장된 '사전 훈련, 프롬프트 기반 미세 조정' 패러다임을 제안하여 더 큰 유연성을 제공합니다. 광범위한 실험을 통해 TIGPrompt는 SOTA 성능과 놀라운 효율성 이점을 입증했습니다. [abs|pdf]

[11/95] LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

Keywords: art_appreciation_education, art_appreciation_taught, mllms_art_appreciation
Abstract: 미술 감상은 학습자의 비판적 사고와 감성 지능을 키우는 데 필수적입니다. 그러나 전통적인 미술 감상 교육은 특히 소외계층 학생의 미술 자료에 대한 접근성이 제한되고 주류 교육에서 STEM 과목에 대한 불균형적인 강조로 인해 종종 방해를 받아왔습니다. 이러한 문제에 대응하기 위해 최근의 기술 발전은 혁신적인 솔루션을 위한 길을 열었습니다. 이 연구에서는 이러한 발전을 활용한 모델인 LLaVA-Docent 개발에 초점을 맞춰 예술 감상 교육에 다중 모드 대규모 언어 모델(MLLM)을 적용하는 방법을 살펴봅니다. 이러한 접근 방식에는 종합적인 문헌 검토와 해당 분야 전문가들의 자문을 거쳐 강력한 데이터 프레임워크를 개발하는 것이 포함되었습니다. 이 프레임워크를 활용하여 GPT-4에서 활용할 가상 대화 데이터 세트를 생성했습니다. 이 데이터 세트는 LLaVA-Docent라는 MLLM을 훈련하는 데 중요한 역할을 했습니다. 6명의 연구원이 LLaVA-Docent에 대한 정량적, 정성적 평가를 실시하여 그 효과를 평가하고 몇 번의 촬영 환경에서 GPT-4 모델과 벤치마킹했습니다. 평가 과정에서 LLaVA-Docent 모델의 뚜렷한 강점과 약점이 드러났습니다. 이번 연구 결과는 예술 감상 교육의 접근성과 참여도를 향상시키는 데 있어 LLaVA-Docent의 효과를 강조합니다. 이 연구는 MLLM의 잠재력을 활용하여 예술 감상을 가르치고 경험하는 방식을 재구성하는 새로운 방법론을 제안함으로써 예술 교육 분야에 큰 기여를 하고 있습니다. [abs|pdf]

[12/95] DeAL: Decoding-time Alignment for Large Language Models

Keywords: alignment_model_training, teach_alignment_objectives, language_models
Abstract: 오늘날 대규모 언어 모델(LLM)은 인간의 선호도에 맞춰 콘텐츠를 생성할 것으로 기대됩니다. 현재 작업은 인간 피드백을 통한 강화 학습(RLHF)과 같은 기술을 통해 모델 훈련 시 정렬에 초점을 맞추고 있습니다. 그러나 이러한 방법이 모델에 정렬 목표를 가르치는 데 효과적인 선택인지 여부는 불분명합니다. 첫째, 다양한 맞춤형 보상을 통합할 수 없고 모델 개발자의 보편적이고 정적인 원칙에 대한 관점에 의존한다는 점이 주요한 한계입니다. 둘째, 모델 교육에 잔존하는 격차와 이러한 접근 방식의 신뢰성(예: 안전 교육 후에도 탈옥에 대한 취약성)에도 의문이 제기되고 있습니다. 이러한 문제를 해결하기 위해 사용자가 보상 기능을 커스터마이징할 수 있고 LLM의 디코딩 시간 정렬(DeAL)을 지원하는 프레임워크인 DeAL을 제안합니다. 이 프레임워크의 핵심은 디코딩을 휴리스틱에 기반한 검색 프로세스로 보고 다양한 정렬 목표를 쉽게 사용할 수 있도록 하는 것입니다. 키워드 및 길이 제약(LLM 이전 시대에 널리 연구됨)과 같은 프로그래밍 제약과 무해성 및 유용성(LLM 이후 시대에 제안됨)과 같은 추상적인 목표를 사용한 실험을 통해 세분화된 절충안을 통해 DeAL이 가능하고 정렬 목표에 대한 준수를 개선하며 LLM의 잔여 격차를 해결할 수 있음을 보여줬습니다. 마지막으로, DeAL은 RLHF 및 프롬프트 기술과 효과적으로 결합할 수 있지만, 일반성으로 인해 디코딩 속도가 느려지므로 향후 작업을 위해 최적화를 남겨두고 있습니다. [abs|pdf]

[13/95] Veni, Vidi, Vici: Solving the Myriad of Challenges before Knowledge Graph Learning

Keywords: graph_learning_systems, knowledge_graphs_kgs, knowledge_graphs
Abstract: 대규모의 연결된 데이터를 표현하는 데 지식 그래프(KG)가 점점 더 보편화되고 있습니다. 그러나 그 방대한 크기로 인해 분석, 해석, 패턴 탐지를 위해 사람을 보조하는 그래프 학습 시스템이 필요했습니다. 다양한 KG 학습 시스템을 통해 연구자 및 임상의의 역량 강화에 대한 유망한 결과가 있었지만, 최신 그래프 학습에서 KG 학습 성능을 제한하고 인간이 이러한 학습 시스템과 최적으로 인터페이스하는 능력을 떨어뜨리는 네 가지 주요 결함을 발견했습니다. 이러한 결함은 다음과 같습니다: 1) 전문 지식 통합의 부족, 2) KG의 노드 극단에 대한 불안정성, 3) 학습 중 불확실성과 관련성에 대한 고려 부족, 4) 설명 가능성 부족입니다. 또한, 이러한 각 문제를 해결하기 위한 최신 시도를 특징짓고 각 시도가 다른 문제를 해결하려는 시도와 대체로 분리되어 있다는 점에 주목합니다. 이러한 문제를 공식화하고 이를 다루는 문헌을 검토함으로써, 우리는 이 네 가지 핵심 영역의 결함이 인간-KG 역량 강화를 방해할 뿐만 아니라 이러한 문제를 전체가 아닌 개별 단위로 해결하려는 분할 및 정복 접근법이 인간과 KG 학습 시스템 간의 인터페이스에 중요한 장벽이라는 입장을 채택합니다. 우리는 KG 학습 시스템의 한계에 대한 통합적이고 총체적인 솔루션을 통해서만 인간과 KG 학습의 공동 임파워먼트에 효율적으로 영향을 미칠 수 있다고 제안합니다. 마지막으로, KG 학습과 더 넓은 머신러닝 영역 모두에서 총체적인 공동 역량 강화 모델로 효과적이고 효율적으로 전환하기 위한 로드맵을 제시하는 "Veni, Vidi, Vici" 프레임워크를 소개합니다. [abs|pdf]

[14/95] TWIG: Towards pre-hoc Hyperparameter Optimisation and Cross-Graph Generalisation via Simulated KGE Models

Keywords: twig_neural_network, embeddings_needed_learn, parameters_twig_learns
Abstract: 이 백서에서는 극히 일부의 파라미터를 사용해 KGE의 출력을 시뮬레이션하는 새로운 임베딩 프리 패러다임인 TWIG(위상 가중치 생성)를 소개합니다. TWIG는 엔티티나 에지의 잠재적 표현을 위한 코딩 없이 그래프 데이터의 위상학적 특징들로 구성된 입력으로부터 가중치를 학습합니다. UMLS 데이터 세트에 대한 실험 결과, 단일 TWIG 신경망이 모든 하이퍼파라미터 구성에서 최신 ComplEx-N3 KGE 모델의 결과를 거의 정확하게 예측할 수 있는 것으로 나타났습니다. 이를 위해 총 2590개의 학습 가능한 파라미터를 사용하지만, 1215개의 서로 다른 하이퍼파라미터 조합의 결과를 29,322,000개의 파라미터를 합친 비용으로 정확하게 예측합니다. 이러한 결과를 바탕으로 두 가지 주장을 합니다: 1) KGE는 잠재적 의미론이 아니라 구조적 패턴의 잠재적 표현만을 학습한다는 것, 2) KGE에서 하이퍼파라미터 선택은 KGE 모델과 그래프 구조의 결정론적 함수라는 것입니다. 또한, TWIG는 임베딩 없이도 KGE를 시뮬레이션할 수 있기 때문에 노드와 에지 임베딩은 KG의 새로운 사실을 정확하게 예측하는 학습을 위해 필요하지 않다는 가설을 세웠습니다. 마지막으로, 저희는 모든 연구 결과를 '구조 일반화 가설'이라는 우산 아래 공식화했는데, 이는 '트윅'의 임베딩 없는/데이터 구조 기반 학습 방법을 통해 단일 신경망이 다양한 도메인과 다양한 의미를 가진 여러 KG에 대해 KGE 성능을 시뮬레이션하고 링크 예측 작업을 해결할 수 있다는 것을 시사합니다. [abs|pdf]

[15/95] Limits of Large Language Models in Debating Humans

Keywords: humans_capable_debating, viable_debaters, evolve_viable_debaters
Abstract: 대규모 언어 모델(LLM)은 인간과 능숙하게 상호작용하는 능력에서 놀라운 가능성을 보여주었습니다. 따라서 대화와 관련된 사회학적 실험에서 인공 동료 및 대리자로 사용할 수 있는 잠재력은 매우 흥미로운 전망입니다. 하지만 이 아이디어가 얼마나 실현 가능할까요? 이 논문에서는 실제 사람과 사람처럼 행동하는 LLM 에이전트를 통합한 사전 등록된 연구를 통해 현재 LLM의 한계를 시험해보고자 합니다. 이 연구는 사람만 있는 환경, 에이전트와 사람, 에이전트만 있는 세 가지 환경에서 토론 기반 의견 합의 형성에 초점을 맞춥니다. 우리의 목표는 LLM 에이전트가 인간에게 어떤 영향을 미치는지, 그리고 인간처럼 토론할 수 있는 능력이 얼마나 있는지 이해하는 것입니다. 우리는 LLM이 인간의 생산성에 녹아들고 촉진할 수는 있지만 토론에서는 설득력이 떨어지고 궁극적으로 인간과 다른 행동을 보인다는 사실을 발견했습니다. 저희는 이러한 주요 결함을 규명하고 LLM이 실용적인 토론자가 되기 위해서는 더 많은 진화를 거쳐야 할 것으로 예상합니다. [abs|pdf]

[16/95] OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models

Keywords: characters_mental_states, modeling_characters_mental, tracking_characters_mental
Abstract: 다른 사람의 마음 상태를 이해하고 추적하는 기계의 능력인 신경망 이론(N-ToM)은 사회지능 에이전트 개발에 있어 핵심적인 요소입니다. 그러나 현재 널리 사용되는 N-ToM 벤치마크에는 모호하고 인위적인 내러티브, 성격 특성 및 선호도 부재, 인물의 심리적 정신 상태를 다루는 질문 부족, 제기되는 질문의 다양성 제한 등 몇 가지 단점이 있습니다. 이러한 문제에 대응하기 위해 저희는 (1) 더 길고 명확한 내러티브 스토리, (2) 명확한 성격 특성을 가진 캐릭터, (3) 캐릭터의 의도에 의해 유발되는 행동, (4) 물리적 세계와 심리적 세계의 캐릭터 정신 상태를 모델링하는 LLM의 역량에 도전하도록 설계된 질문으로 N-ToM을 평가하는 새로운 벤치마크인 OpenToM을 구축했습니다. OpenToM을 사용하여 최첨단 LLM이 물리적 세계에서 정신 상태의 특정 측면을 모델링하는 데는 성공하지만 심리적 세계에서 캐릭터의 정신 상태를 추적할 때는 부족하다는 사실을 밝혀냈습니다. [abs|pdf]

[17/95] Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning

Keywords: rule_deterministic_learner, hypotheses_probabilistic_rules, fuzzy_probabilistic_rules
Abstract: 우리는 실험을 통해 인간이 어떻게 숨겨진 규칙을 능동적으로 추론하는지에 대한 계산 모델을 구축합니다. 이 모델의 기본 원리는 규칙이 결정론적이더라도 학습자가 자연어로 표현되는 퍼지 확률적 규칙의 더 넓은 공간을 고려하고 대략적인 베이지안 원칙에 따라 각 실험 후 온라인으로 가설을 업데이트한다는 것입니다. 또한 동일한 프레임워크에서 정보 이론적 기준에 따라 실험 설계를 모델링합니다. 명시적 가설, 확률적 규칙, 온라인 업데이트, 이 세 가지 원칙의 조합이 젠도 스타일의 과제에서 인간의 성과를 설명할 수 있으며, 이러한 구성 요소 중 하나를 제거하면 모델이 데이터를 설명할 수 없다는 것을 발견했습니다. [abs|pdf]

[18/95] Feedback Loops With Language Models Drive In-Context Reward Hacking

Keywords: context_reward_hacking, cause_context_reward, reward_hacking_icrh
Abstract: 언어 모델은 웹 페이지를 읽고 쓰는 API를 쿼리하고, 인간의 행동을 형성하는 콘텐츠를 생성하며, 자율 에이전트로서 시스템 명령을 실행하는 등 외부 세계에 영향을 미칩니다. 이러한 상호 작용은 피드백 루프를 형성합니다: LLM의 출력은 세계에 영향을 미치고, 이는 다시 후속 LLM 출력에 영향을 미칩니다. 이 연구에서는 피드백 루프가 테스트 시점의 LLM이 (잠재적으로 암시된) 목표를 최적화하지만 그 과정에서 부정적인 부작용을 일으키는 상황 내 보상 해킹(ICRH)을 유발할 수 있음을 보여줍니다. 예를 들어, 트위터 참여도를 높이기 위해 배포된 LLM 에이전트가 이전 트윗을 컨텍스트 창으로 검색하여 논란의 여지가 있는 트윗을 만들어 참여도를 높이는 동시에 독성을 유발할 수 있다고 가정해 보겠습니다. 트위터에서는 ICRH로 이어지는 두 가지 프로세스, 즉 결과물 개선과 정책 개선을 식별하고 연구합니다. 이러한 프로세스의 경우 정적 데이터 세트에 대한 평가는 피드백 효과를 놓쳐 가장 유해한 행동을 포착할 수 없기 때문에 불충분합니다. 이에 따라 저희는 더 많은 ICRH 사례를 포착하기 위한 세 가지 평가 권장 사항을 제공합니다. AI 개발이 가속화됨에 따라 피드백 루프의 영향이 확산되어 LLM 행동을 형성하는 데 있어 피드백 루프의 역할을 이해해야 할 필요성이 커질 것입니다. [abs|pdf]

[19/95] Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Keywords: existing_datasets_english, constructed_annotated_datasets, datasets_english_language
Abstract: 데이터 세트는 현대 인공 지능의 많은 혁신의 기반입니다. 자연어 처리(NLP) 분야에서 최근의 많은 성과는 대규모 언어 모델(LLM)이 명령어에 응답할 수 있도록 다양한 작업에 대해 사전 학습된 모델을 미세 조정한 데 기인할 수 있습니다. 명령어 미세 조정(IFT)에는 특별히 구성되고 주석이 달린 데이터 세트가 필요합니다. 그러나 기존 데이터 세트는 거의 모두 영어로 되어 있습니다. 이 작업의 주요 목표는 65개 언어에 걸쳐 사람이 직접 큐레이션한 명령어 팔로잉 데이터 세트를 구축하여 언어 격차를 해소하는 것입니다. 이를 위해 전 세계 각국의 유창한 언어 구사자들과 협력하여 자연스러운 지시 및 완료 사례를 수집했습니다. 또한 114개 언어의 기존 데이터 세트를 템플릿화하고 번역하여 5억 1,300만 개의 인스턴스로 구성된 현재까지 가장 광범위한 다국어 컬렉션을 구축했습니다. 총 4가지 핵심 리소스, 즉 Aya Annotation Platform, Aya Dataset, Aya Collection, Aya Evaluation Suite를 개발하여 오픈소스로 제공하고 있습니다. 또한 Aya 이니셔티브는 119개국의 협력자가 참여하는 참여형 연구의 귀중한 사례 연구로도 활용되고 있습니다. 이는 자원의 격차를 해소하는 것을 목표로 하는 미래의 연구 협력을 위한 귀중한 프레임워크가 될 것입니다. [abs|pdf]

[20/95] TIC: Translate-Infer-Compile for accurate 'text to plan' using LLMs and logical intermediate representations

Keywords: natural_language_planning, language_planning_task, structured_language_planning
Abstract: 우리는 주어진 자연어 계획 작업 요청에 대한 계획을 생성하는 문제를 연구합니다. 한편으로 LLM은 자연어 처리에는 탁월하지만 계획 수립에는 적합하지 않습니다. 반면에 고전적인 계획 도구는 계획 작업에는 탁월하지만 계획 도메인 정의 언어(PDDL)와 같은 구조화된 언어로 입력해야 합니다. 저희는 LLM을 사용하여 계획 작업 요청의 PDDL 표현(작업 PDDL)을 생성한 다음 클래식 플래너를 사용하여 계획을 계산함으로써 두 기술의 강점을 모두 활용합니다. 작업 PDDL을 직접 생성하는 데 LLM을 사용하는 기존 접근 방식과 달리, 저희 접근 방식은 (a) 번역: 자연어 작업 설명의 논리적으로 해석 가능한 중간 표현을 생성하는 데만 LLM을 사용하고, (b) 추론: 논리 추론기(현재는 답변 집합 프로그래밍 솔버)를 사용하여 중간 표현에서 논리적으로 종속된 추가 정보를 도출하며, (c) 컴파일: 기본 및 추론된 정보로부터 목표 작업 PDDL을 생성하는 것으로 구성됩니다. LLM을 사용하여 중간 표현만 출력하면 LLM 오류가 크게 줄어드는 것을 관찰했습니다. 결과적으로, TIC 접근 방식은 평가 데이터 세트의 7개 도메인 모두에 대해 적어도 하나의 LLM에 대해 높은 정확도의 작업 PDDL 생성을 달성합니다. [abs|pdf]

[21/95] RQP-SGD: Differential Private Machine Learning through Noisy SGD and Randomized Quantization

Keywords: privacy_preserving_quantization, sgd_randomized_quantization, randomized_quantization_providing
Abstract: IoT 디바이스의 증가로 인해 실시간의 효율적이고 안전한 데이터 처리를 통해 머신러닝을 엣지에 배포해야 한다는 요구가 커지고 있습니다. 이러한 맥락에서 실제 값 가중치 매개변수로 머신러닝(ML) 모델을 구현하는 것은 특히 대규모 모델의 경우 비현실적일 수 있으며, 정량화된 이산 가중치로 모델을 학습시켜야 할 필요성이 있습니다. 동시에 이러한 저차원 모델은 기본 데이터 세트의 개인정보 보호도 유지해야 합니다. 이 연구에서는 저메모리 ML-엣지용 머신러닝 모델을 훈련하기 위한 프라이버시 보존 양자화를 위한 새로운 접근 방식인 RQP-SGD를 소개합니다. 이 접근 방식은 차등 프라이버시 확률적 경사 하강(DP-SGD)과 무작위 양자화를 결합하여 머신 러닝에서 측정 가능한 프라이버시 보장을 제공합니다. 특히, 볼록한 목표와 양자화 제약 조건이 있는 머신러닝 작업에서 RQP-SGD를 구현할 때의 효용 수렴을 연구하고 결정론적 양자화에 비해 그 효과를 입증합니다. 두 가지 데이터 세트에 대한 실험을 통해 RQP-SGD의 실질적인 효과를 보여줍니다. [abs|pdf]

[22/95] On the Out-Of-Distribution Generalization of Multimodal Large Language Models

Keywords: context_learning_icl, enhance_mllms_generalization, context_learning
Abstract: 분포 외 시나리오와 도메인별 작업에서 종합적인 평가를 통해 현재 다중모달 대규모 언어 모델(MLLM)의 일반화 경계를 조사합니다. 합성 이미지, 실제 세계 분포 변화, 의료 및 분자 이미지와 같은 특수 데이터 세트에서 제로 샷 일반화를 평가합니다. 경험적 결과에 따르면 MLLM은 일반적인 훈련 영역을 넘어서는 일반화에 어려움을 겪으며 적응 없이 직접 적용하는 데 한계가 있는 것으로 나타났습니다. 신뢰할 수 없는 성능의 원인을 이해하기 위해 의미론적 오해, 시각적 특징 추출 부족, 매핑 결핍이라는 세 가지 가설을 분석했습니다. 분석 결과 매핑 결핍이 가장 큰 장애물로 밝혀졌습니다. 이 문제를 해결하기 위해 맥락 내 학습(ICL)이 MLLM의 일반화를 크게 향상시켜 일반화 장벽을 극복할 수 있는 새로운 길을 열어줄 수 있음을 보여줍니다. 또한 분포 이동에 따른 ICL의 견고성을 살펴보고 도메인 이동, 레이블 이동, 맥락 내 예제와 테스트 데이터 간의 허위 상관관계 이동에 대한 취약성을 보여줍니다. [abs|pdf]

[23/95] G-SciEdBERT: A Contextualized LLM for Science Assessment Tasks in German

Keywords: science_education_bert, trained_sciedbert_corpus, scoring_accuracy_sciedbert
Abstract: 자연어 처리의 발전으로 독일어와 같은 다양한 언어(예: 독일어 BERT[G-BERT])로 자동 채점 시스템을 구축할 수 있는 길이 열렸습니다. 독일어로 된 과학 문제에 대한 서면 답안을 자동으로 채점하는 것은 복잡한 작업이며, 과학 영역의 문맥 지식이 부족하고 학생의 작문 스타일과 일치하지 않을 수 있기 때문에 표준 G-BERT에는 어려운 과제입니다. 이 논문에서는 과학 과제에 대한 독일어로 작성된 답안을 채점하기 위한 혁신적인 대규모 언어 모델인 문맥화된 독일어 과학교육 BERT(G-SciEdBERT)를 개발했습니다. G-BERT를 사용하여 2015 국제 학생 평가 프로그램(PISA)에 대한 5백만 개의 토큰으로 구성된 50만 개의 독일어 서면 과학 답변 말뭉치에 대해 G-SciEdBERT를 사전 학습시켰습니다. 59개 평가 항목에 대해 G-SciEdBERT를 미세 조정하고 채점 정확도를 조사했습니다. 그런 다음 G-BERT와 성능을 비교했습니다. 그 결과, G-BERT에 비해 이차 가중 카파가 10% 증가(평균 정확도 차이 = 0.096, SD = 0.024)하는 등 G-SciEdBERT의 채점 정확도가 크게 개선된 것으로 나타났습니다. 이러한 인사이트는 자동 채점의 정확도를 높이기 위해 훈련된 G-SciEdBERT와 같은 전문 언어 모델의 중요성을 강조하며 교육 분야의 AI에 상당한 기여를 할 수 있습니다. [abs|pdf]

[24/95] What is Hiding in Medicine's Dark Matter? Learning with Missing Data in Medical Practices

Keywords: clinical_data_imputation, missing_data_imputation, imputation_missing_data
Abstract: 전자 환자 기록(EPR)은 풍부한 데이터를 생성하지만 누락된 정보가 상당수 포함되어 있습니다. 이러한 누락된 데이터를 이해하고 처리하는 것은 임상 데이터 분석의 중요한 부분이며, 이를 해결하지 않으면 분석의 편향과 중요한 결론의 왜곡을 초래할 수 있습니다. 누락된 데이터는 의료 전문가의 진료 패턴과 관련이 있을 수 있으며, 누락된 데이터를 대입하면 임상 결정의 타당성을 높일 수 있습니다. 이 연구는 단일 센터의 소아 응급 데이터와 영국 최대의 외상성 손상 임상 감사 데이터베이스(TARN)의 데이터를 사용하여 누락된 데이터를 이해하고 해석하는 통계적 접근 방식과 머신러닝 기반 임상 데이터 추정에 중점을 둡니다. 응급실에 내원한 어린이의 초기 활력 징후 및 관찰과 관련된 56,961개의 데이터 포인트를 조사한 결과, 누락된 데이터가 무작위가 아닐 가능성이 높으며 이러한 데이터가 의료 전문가의 진료 패턴과 어떻게 연관되는지 밝혀냈습니다. 그런 다음 5,791건의 외상 사례에 대해 누락된 값이 있는 79개의 TARN 필드를 조사했습니다. 특이값 분해(SVD) 및 k-Nearest Neighbor(kNN) 기반 누락 데이터 추정 방법을 사용하고 원본 데이터 세트와 추정 결과를 비교하고 통계적으로 테스트했습니다. 그 결과, 가장 유사한 환자를 찾아 그 속성을 임퍼팅으로 삼는 일반적인 임상 의사 결정 패턴을 나타내는 1NN 임퍼터가 가장 좋은 임퍼팅이라는 결론을 내렸습니다. [abs|pdf]

[25/95] Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following

Keywords: autonomous_driving_diffusion, optimization_trajectory_denoising, trajectory_denoising_optimize
Abstract: 확산 모델은 의사 결정 및 제어를 위한 복잡한 다중 모드 궤적 분포를 모델링하는 데 탁월합니다. 최근 확산 모델에 의해 캡처된 데이터 분포에서 차등 보상 함수와 가능성을 모두 최대화하는 궤적을 생성하기 위해 보상-구배 유도 노이즈 제거가 제안되었습니다. 보상 그라데이션 유도 노이즈 제거는 깨끗한 샘플과 노이즈가 있는 샘플 모두에 미분 가능한 보상 함수를 적용해야 하므로 일반적인 궤적 최적화 기법으로는 적용이 제한적입니다. 이 백서에서는 데이터 다양체에 머무르면서 블랙박스 비차별 목표를 최적화하기 위해 그라데이션 없는 최적화와 궤적 노이즈 제거를 결합하는 방법인 DiffusionES를 제안합니다. 확산-ES는 진화적 탐색 중에 확산 모델에서 궤적을 샘플링하고 블랙박스 보상 함수를 사용하여 점수를 매깁니다. 적은 수의 노이즈 및 노이즈 제거 단계를 적용하는 잘린 확산 프로세스를 사용하여 높은 점수를 받은 궤적을 변경하므로 솔루션 공간을 훨씬 더 효율적으로 탐색할 수 있습니다. 자율 주행을 위한 폐쇄 루프 계획 벤치마크인 nuPlan에서 DiffusionES가 최첨단 성능을 달성하는 것을 보여줍니다. Diffusion-ES는 기존의 샘플링 기반 플래너, 반응형 결정론적 또는 확산 기반 정책, 보상-단계적 안내보다 성능이 뛰어납니다. 또한, 기존 안내 방식과 달리 소수 샷 LLM 프롬프트에 의해 생성된 비차별적 언어 형태의 보상 함수를 최적화할 수 있음을 보여줍니다. 인간 교사가 따라야 할 지시를 내릴 때, 우리의 방법은 훈련 데이터에 없는 공격적인 차선 변경과 같은 새롭고 매우 복잡한 행동을 생성할 수 있습니다. 이를 통해 기존의 궤적 최적화 방법과 주행 정책의 기능을 넘어서는 가장 어려운 nuPlan 시나리오를 해결할 수 있습니다. [abs|pdf]

[26/95] Bryndza at ClimateActivism 2024: Stance, Target and Hate Event Detection via Retrieval-Augmented GPT-4 and LLaMA

Keywords: detection_hate_speech, tweet_classification_goal, hate_speech_detection
Abstract: 이 연구에서는 분류 과제로서 혐오 발언 감지, 혐오 발언 대상 식별, 입장 감지에 초점을 맞춰 기후 운동 입장 및 혐오 사건 감지에 관한 CASE 2024 공유 과제에 대한 접근 방식을 자세히 설명합니다. 트윗 분류를 위한 검색 증강 및 순위 재조정으로 강화된 제로 샷 또는 소수 샷 설정에서 대규모 언어 모델(LLM), 특히 GPT-4의 기능을 살펴봤습니다. 우리의 목표는 이러한 상황에서 LLM이 기존 방식에 필적하거나 이를 능가할 수 있는지 확인하는 것이었습니다.
비교를 위해 LLaMA와 함께 제거 연구를 수행했으며, 그 결과 우리 모델이 기준선을 크게 뛰어넘어 타겟 탐지 작업에서 2위를 차지했습니다. 제출한 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[27/95] Calibrating Long-form Generations from Large Language Models

Keywords: large_language_models, confidence_elicitation_methods, language_models_llms
Abstract: 대규모 언어 모델(LLM)의 신뢰도를 높이려면 보정이 필수적이며, 모델의 평가 신뢰도 점수가 실제 응답이 정확할 가능성과 일치해야 합니다. 그러나 현재의 신뢰도 도출 방법과 보정 지표는 일반적으로 응답의 정확성을 참/거짓으로 평가하는 이분법적 방식에 의존합니다. 이러한 접근 방식은 답변이 부분적으로 정답일 수 있는 긴 형식의 생성에는 적용되지 않습니다. 이러한 격차를 해소하기 위해 저희는 LLM의 응답 정확도와 관련 신뢰 수준을 다양한 점수 범위의 분포로 취급하는 통합 보정 프레임워크를 도입했습니다. 이 프레임워크 내에서 LLM 보정을 정확하게 평가하기 위한 세 가지 지표를 개발하고 자체 일관성과 자체 평가를 기반으로 한 두 가지 신뢰도 도출 방법을 추가로 제안합니다. 긴 형식의 QA 및 요약 작업을 포함한 실험을 통해 모델이 크다고 해서 반드시 더 나은 보정이 보장되는 것은 아니며, 보정 성능은 메트릭에 따라 달라지고, 자체 일관성 방법이 팩트오이드 데이터 세트에서 더 우수하다는 것을 입증했습니다. 또한 미세 조정, 관련 소스 문서 통합, 온도 확장, 자체 일관성과 자체 평가의 결합과 같은 기술을 통해 보정을 향상시킬 수 있음을 발견했습니다. 마지막으로, 제한된 API 예산에서 정확도를 최적화하기 위해 오픈 소스 모델과 ChatGPT를 선택하고 계단식으로 적용하는 시스템의 실제 적용 사례를 소개합니다. 이 연구는 LLM 보정에 대한 기존의 개념에 도전할 뿐만 아니라 긴 형식의 생성에서 신뢰성을 개선하기 위한 실용적인 방법론을 제시합니다. [abs|pdf]

[28/95] Generative Adversarial Bayesian Optimization for Surrogate Objectives

Keywords: adversarial_bayesian_optimization, source_critic_regularization, adaptive_source_critic
Abstract: 오프라인 모델 기반 정책 최적화는 최적화 중에 실제 오라클 목표를 쿼리하지 않고 학습된 대리 목표 함수를 최적화하려고 합니다. 그러나 최적화 과정에서 부정확한 대리 모델 예측이 자주 발생합니다. 이러한 한계를 해결하기 위해 본 논문에서는 립스키츠 바운드 소스 비평 모델을 사용하여 최적화 궤적을 대리 함수가 신뢰할 수 있는 영역으로 제한하는 베이지안 최적화를 위한 작업 독립적 프레임워크인 적응적 소스 비평 정규화를 사용하는 생성적 적대적 베이지안 최적화(GABO)를 제안합니다. 이 알고리즘은 연속 입력 공간에 대한 특정 가정 하에서 소스 비평 정규화의 강도를 동적으로 조정할 수 있음을 보여줍니다. GABO는 다양한 과학 영역에서 여러 가지 오프라인 최적화 작업에서 기존 기준선보다 뛰어난 성능을 보였습니다. 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[29/95] Refining Myocardial Infarction Detection: A Novel Multi-Modal Composite Kernel Strategy in One-Class Classification

Keywords: features_extracted_echocardiography, multi_view_echocardiography, view_echocardiography_incorporating
Abstract: 관상동맥질환(CAD)으로 인해 발생하는 치명적인 질환인 심근경색(MI)을 조기에 발견하는 것은 추가적인 심근 손상을 예방하는 데 필수적입니다. 이 연구에서는 심초음파 검사에서 1등급 분류(OCC) 알고리즘을 사용하여 MI를 조기에 발견할 수 있는 새로운 방법을 소개합니다. 이 연구는 다중 모드 하위 공간 지원 벡터 데이터 설명을 기반으로 한 새로운 접근 방식을 채택하여 제한된 심초음파 데이터 가용성의 문제를 극복합니다. 제안된 기술은 비선형 투영 트릭에 복합 커널을 통합하고 가우스와 라플라시안 시그모이드 함수를 융합하는 멀티뷰 심초음파를 사용하는 특수 MI 탐지 프레임워크를 포함합니다. 또한 최적화 프로세스에서 두 가지 모달리티 중 하나 또는 둘 다에 대해 최대화를 적용하여 투영 행렬의 업데이트 전략을 개선합니다. 이 방법은 심초음파 데이터에서 추출한 특징을 최적화된 저차원 하위 공간으로 효율적으로 변환하여 MI 탐지 기능을 향상시킵니다. 여러 심초음파 뷰를 포함하는 포괄적인 HMC-QU 데이터 세트의 목표 클래스 인스턴스에 대해 특별히 훈련된 OCC 모델은 MI 탐지 정확도가 현저히 향상되었음을 보여줍니다. 연구 결과에 따르면 우리가 제안한 다중 뷰 접근 방식은 71.24%의 기하학적 평균을 달성하여 심초음파 기반 MI 진단의 상당한 발전을 의미하며 보다 정확하고 효율적인 진단 도구를 제공합니다. [abs|pdf]

[30/95] Asking the Right Question at the Right Time: Human and Model Uncertainty Guidance to Ask Clarification Questions

Keywords: collaborative_dialogue_task, questions_essential_dialogue, dialogue_task
Abstract: 명확화 질문은 언어 사용에서 오해, 모호함, 불명확한 표현을 알리는 데 필수적인 대화 도구입니다. 인간은 어릴 때부터 질문을 통해 불확실성을 해결할 수 있지만, 현대의 대화 시스템은 효과적인 질문을 생성하는 데 어려움을 겪고 있습니다. 이러한 방향에서 진전을 이루기 위해 이 연구에서는 협업 대화 과제를 테스트베드로 삼아 모델 불확실성이 인간의 불확실성과 어떻게 관련되는지, 즉 아직 잘 알려지지 않은 문제를 연구합니다. 우리는 모델 불확실성이 인간의 해명 추구 행동을 반영하지 않는다는 것을 보여 주며, 이는 인간의 해명 질문을 언제 질문할지 결정하는 감독으로 사용하는 것이 모델 불확실성을 해결하는 가장 효과적인 방법이 아닐 수 있음을 시사합니다. 이 문제를 해결하기 위해 모델 불확실성 추정에 기반한 해명 질문을 생성하는 접근 방식을 제안하고, 이를 여러 대안과 비교하여 작업 성공 측면에서 상당한 개선을 가져온다는 것을 보여줍니다. 이러한 연구 결과는 대화 시스템이 자체적으로 불확실성을 평가하고 상호작용에서 활용할 수 있는 능력을 갖추는 것이 중요하다는 점을 강조합니다. [abs|pdf]

[31/95] Classifying point clouds at the facade-level using geometric features and deep learning networks

Keywords: geometric_features_deep, point_cloud_classification, point_clouds_facade
Abstract: 파사드 디테일이 포함된 3D 건물 모델은 현재 많은 애플리케이션에서 중요한 역할을 하고 있습니다. 이러한 실제 세계의 디지털 복제품을 만들려면 파사드 수준에서 포인트 클라우드를 분류하는 것이 핵심입니다. 그러나 심층 신경망으로 이러한 세부 분류에 초점을 맞춘 연구는 거의 없습니다. 저희는 기하학적 특징과 딥러닝 네트워크를 융합하여 파사드 레벨에서 포인트 클라우드를 분류하는 방법을 제안합니다. 실험을 통해 이러한 초기 융합 특징이 딥러닝 방법의 성능을 향상시킨다는 결론을 얻었습니다. 이 방법은 딥러닝 네트워크의 로컬 기하학적 정보 캡처 능력을 보완하고 의미적 분할의 발전을 촉진하는 데 적용될 수 있습니다. [abs|pdf]

[32/95] Scalable Interactive Machine Learning for Future Command and Control

Keywords: interactive_machine_learning, human_ai_teams, human_ai_interaction
Abstract: 미래 전쟁에서는 지휘통제(C2) 요원들이 복잡하고 잠재적으로 정의되지 않은 상황에서 짧은 시간 내에 의사결정을 내려야 할 것입니다. 강력한 의사결정 프로세스와 의사결정 지원 도구의 필요성을 고려할 때, 인공 지능과 인간 지능의 통합은 급변하는 작전 환경에서 적응성과 효율성을 보장하기 위해 C2 운영 프로세스를 혁신할 수 있는 잠재력을 가지고 있습니다. 저희는 인간이 기계 학습 알고리즘과 협력하여 기계 학습 알고리즘의 행동을 유도할 수 있는 대화형 기계 학습의 최근 유망한 돌파구를 활용할 것을 제안합니다. 이 백서에서는 이러한 접근 방식을 복잡한 C2 컨텍스트에서 작동하도록 확장하기 위해 향후 연구에서 해결해야 할 최첨단 과학 기술의 몇 가지 격차를 식별합니다. 특히, 확장 가능한 대화형 머신러닝(SIML)을 구현하기 위해 1) 복잡하고 역동적인 상황에서 계획을 세울 수 있는 인간-AI 상호작용 알고리즘 개발, 2) 역할, 구성, 신뢰 최적화를 통한 탄력적인 인간-AI 팀 육성, 3) 다양한 잠재적 맥락과 상황에 유연하게 대응할 수 있도록 알고리즘과 인간-AI 팀 확장 등 세 가지 연구 중점 분야에 대해 설명합니다. [abs|pdf]

[33/95] Inducing Systematicity in Transformers by Attending to Structurally Quantized Embeddings

Keywords: embeddings_attention_layers, systematicity_embeddings_attention, embeddings_attention
Abstract: 트랜스포머는 복잡한 데이터 세트에 대해 학습된 후에는 새로운 구조와 엔티티의 구성으로 일반화되지만, 복잡성이 충분하지 않은 데이터 세트에서는 쉽게 과적합합니다. 훈련 세트가 충분히 복잡하면 모델은 체계적인 주의 패턴을 사용하여 공통된 구문 구조를 가진 문장을 인코딩하는 것을 관찰했습니다. 이러한 관찰에서 영감을 얻어 복잡도가 낮은 훈련 세트에서도 임베딩과 주의 계층의 체계성을 명시적으로 장려하는 SQ-Transformer(구조적으로 정량화된)를 제안합니다. 임베딩 수준에서는 구조 지향 벡터 정량화(SoVQ)를 도입하여 단어 임베딩을 구조적으로 동등한 여러 클래스의 엔티티로 클러스터링합니다. 주의 수준에서는 동일한 구조의 문장이 불변하거나 유사한 주의 패턴으로 인코딩되도록 양자화된 단어 임베딩에서 작동하는 체계적 주의 계층(SAL)과 대체 체계적 정규화 계층(SRL)을 고안합니다. 경험적으로, 여러 저복잡성 의미론 구문 분석 및 기계 번역 데이터 세트에서 SQ-Transformer가 바닐라 트랜스포머보다 더 강력한 구성 일반화를 달성하는 것을 보여줍니다. 분석 결과, SoVQ는 실제로 구문적으로 클러스터된 임베딩 공간을 학습하고 SAL/SRL은 일반화 가능한 주의 패턴을 유도하여 체계성을 개선하는 것으로 나타났습니다. [abs|pdf]

[34/95] "When He Feels Cold, He Goes to the Seahorse"-Blending Generative AI into Multimaterial Storymaking for Family Expressive Arts Therapy

Keywords: therapeutic_storymaking, materials_therapeutic_storymaking, expressive_arts_therapy
Abstract: 통합적인 표현 예술 치료의 한 형태인 스토리메이킹은 가족 간의 소통을 촉진하는 효과적인 수단입니다. 그러나 치료적 스토리메이킹에서 표현 자료로서 제너레이티브 AI의 통합은 아직 충분히 연구되지 않은 상태입니다. 또한 이러한 맥락에서 가족과 치료사를 지원하는 방법에 대한 HCI의 시사점도 부족합니다. 이 문제를 해결하기 위해 본 연구에서는 전문 치료사의 안내를 받아 7명의 가족과 함께 5주 동안 스토리메이킹 세션을 진행했습니다. 이 세션에서 가족들은 전통적인 미술 제작 재료와 이미지 기반 생성 AI를 모두 사용하여 가족 이야기를 만들고 발전시켰습니다. 풍부한 경험적 데이터와 전문 치료사 4명의 해설을 통해 가족이 AI와 전통적인 표현 재료를 창의적으로 결합하여 자신의 생각과 감정을 외부화하는 방법을 맥락에 맞게 설명합니다. 표현 치료 연속체(ETC)라는 렌즈를 통해 표현 자료로서 AI의 치료적 의미를 분석합니다. 아동, 부모, 치료사를 지원하기 위한 바람직한 상호 작용 특성을 도출하여 향후 HCI 연구에 활용합니다. [abs|pdf]

[35/95] V-STaR: Training Verifiers for Self-Taught Reasoners

Keywords: reasoning_benchmarks_llama2, self_improvement_verification, generated_solutions_improve
Abstract: 대규모 언어 모델(LLM)에 대한 일반적인 자가 개선 접근 방식(예: STaR)은 문제 해결 능력을 향상시키기 위해 자체 생성된 솔루션에 대해 LLM을 반복적으로 미세 조정합니다(Zelikman et al., 2022). 그러나 이러한 접근 방식은 이 과정에서 생성되는 대량의 잘못된 솔루션을 폐기하기 때문에 솔루션에 포함된 중요한 정보를 놓칠 가능성이 있습니다. 이러한 단점을 해결하기 위해 본 연구에서는 자가 개선 과정에서 생성된 정답과 오답을 모두 활용하여 모델 생성 솔루션의 정확성을 판단하는 검증자를 DPO로 훈련하는 V-STaR을 제안합니다. 이 검증기는 추론 시 여러 후보 솔루션 중에서 하나의 솔루션을 선택하는 데 사용됩니다. 여러 번 반복하여 V-STaR을 실행하면 추론자와 검증자가 점진적으로 개선되어 LLaMA2 모델을 사용한 일반적인 코드 생성 및 수학 추론 벤치마크에서 기존의 자체 개선 및 검증 방식에 비해 테스트 정확도가 4%에서 17%까지 향상됩니다. [abs|pdf]

[36/95] Hierarchical Transformers are Efficient Meta-Reinforcement Learners

Keywords: meta_reinforcement_learning, online_meta_reinforcement, efficient_meta_training
Abstract: 강력한 온라인 메타 강화 학습 접근 방식인 메타 강화 학습을 위한 계층적 트랜스포머(HTrMRL)를 소개합니다. HTrMRL은 강화 학습 에이전트가 이전에는 볼 수 없었던 작업을 효과적으로 수행할 수 있도록 하는 과제를 해결하는 것을 목표로 합니다. 과거 에피소드가 어떻게 풍부한 정보 소스로 활용되며, 이를 통해 모델이 새로운 상황에 효과적으로 추출하고 적용하는지를 보여줍니다. 학습된 알고리즘은 이전의 최신 기술을 능가하는 성능을 발휘할 수 있으며 일반화 기능을 크게 향상시키면서 보다 효율적인 메타트레이닝을 제공합니다. 메타월드 벤치마크의 다양한 시뮬레이션 과제에서 얻은 실험 결과에 따르면 다양한 과제에서 최신 기술에 비해 학습 효율성과 적응력이 크게 향상되었습니다. 이러한 접근 방식은 제한된 데이터에서 일반화하는 에이전트의 능력을 향상시킬 뿐만 아니라 더욱 강력하고 다재다능한 AI 시스템을 위한 기반을 마련합니다. [abs|pdf]

[37/95] Finding hardness reductions automatically using SAT solvers

Keywords: structures_completion_problem, structures_completion, complete_combinatorial_structures
Abstract: 이 글에서는 완성 문제, 즉 부분 구조가 전체 구조로 완성될 수 있는지 여부에 대한 결정 문제가 많은 조합 구조에서 NP-완성임을 보여줍니다. 문헌에서 대부분의 환원을 위한 가젯은 수작업으로 발견되지만, 우리는 완전 자동화된 방식으로 가젯을 구성하는 알고리즘을 제시합니다. SAT에 기반한 프레임워크를 사용하여 완성 문제가 NP-완성인 수천 개의 구조를 분류함으로써 금지된 하위 구조가 있는 기호 매핑의 완성 문제에 대한 최초의 철저한 연구를 제시합니다. 특히 평면 점 구성의 공리화를 위해 Knuth가 도입한 내부 삼중 시스템이 포함되어 있습니다. 마지막으로, 내부 삼중 시스템을 고차원으로 일반화하여 완성 문제가 NP-완성인 구조의 무한한 제품군을 제공합니다. [abs|pdf]

[38/95] On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit

Keywords: stochastic_gradient_descent, descent_sgd_learning, gradient_descent_sgd
Abstract: 학습 속도가 역 시간 감쇠 스케줄을 따를 때 확률적 경사 하강(SGD)의 수렴 속도에 대한 자체 포함 증명을 제시하고, 그 결과를 $L2$ 정규화를 사용한 수정된 형태의 정책 경사 다중 무장 도둑(MAB)의 수렴에 적용합니다. [abs|pdf]

[39/95] High-Precision Geosteering via Reinforcement Learning and Particle Filters

Keywords: geosteering_decision_optimization, optimized_geosteering_decisions, geosteering_decision_making
Abstract: 시추 작업의 핵심 구성 요소인 지오스티어링은 전통적으로 유정 로그 데이터와 같은 다양한 데이터 소스를 수동으로 해석하는 작업을 수반합니다. 이 과정에서 주관적인 편견과 일관성 없는 절차가 발생할 수 있습니다. 지오스티어링 의사 결정 최적화를 욕심 최적화 및 근사 동적 프로그래밍(ADP)으로 해결하려는 학계의 시도는 가능성을 보였지만 현실적인 다양한 시나리오에 대한 적응성이 부족했습니다. 강화 학습(RL)은 보상 기반 반복 학습을 통해 최적의 의사 결정을 촉진함으로써 이러한 문제에 대한 해결책을 제시합니다. 입자 필터(PF)와 같은 상태 추정 방법은 온라인 정보를 기반으로 하는 지오스티어링 의사결정을 위한 보완 전략을 제공합니다. 저희는 현실적인 지오스티어링 시나리오를 해결하기 위해 RL 기반 지오스티어링과 PF를 통합합니다. 저희의 프레임워크는 PF를 사용하여 실시간 유정 로그 데이터를 처리하여 지층을 기준으로 유정의 위치를 추정하고, 이를 RL 기반 의사결정 프로세스에 알려줍니다. 저희는 이 방법의 성능을 RL 또는 PF만 사용했을 때의 성능과 비교했습니다. 그 결과, 최적화된 지오스테어링 결정을 내리는 데 있어 RL과 PF가 시너지 효과를 발휘하는 것으로 나타났습니다. [abs|pdf]

[40/95] CoSearchAgent: A Lightweight Collaborative Search Agent with Large Language Models

Keywords: collaborative_search_agent, lightweight_collaborative_search, collaborative_search_supports
Abstract: 공동 검색은 여러 사용자가 특정 검색 작업을 수행하기 위해 함께 작업하는 것을 지원합니다. 연구에 따르면 인스턴트 메시징 플랫폼 내에서 경량 협업 검색 플러그인을 설계하는 것이 사용자의 협업 습관에 더 잘 부합하는 것으로 나타났습니다. 하지만 다중 사용자 상호 작용 시나리오의 복잡성으로 인해 완벽하게 작동하는 경량 협업 검색 시스템을 구현하는 것은 어려운 일입니다. 따라서 경량 협업 검색에 대한 이전 연구들은 오즈의 마법사 패러다임에 의존할 수밖에 없었습니다. 최근에는 대규모 언어 모델(LLM)이 사용자와 자연스럽게 상호 작용하고 LLM 기반 에이전트를 통해 복잡한 정보 검색 작업을 수행하는 것이 입증되었습니다. 따라서 이 데모에서는 협업 검색 연구를 보다 효과적으로 지원하기 위해 LLM을 기반으로 하는 경량 협업 검색 에이전트인 CoSearchAgent를 제안합니다. CoSearchAgent는 이 플랫폼에서 다자간 대화 중 협업 검색을 지원할 수 있는 Slack 플러그인으로 설계되었습니다. 다중 사용자 대화에서 쿼리와 컨텍스트를 이해하는 기능과 API를 통해 웹에서 관련 정보를 검색하는 기능을 갖춘 CoSearchAgent는 관련 검색 결과를 기반으로 한 답변으로 사용자 쿼리에 응답할 수 있습니다. 또한 필요한 정보가 불분명한 경우 명확한 질문을 할 수도 있습니다. 제안된 CoSearchAgent는 매우 유연하며 협업 검색에 대한 추가 연구를 지원하는 데 유용할 것입니다. 코드와 데모 동영상에 액세스할 수 있습니다. [abs|pdf]

[41/95] ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs

Keywords: explanations_consistently_enhances, natural_language_explanations, models_generate_explanations
Abstract: 엑사랭커는 최근 자연어 설명을 추가 레이블로 통합하여 정보 검색(IR) 모델을 훈련하는 접근 방식을 도입했습니다. 이 방법은 제한된 레이블 예제의 문제를 해결하여 IR 모델의 효율성을 개선합니다. 그러나 초기 결과는 비용과 데이터 프라이버시로 인해 데이터 세트 크기에 제약이 있는 GPT-3.5와 같은 독점 언어 모델을 기반으로 했습니다. 이 백서에서는 설명을 생성하기 위해 오픈 소스 언어 모델을 사용하는 방법을 적용하고 탐구하는 ExaRanker-Open을 소개합니다. 이 방법은 데이터 증강의 효과적인 기여도를 더 잘 이해하기 위해 다양한 LLM과 데이터 세트 크기를 사용해 테스트되었습니다. 그 결과, 설명을 통합하면 신경 랭커가 일관되게 향상되며, LLM 크기가 커질수록 이점이 증가한다는 사실이 밝혀졌습니다. 특히, 데이터 증강 방식은 대규모 데이터 세트에서도 유리한 것으로 나타났는데, 이는 연구에서 ExaRanker가 목표 기준선을 0.6 nDCG@10 포인트 초과 달성한 것에서 알 수 있듯이 입증되었습니다. 연구 커뮤니티의 추가 발전을 장려하기 위해 코드와 데이터 세트를 이 https URL에서 오픈 소스화했습니다. [abs|pdf]

[42/95] A New Approach to Voice Authenticity

Keywords: categorizing_audio_fake, voice_faking_driven, voice_faking
Abstract: 최근 텍스트 음성 변환(TTS) 합성 기술의 발전으로 인한 음성 위조는 사회적으로 심각한 문제를 야기하고 있습니다. 현재 일반적인 가정은 변경되지 않은 사람의 음성은 진품으로 간주할 수 있고, 가짜 음성은 TTS 합성에서 비롯된다는 것입니다. 저희는 이러한 이분법적 구분이 지나치게 단순화되어 있다고 주장합니다. 예를 들어 '취한 낸시 펠로시' 사건에서처럼 재생 속도를 변경하면 악의적인 목적으로 사용될 수 있습니다. 마찬가지로 오디오 클립의 편집은 뉴스 보도나 팟캐스트에서 간결성이나 요약 등을 위해 윤리적으로 이루어질 수 있지만, 편집을 통해 오해의 소지가 있는 내러티브를 만들 수도 있습니다. 이 백서에서는 오디오가 '가짜'이거나 '진짜'라는 이분법적 패러다임에서 벗어나 개념적 전환을 제안합니다. 대신 필터와 컷과 같은 전통적인 수정은 물론 TTS 합성 및 VC 시스템을 포함하는 '음성 편집'을 정확히 파악하는 데 중점을 둡니다. 6가지 범주를 정의하고 M-AILABS 말뭉치에 기반한 새로운 챌린지 데이터 세트를 큐레이팅하여 기준 탐지 시스템을 제시합니다. 그리고 가장 중요한 것은 단순히 오디오를 가짜 또는 진짜로 분류하는 것은 음성 기술 분야를 발전시키지 못하는 위험한 지나친 단순화라고 주장합니다. [abs|pdf]

[43/95] A Functional Analysis Approach to Symbolic Regression

Keywords: genetic_programming_gp, programming_gp_algorithms, symbolic_regression
Abstract: 기호 회귀(SR)는 입출력 매핑을 위한 표현식 합성에 의존하기 때문에 무작위 검색 휴리스틱에 상당한 문제를 제기합니다. 기존의 유전 프로그래밍(GP) 알고리즘은 다양한 영역에서 성공을 거두었지만, 트리 기반 표현을 SR에 사용할 경우 성능이 제한적입니다. 이러한 한계를 해결하기 위해 기능 분석에서 인사이트를 도출하는 푸리에 트리 성장(FTG)이라는 새로운 SR 접근 방식을 도입했습니다. 이 새로운 관점을 통해 다른 공간에서 직접 최적화를 수행할 수 있으므로 복잡한 기호 표현을 피할 수 있습니다. 우리가 제안한 알고리즘은 다양한 고전적인 1차원 벤치마킹 문제에서 기존 GP 방식에 비해 상당한 성능 향상을 보였습니다. GP와 FTG의 제한 요소를 파악하고 설명하기 위해 최대 100차까지 고차 다항식으로 구성된 대규모 다항식 벤치마크에서 실험을 수행합니다. 저자가 아는 한, 이 연구는 SR 문제 해결을 위한 기능 분석의 선구적인 적용을 나타냅니다. 제안된 알고리즘의 뛰어난 성능과 GP의 한계에 대한 통찰력은 SR 및 설명 가능한 머신 러닝의 관련 영역에서 GP를 더욱 발전시킬 수 있는 길을 열어줍니다. [abs|pdf]

[44/95] AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems

Keywords: interacting_machine_learning, interaction_machine_learning, human_interaction_machine
Abstract: 우리는 매일 머신러닝 모델을 통해 중요한 작업과 결정을 자동화하고 지원하는 데 점점 더 많이 의존하고 있습니다. 이러한 증가 추세는 이제 인간이 머신러닝 기반 시스템과 끊임없이 상호작용하며 매일 모델을 훈련하고 사용한다는 것을 의미합니다. 컴퓨터 과학 문헌에는 인간과 머신러닝 시스템의 상호작용을 설명하는 여러 가지 기술이 있지만, 그 분류가 명확하지 않고 목표도 다양합니다. 이 설문조사는 하이브리드 의사결정 시스템의 분류법을 제안하여 현재 컴퓨터 과학 문헌이 인간과 기계 간의 상호작용을 모델링하는 방식을 이해하기 위한 개념적 및 기술적 프레임워크를 제공합니다. [abs|pdf]

[45/95] On the Efficacy of Eviction Policy for Key-Value Constrained Generative Language Model Inference

Keywords: key_value_cache, memory_computational_demands, value_cache
Abstract: 최근 대규모 언어 모델(LLM)이 큰 성공을 거두었지만, 과도한 메모리와 연산 요구로 인해 리소스가 제한된 환경에서 배포하기에는 비용이 많이 듭니다. 모델 매개변수 외에도 키-값 캐시는 GPU 메모리에 저장되며, 배치 크기와 시퀀스 길이에 따라 선형적으로 증가합니다. 이에 대한 해결책으로 최근 연구에서는 주어진 예산 내에서 키-값 캐시의 오버헤드를 유지하기 위한 다양한 퇴거 정책을 제안했습니다. 본 논문에서는 기존 퇴출 정책의 효율성을 '중요도 점수 계산'과 '퇴출 범위 구성' 측면에서 살펴봅니다. 이 두 가지 측면에서 기존 정책의 결함을 파악하고, 시간적 관심도 점수와 견고성 측정에 기반한 Robust Cache omission 정책인 RoCo를 소개합니다. 사전 채우기 및 자동 회귀 디코딩 단계에 걸친 광범위한 실험을 통해 RoCo의 우수성을 검증했습니다. 마지막으로, 사용자 친화적인 키-값 제약 생성 추론 전용 다목적 소프트웨어 패키지인 EasyKV를 출시합니다. URL{이 https URL}에서 코드를 확인할 수 있습니다. [abs|pdf]

[46/95] Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning

Keywords: prompt_adversarial_tuning, named_prompt_adversarial, prompt_adversarial
Abstract: 대규모 언어 모델(LLM)은 다양한 애플리케이션에서 큰 성공을 거두었지만, 내장된 안전 조치를 우회하여 위험하거나 불법적인 콘텐츠를 제공하도록 유도할 수 있는 특정 프롬프트(탈옥이라고 알려진 현상)에도 취약합니다. LLM이 유해한 정보를 생성하지 못하도록 보호하기 위해 다양한 방어 전략이 제안되고 있으며, 대부분 콘텐츠 필터링 또는 모델의 적대적 학습에 중점을 두고 있습니다. 이 백서에서는 방어 제어 메커니즘을 훈련하고, 이를 사용자 프롬프트에 접두사로 삽입하여 방어 전략을 구현하는 프롬프트 적대적 튜닝(PAT)이라는 접근 방식을 제안합니다. 저희는 최적화된 목표를 달성하기 위해 적대적 훈련과 유사한 훈련 프로세스를 설계하여 공격과 방어 제어를 번갈아 가며 업데이트합니다. 저희가 알기로는 프롬프트 튜닝의 관점에서 방어를 구현한 것은 이번이 처음입니다. 이 방법을 도입하면 LLM의 운영 효율성에 거의 영향을 미치지 않습니다. 실험 결과, 우리의 방법은 블랙박스 및 화이트박스 환경 모두에서 효과적이며, 지능형 공격의 성공률을 거의 0에 가깝게 낮추는 동시에 간단한 양성 질문에 대한 양성 답변 비율을 80%로 유지했습니다. 이 연구는 향후 LLM 보안에 대한 새로운 관점을 제시할 수 있을 것으로 기대됩니다. [abs|pdf]

[47/95] Exploring Interaction Patterns for Debugging: Enhancing Conversational Capabilities of AI-assistants

Keywords: responses_conversations_developers, conversations_developers, ai_assistant_debugging
Abstract: 통합 개발 환경(IDE) 내에서 대규모 언어 모델(LLM)이 널리 보급되면서 빠른 속도로 채택되고 있습니다. 프로그래머는 LLM과의 대화형 상호작용을 통해 다양한 소프트웨어 개발 작업에 대한 자연어 설명을 얻을 수 있습니다. 그러나 LLM은 충분한 맥락 없이 성급하게 행동에 옮기는 경우가 많아 암묵적인 가정과 부정확한 응답을 초래할 수 있습니다. 개발자와 LLM 간의 대화는 주로 질문과 답변 쌍으로 구성되며, 개발자는 올바른 질문을 하고 여러 차례에 걸쳐 대화를 지속할 책임이 있습니다. 이 백서에서는 상호 작용 패턴과 대화 분석에서 영감을 얻어 디버깅을 위한 향상된 대화형 AI 어시스턴트인 Robin을 설계했습니다. 12명의 업계 전문가를 대상으로 한 내부 사용자 연구를 통해 (1) 삽입 확장 상호 작용 패턴을 활용하고, (2) 턴-테이킹을 용이하게 하며, (3) 디버깅 워크플로우를 활용할 수 있도록 LLM을 장착하면 대화 장벽이 낮아지고 효과적인 오류 위치 파악이 가능하며 버그 해결률이 5배 향상된다는 사실을 발견했습니다. [abs|pdf]

[48/95] The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Keywords: generation_tasks_intriguingly, generative_excellence_evaluation, skilled_generation_tasks
Abstract: 이 백서에서는 생성 작업에 숙련된 대규모 언어 모델(LLM)이 평가 작업에도 똑같이 능숙하다는 가정을 살펴봅니다. 질문-응답(QA) 및 평가 작업에서 3개의 LLM과 1개의 오픈 소스 LM의 성능을 TriviaQA(Joshi et al., 2017) 데이터 세트를 사용하여 평가합니다. 그 결과, 생성 작업에 비해 평가 작업에서 LLM이 더 낮은 성능을 보이는 등 상당한 격차가 있는 것으로 나타났습니다. 흥미롭게도 모델이 역량이 부족한 영역에서 답을 정확하게 평가하는 불충실 평가 사례를 발견하여 평가자로서 LLM의 충실성과 신뢰성을 검토할 필요성을 강조했습니다. 이 연구는 생성적 우수성과 평가 숙련도 간의 상관관계를 탐구할 필요성과 모델 평가에서 충실성 측면을 면밀히 조사할 필요성을 강조하는 "생성적 AI 역설"(West et al., 2023)에 대한 이해에 기여합니다. [abs|pdf]

[49/95] Large Language Models: A Survey

Keywords: large_language_models, language_models_llms, language_understanding_generation
Abstract: 대규모 언어 모델(LLM)은 2022년 11월 ChatGPT 출시 이후 다양한 자연어 작업에 대한 강력한 성능으로 인해 많은 관심을 받고 있습니다. LLM의 범용 언어 이해 및 생성 능력은 대규모 텍스트 데이터에 대해 수십억 개의 모델 파라미터를 훈련함으로써 획득되며, 이는 스케일링 법칙에 따라 예측됩니다. LLM의 연구 분야는 매우 최근에 시작되었지만 다양한 방식으로 빠르게 발전하고 있습니다. 이 백서에서는 널리 사용되는 세 가지 LLM 제품군(GPT, LLaMA, PaLM)을 포함해 가장 눈에 띄는 LLM을 검토하고 그 특징, 기여도 및 한계에 대해 논의합니다. 또한 LLM을 구축하고 보강하기 위해 개발된 기술에 대한 개요도 제공합니다. 그런 다음 LLM 훈련, 미세 조정 및 평가를 위해 준비된 인기 있는 데이터 세트를 조사하고, 널리 사용되는 LLM 평가 지표를 검토하며, 대표적인 벤치마크 세트에서 몇 가지 인기 있는 LLM의 성능을 비교합니다. 마지막으로 미해결 과제와 향후 연구 방향에 대해 논의하며 백서를 마무리합니다. [abs|pdf]

[50/95] A self-supervised framework for learning whole slide representations

Keywords: self_supervised_slide, self_supervised_representation, representations_self_supervised
Abstract: 전체 슬라이드 이미징은 생물의학 현미경 검사 및 컴퓨터 병리학의 기본입니다. 그러나 전체 슬라이드 이미지(WSI)는 기가픽셀 크기, 다양한 조직 병리학적 특징, 공간적 이질성, 데이터 주석의 제한/부재로 인해 복잡한 컴퓨터 비전 과제를 안고 있습니다. 이러한 과제는 지도 학습만으로는 전체 슬라이드 표현이 최적이 아닌 결과를 초래할 수 있다는 점을 강조합니다. 자가 지도 표현 학습은 암 진단이나 분자 유전적 예측과 같은 다운스트림 진단 작업을 위한 고품질 WSI 시각적 특징 학습을 달성할 수 있습니다. 여기에서는 기가픽셀 규모의 WSI 자가 감독을 위한 일반적인 자가 감독 전체 슬라이드 학습(S3L) 프레임워크를 소개합니다. S3L은 트랜스포머 기반 비전과 언어 모델링의 데이터 변환 전략을 하나의 통합 프레임워크에 결합하여 자가 감독을 위한 쌍을 이루는 뷰를 생성합니다. S3L은 WSI 내의 고유한 지역적 이질성, 조직학적 특징 가변성, 정보 중복성을 활용하여 고품질의 전체 슬라이드 표현을 학습합니다. 두 가지 생물의학 현미경 검사 방식에 대한 두 가지 진단 작업에 대해 S3L 시각적 표현을 벤치마킹합니다. S3L은 암 진단 및 유전자 돌연변이 예측에서 WSI 기준선보다 훨씬 뛰어난 성능을 보였습니다. 또한 S3L은 도메인 내 및 배포 외 패치 인코더를 모두 사용하여 우수한 성능을 달성하여 뛰어난 유연성과 일반화 가능성을 보여줍니다. [abs|pdf]

[51/95] Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

Keywords: shot_imitation_learning, shot_policy_learning, deepmind_control
Abstract: 순차적 의사 결정 작업에서 소수의 정책 학습 효율성을 개선하기 위해 설계된 멀티태스크 특징 표현 학습 접근 방식인 Premier-TACO를 소개합니다. Premier-TACO는 멀티태스크 오프라인 데이터 세트의 하위 집합을 활용하여 중요한 환경 역학을 포착하고 최소한의 전문가 데모를 통해 미세 조정된 일반 특징 표현을 사전 학습합니다. 새로운 네거티브 예제 샘플링 전략을 통합하여 시각 제어 작업에서 최첨단 결과로 알려진 시간적 행동 대조 학습(TACO)의 목표를 발전시켰습니다. 이 전략은 TACO의 계산 효율성을 크게 향상시켜 대규모 멀티태스크 오프라인 사전 학습을 실현하는 데 핵심적인 역할을 합니다. 딥마인드 컨트롤 스위트, 메타월드, 리베로 등 다양한 연속 제어 벤치마크에서 실시한 광범위한 경험적 평가는 시각적 표현을 사전 훈련하여 새로운 작업에 대한 소수 샷 모방 학습을 크게 향상시키는 프리미어-TACO의 효과를 입증합니다. 코드, 사전 학습 데이터, 사전 학습된 모델 체크포인트는 이 https URL에서 공개됩니다. 프로젝트 웹 페이지는 이 https URL에 있습니다. [abs|pdf]

[52/95] Development and validation of an artificial intelligence model to accurately predict spinopelvic parameters

Keywords: spinopelvic_radiographic_parameters, spinepose_accurately_predicted, measurement_spinopelvic_radiographic
Abstract: 목표. 적절한 척추 골반 정렬을 달성하는 것은 임상 증상 개선과 관련이 있는 것으로 나타났습니다. 그러나 척추 골반 방사선 파라미터의 측정은 시간이 많이 걸리고 관찰자 간 신뢰성이 우려됩니다. 자동화된 측정 도구는 신속하고 일관된 측정을 약속하지만 기존 도구는 여전히 어느 정도의 수동 사용자 입력 요구 사항으로 인해 제한적입니다. 이 연구에서는 수동 입력 없이도 척추 골반 파라미터를 높은 정확도로 자동으로 예측하는 새로운 인공지능(AI) 도구인 SpinePose를 소개합니다.
방법. 761개의 시상면 전체 척추 엑스레이를 학습하고 검증하여 시상면 수직축(SVA), 골반 경사(PT), 골반 발생(PI), 천골 경사(SS), 요추 전만(LL), T1 골반 각도(T1PA) 및 L1 골반 각도(L1PA)를 예측했습니다. 펠로우십 수련을 받은 척추 전문의와 신경방사선과 하위 전문과목 인증을 받은 펠로우십 수련을 받은 방사선 전문의 등 4명의 검토자가 40장의 엑스레이로 구성된 별도의 테스트 세트에 라벨을 붙였습니다. 테스트 이미지의 모델 정확도를 결정하기 위해 가장 고위 리뷰어와 관련된 오류의 중앙값을 계산했습니다. 평가자 간 신뢰도를 평가하기 위해 클래스 내 상관관계 계수(ICC)를 사용했습니다.
결과. SpinePose의 매개변수 오차 중앙값(사분위수 범위)은 다음과 같습니다: SVA: 2.2(2.3)mm, p=0.93; PT: 1.3(1.2)°, p=0.48; SS: 1.7(2.2)°, p=0.64; PI: 2.2(2.1)°, p=0.24; LL: 2.6(4.0)°, p=0.89; T1PA: 1.1(0.9)°, p=0.42; 그리고 L1PA: 1.4(1.6)°, p=0.49입니다. 모델 예측은 또한 모든 매개변수에서 우수한 신뢰도를 보였습니다(ICC: 0.91-1.0).
결론. SpinePose는 펠로우십 교육을 받은 척추 전문의와 신경방사선 전문의에 필적하는 뛰어난 신뢰도로 척추 골반 파라미터를 정확하게 예측했습니다. 척추 영상에서 예측 AI 도구를 활용하면 환자 선택과 수술 계획에 상당한 도움이 될 수 있습니다. [abs|pdf]

[53/95] MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Keywords: editing_music_generated, text_music_generation, music_editing
Abstract: 최근 텍스트-음악 생성 모델의 발전으로 음악 창작의 새로운 길이 열렸습니다. 그러나 음악 생성에는 일반적으로 반복적인 수정 작업이 수반되며, 생성된 음악을 편집하는 방법은 여전히 중요한 과제로 남아 있습니다. 이 논문에서는 이러한 모델로 생성된 음악을 편집할 때 장르, 분위기, 악기 등 특정 속성만 수정하고 다른 부분은 그대로 유지할 수 있는 새로운 접근 방식을 소개합니다. 저희의 방식은 텍스트 편집을 잠재 공간 조작으로 변환하는 동시에 일관성을 유지하기 위한 제약 조건을 추가합니다. 이 방법은 추가 학습 없이도 기존의 사전 학습된 텍스트-음악 확산 모델과 원활하게 통합됩니다. 실험 결과, 스타일 및 음색 전달 평가에서 제로 샷과 특정 감독 기준선 모두에서 우수한 성능을 보여주었습니다. 또한 실제 음악 편집 시나리오에서 이 접근 방식의 실제 적용 가능성을 보여줍니다. [abs|pdf]

[54/95] Learning Contrastive Feature Representations for Facial Action Unit Detection

Keywords: augment_supervised, augment_supervised_signal, discriminative_features_deviating
Abstract: 얼굴 동작 단위(AU) 감지에 대한 일반적인 접근 방식은 감독된 다중 레이블 이진 분류 문제를 중심으로 이루어집니다. 기존 방법론은 종종 AU의 픽셀 수준 정보를 인코딩하기 때문에 모델 복잡성과 표현력에 상당한 요구 사항이 부과됩니다. 또한 이러한 방식은 노이즈가 많은 AU 레이블의 존재로 인해 과적합에 대한 민감도를 높입니다. 본 연구에서는 지도 신호와 자기 지도 신호로 강화된 대조 학습 프레임워크를 소개합니다. 이 프레임워크의 목표는 AU 감지 영역에서 기존의 픽셀 수준 학습 패러다임에서 벗어나 차별적인 특징을 획득하는 것입니다. 노이즈가 많은 AU 레이블로 인한 문제를 해결하기 위해 자체 감독 신호를 도입하여 감독 신호를 보강합니다. 이 증강은 세 가지 유형의 양성 샘플 쌍을 포함하는 양성 샘플 샘플링을 통해 이루어집니다. 또한, 각 AU 유형의 불균형한 분포를 완화하기 위해 소수 AU에 맞춘 중요도 재가중화 전략을 사용합니다. 이 전략을 캡슐화하기 위해 AUNCE로 표시되는 결과 손실이 제안되었습니다. 널리 활용되는 두 가지 벤치마크 데이터 세트(BP4D 및 DISFA)를 대상으로 실시한 실험적 평가는 AU 탐지 영역에서 최신 방법과 비교했을 때 저희 접근법의 우수한 성능을 입증합니다. [abs|pdf]

[55/95] Assortment Planning with Sponsored Products

Keywords: assortment_plan_optimizes, formulate_assortment_planning, assortment_planning_challenge
Abstract: 빠르게 진화하는 리테일 환경에서 상품 구색 계획은 비즈니스의 성공을 결정하는 데 중요한 역할을 합니다. 스폰서 제품이 등장하고 온라인 마켓플레이스에서 그 중요성이 커지면서 리테일러들은 스폰서 제품이 존재하는 상황에서 제품 구색을 효과적으로 관리해야 하는 새로운 과제에 직면해 있습니다. 놀랍게도, 상품 구색 계획에 관한 기존 연구에서는 스폰서 제품의 존재와 그것이 전반적인 추천 효과에 미치는 잠재적 영향을 간과하고 있습니다. 대신 모든 제품이 오가닉 또는 비스폰서 제품이라는 단순화된 가정을 하는 것이 일반적입니다. 이러한 연구 격차는 스폰서 상품이 존재할 때 어소트먼트 플래닝 문제에 대한 보다 철저한 조사의 필요성을 강조합니다. 우리는 스폰서 제품이 있는 경우의 구색 계획 문제를 조합 최적화 과제로 공식화합니다. 궁극적인 목표는 스폰서 제품을 전략적으로 배치하는 데 필요한 특정 요건을 고려하면서 예상 수익을 최적화하는 구색 계획을 계산하는 것입니다. [abs|pdf]

[56/95] Rethinking Node-wise Propagation for Large-scale Graph Learning

Keywords: scalable_graph_neural, graph_neural_networks, networks_gnns_emerged
Abstract: 확장 가능한 그래프 신경망(GNN)은 수많은 대규모 그래프 기반 웹 애플리케이션에서 뛰어난 예측 성능과 높은 실행 효율성을 보여주는 유망한 기술로 떠오르고 있습니다. 그러나 (i) 대부분의 확장 가능한 GNN은 그래프의 모든 노드를 동일한 전파 규칙으로 처리하여 노드의 토폴로지 고유성을 무시하는 경향이 있으며, (ii) 기존의 노드별 전파 최적화 전략은 노드의 로컬 속성을 완전히 묘사해야 하는 복잡한 토폴로지를 가진 웹 규모의 그래프에서는 불충분합니다. 직관적으로 웹 스케일 그래프에서 노드마다 고유한 토폴로지적 역할이 있기 때문에 무분별하게 전파하거나 로컬 컨텍스트를 무시하면 노드 표현의 품질이 저하될 수 있습니다. 웹 스케일 그래프의 복잡한 토폴로지는 소규모 시나리오와 비교할 수 없습니다. 위의 문제를 해결하기 위해, 저희는 잠재적인 고편향 전파를 줄이고 확장 가능한 방식으로 각 노드의 구조적 패턴을 추출하여 실행 효율과 예측 성능을 향상시키는 Adaptive Topology-aware Propagation(ATP)을 제안합니다. 놀랍게도 ATP는 플러그 앤 플레이 방식의 노드별 전파 최적화 전략으로 설계되어 새로운 관점에서 그래프 학습 과정과 독립적으로 오프라인 실행이 가능합니다. 따라서 이 접근 방식은 기존의 노드 단위 전파 최적화 전략과 직교하면서 대부분의 확장 가능한 GNN에 원활하게 통합될 수 있습니다. 가장 대표적인 대규모 ogbn-papers100M을 포함한 12개의 데이터 세트에 대한 광범위한 실험을 통해 ATP의 효과가 입증되었습니다. 특히, ATP는 중복 계산 비용을 해결하면서 반지도 노드 분류를 위해 널리 사용되는 확장 가능한 GNN의 성능을 개선하는 데 효율적임이 입증되었습니다. [abs|pdf]

[57/95] Learn To be Efficient: Build Structured Sparsity in Large Language Models

Keywords: structured_activation_sparsity, llms_learn_efficient, activation_sparsity_llms
Abstract: 대규모 언어 모델(LLM)은 10억 개 수준의 파라미터로 괄목할 만한 성공을 거두었지만 추론 오버헤드가 높습니다. LLM에서 활성화 희소성의 출현은 매개변수의 일부만 추론에 사용함으로써 이러한 비용을 줄일 수 있는 자연스러운 접근 방식을 제공합니다. 기존 방법들은 자연적으로 형성된 활성화 희소성을 활용하는 데만 초점을 맞추기 때문에 이 내재적 희소성을 더욱 증폭시킬 수 있는 잠재력을 간과하고 있습니다. 이 논문에서는 LLM이 보다 구조화된 활성화 희소성을 달성함으로써 효율적인 학습을 할 수 있다는 가설을 세웁니다. 이를 위해 효율을 인식하는 LLM이 더 적은 수의 뉴런을 활성화하는 방법을 학습하고 희소성과 성능 간의 더 나은 균형을 달성하도록 훈련하도록 설계된 새로운 알고리즘인 LTE(Learn-To-be-Efficient)를 소개합니다. 또한, 주로 ReLU 기반 모델에 중점을 두는 SOTA MoEfication 방법과 달리 LTE는 소프트 활성화 기능을 갖춘 GPT 및 LLaMA와 같은 LLM에도 적용할 수 있습니다. 4개의 모델과 11개의 데이터 세트에서 LTE를 평가합니다. 실험 결과 LTE가 희소성과 작업 성능 사이에서 더 나은 절충점을 달성하는 것으로 나타났습니다. 예를 들어, LLaMA가 포함된 LTE는 언어 생성 작업에서 1.83배-2.59배의 FLOPs 속도 향상을 제공하여 최신 방법보다 성능이 뛰어납니다. [abs|pdf]

[58/95] ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Keywords: grained_reward_modeling, vision_language_models, language_models_image
Abstract: 자연어 이해와 대규모 언어 모델의 생성 능력 및 폭넓은 지식을 이미지 인식과 결합함으로써 최근의 대규모 비전 언어 모델(LVLM)은 실제 세계에서 전례 없는 추론 능력을 보여주고 있습니다. 그러나 생성된 텍스트는 시각적 입력에 대한 부정확한 근거로 인해 존재하지 않는 장면 요소를 환각하거나 장면의 중요한 부분을 놓치거나 객체 간의 잘못된 속성과 관계를 추론하는 등의 오류를 일으키는 경우가 많습니다. 이러한 문제를 해결하기 위해 유니티는 세분화된 보상 모델링을 활용하여 사전 학습된 기준선보다 LVLM의 시각적 근거를 크게 향상시키는 새로운 프레임워크인 ViGoR(Visual Grounding Through Fine-Grained Reward Modeling)을 도입했습니다. 이러한 개선은 전체 감독 대신 훨씬 저렴한 인력 평가와 자동화된 방법을 사용하여 효율적으로 달성할 수 있습니다. 저희는 여러 벤치마크에서 다양한 지표를 통해 접근 방식의 효과를 입증하고 있습니다. 또한 LVLM의 시각적 접지 기능을 검증하기 위해 특별히 고안된 포괄적이고 까다로운 데이터 세트를 구축합니다. 마지막으로, 커뮤니티의 관련 연구에 기여하기 위해 약 16,000개의 이미지와 생성된 텍스트 쌍으로 구성된 휴먼 주석을 세분화된 평가와 함께 공개할 계획입니다. [abs|pdf]

[59/95] LLMs for Coding and Robotics Education

Keywords: robot_coding_education, robot_code_generation, robot_code
Abstract: 대규모 언어 모델과 다중 모드 대규모 언어 모델은 최근 인공 지능에 혁신을 가져왔습니다. 이제 점점 더 많은 지역에서 이러한 첨단 기술을 도입하고 있습니다. 이러한 맥락에서 로봇 코딩 교육이 점점 더 주목을 받고 있습니다. 어린 아이들에게 코딩 방법을 가르치고 로봇 챌린지에서 경쟁하기 위해 로봇 코드 설명, 생성 및 수정에 대규모 언어 모델이 활용되고 있습니다. 이 백서에서는 로봇 코딩 교육에서 중요한 트렌드를 강조합니다. 전통적인 코딩 작업과 블록 다이어그램을 포함하는 보다 까다로운 로봇 코드 생성 작업 모두에서 몇 가지 주요 대형 언어 모델을 테스트합니다. 테스트 결과 GPT-4V는 모든 테스트에서 다른 모델보다 우수한 성능을 보였지만 블록 다이어그램 이미지를 생성하는 데는 어려움을 겪었습니다. [abs|pdf]

[60/95] Multiple Instance Learning for Cheating Detection and Localization in Online Examinations

Keywords: clips_detect_cheating, cheating_behavior_detection, cheating_detection_framework
Abstract: 코로나바이러스감염증-19 전염병의 확산으로 인해 많은 강의와 시험이 온라인으로 진행되었습니다. 시험 감독 시스템의 부정 행위 탐지 모델은 장거리 시험의 공평성을 보장하는 데 중추적인 역할을 합니다. 그러나 부정행위는 드물고 대부분의 연구자들은 부정행위 탐지 작업에서 머리 자세, 시선 각도, 신체 자세, 배경 정보와 같은 특징을 종합적으로 고려하지 않습니다. 본 논문에서는 멀티플레인 인스탠스를 통한 부정행위 탐지 프레임워크인 CHEESE를 개발하여 제시합니다. 이 프레임워크는 약한 감독을 구현하는 라벨 생성기와 판별 특징을 학습하는 특징 인코더로 구성됩니다. 또한 이 프레임워크는 3D 컨볼루션으로 추출한 신체 자세 및 배경 특징과 OpenFace 2.0으로 캡처한 시선, 머리 자세 및 얼굴 특징을 결합합니다. 이러한 특징들은 비디오 클립의 시공간적 변화를 분석하기 위해 시공간적 그래프 모듈에 스티칭 방식으로 공급되어 부정 행위를 감지합니다. UCF-Crime, ShanghaiTech, 온라인 시험 감독(OEP)의 세 가지 데이터 세트에 대한 실험을 통해 최신 접근 방식과 비교하여 우리 방법의 효과를 입증했으며, OEP 데이터 세트에서 87.58%의 프레임 수준 AUC 점수를 얻었습니다. [abs|pdf]

[61/95] Function Aligned Regression: A Method Explicitly Learns Functional Derivatives from Data

Keywords: practically_synthetic_datasets, synthetic_datasets_extensive, synthetic_datasets
Abstract: 회귀는 머신 러닝의 기본 작업으로 지난 수십 년 동안 많은 관심을 받아왔습니다. 회귀에 대한 기존의 접근 방식은 주로 각 개별 데이터 샘플에 대한 기준 진실에 모델 예측을 맞추는 데 집중하는 손실 함수를 사용하는데, 이는 여러 샘플 간의 관계에 대한 최적이 아닌 예측을 초래할 수 있다는 것을 보여 줍니다. 최근의 연구 노력은 회귀에 라벨 유사성 정보를 통합하여 새로운 관점을 도입했습니다. 그러나 이러한 접근 방식은 기본 실측 자료 함수의 복잡성을 완전히 포착하는 데 있어 눈에 띄는 격차가 존재합니다. 이 연구에서는 함수 도함수를 캡처하여 기준 진실의 기본 함수에 맞출 수 있는 더 우수하고 효율적인 솔루션으로 FAR(함수 정렬 회귀)을 제안합니다. 2개의 합성 데이터 세트와 6개의 벤치마크 데이터 세트에서 다른 8개의 경쟁 기준선과 함께 8개의 광범위한 실제 작업에서 제안한 방법의 효과를 실제로 입증합니다. 코드는 이 https URL에서 오픈 소스입니다. [abs|pdf]

[62/95] Rhizomes to Load Balance Skewed In-Degree Distributions

Keywords: graph_processing_rhizome, graph_traversal_large, bfs_graph_traversal
Abstract: 이 논문은 그래프의 높은 차수 분포로 인한 부하 불균형을 해결하기 위해 뿌리줄기 개념을 버텍스 중심의 메시지 중심 그래프 처리에 적용하는 것을 목표로 합니다. 그래프의 리좀 구성은 차수가 큰 단일 버텍스에 대해 여러 개의 명명된 버텍스 주소를 생성합니다. 그런 다음 다른 버텍스가 명명된 주소 중 하나를 가리키도록 허용하여 학위 부하를 공유할 수 있습니다. 뿌리줄기는 내부적으로 통신하고 일관성을 유지하여 버텍스에 대한 통합되고 정확한 보기를 제공합니다. 시뮬레이션된 실험 결과는 매우 왜곡된 차수 분포를 포함하는 테스트된 입력 그래프 데이터 세트에 대해 큰 칩 크기에서 BFS 그래프 탐색의 성능 속도 향상을 보여줍니다. 이러한 성능 향상은 메모리 처리 요소 간에 인-도 컴퓨팅 워크로드를 공유하고 네트워크 온 칩의 경합을 줄임으로써 이루어집니다. [abs|pdf]

[63/95] SubGen: Token Generation in Sublinear Time and Memory

Keywords: key_embeddings_attention, efficient_attention_decoding, embeddings_attention_module
Abstract: 대규모 언어 모델(LLM)은 상당한 성공을 거두었음에도 불구하고 광범위한 메모리 요구 사항으로 인해 긴 컨텍스트 토큰 생성에 배포하는 데 어려움을 겪고 있습니다. LLM 디코더의 상당한 메모리 사용량은 모든 이전 토큰을 주의 모듈에 저장해야 하기 때문에 발생하며, 이는 키-값(KV) 캐싱에 의해 부과되는 요구 사항입니다. 이 작업에서는 KV 캐시를 위한 효율적인 압축 기술을 개발하는 데 중점을 두고 있습니다. 경험적 증거에 따르면 관심 모듈의 주요 임베딩 내에서 상당한 클러스터링 경향이 나타납니다. 이러한 핵심 인사이트를 바탕으로 키 토큰에 온라인 클러스터링과 값에 온라인 $\ell_2$ 샘플링을 사용하는 비선형 복잡성을 가진 새로운 캐싱 방법을 고안해냈습니다. 그 결과 정확하고 효율적인 주의 집중 디코딩 알고리즘인 SubGen이 탄생했습니다. 이 알고리즘은 서브선형 메모리 공간과 서브선형 시간 복잡성을 보장할 뿐만 아니라 접근 방식에 대한 엄격한 오류 한계도 설정했습니다. 긴 문맥의 질문-답변 작업에 대한 경험적 평가에 따르면 SubGen은 성능과 효율성 측면에서 기존 및 최신 KV 캐시 압축 방법보다 훨씬 뛰어난 성능을 보여줍니다. [abs|pdf]

[64/95] DiscDiff: Latent Diffusion Model for DNA Sequence Generation

Keywords: dataset_dna_generation, generative_modelling_dna, dna_sequence_generation
Abstract: 이 백서에서는 두 가지 핵심 요소로 구성된 새로운 DNA 서열 생성 프레임워크를 소개합니다: 이산 DNA 서열을 생성하기 위해 맞춤화된 잠복 확산 모델(LDM)인 DiscDiff와 이러한 서열을 개선하기 위해 설계된 사후 훈련 알고리즘인 Absorb-Escape가 그것입니다. 흡수-이스케이프는 잠재 공간과 입력 공간 사이의 변환 과정에 내재된 '라운드 에러'를 보정하여 생성된 서열의 사실성을 향상시킵니다. 이러한 접근 방식은 DNA 서열 생성의 새로운 표준을 제시할 뿐만 아니라 짧은 서열과 긴 서열 모두에서 기존 확산 모델보다 우수한 성능을 보여줍니다. 또한, 15종의 16만 개의 고유 서열을 포함하는 최초의 포괄적인 다종 DNA 생성 데이터 세트인 EPD-GenDNA를 소개합니다. 이 연구가 유전자 치료와 단백질 생산에 잠재적인 영향을 미치며 DNA의 생성 모델링을 발전시킬 수 있기를 기대합니다. [abs|pdf]

[65/95] Gaussian Mixture Models for Affordance Learning using Bayesian Networks

Keywords: learning_affordances_autonomously, affordances_autonomously_sensory, learning_affordances
Abstract: 어포던스는 동작, 객체, 효과 간의 관계를 설명하는 기본 요소입니다. 어포던스는 로봇이 효과를 예측하고, 행동을 인식하고, 대상을 선택하고, 원하는 목표에 따라 행동을 계획할 수 있는 수단을 제공합니다. 이 논문에서는 구현된 에이전트가 세계를 탐색하고 감각 경험을 통해 이러한 어포던스를 자율적으로 학습하는 문제에 접근합니다. 이러한 지식을 인코딩하는 베이지안 네트워크의 구조와 매개변수를 학습하기 위한 모델이 존재합니다. 베이지안 네트워크는 불확실성과 중복성을 처리할 수 있지만, 이전 연구에서는 불연속적인 감각 데이터의 완전한 관찰 가능성을 고려했기 때문에 노이즈가 있을 경우 하드 에러가 발생할 수 있습니다. 이 논문에서는 가우스 혼합 모델(GMM)로 센서를 확률적으로 표현하고 각 이산 어포던스 개념에 포함된 확률 분포를 명시적으로 고려함으로써 보다 정확한 학습을 유도할 수 있는 방법을 고려합니다. [abs|pdf]

[66/95] Scaling Artificial Intelligence for Digital Wargaming in Support of Decision-Making

Keywords: intelligence_ai_wargaming, ai_wargaming, speed_deep_reinforcement
Abstract: 전례 없는 기술 중심의 변화의 시대에 의사 결정을 지원하는 강력한 워게이밍용 인공지능(AI) 개발에 공격적으로 투자하는 것이 그 어느 때보다 중요해졌습니다. AI 지원 시스템을 발전시키고 이를 인간의 판단과 결합하면 모든 영역에 대한 인식을 강화하고, 의사 결정 주기의 속도와 품질을 개선하고, 새로운 행동 방침을 추천하고, 적의 행동에 더욱 신속하게 대응할 수 있습니다. 따라서 현재 인간의 지능이 필요한 현대의 복잡한 과제와 딜레마를 더 잘 해결할 수 있도록 AI 개발을 가속화하고, 가능하다면 인간을 대체하는 것이 아니라 기계의 속도로 인간의 의사결정을 보강하고 더 나은 정보를 제공하기 위해 인간 지능을 뛰어넘는 시도를 하는 것이 필수적입니다. 심층 강화 학습은 전투 모델링과 시뮬레이션에서 흔히 볼 수 있는 장기적이고 복잡한 작업을 위한 지능형 에이전트 행동 개발에서 계속해서 유망한 결과를 보여주고 있지만, 개념 개발, 교육 또는 분석을 위해 워게임의 특징인 복잡하고 방대한 상태 공간을 처리할 수 있도록 AI를 확장하기 위해서는 더 많은 연구가 필요합니다. 이러한 문제를 해결하기 위해 유니티는 다중 모델 접근 방식과 차원 불변 관찰 추상화를 포함하는 계층적 강화 학습 프레임워크를 개발 및 구현하고 있습니다. [abs|pdf]

[67/95] Randomness Is All You Need: Semantic Traversal of Problem-Solution Spaces with Large Language Models

Keywords: idea_database_semantically, innovation_problem_solution, exploring_innovation_problem
Abstract: 사용자 지정 아이디어 데이터베이스로 LLM 미세 조정을 사용하여 혁신 문제 및 솔루션 도메인을 탐색하는 새로운 접근 방식을 제시합니다. 서로 다른 온도 수준에서 양방향 문제와 솔루션 트리를 의미론적으로 탐색함으로써 의미론적으로 원래 문제 진술에 가깝게 유지하면서 솔루션 편집 거리의 높은 다양성을 달성합니다. 이 방법은 주어진 문제에 대한 다양한 해결책을 찾는 것 외에도 원래의 문제 진술을 구체화하고 명확히 하는 데에도 사용할 수 있습니다. 접근 방식의 추가 검증을 위해 개념 증명 Slack 봇을 구현하여 혁신 도우미 역할을 수행했습니다. [abs|pdf]

[68/95] Anatomy of a Robotaxi Crash: Lessons from the Cruise Pedestrian Dragging Mishap

Keywords: safety_practices_organizational, safety_practices, explore_safety_lessons
Abstract: 2023년 10월 샌프란시스코에서 발생한 GM 크루즈 로봇택시와 보행자 간의 충돌 사고로 인해 심각한 부상자가 발생했을 뿐만 아니라 업계 전반에 걸쳐 지속적인 영향을 미칠 수 있는 극적인 격변이 일어났습니다. 이 문제는 충돌 사실 자체뿐만 아니라 충돌 후 최초 정차 후 로봇택시가 보행자를 차량 밑으로 끌고 가는 상황을 크루즈가 어떻게 잘못 처리했는지에 대한 문제도 있습니다. 한 쌍의 외부 조사 보고서는 사고를 설명하는 원시 자료를 제공하고 규제 상호 작용 관점에서 회사의 대응을 비판하지만 잠재적인 안전 권장 사항을 범위에 포함하지 않았습니다. 우리는 해당 보고서 자료를 사용하여 보고서 자료의 여러 부분을 서로 연결하여 구체적인 사실과 사건 간의 관계를 강조합니다. 그런 다음 기술, 운영 안전 관행, 사고에 대한 조직적 대응과 관련하여 배울 수 있는 안전 교훈을 살펴봅니다. [abs|pdf]

[69/95] Contrastive Approach to Prior Free Positive Unlabeled Learning

Keywords: unlabeled_pu_learning, unlabeled_examples_leveraging, labeling_unlabeled_examples
Abstract: 포지티브 비라벨링(PU) 학습은 라벨이 붙은 몇 개의 양성 샘플과 라벨이 없는 샘플 세트(양성 또는 음성일 수 있음)가 주어졌을 때 이진 분류기를 학습하는 작업을 말합니다. 이 백서에서는 전제 불변 표현 학습을 통해 특징 공간을 학습하는 것으로 시작한 다음, 임베딩의 집중 속성을 활용하여 레이블이 없는 예에 의사 레이블을 적용하는 새로운 PU 학습 프레임워크를 제안합니다. 전반적으로, 우리가 제안한 접근 방식은 여러 표준 PU 벤치마크 데이터 세트에서 최첨단 PU 학습 방법보다 훨씬 뛰어난 성능을 보이며, 선험적 지식이나 클래스 사전 추정이 필요하지 않습니다. 놀랍게도, 이 방법은 대부분의 PU 학습 알고리즘이 실패하는 라벨링 데이터가 부족한 경우에도 여전히 효과적입니다. 또한 제안한 알고리즘의 동기를 부여하는 간단한 이론적 분석을 제공하고 접근 방식의 일반화 보증을 확립합니다. [abs|pdf]

[70/95] Optimizing Predictive AI in Physical Design Flows with Mini Pixel Batch Gradient Descent

Keywords: physical_design_prediction, design_prediction_tasks, design_prediction
Abstract: 예측 AI의 폭발적인 발전으로 최신 칩 물리적 설계 흐름에서 빠르고 효과적인 평가와 의사 결정이 가능해졌습니다. 최신 프레임워크에는 일반적으로 예측과 실측값 간의 평균 제곱 오차(MSE)를 최소화하는 목표가 포함됩니다. 하지만 MSE의 평균화 효과는 모델 훈련과 배포 모두에서 한계를 유발하며, 우수한 MSE 동작은 예측 오류의 일부로 인해 방해받을 수 있는 물리적 설계 흐름을 지원하는 모델의 기능을 보장하지 못합니다. 이 문제를 해결하기 위해 가장 유익한 항목을 고려하여 더 빠르고 더 나은 수렴을 제공하는 플러그 앤 플레이 최적화 알고리즘인 미니 픽셀 배치 그라데이션 하강(MPGD)을 제안합니다. 대표적인 벤치마크 슈트에 대한 실험을 통해 CNN 또는 그래프 기반 모델을 사용하는 다양한 물리적 설계 예측 작업에서 MPGD의 상당한 이점을 확인할 수 있습니다. [abs|pdf]

[71/95] Game-theoretic Counterfactual Explanation for Graph Neural Networks

Keywords: predictions_counterfactual_explanations, graph_neural_networks, graph_neural
Abstract: 그래프 신경망(GNN)은 복잡한 네트워크에서 노드 분류 작업을 위한 강력한 도구로 사용되어 왔습니다. 그러나 의사 결정 과정은 사용자에게 여전히 블랙박스로 남아 있어 예측의 근거를 이해하기 어렵습니다. 사실과 반대되는 설명(CFE)은 머신 러닝 모델의 해석 가능성을 향상시키는 데 있어 가능성을 보여주었습니다. GNNS에 대한 CFE를 계산하는 기존의 접근 방식은 추가 그래프 학습이 필요한 학습 기반 접근 방식인 경우가 많습니다. 이 논문에서는 노드 분류 작업을 위한 CFE를 생성하기 위한 반값 기반의 비학습 접근법을 제안하여 추가 학습이 필요 없는 방법을 제시합니다. 연구 결과에 따르면 반자프 값을 계산하는 것은 샤플리 값 계산과 같은 다른 널리 사용되는 방법에 비해 사실과 반대되는 설명을 식별하는 데 더 낮은 샘플 복잡성을 필요로 합니다. 경험적 증거에 따르면 반자프 값을 계산하는 속도가 샤플리 값에 비해 최대 4배까지 빨라질 수 있습니다. 또한 반자프 값을 계산하기 위한 임계값을 설계하고 잡음이 많은 환경에서의 견고성에 대한 이론적 및 경험적 결과를 보여줌으로써 이 방법이 샤플리 값보다 우수하다는 것을 증명합니다. 또한 세 가지 인기 그래프 데이터 세트에서 설명의 품질(즉, 충실도)을 저하시키지 않으면서도 효율성을 향상시키는 임계값을 보여줍니다. [abs|pdf]

[72/95] Quantum neural network with ensemble learning to mitigate barren plateaus and cost function concentration

Keywords: quantum_neural_networks, quantum_neural_network, technology_quantum_neural
Abstract: 양자 컴퓨터의 급속한 발전은 과학과 기술의 다양한 분야에 걸쳐 혁신적인 영향을 미칠 것으로 기대됩니다. 양자 신경망(QNN)은 최전선 응용 분야로서 상당한 잠재력을 지니고 있습니다. 문헌에 제안된 수많은 모델에도 불구하고, 소실 경사(VG) 및 비용 함수 집중(CFC) 문제와 같은 지속적인 과제가 광범위한 성공을 가로막고 있습니다. 이 연구에서는 양자 신경망 구축에 대한 새로운 접근 방식을 소개하며, 특히 VG와 CFC 문제를 해결합니다. 우리의 방법론은 앙상블 학습을 사용하여 깊이 $L$의 단일 양자 회로를 사용하는 기존의 방식에서 벗어나 깊이 $1$의 여러 양자 회로를 동시에 배치하는 것을 옹호합니다. 우리는 기존에 구축된 QNN과의 비교 분석을 통해 제안된 모델의 효율성을 평가합니다. 이 평가는 분류 문제의 맥락에서 전개되며, 혁신적인 접근 방식의 잠재적 이점에 대한 귀중한 통찰력을 제공합니다. [abs|pdf]

[73/95] Decision Theory-Guided Deep Reinforcement Learning for Fast Learning

Keywords: guided_deep_reinforcement, deep_reinforcement, structured_informed_exploration
Abstract: 이 백서에서는 DRL의 내재적인 콜드 스타트 문제를 해결하기 위한 새로운 접근 방식인 의사 결정 이론 기반 심층 강화 학습(DT-guided DRL)을 소개합니다. DT 가이드 DRL은 의사 결정 이론 원리를 통합함으로써 복잡한 환경에서 에이전트의 초기 성능과 견고성을 향상시켜 학습 중에 보다 효율적이고 안정적인 융합을 가능하게 합니다. 이번 연구에서는 카트 폴과 미로 탐색 과제라는 두 가지 주요 문제 상황을 다루었습니다. 실험 결과는 의사 결정 이론의 통합이 DRL 에이전트의 효과적인 초기 안내를 촉진할 뿐만 아니라 특히 크고 복잡한 상태 공간을 특징으로 하는 환경에서 보다 구조화되고 정보에 입각한 탐색 전략을 촉진한다는 것을 보여줍니다. 실험 결과에 따르면 DT 가이드 DRL은 일반 DRL에 비해 훨씬 더 높은 보상을 제공할 수 있는 것으로 나타났습니다. 특히, 훈련의 초기 단계에서 DT 가이드 DRL은 누적 보상이 최대 184%까지 증가했습니다. 또한, 수렴에 도달한 후에도 우수한 성능을 유지하여 대규모 미로 문제에서 표준 DRL보다 최대 53% 더 많은 보상을 제공합니다. DT 가이드 DRL은 인간(디자이너)의 지식에 기반한 기능을 활용하여 DRL의 근본적인 문제를 완화하는 데 있어 진전을 이루었으며, 이 유망한 학제 간 영역의 추가 연구를 위한 토대를 마련했습니다. [abs|pdf]

[74/95] Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategy

Keywords: parameter_efficient_tensors, efficient_tensors_minimizing, activations_approximate_tensor
Abstract: 비전 트랜스포머(ViT)가 컴퓨터 비전의 새로운 벤치마크로 자리 잡으면서 추론 엔진에 실제로 배포하는 데 상당한 메모리 대역폭과 (온칩) 메모리 풋프린트 요구 사항으로 인해 어려움을 겪는 경우가 많습니다. 이 백서에서는 다양한 계층의 선택적 저순위 가중 텐서 근사치를 사용하여 ViT의 파라미터 수를 줄이는 활성화 인식 모델 압축 방법론을 도입하여 이러한 메모리 제한을 해결합니다. 핵심 아이디어는 가중 텐서를 두 개의 파라미터 효율적인 텐서의 합으로 분해하는 동시에 입력 활성화와 원래 가중 텐서의 곱과 입력 활성화와 근사 텐서 합의 곱 사이의 오차를 최소화하는 것입니다. 이 근사치는 레이어의 출력 손실 기울기를 사용하는 효율적인 레이어별 오류 보상 기법을 채택하여 더욱 정교해집니다. 이러한 기법의 조합은 최적화 프로세스 초기에 얕은 국부 최소값에 갇히는 것을 방지하고 모델 압축과 출력 정확도 간의 균형을 유지하면서 우수한 결과를 달성합니다. 특히, 제시된 방법은 ImageNet 데이터 세트에서 1% 미만의 정확도 저하로 DeiT-B의 파라미터 수를 60%까지 크게 줄여 낮은 순위 근사치에서 나타나는 일반적인 정확도 저하를 극복합니다. 이 외에도, 제시된 압축 기법을 사용하면 대형 데이트/ViT 모델을 압축하여 작은 데이트/ViT 변형과 거의 동일한 모델 크기를 가지면서도 최대 1.8%의 정확도 향상을 얻을 수 있습니다. 이러한 결과는 메모리 제약이 있는 환경에서 성능 저하 없이 ViT를 임베드할 수 있는 실행 가능한 솔루션을 제시하는 접근 방식의 효율성을 강조합니다. [abs|pdf]

[75/95] Do Large Code Models Understand Programming Concepts? A Black-box Approach

Keywords: counterfactual_analysis_programming, code_models, large_code_models
Abstract: 대규모 언어 모델은 텍스트 생성에서 성공을 거두면서 코드 생성 및 코딩 작업에서도 더 나은 성과를 거두었습니다. 많은 연구를 통해 코드 완성 및 편집과 같은 작업에서 뛰어난 성능이 입증되었지만, 그 이유는 아직 명확하지 않습니다. 저희는 자동 회귀 모델이 기본 프로그램의 논리적 구조를 어느 정도 이해하고 있는지 탐구함으로써 이러한 격차를 해소하는 데 도움을 드립니다. 대규모 코드 모델이 프로그래밍 개념을 이해하고 있는지 평가하기 위한 역설적 테스트 프레임워크로서 프로그래밍 개념 술어에 대한 역설적 분석(CACP)을 제안합니다. 모델에 대한 블랙박스 액세스 권한만 있는 상태에서 CACP를 사용하여 네 가지 프로그래밍 개념에 대해 널리 사용되는 10개의 대규모 코드 모델을 평가합니다. 그 결과 현재 모델들은 데이터 흐름과 제어 흐름과 같은 개념에 대한 이해가 부족한 것으로 나타났습니다. [abs|pdf]

[76/95] On the Standardization of Behavioral Use Clauses and Their Adoption for Responsible Licensing of AI

Keywords: ai_licenses_proposed, responsible_ai_licenses, ai_licenses
Abstract: AI의 부주의하거나 악의적인 사용에 대한 우려가 커지면서 기술의 위험을 관리할 수 있는 도구에 대한 요구가 높아졌습니다. 2018년에는 개발자가 부정적인 애플리케이션을 완화하기 위해 사용자를 지정하면서 AI 자산을 공개할 수 있는 프레임워크를 제공하기 위해 행동 사용 조항이 포함된 라이선스(일반적으로 책임 있는 AI 라이선스라고 함)가 제안되었습니다. 2023년 말 기준으로 약 40,000개의 소프트웨어 및 모델 리포지토리가 책임 있는 AI 라이선스를 채택했습니다. 행동적 사용 조항으로 라이선스가 부여된 주목할 만한 모델로는 BLOOM(언어) 및 LLaMA2(언어), Stable Diffusion(이미지), GRID(로보틱스) 등이 있습니다. 이 백서에서는 이러한 라이선스가 채택된 이유와 방법, 그리고 특정 사용 사례에 맞게 조정된 이유와 방법을 살펴봅니다. 이를 위해 정성적 인터뷰, 라이선스 조항의 클러스터링, 라이선스 채택에 대한 정량적 분석의 혼합 방법론을 사용합니다. 이러한 증거를 바탕으로 책임 있는 AI 라이선스가 사용자에게 혼란을 주거나 그 영향력이 희석되는 것을 방지하기 위해 표준화가 필요하다는 입장을 취합니다. 동시에 일부 상황(예: 의료 분야)에서는 행동 제한을 맞춤화하는 것도 적절합니다. 저희는 사용자의 요구를 충족할 수 있고 도구를 통해 지원할 수 있는 '표준화된 사용자 지정'을 지지합니다. [abs|pdf]

[77/95] Combining shape and contour features to improve tool wear monitoring in milling processes

Keywords: wear_milling_processes, classification_classification_wear, classifying_inserts_milling
Abstract: 이 논문에서는 컴퓨터 비전 기반 접근 방식에 따라 밀링 공정에서 인서트의 마모 수준에 따라 분류하기 위해 형상 설명자와 윤곽 설명자의 조합을 기반으로 하는 새로운 시스템을 제안했습니다. 마모 영역의 모양을 설명하기 위해 ShapeFeat라는 새로운 설명자를 제안했으며, 컴퓨터 비전 기반 접근 방식에 따라 공구 마모 모니터링에 가장 적합한 성능을 달성하는 BORCHIZ 방법을 사용하여 윤곽을 특성화했습니다. 그 결과 후기 융합 방법을 사용하여 BORCHIZ와 ShapeFeat를 결합하면 분류 성능이 크게 향상되어 이진 분류(즉, 마모를 높음 또는 낮음으로 분류)에서 91.44%, 세 가지 목표 클래스(즉, 마모를 높음, 중간 또는 낮음으로 분류)를 사용하면 82.90%의 정확도를 얻을 수 있습니다. 이러한 결과는 두 가지 설명자를 단독으로 사용했을 때 얻은 결과보다 더 우수한 것으로, ShapeFeat를 사용하면 2개와 3개 클래스의 정확도가 각각 88.70%와 80.67%, B-ORCHIZ를 사용하면 87.06%와 80.24%에 달했습니다. 이 연구는 밀링 공정에서 인서트의 마모 정도를 자동으로 분류할 수 있다는 점에서 제조 업계에 고무적인 결과를 가져다주었습니다. [abs|pdf]

[78/95] Tool wear monitoring using an online, automatic and low cost system based on local texture

Keywords: disposable_cutting_edges, edge_profile_milling, determine_cutting_tools
Abstract: 이 연구에서는 컴퓨터 비전과 머신러닝을 기반으로 엣지 프로파일 밀링 공정에 사용되는 절삭 공구의 마모 정도에 따라 서비스 가능 여부 또는 일회용 여부를 판단하는 새로운 온라인 저비용 고속 접근 방식을 제안합니다. 저희가 아는 한, 이러한 목적을 위해 충분한 품질을 갖춘 공개적으로 사용 가능한 최초의 데이터 세트인 254개의 엣지 프로파일 절삭 헤드 이미지로 구성된 새로운 데이터 세트를 만들었습니다. 모든 인서트를 세그먼트화하고 절단면을 잘라내어 577개의 절단면 이미지를 얻었습니다: 301개의 기능성 이미지와 276개의 일회용 이미지입니다. 제안된 방법은 (1) 마모 패치(WP)라고 하는 여러 영역으로 절삭날 이미지를 나누고, (2) 로컬 이진 패턴(LBP)의 다양한 변형을 기반으로 한 텍스처 설명자를 사용하여 각 이미지를 마모 또는 서비스 가능한 것으로 특성화하고, (3) 이러한 WP의 상태에 따라 절삭날(따라서 공구)이 서비스 가능한지 또는 일회용인지 결정하는 것을 기반으로 합니다. 우리는 다섯 가지 패치 분할 구성을 제안하고 평가했습니다. 개별 WP는 교차 커널이 있는 서포트 벡터 머신(SVM)으로 분류했습니다. WP에 가장 적합한 패치 분할 구성과 텍스처 설명자는 일회용 절삭날을 감지할 때 90.26%의 정확도를 달성했습니다. 이러한 결과는 엣지 프로파일 밀링 공정에서 자동 마모 모니터링을 위한 매우 유망한 기회를 보여줍니다. [abs|pdf]

[79/95] RankSum An unsupervised extractive text summarization based on rank fusion

Keywords: sentence_saliency_rankings, summary_ranks_sentences, sentences_summary_ranks
Abstract: 본 논문에서는 각 문장에 대해 추출된 4가지 다차원 문장 특징인 주제 정보, 의미 내용, 중요 키워드, 위치의 순위 융합을 기반으로 단일 문서의 텍스트 요약 추출을 위한 접근 방식인 Ranksum을 제안합니다. Ranksum은 비지도 방식으로 각 특징에 해당하는 문장 중요도 순위를 구한 다음, 네 가지 점수를 가중치로 융합하여 중요도에 따라 문장의 순위를 매깁니다. 점수는 완전히 비지도 방식으로 생성되며, 융합 가중치를 학습하려면 레이블이 지정된 문서 세트가 필요합니다. 융합 가중치가 다른 데이터 세트에 일반화될 수 있다는 것을 발견했기 때문에, 저희는 Ranksum을 비지도 접근법으로 간주합니다. 토픽 순위를 결정하기 위해 확률론적 토픽 모델을 사용하는 반면, 의미론적 정보는 문장 임베딩을 사용하여 캡처합니다. 문장 임베딩을 사용해 순위를 도출하기 위해, 우리는 샴 네트워크를 활용해 추상적인 문장 표현을 생성한 다음, 중요도에 따라 배열하는 새로운 전략을 수립합니다. 그래프 기반 전략을 적용하여 문서에서 중요한 키워드와 관련 문장 순위를 찾습니다. 또한 빅그램, 트라이그램, 문장 임베딩을 기반으로 문장 신규성 척도를 공식화하여 요약에서 중복된 문장을 제거합니다. 각 기능에 대해 계산된 모든 문장의 순위를 최종적으로 융합하여 문서 내 각 문장에 대한 최종 점수를 얻습니다. 공개적으로 사용 가능한 요약 데이터 세트인 CNN/DailyMail과 DUC 2002에서 우리의 접근 방식을 평가합니다. 실험 결과, 우리의 접근 방식이 기존의 다른 최신 요약 방법보다 우수한 성능을 보였습니다. [abs|pdf]

[80/95] A Deep Learning Approach for Brain Tumor Classification and Segmentation Using a Multiscale Convolutional Neural Network

Keywords: brain_tumor_segmentation, tumor_segmentation_classification, tumor_segmentation
Abstract: 이 논문에서는 다중 스케일 접근 방식을 포함하는 심층 컨볼루션 신경망을 사용한 완전 자동 뇌종양 분할 및 분류 모델을 제시합니다. 기존 연구와 비교하여 우리가 제안하는 모델의 차이점 중 하나는 입력 이미지가 서로 다른 처리 경로를 따라 세 가지 공간 스케일로 처리된다는 것입니다. 이 메커니즘은 인간 시각 시스템의 고유한 작동 방식에서 영감을 얻었습니다. 제안한 신경 모델은 뇌수막종, 신경교종, 뇌하수체 종양의 세 가지 유형의 종양이 포함된 MRI 영상을 시상, 관상, 축 방향에 걸쳐 분석할 수 있으며 두개골이나 척추 부분을 미리 제거하기 위한 입력 이미지의 전처리가 필요하지 않습니다. 233명의 환자 3064개 슬라이스로 구성된 공개적으로 사용 가능한 MRI 이미지 데이터 세트에서 이 방법의 성능을 기존의 머신러닝 및 딥러닝 방법과 비교했습니다. 비교 결과, 우리의 방법은 동일한 데이터베이스를 사용하는 다른 접근법보다 높은 0.973의 종양 분류 정확도를 기록했습니다. [abs|pdf]

[81/95] Modeling Spatio-temporal Dynamical Systems with Neural Discrete Learning and Levels-of-Experts

Keywords: optical_flow_estimation, flow_estimation_component, optical_flow
Abstract: 이 논문에서는 비디오 프레임과 같은 일련의 관측을 기반으로 시공간 동역학 시스템의 상태 변화를 모델링하고 추정하는 문제를 다룹니다. 기존의 수치 시뮬레이션 시스템은 구축된 편미분 방정식(PDE)의 초기 설정과 정확성에 크게 의존합니다. 최근의 노력으로 신경망을 이용한 데이터 기반 PDE를 발견하는 데 상당한 성공을 거두었지만, 단일 시나리오의 한계와 로컬 인사이트의 부재로 인해 더 광범위한 실제 상황에서 효과적으로 작동하지 못하고 있습니다. 이를 위해 이 논문에서는 범용 전문가 모듈, 즉 광학적 흐름 추정 구성 요소를 제안하여 데이터 기반 방식으로 일반적인 물리적 프로세스의 진화 법칙을 포착합니다. 국소적 특성은 다양한 내부 상황 정보의 영향을 받아 전체 시스템의 거시적 특성과 모순될 수 있으므로, 국소적 인사이트를 강화하기 위해 세밀한 물리적 파이프라인을 공들여 설계했습니다. 또한, 현재 널리 사용되는 신경 이산 학습을 활용하여 잠재 공간의 근본적인 중요한 특징을 밝혀내고, 이 과정에서 해석 가능성을 더 잘 주입하여 이러한 이산 랜덤 변수에 대한 강력한 사전 예측을 얻을 수 있습니다. 저희는 제안된 프레임워크가 기존 SOTA 기준선에 비해 큰 성능 차이를 달성한다는 것을 입증하기 위해 광범위한 실험과 절제를 수행했습니다. [abs|pdf]

[82/95] Federated Learning Priorities Under the European Union Artificial Intelligence Act

Keywords: privacy_performing_ml, ai_regulation, data_privacy
Abstract: 유럽연합 인공지능법(AI법)을 필두로 인공지능 규제 시대가 도래하고 있습니다. 저희의 핵심 질문은 이것이 머신러닝을 수행하면서 데이터 프라이버시를 우선시하는 출발점이 중앙 집중식 학습과는 근본적으로 다른 연합 학습(FL)에 어떤 영향을 미칠 것인가 하는 것입니다. 우리는 AI 법과 향후 규제가 FL의 주류 채택을 촉진하는 촉매제가 될 수 있다고 믿습니다. 그러나 이는 FL 커뮤니티가 연구의 우선순위를 재조정해야만 가능합니다. 이 입장문에서는 AI법이 FL에 미칠 수 있는 영향에 대한 최초의 학제 간 분석(법률 및 ML)을 수행하고 정량적, 정성적 분석을 통해 기본 입장을 뒷받침하는 일련의 관찰 결과를 제시합니다. 데이터 거버넌스 문제와 개인정보 보호에 대한 우려를 살펴봅니다. 수명주기 모니터링에서 성능과 에너지 효율성에 관한 새로운 과제를 설정합니다. 분석 결과를 종합해 보면, FL이 AI법을 준수하는 ML 시스템의 중요한 구성 요소가 되고 새로운 규제가 일반적으로 FL 기술의 채택을 촉진할 수 있는 상당한 기회가 있음을 알 수 있습니다. 가장 주목할 만한 기회는 데이터 편향성을 방어하고 프라이빗 및 보안 컴퓨팅을 강화할 수 있는 기회입니다 [abs|pdf]

[83/95] The last Dance : Robust backdoor attack via diffusion models and bayesian approach

Keywords: incorporating_backdoor_diffusion, backdoor_diffusion_sampling, backdoor_diffusion
Abstract: 확산 모델은 노이즈와 노이즈 제거를 점진적으로 추가하여 순방향 및 역방향 확산 과정을 학습하는 원리로 훈련되는 최첨단 딥러닝 생성 모델입니다. 이 백서에서는 시간을 절약하고 더 빠르고 효율적인 결과를 제공하는 강력한 머신러닝 모델인 트랜스포머 기반 인공 지능 모델, 특히 허깅 페이스 프레임워크의 모델과 같이 오디오에 초점을 맞춘 오디오 기반 DNN 모델을 트릭하는 방법을 살펴봅니다. 본 논문에서는 인공지능(AI) 연구 분야에서 널리 사용되는 프레임워크인 허깅 페이스에서 파생된 오디오 트랜스포머에 대한 백도어 공격(BacKBayDiffMod)의 실현 가능성을 보여줍니다. 이 백서에서 개발된 백도어 공격은 백도어 확산 샘플링과 중독된 데이터의 분포에 대한 베이지안 접근 방식을 통합하여 모델의 학습 데이터를 중독시키는 것을 기반으로 합니다. [abs|pdf]

[84/95] Rethink Model Re-Basin and the Linear Mode Connectivity

Keywords: matching_algorithms_normalization, matching_algorithms_mitigated, existing_pruning_techniques
Abstract: 최근 연구에 따르면 충분히 넓은 모델을 사용하면 대부분의 SGD 솔루션은 순열까지 동일한 분지로 수렴할 수 있습니다. 모델 재분지 체제로 알려진 이 현상은 모델 평균화에 중요한 영향을 미칩니다. 그러나 현재의 재분지 전략은 근본적인 메커니즘에 대한 포괄적인 이해가 부족하기 때문에 그 효과가 제한적입니다. 이러한 격차를 해소하기 위해 저희는 표준 관행을 재검토하고 기존 매칭 알고리즘의 빈번한 부적절성을 발견했으며, 적절한 재표준화를 통해 이를 완화할 수 있음을 보여주었습니다. 보다 직접적인 분석 접근법을 도입하여 매칭 알고리즘과 재표준화 프로세스 간의 상호 작용을 드러냅니다. 이러한 관점은 이전 연구 결과를 명확히 하고 개선할 뿐만 아니라 새로운 인사이트를 얻을 수 있게 해줍니다. 예를 들어, 선형 모드 연결을 가지치기에 연결하여 기존의 가지치기 기술과 직접 병합할 수 있는 가볍지만 효과적인 가지치기 후 플러그인을 개발할 수 있는 동기를 부여합니다. 이 https URL에서 구현을 확인할 수 있습니다. [abs|pdf]

[85/95] Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences

Keywords: critic_reinforcement_learning, critic_rl_algorithms, critic_reinforcement
Abstract: 복잡한 동적 시스템에 대한 모델 없는 제어 정책 합성에 사용되는 오프 정책 행위자-비판 강화 학습(RL) 알고리즘에서 재생 버퍼의 효율적인 활용은 중요한 역할을 합니다. 본 논문에서는 버퍼 크기를 줄이고 샘플의 독립적이고 동일하게 분산된(IID) 특성을 유지하는 것을 목표로 탐색 중에 고유한 샘플을 선택하여 재생 버퍼에 추가하는 데 중점을 둔 샘플 효율을 달성하는 방법을 제안합니다. 우리의 방법은 무작위 탐색의 초기 단계에서 발생하는 경험에서 상태 변수 집합의 중요한 하위 집합을 선택하고, 선택한 중요한 상태 변수를 기반으로 상태 공간을 추상 상태 집합으로 분할한 다음, 마지막으로 커널 밀도 추정기를 사용하여 고유한 상태-보상 조합을 가진 경험을 선택하는 것을 기반으로 합니다. 제안한 고유 경험 축적을 위한 방법을 통합한 오프 정책 행위자-크리틱 알고리즘이 바닐라 오프 정책 행위자-크리틱 알고리즘보다 빠르게 수렴한다는 것을 공식적으로 증명합니다. 또한 체육관 환경에서 사용 가능한 여러 연속 제어 벤치마크에서 두 가지 최신 액터 크리티컬 RL 알고리즘과 비교하여 우리의 방법을 평가합니다. 실험 결과, 우리의 방법은 모든 벤치마크에서 리플레이 버퍼의 크기를 크게 줄이면서도 기준 알고리즘에 비해 더 빠른 수렴 또는 더 나은 보상 축적을 달성하는 것으로 나타났습니다. [abs|pdf]

[86/95] Nature-Inspired Local Propagation

Keywords: backpropagation_proposed_spatiotemporal, natural_learning_processes, spatiotemporal_locality
Abstract: 최근의 발전된 생성형 AI를 비롯한 머신러닝의 놀라운 성과는 대규모 데이터 수집에 의존합니다. 이와 반대로 자연에서의 지능적인 프로세스는 이러한 수집 없이도 환경 정보를 온라인으로 처리하는 것만으로도 발생합니다. 특히 자연 학습 프로세스는 데이터 표현과 학습이 시공간적 지역성을 존중하는 방식으로 서로 얽혀 있는 메커니즘에 의존합니다. 이 논문에서는 이러한 특징이 이론 물리학의 관련 연구에서 영감을 얻은 학습에 대한 사전 알고리즘적 관점으로부터 비롯된다는 것을 보여줍니다. 해밀턴 방정식의 구조를 취하는 유도된 '학습 법칙'의 알고리즘적 해석이 전파 속도가 무한대로 가면 역전파로 축소된다는 것을 보여줍니다. 이는 역전파를 제안된 시공간적 로컬 알고리즘으로 대체하는 완전한 온라인 정보 처리를 기반으로 하는 머신 러닝 연구의 문을 열어줍니다. [abs|pdf]

[87/95] Advancing Graph Representation Learning with Large Language Models: A Comprehensive Survey of Techniques

Keywords: graph_representation_learning, knowledge_extractors_organizers, graph_representation
Abstract: 대규모 언어 모델(LLM)과 그래프 표현 학습(GRL)의 통합은 복잡한 데이터 구조를 분석하는 데 있어 중요한 진화를 의미합니다. 이 협업은 LLM의 정교한 언어적 기능을 활용하여 그래프 모델의 문맥 이해와 적응력을 향상시킴으로써 GRL의 범위와 잠재력을 넓혀줍니다. 그래프 영역에 LLM을 통합하기 위한 연구가 증가하고 있지만, 이러한 모델 내의 핵심 구성 요소와 연산을 심층적으로 분석하는 종합적인 검토는 현저히 부족합니다. 이번 조사에서는 새로운 기술적 관점에서 이러한 모델을 주요 구성 요소와 운영 기법으로 분류하는 새로운 분류법을 제안함으로써 이러한 공백을 메우고자 합니다. 또한 최근의 문헌을 지식 추출기와 조직화라는 두 가지 주요 구성 요소와 통합 및 훈련 전략이라는 두 가지 운영 기법으로 분석하여 효과적인 모델 설계 및 훈련 전략에 대해 조명합니다. 또한, 아직 초기 단계에 있지만 잘 알려지지 않은 이 분야의 잠재적인 미래 연구 방향을 파악하고 탐색하여 지속적인 발전을 위한 경로를 제안합니다. [abs|pdf]

[88/95] MinMaxMin $Q$-learning

Keywords: minmaxmin_learning, minmaxmin_learning_novel, actor_critic_algorithm
Abstract: MinMaxMin $Q$ 학습은 보수적인 RL 알고리즘에 내재된 과대 추정 편향($Q$-추정이 실제 $Q$-값을 과대 추정하는 것) 문제를 해결하는 새로운 낙관적 액터-크리틱 알고리즘입니다. 핵심 공식은 $Q$-네트워크 간의 불일치에 의존하며, 이 불일치는 $Q$-목표에 추가되어 우선순위 경험 리플레이 샘플링 규칙으로 사용되는 최소 배치 MaxMin $Q$-네트워크 거리의 형태로 나타납니다. 유니티는 TD3 및 TD7을 기반으로 MinMaxMin을 구현하여 인기 있는 MuJoCo 및 Bullet 환경에서 최신 연속 공간 알고리즘인 DDPG, TD3 및 TD7에 대한 엄격한 테스트를 거쳤습니다. 그 결과 테스트된 모든 작업에서 DDPG, TD3, TD7에 비해 MinMaxMin의 성능이 일관되게 개선된 것으로 나타났습니다. [abs|pdf]

[89/95] SQT -- std $Q$-target

Keywords: actor_critic_algorithms, bias_implement_sqt, critic_algorithms
Abstract: 표준 $Q$-목표는 단일 키 $Q$ 공식을 기반으로 하는 보수적인 액터-크리티컬, 앙상블, $Q$ 학습 기반 알고리즘입니다: "불확실성 페널티"인 $Q$-네트워크 표준 편차를 기반으로 하며, 과대평가 편향 문제에 대한 최소한의 해결책으로 작용합니다. 저희는 TD3/TD7 코드 위에 SQT를 구현하고 7개의 인기 있는 MuJoCo 및 Bullet 작업에서 최신(SOTA) 액터 크리티컬 알고리즘, DDPG, TD3 및 TD7에 대해 테스트했습니다. 테스트 결과, RL의 과대평가 편향에 대한 보수적인 솔루션으로서 TD3의 $Q$-목표 공식보다 SQT의 $Q$-목표 공식이 우월한 것으로 나타났으며, 모든 작업에서 SQT가 DDPG, TD3 및 TD7보다 큰 폭으로 성능 우위를 보였습니다. [abs|pdf]

[90/95] Unveiling Latent Causal Rules: A Temporal Point Process Approach for Abnormal Event Explanation

Keywords: uncovering_logic_rules, discovering_rules, model_events_discover
Abstract: 의료와 같이 중요한 시스템에서는 환자의 갑작스러운 건강 변화와 같은 비정상적인 사건의 인과관계를 파악하는 것이 매우 중요합니다. 인과관계를 밝혀내면 빠른 진단과 정확한 치료 계획을 세우는 데 도움이 됩니다. 이 백서에서는 관찰 이벤트를 설명하기 위해 '만약-그렇다면' 논리 규칙을 발견하는 자동화된 방법을 제안합니다. 관심 있는 이벤트를 모델링하고 이벤트 발생을 설명하는 잠재적 규칙 집합을 발견하기 위해 시간적 지점 프로세스를 도입합니다. 이를 위해 기대-최대화(EM) 알고리즘을 사용합니다. E 단계에서는 발견된 각 규칙으로 각 이벤트를 설명할 수 있는 가능성을 계산합니다. M 단계에서는 규칙 세트와 모델 파라미터를 모두 업데이트하여 확률 함수의 하한을 향상시킵니다. 특히, 차등 방식으로 규칙 집합을 최적화합니다. 이러한 접근 방식은 규칙 발견과 근본 원인 식별 모두에서 정확한 성능을 보여줍니다. 합성 및 실제 의료 데이터 세트를 사용하여 그 유망한 결과를 보여드립니다. [abs|pdf]

[91/95] Eliminating Information Leakage in Hard Concept Bottleneck Models with Supervised, Hierarchical Concept Learning

Keywords: predicted_concepts_deliberately, introducing_label_supervision, concept_bottleneck_models
Abstract: 개념 병목 모델(CBM)은 특징과 레이블을 인간이 이해할 수 있는 개념과 연결하여 해석 가능하고 개입 가능한 예측을 제공하는 것을 목표로 합니다. 최근의 CBM은 유망한 잠재력을 보여주지만, 개념 이외의 의도하지 않은 정보(개념이 확률 또는 이진 상태로 표현되는 경우)가 후속 라벨 예측에 유출되는 정보 누출 문제가 있습니다. 결과적으로 구별할 수 없는 개념을 통해 뚜렷한 클래스가 잘못 분류되어 CBM의 해석과 개입을 약화시킵니다.
본 논문에서는 개념 예측에 레이블 감독을 도입하고 계층적 개념 집합을 구성하여 정보 유출 문제를 완화합니다. 이에 따라 예측된 개념과 의도적으로 설계된 개입 행렬을 통해 레이블 예측을 달성하는 새로운 패러다임의 CBM, 즉 SupCBM을 제안합니다. SupCBM은 예측된 레이블과 가장 관련성이 높은 개념에 초점을 맞추고, 다른 개념이 제시될 때만 클래스를 구분합니다. 평가 결과 SupCBM은 다양한 데이터 세트에서 SOTA CBM보다 우수한 성능을 보였습니다. 또한 다양한 백본 모델에서 더 나은 일반성을 나타냅니다. 다양한 CBM에서 정보 누출을 적절히 정량화하면 SupCBM이 정보 누출을 크게 줄인다는 것을 입증합니다. [abs|pdf]

[92/95] A hybrid IndRNNLSTM approach for real-time anomaly detection in software-defined networks

Keywords: anomaly_detection_sdn, features_rnn_based, selection_features_rnn
Abstract: 데이터 흐름 예측을 이용한 SDN의 이상 징후 탐지는 어려운 작업입니다. 이 문제는 시계열 및 회귀 문제의 범주에 포함됩니다. 머신 러닝 접근 방식은 수동으로 기능을 선택해야 하기 때문에 이 분야에서 어려움이 있습니다. 반면, 딥러닝 접근 방식은 자동으로 특징을 선택하기 때문에 중요한 특징을 가지고 있습니다. 한편, RNN 기반 접근 방식이 가장 많이 사용되고 있습니다. LSTM과 GRU 접근법은 종속 개체를 잘 학습하는 반면, IndRNN 접근법은 시계열의 비종속 개체를 학습합니다. 제안한 접근 방식은 IndRNN과 LSTM 접근 방식을 조합하여 종속 및 비종속 특징을 학습하려고 시도했습니다. 또한 특징 선택 접근법은 모델에 적합한 특징 보기를 제공하며, 이를 위해 필터, 래퍼, 임베디드, 자동 인코더의 네 가지 특징 선택 모델을 사용했습니다. 제안된 IndRNNLSTM 알고리즘은 임베디드와 결합하여 NSL-KDD 데이터에서 MAE=1.22, RMSE=9.92를 달성할 수 있었습니다. [abs|pdf]

[93/95] Cooperative Knowledge Distillation: A Learner Agnostic Approach

Keywords: distill_knowledge_learners, knowledge_distillation, knowledge_distillation_simple
Abstract: 지식 증류는 교사 모델에서 학생 모델로 지식을 전달하는 간단하지만 강력한 방법입니다. 기존 작업은 지식의 유용성 여부와 관계없이 모든 지식이 교사에게서 학생에게 전달되고, 학생만이 이 교환에서 학습하며, 일반적으로 증류는 한 명의 교사에게서 한 명의 학생에게만 지식이 전달된다는 점에서 전달 방향과 범위 측면에서 다음과 같은 주요 한계 중 하나 이상을 가지고 있어 그 활용에 제한이 있습니다. 저희는 여러 모델이 학생과 교사 역할을 동시에 수행할 수 있는 새로운 형태의 지식 증류를 공식화했으며, 이를 협동 증류라고 부릅니다. 모델(학생)은 자신의 성능에서 특정 결함을 파악하고, 역실제 인스턴스 생성을 통해 학습한 지식을 교육용 가상 인스턴스로 인코딩하는 다른 모델(교사)을 찾는 식으로 협력합니다. 모델마다 강점과 약점이 다를 수 있으므로 모든 모델은 적절한 경우 학생 또는 교사(협력) 역할을 할 수 있으며, 자신의 강점(집중)에 해당하는 영역의 지식만 추출할 수 있습니다. 패러다임으로서의 역설은 특정 알고리즘에 얽매이지 않기 때문에 이 방법을 사용하여 서로 다른 아키텍처, 알고리즘, 심지어 기능 공간을 가진 학습자 간에 지식을 추출할 수 있습니다. 저희의 접근 방식은 여러 데이터 세트에서 전이 학습, 자기 지도 학습, 다중 지식 증류 알고리즘과 같은 기준선보다 성능이 뛰어날 뿐만 아니라 앞서 언급한 기법으로는 불가능한 환경에서도 사용할 수 있음을 입증했습니다. [abs|pdf]

[94/95] Character-based Outfit Generation with Vision-augmented Style Extraction via LLMs

Keywords: fashion_generating_personalized, outfit_generation, based_outfit_generation
Abstract: 의상 생성 문제는 사용자의 관심사에 따라 완전한 의상을 추천하는 것입니다. 기존의 접근 방식은 앵커 아이템이나 특정 쿼리 스타일을 기반으로 아이템을 추천하는 데 중점을 두지만 영화, 소셜 미디어 등에 등장하는 유명 캐릭터에 대한 고객의 관심사는 고려하지 않습니다. 이 논문에서는 캐릭터 정보를 정확하게 해석하고 연령, 성별 등 고객 사양에 따라 완전한 의상 세트를 생성하도록 설계된 새로운 캐릭터 기반 의상 생성(COG) 문제를 정의합니다. 이 문제를 해결하기 위해 대규모 언어 모델(LLM)을 활용하여 고객의 관심사(예: 캐릭터 정보)에서 인사이트를 추출하고 고객 선호도를 정확하게 이해하기 위해 신속한 엔지니어링 기법을 사용하는 새로운 프레임워크인 LVA-COG를 제안합니다. 또한 텍스트-이미지 모델을 통합하여 일관된 의상의 시각적 이해와 생성(사실적 또는 반 사실적)을 향상시킵니다. 크리테오의 프레임워크는 LLM을 텍스트 이미지 모델과 통합하고 개인화된 추천을 생성하여 패션에 대한 고객의 접근 방식을 개선합니다. 실험과 사례 연구를 통해 다양한 측면에서 솔루션의 효과를 입증합니다. [abs|pdf]

[95/95] Causal Relationship Network of Risk Factors Impacting Workday Loss in Underground Coal Mines

Keywords: loss_mining_employees, coal_mines_using, mining_experience_emerged
Abstract: 이 연구는 새로운 인과관계 인공지능(AI) 방법을 사용하여 지하 탄광에서 작업일수 손실을 초래하는 다양한 요인 간의 인과관계 네트워크를 구축하는 것을 목표로 합니다. 분석에는 미국 국립산업안전보건연구원(NIOSH)에서 얻은 데이터를 활용합니다. 1990년부터 2020년까지 3,982개 지하 탄광에서 발생한 총 101,010건의 재해 기록이 NIOSH 데이터베이스에서 추출되었습니다. 인과 관계는 그룹화된 탐욕적 동등성 검색(GGES)이라는 새로운 인과 관계 AI 방법을 사용하여 분석 및 시각화되었습니다. 각 변수가 근무일수 손실에 미치는 영향은 개입 미적분 조정(IDA) 점수를 통해 평가되었습니다. 모델 훈련 및 검증은 10배 교차 검증 기법을 사용하여 수행되었습니다. 인접성 정밀도(AP), 인접성 회상(AR), 화살촉 정밀도(AHP), 화살촉 회상(AHR) 등의 성능 메트릭이 모델 평가에 활용되었습니다. 분석 결과, 2006년 이후 채굴 직원의 근무일 손실의 주요 직접적인 원인으로는 총 채굴 경력, 평균 사무실 직원, 평균 지하 직원, 카운티, 총 채굴 경력(년) 등이 나타났습니다. 총 채굴 경험이 가장 큰 영향을 미치는 요인으로 나타난 반면, 광산당 평균 직원 수는 가장 영향력이 적은 것으로 나타났습니다. 이 분석은 총 채굴 경험이 근무일 손실을 결정하는 데 중요한 역할을 한다는 점을 강조했습니다. 이 모델은 각각 0.694, 0.653, 0.386, 0.345의 AP, AR, AHP 및 AHR 값으로 최적의 성능을 달성했습니다. 이 연구는 고용 인구 통계와 부상 기록을 분석하고 인과 관계 네트워크를 구축하여 근무일 손실의 원인 요인을 밝히는 데 새로운 GGES 방법을 활용할 수 있다는 가능성을 보여줍니다. [abs|pdf]