프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-30]

다각 2024. 2. 21. 10:02

[1/136] Learning to Manipulate under Limited Information

Keywords: voting_methods_resistant, voting_methods_borda, manipulate_given_voting
Abstract: 사회 선택 이론의 고전적인 결과에 따르면, 합리적인 선호 투표 방법은 때때로 개인에게 불성실한 선호를 보고할 인센티브를 제공합니다. 다양한 투표 방식이 이러한 전략적 조작에 어느 정도 저항력이 있는지는 투표 방식을 비교할 때 중요한 고려 사항이 되었습니다. 여기서는 다양한 크기의 신경망이 다른 유권자가 투표하는 방식에 대한 제한된 정보가 주어졌을 때 특정 투표 방법을 예상대로 수익성 있게 조작하는 방법을 학습할 수 있는지 여부로 조작에 대한 저항성을 측정합니다. 유권자 수가 5~21명이고 후보자가 3~6명인 위원회 규모의 선거에서 6가지 유형의 제한된 정보에 따라 8가지 투표 방법을 조작하도록 26가지 크기의 신경망 약 40,000개를 훈련시켰습니다. 그 결과, 보르다와 같은 일부 투표 방식은 제한된 정보를 가진 네트워크가 매우 쉽게 조작할 수 있는 반면, 즉시 결선투표와 같은 투표 방식은 완전한 정보를 가진 이상적인 조작자가 상당히 유리하게 조작할 수 있음에도 불구하고 조작이 불가능하다는 사실을 발견했습니다. [abs|pdf]

[2/136] Zero-shot Imitation Policy via Search in Demonstration Dataset

Keywords: dataset_demonstrations_learn, demonstrations_learn, imitation_learning
Abstract: 행동 복제는 데모 데이터 세트를 사용해 정책을 학습합니다. 계산 비용이 많이 드는 훈련 절차를 극복하고 정책 적응 문제를 해결하기 위해 사전 훈련된 기반 모델의 잠재 공간을 사용하여 데모 데이터 세트를 인덱싱하고, 유사한 관련 경험에 즉시 액세스하고, 이러한 상황에서 행동을 복사하는 방법을 제안합니다. 에이전트의 현재 상황과 선택된 경험의 표현이 잠재 공간에서 달라질 때까지 에이전트는 선택된 유사한 상황의 행동을 수행할 수 있습니다. 따라서 우리는 제어 문제를 전문가의 데모 데이터 세트에 대한 동적 검색 문제로 공식화합니다. 우리는 비디오 사전 훈련 모델의 잠재적 표현에 있는 BASALT MineRL 데이터 세트에서 우리의 접근 방식을 테스트합니다. 그리고 이 모델을 최첨단 모방 학습 기반 마인크래프트 에이전트와 비교합니다. 우리의 접근 방식은 의미 있는 데모를 효과적으로 복구하고 다양한 시나리오에서 마인크래프트 환경에서 에이전트의 인간과 유사한 행동을 보여줄 수 있습니다. 실험 결과, 검색 기반 접근 방식의 성능이 학습 기반 모델에 비해 정확도와 지각 평가 측면에서 확실히 우위에 있음을 알 수 있습니다. [abs|pdf]

[3/136] GAPS: Geometry-Aware Problem Solver

Keywords: advancement_solving_geometry, geometry_aware_problem, geometry_aware
Abstract: 기하학 문제 해결은 자연어 처리 커뮤니티 내에서 엄청난 도전 과제입니다. 기존의 접근 방식은 기하학 수학 문제의 고유한 특성을 무시한 채 수학 단어 문제 해결을 위해 설계된 모델에 의존하는 경우가 많습니다. 또한 현재의 연구는 주로 기하학 계산 문제에 초점을 맞추고 있으며 증명과 같은 다른 필수적인 측면은 간과하고 있습니다. 본 연구에서는 이러한 한계를 극복하기 위해 기하학 인식 문제 해결사(GAPS) 모델을 제안합니다. GAPS는 고유한 문제 유형 분류기를 사용하여 다양한 유형의 기하학 수학 문제에 대한 풀이 프로그램을 생성하도록 특별히 설계되었습니다. 이를 위해 GAPS는 해법 프로그램을 연산자와 피연산자의 구성으로 취급하여 생성 과정을 분리합니다. 또한 기하학 요소 향상 방법을 도입하여 GAPS가 기하학 요소를 정확하게 인식할 수 있는 능력을 향상시켰습니다. 이러한 개선 사항을 활용하여 GAPS는 기하학 수학 문제 해결에서 놀라운 성능을 보여줍니다. 유니지오 데이터세트에 대한 실험을 통해 최첨단 모델인 지오포머에 비해 GAPS의 우수성이 입증되었습니다. 구체적으로 GAPS는 계산 작업에서 5.3% 이상의 정확도 향상을 달성했으며, 증명 작업에서는 41.1%의 놀라운 정확도 향상을 달성했습니다. 특히 GAPS는 증명 문제에서 97.5%라는 놀라운 정확도를 달성하여 기하학 증명 작업 해결에 있어 상당한 진전을 이루었습니다. [abs|pdf]

[4/136] Capturing Knowledge Graphs and Rules with Octagon Embeddings

Keywords: knowledge_graphs_octagon, knowledge_graph_embeddings, arbitrary_knowledge_graphs
Abstract: 영역 기반 지식 그래프 임베딩은 관계를 기하학적 영역으로 표현합니다. 이는 모델에 의해 포착되는 규칙이 명시적이므로 사전 지식을 통합하고 학습된 모델을 검사하는 것이 간단하다는 장점이 있습니다. 안타깝게도 기존 접근 방식은 관계 구성을 모델링하는 능력과 규칙을 모델링하는 능력에 심각한 제한이 있어 지역 기반 모델의 주요 약속을 이행하지 못했습니다. 이러한 한계를 해결하기 위해 축이 정렬된 팔각형으로 구성된 영역을 조사합니다. 이러한 팔각형은 교집합과 구성을 간단하게 계산할 수 있기 때문에 특히 작업하기 쉬우면서도 임의의 지식 그래프를 모델링하기에 충분한 표현력을 갖추고 있습니다. 무엇보다도 팔각형 임베딩이 사소하지 않은 규칙 기반 클래스를 제대로 포착할 수 있음을 보여줍니다. 마지막으로, 우리의 모델이 경쟁력 있는 실험 결과를 얻었음을 보여줍니다. [abs|pdf]

[5/136] On the generalization of learned constraints for ASP solving in temporal domains

Keywords: learned_dynamic_constraints, programs_learned_constraints, constraint_learned
Abstract: ASP에서 동적 문제의 표현은 일반적으로 직접 인코딩하든, 액션이나 시간적 언어를 사용하든 관계없이 각 타임스탬프마다 변수와 제약 조건의 복사본을 사용하는 것으로 귀결됩니다. 변수와 제약 조건의 곱셈은 일반적으로 접지 중에 수행되며 솔버는 서로 다른 인스턴스 간의 시간적 관계에 대해 전혀 알지 못합니다. 반면에 오늘날의 ASP 솔버 성능의 핵심 요소는 갈등 기반 제약 조건 학습입니다. 이제 우리의 질문은 특정 시간 단계에 대해 학습한 제약 조건을 일반화하여 다른 시간 스탬프에서 재사용할 수 있는지, 그리고 궁극적으로 이것이 시간적 문제에 대한 솔버의 전반적인 성능을 향상시키는지 여부입니다. 시간 영역을 잘 알고 있기 때문에 학습된 동적 제약 조건이 일반화될 수 있는 조건을 연구합니다. 우리는 원본 논리 프로그램의 간단한 번역을 제안하여 번역된 프로그램에 대해 학습된 제약 조건을 다른 시점으로 일반화할 수 있도록 합니다. 또한 학습된 모든 제약 조건을 모든 시간 단계로 일반화할 수 있는 시간적 문제의 속성을 확인합니다. 이 속성은 많은 계획 문제에 의해 충족된다는 것이 밝혀졌습니다. 마지막으로, 일반화된 제약 조건을 ASP 솔버에 추가하는 것이 미치는 영향을 경험적으로 평가합니다 [abs|pdf]

[6/136] Triple Disentangled Representation Learning for Multimodal Affective Analysis

Keywords: multimodal_representations_revisit, multimodal_representations, learned_multimodal
Abstract: 다중 양식 학습은 다양한 양식의 포괄적인 정보, 특히 상호 보완적인 정보로 인해 정서 분석 작업에서 상당한 이점을 보여 왔습니다. 따라서 최근의 많은 연구는 입력 데이터에서 양식 불변성과 양식별 표현을 분리한 다음 예측을 위해 융합하는 데 중점을 둡니다. 그러나 우리의 연구에 따르면 모달리티별 표현에는 과제와 관련이 없거나 상충되는 정보가 포함될 수 있으며, 이는 학습된 다중 모달리티 표현의 효과를 떨어뜨릴 수 있습니다. 우리는 얽힘 문제를 재검토하고 입력 데이터에서 모달리티 불변, 효과적인 모달리티별, 비효율적인 모달리티별 표현을 분리하는 새로운 삼중 얽힘 접근 방식인 TriDiRA를 제안합니다. TriDiRA는 양식 불변적이고 효과적인 양식별 표현만 융합함으로써 모델 훈련 중 양식 간에 관련성이 없고 상충되는 정보의 영향을 크게 완화할 수 있습니다. 4개의 벤치마크 데이터세트에 대해 수행된 광범위한 실험을 통해 삼중 결합 해제의 효과와 일반화를 입증했으며, 이는 SOTA 방법보다 뛰어난 성능을 발휘합니다. [abs|pdf]

[7/136] Type-based Neural Link Prediction Adapter for Complex Query Answering

Keywords: predictors_query_answering, relations_leveraging_type, complex_query_answering
Abstract: 불완전한 지식 그래프(KG)에 대한 복잡한 논리적 쿼리에 응답하는 것은 멀티홉 추론에서 기본적이면서도 어려운 작업입니다. 최근의 연구는 이 작업을 엔드투엔드 최적화 문제로 정의하여, 쿼리 답변을 위해 사전 학습된 링크 예측자를 통해 학습 비용을 크게 줄이고 모델의 일반화를 향상시킵니다. 그러나 대부분의 기존 제안은 복잡한 논리적 쿼리에 대한 답변에 도움이 될 수 있는 유형 정보와 같이 KG에 내재된 중요한 의미론적 지식을 무시하고 있습니다. 이를 위해 본 논문에서는 KG의 유형 정보를 활용하여 유형 기반 개체-관계 그래프를 구성하고 개체와 관계 간의 잠재적 관계를 발견하는 새로운 모델인 유형 기반 신경망 링크 예측 어댑터(TENLPA)를 제안합니다. 한편, 유형 정보와 복잡한 논리적 쿼리를 효과적으로 결합하기 위해 복잡한 쿼리 답변 과정에서 역전파를 통해 학습하는 적응형 학습 메커니즘을 도입하여 신경망 연결 예측자의 적응적 조정을 수행합니다. 3개의 표준 데이터 세트에 대한 실험 결과, TENLPA 모델은 우수한 일반화 및 견고성으로 복잡한 쿼리 답변에서 최첨단 성능을 달성하는 것으로 나타났습니다. [abs|pdf]

[8/136] Distribution-consistency Structural Causal Models

Keywords: practically_modeling_counterfactuals, modeling_counterfactuals, modeling_counterfactuals_formalized
Abstract: 인과관계 모델링 분야에서는 잠재적 결과(PO)와 구조적 인과관계 모델(SCM)이 주요한 프레임워크로 자리 잡고 있습니다. 그러나 이러한 프레임워크는 잠재적 결과의 공동 분포의 매개변수로 공식화된 반사실을 실제로 모델링하는 데 있어 상당한 어려움에 직면해 있습니다. 반사실 추론은 현대의 의사결정 과정, 특히 $(Y(0), Y(1))$의 공동값에 따라 개인화된 인센티브를 요구하는 시나리오에서 가장 중요한 역할을 합니다. 이 백서는 카운터팩토리를 모델링하기 위한 PO 및 SCM 프레임워크에 대한 조사로 시작합니다. 분석을 통해 두 프레임워크의 초석인 일관성 규칙에서 '퇴행적 역효과 문제'라고 불리는 내재적 모델 용량 제한이 있음을 확인합니다. 이러한 한계를 극복하기 위해 본 논문에서는 분포-일관성 가정을 새롭게 도입하고, 이에 따라 역사실 모델링 기능이 강화된 분포-일관성 구조적 인과관계 모델(DiscoSCM)을 제안합니다. 향상된 모델 역량을 구체적으로 보여주기 위해, DiscoSCM 내에서만 실질적인 의미를 갖는 새로운 식별 가능한 인과 매개변수인 정합성 확률을 소개하고, 개인화된 인센티브 예시를 통해 이를 보여줍니다. 또한, DiscoSCM 프레임워크 내에서 '인과관계의 사다리'에 대한 포괄적인 이론적 결과를 제공합니다. 이를 통해 향후 역사실 모델링 연구에 새로운 길을 열어 궁극적으로 인과관계와 그 실제 적용에 대한 이해를 높일 수 있기를 바랍니다. [abs|pdf]

[9/136] SNAP: Semantic Stories for Next Activity Prediction

Keywords: business_process_prediction, semantic_contextual_stories, contextual_stories_process
Abstract: 진행 중인 프로세스에서 다음 활동을 예측하는 것은 비즈니스 프로세스 관리(BPM) 영역에서 가장 일반적인 분류 작업 중 하나입니다. 이를 통해 기업은 리소스 할당을 최적화하고 운영 효율성을 높이며 위험 완화 및 전략적 의사결정을 지원할 수 있습니다. 이를 통해 빠르게 진화하는 BPM과 AI의 융합 환경에서 경쟁 우위를 확보할 수 있습니다. 비즈니스 프로세스 예측을 위한 기존의 최첨단 AI 모델은 프로세스 이벤트 로그 내에서 사용 가능한 시맨틱 정보를 충분히 활용하지 못합니다. 현재의 고급 AI-BPM 시스템이 의미론적으로 더 풍부한 텍스트 데이터를 제공함에 따라 새롭고 적절한 모델에 대한 필요성이 커지고 있습니다. 이러한 격차를 해소하기 위해 우리는 프로세스 기록 이벤트 로그에서 의미론적 맥락 스토리를 구성하고 이를 다음 활동 예측에 사용하여 언어 기반 모델을 활용하는 새로운 SNAP 방법을 제안합니다. 6개의 벤치마크 데이터 세트에서 9개의 최신 모델과 SNAP 알고리즘을 비교한 결과, 특히 의미론적 내용이 많은 데이터 세트의 경우 SNAP이 훨씬 더 우수한 성능을 보였습니다. [abs|pdf]

[10/136] DiffuserLite: Towards Real-time Diffusion Planning

Keywords: lightweight_diffusion_planning, existing_diffusion_planning, diffusion_planning
Abstract: 확산 계획은 다양한 영역에서 효과적인 의사 결정 패러다임으로 인정받고 있습니다. 장지평선 궤적의 고품질 조건부 생성 기능으로 인해 유망한 연구 방향이 되고 있습니다. 하지만 기존의 확산 계획 방법은 반복 샘플링 비용이 비싸기 때문에 의사 결정 빈도가 낮다는 단점이 있습니다. 이 문제를 해결하기 위해 빠르고 가벼운 확산 계획 프레임워크인 DiffuserLite를 소개합니다. DiffuserLite는 계획 세분화 프로세스(PRP)를 사용하여 거칠고 세밀한 궤적을 생성함으로써 중복 정보의 모델링을 크게 줄이고 의사 결정 빈도를 눈에 띄게 증가시킵니다. 실험 결과에 따르면 DiffuserLite는 이전 프레임워크에 비해 런타임 비용이 0.88%에 불과하고, 평균 의사 결정 빈도가 122Hz에 달하며, D4RL 벤치마크에서 최첨단 성능에 도달하는 것으로 나타났습니다. 또한, 깔끔한 DiffuserLite 프레임워크는 다른 확산 계획 알고리즘에서 의사 결정 빈도를 향상시키는 유연한 플러그인 역할을 할 수 있어 향후 작업에 구조적 설계 참조를 제공할 수 있습니다. 자세한 내용과 시각화는 [프로젝트 웹사이트](이 https URL)에서 확인할 수 있습니다. [abs|pdf]

[11/136] A Statistical Framework for Measuring AI Reliance

Keywords: ai_complementarity_reliance, ai_advised_decision, reliance_ai_critical
Abstract: 인간은 종종 인공 지능(AI) 시스템의 도움을 받아 의사 결정을 내립니다. 일반적인 패턴은 AI가 최종 결정권을 가진 인간에게 행동을 추천하는 것입니다. 연구자들은 인간이 AI에 적절히 의존하도록 하는 것이 상호보완적 성과를 달성하는 데 중요한 요소임을 밝혀냈습니다. 이러한 연구에서 사용되는 적절한 의존도에 대한 현재 정의는 공식적인 통계적 근거가 부족하고 모순을 초래할 수 있다고 주장합니다. 우리는 통계적 의사결정 이론에 기반한 공식적인 신뢰도 정의를 제안하며, 이는 의사결정자가 AI의 예측을 따를 확률로서의 신뢰도 개념과 인간이 신호를 구별하고 상황에 대한 정확한 믿음을 형성하는 데 직면할 수 있는 어려움을 분리합니다. 이러한 정의는 인간과 AI의 상호보완성 및 신뢰도에 관한 연구의 설계와 해석을 안내하는 데 사용할 수 있는 프레임워크를 제공합니다. 최근의 AI 기반 의사결정 관련 연구를 통해 잘못된 의존으로 인한 손실과 신호를 정확하게 구분하지 못해 발생하는 손실을 구분하는 데 이 프레임워크가 어떻게 사용될 수 있는지 보여줍니다. 행동 에이전트와 동일한 의사결정 과제에 직면한 이성적 에이전트가 달성할 것으로 예상되는 보상에 의해 정의된 보완적 성과에 대한 기준선 및 벤치마크와 비교하여 이러한 손실을 평가합니다. [abs|pdf]

[12/136] Regularized Q-Learning with Linear Function Approximation

Keywords: reinforcement_learning_algorithms, reinforcement_learning, successful_reinforcement_learning
Abstract: 몇몇 성공적인 강화 학습 알고리즘은 정규화를 사용하여 향상된 탐색과 견고성을 보여주는 다중 모드 정책을 촉진합니다. 함수 근사치를 사용하면 이러한 알고리즘 중 일부(예: 소프트 Q-러닝)의 수렴 특성이 잘 이해되지 않습니다. 이 논문에서는 선형 함수 근사화의 경우 유한 시간 수렴을 보장하면서 예상 벨만 오차를 최소화하기 위한 단일 루프 알고리즘을 고려합니다. 이 알고리즘은 상태-행동 값의 목표 네트워크를 업데이트하기 위한 느린 스케일과 기저 벡터 범위의 부분 공간에서 벨만 백업을 근사화하기 위한 빠른 스케일의 두 가지 스케일로 작동합니다. 특정 가정 하에서 제안된 알고리즘이 마르코비안 노이즈가 있을 때 고정된 지점에 수렴한다는 것을 보여줍니다. 또한 제안된 알고리즘에서 도출된 정책에 대한 성능 보증을 제공합니다. [abs|pdf]

[13/136] CAREForMe: Contextual Multi-Armed Bandit Recommendation Framework for Mental Health

Keywords: chatbots_mindfulness_apps, ai_chatbots_mindfulness, chatbots_mindfulness
Abstract: 코로나19 팬데믹으로 인해 사람들의 일상 생활에서 효과적이고 접근 가능한 정신 건강 개입의 필요성이 더욱 절실해졌습니다. AI 챗봇과 마음챙김 앱과 같은 모바일 헬스(mHealth) 솔루션은 기존의 임상 환경을 넘어 일상생활을 지원하도록 확장되면서 주목을 받고 있습니다. 그러나 현재 모바일 헬스 솔루션은 재사용성을 높이기 위한 컨텍스트 인식, 개인화, 모듈화 기능이 부족하여 그 효율성이 저해되고 있습니다. 이 백서에서는 정신 건강을 위한 컨텍스트 기반 멀티암밴드(CMAB) 추천 프레임워크인 CAREForMe를 소개합니다. 컨텍스트 인식, 개인화, 모듈성을 핵심으로 설계된 CAREForMe는 모바일 센싱을 활용하고 온라인 학습 알고리즘과 사용자 클러스터링 기능을 통합하여 적시에 개인화된 추천을 제공합니다. 모듈식 설계를 통해 CAREForMe는 향후 연구를 안내하는 맞춤형 추천 프레임워크이자 모바일 의료 연구에 대한 학제 간 기여를 촉진하는 협업 플랫폼의 역할을 합니다. 다양한 플랫폼(예: Discord, Telegram)에서의 구현과 다양한 추천 기능에 대한 맞춤화를 통해 CAREForMe의 다재다능함을 보여드립니다. [abs|pdf]

[14/136] Can generative AI and ChatGPT outperform humans on cognitive-demanding problem-solving tasks in science?

Keywords: science_assessments_cognitive, assessments_students_cognitive, assessments_cognitive
Abstract: 이 연구는 생성적 인공지능(GAI) 도구가 문제를 해결할 때 인간이 겪는 인지적 강도를 극복할 수 있다는 가정을 검증하는 것을 목표로 했습니다. 2019년 NAEP 과학 평가에서 ChatGPT와 GPT-4의 성능을 문항의 인지적 요구도에 따라 학생들과 비교했습니다. 54개의 과제는 전문가들이 과제 인지 복잡성과 차원을 포함한 2차원 인지 부하 프레임워크를 사용하여 코딩했습니다. ChatGPT 및 GPT-4 응답은 NAEP의 채점 키를 사용하여 채점되었습니다. 사용 가능한 데이터의 분석은 각 문항에 정답을 맞힌 학생의 평균 학생 능력 점수와 개별 문항에 응답한 학생의 비율을 기준으로 이루어졌습니다. 그 결과, ChatGPT와 GPT-4 모두 NAEP 과학 평가에 답한 대부분의 학생들보다 일관되게 우수한 성적을 거둔 것으로 나타났습니다. NAEP 과제에 대한 인지적 요구가 증가함에 따라, 문제를 올바르게 풀기 위해서는 통계적으로 더 높은 평균 학생 능력 점수가 필요합니다. 이러한 패턴은 각각 4학년, 8학년, 12학년 학생들에게서 관찰되었습니다. 그러나 4학년을 제외하고는 ChatGPT와 GPT-4는 과제에 대한 인지적 요구의 증가에 통계적으로 민감하지 않았습니다. 과학 문제 해결 능력에 있어 GAI와 초중고 학생들을 비교한 최초의 연구로서, 이 연구 결과는 향후 학생들이 GAI 도구를 활용할 수 있는 역량을 갖추도록 교육 목표를 변경해야 할 필요성을 시사합니다. 교육은 고도의 인지 능력을 요구하는 과제에만 의존하기보다는 고급 인지 능력의 배양에 중점을 두어야 합니다. 이러한 접근 방식은 비판적 사고, 분석 능력, 새로운 맥락에서의 지식 적용 능력을 키울 수 있습니다. 연구 결과는 또한 GAI가 시험에 미치는 부정적 영향을 피하기 위해 인지 강도 과제에서 창의성과 분석 능력으로 전환하여 보다 효율적으로 평가할 수 있는 혁신적인 평가 관행이 필요함을 시사합니다. [abs|pdf]

[15/136] Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation

Keywords: positional_encoding_bipe, encoding_bipe_position, positional_encoding_inter
Abstract: 이 작업에서는 언어 시퀀스의 내재적 분할을 활용하여 빌레벨 위치 인코딩(BiPE)이라는 새로운 위치 인코딩 방법을 설계합니다. 각 위치에 대해, BiPE는 세그먼트 내 인코딩과 세그먼트 간 인코딩을 혼합합니다. 세그먼트 내 인코딩은 세그먼트 내의 위치를 식별하고 절대 위치 인코딩을 통해 모델이 해당 위치의 의미 정보를 캡처할 수 있도록 도와줍니다. 세그먼트 간 인코딩은 세그먼트 인덱스를 지정하고 세그먼트 간의 관계를 모델링하며 상대 위치 인코딩을 통해 외삽 기능을 개선하는 것을 목표로 합니다. 이론적 분석에 따르면 이러한 위치 정보의 얽힘을 풀면 학습이 더 효과적으로 이루어집니다. 경험적 결과에서도 다양한 텍스트 양식의 광범위한 작업에서 BiPE가 우수한 길이 외삽 기능을 가지고 있음을 보여줍니다. [abs|pdf]

[16/136] Scaling Sparse Fine-Tuning to Large Language Models

Keywords: sparse_fine_tuning, large_language_models, efficient_fine_tuning
Abstract: 대규모 언어 모델(LLM)은 매개변수의 수가 너무 많기 때문에 명령어나 사람의 피드백을 통해 완전히 미세 조정하기가 어렵습니다. 매개변수 효율성이 높은 스파스 미세 조정(SFT) 방법군은 성능 면에서 유망한 것으로 입증되었지만 메모리 요구 사항은 LLM의 크기에 비례하여 증가합니다. 이 작업에서는 희소 미세 조정을 LLaMA 2 7B 및 13B와 같은 최신 LLM으로 확장합니다. 언제든지 원하는 밀도 수준에 맞춰 파라미터 인덱스 배열과 사전 학습된 값 대비 파라미터의 델타를 유지합니다. (a) 활성 델타 업데이트, (b) 인덱스 가지치기(델타의 크기 변화에 따라), (c) 인덱스 재성장을 반복합니다. 재성장의 경우, 몇 가지 후보 파라미터의 누적된 기울기 또는 효율적인 SM3 옵티마이저를 사용하여 추정된 대략적인 모멘타를 기반으로 두 가지 기준을 살펴봅니다. 표준 데이터 세트 혼합에 대한 LLM의 명령어 튜닝을 실험한 결과, SFT가 LoRA(낮은 순위 적응)와 같이 널리 사용되는 파라미터 효율적 미세 조정 방법보다 성능 면에서 우수하고 실행 시간 측면에서도 비슷하다는 사실을 발견했습니다. 또한 SFT가 정량화 및 효율적인 최적화 도구와 모두 호환되어 더 큰 모델 크기로 쉽게 확장할 수 있음을 보여주었습니다. SFT에 대한 코드는 이 https URL에서, 명령어 튜닝 실험에 대한 코드는 이 https URL에서 공개합니다. [abs|pdf]

[17/136] A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect

Keywords: visual_anomaly_detection, visual_anomaly, anomaly_detection_vad
Abstract: 시각적 이상 감지(VAD)는 산업 결함 검사, 의료 병변 감지 등 다양한 영역에서 널리 적용되는 시각적 데이터의 정상 개념에서 벗어난 부분을 찾아내기 위해 노력합니다. 이 설문조사는 세 가지 주요 과제를 파악하여 최근 VAD의 발전을 종합적으로 살펴봅니다: 1) 학습 데이터의 부족, 2) 시각적 양식의 다양성, 3) 계층적 변칙의 복잡성. VAD의 배경과 일반적인 개념 정의에 대한 간략한 개요를 시작으로 샘플 수, 데이터 양식, 이상 징후 계층 구조의 관점에서 최신 VAD의 진행 상황을 점진적으로 분류하고 강조하며 논의합니다. 마지막으로 VAD 분야에 대한 심층 분석을 통해 VAD의 향후 발전 방향을 정리하고 이번 설문조사의 주요 결과와 기여를 마무리합니다. [abs|pdf]

[18/136] TQCompressor: improving tensor decomposition methods in neural networks via permutations

Keywords: compression_tqcompressedgpt_model, compression_tqcompressedgpt, result_compression_tqcompressedgpt
Abstract: 텐서 분해가 개선된 신경망 모델 압축을 위한 새로운 방법인 TQCompressor를 소개합니다. NLP 작업에서 사전 학습된 언어 모델의 계산 및 스토리지 요구로 인해 발생하는 문제를 살펴보고 크로네커 분해에 대한 순열 기반 개선 사항을 제안합니다. 이 향상된 기능을 사용하면 일반적으로 인수분해와 관련된 모델 표현력의 손실을 줄일 수 있습니다. 이 방법을 GPT-2${small}$에 적용하여 시연합니다. 압축 결과, GPT-2${small}$의 파라미터 수가 1억 2,400만 개였던 것에 비해 81만 개의 파라미터를 가진 TQCompressedGPT-2 모델이 탄생했습니다. TQCompressedGPT-2를 공개합니다. 오픈웹텍스트의 3.1%만을 사용해 다단계 지식 증류를 포함하는 훈련 전략을 통해 TQCompressedGPT-2의 성능을 더욱 향상시켰습니다. TQCompressedGPT-2는 비교 평가에서 DistilGPT-2와 KnGPT-2를 능가하며 리소스가 제한된 환경에서 모델을 효율적이고 효과적으로 배포하는 데 있어 진일보한 모습을 보여줍니다. [abs|pdf]

[19/136] Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization

Keywords: adversarial_training_purification, adversarial_purification, based_adversarial_purification
Abstract: 심층 신경망은 잘 설계된 적대적 공격에 취약한 것으로 알려져 있습니다. 적대적 훈련(AT)을 기반으로 하는 가장 성공적인 방어 기법은 특정 공격에 대해 최적의 견고성을 달성할 수 있지만 보이지 않는 공격에 대해서는 일반화를 잘 수행하지 못합니다. 적대적 정화(AP)를 기반으로 하는 또 다른 효과적인 방어 기법은 일반화를 향상시킬 수 있지만 최적의 견고성을 달성할 수는 없습니다. 한편, 두 가지 방법 모두 표준 정확도가 저하된다는 공통된 한계를 가지고 있습니다. 이러한 문제를 완화하기 위해 유니티는 무작위 변환(RT)에 의한 섭동 파괴와 적대적 손실에 의한 정화 모델 미세 조정(FT)이라는 두 가지 구성 요소로 구성된 적대적 정화 훈련(AToP)이라는 새로운 프레임워크를 제안합니다. RT는 알려진 공격에 대한 과학습으로 인해 보이지 않는 공격에 대한 견고성이 일반화되는 것을 방지하는 데 필수적이며, FT는 견고성을 개선하는 데 필수적입니다. 저희는 효율적이고 확장 가능한 방법으로 방법을 평가하기 위해 CIFAR-10, CIFAR-100, ImageNette에서 광범위한 실험을 수행하여 저희 방법이 최신의 결과를 달성하고 보이지 않는 공격에 대한 일반화 능력을 발휘함을 입증했습니다. [abs|pdf]

[20/136] FedFair^3: Unlocking Threefold Fairness in Federated Learning

Keywords: fairness_federated_learning, federated_learning, federated_learning_utmost
Abstract: 연합 학습(FL)은 클라이언트의 원시 데이터를 노출하지 않고도 머신 러닝의 새로운 패러다임으로 떠오르고 있습니다. 수많은 클라이언트가 있는 실제 시나리오에서는 연합 학습에 공정하고 효율적인 클라이언트 참여를 유도하는 것이 가장 중요하지만, 데이터 분포의 이질성과 디바이스 특성을 고려할 때 이는 쉽지 않은 일입니다. 기존 연구들은 공정성을 고려한 다양한 클라이언트 선택 방법을 제안했지만, 높은 효용성을 가진 클라이언트를 선택하는 동시에 공정한 정확도 수준을 달성하지 못했습니다. 이 논문에서는 연합 학습에서 세 가지 공정성을 실현하는 공정한 클라이언트 선택 방식을 제안합니다. 공정한 클라이언트 선택 전략과 더불어, 클라이언트가 참여할 수 있는 라운드 수를 균등하게 적용하고 클라이언트에 대한 공정한 정확도 분포를 보장합니다. 실험 결과에 따르면 FedFair^3는 최첨단 기준선과 비교했을 때 전체 정확도를 떨어뜨리지 않으면서도 IID 데이터의 정확도 편차를 18.15%, 비아이디 데이터의 정확도 편차를 54.78% 낮추는 것으로 나타났습니다. 또한 월 클럭 훈련 시간도 평균 24.36% 더 짧습니다. [abs|pdf]

[21/136] Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF

Keywords: improved_reward_learning, learned_reward_model, reward_learning
Abstract: 인간 피드백을 통한 강화 학습(RLHF)은 언어 모델을 인간 중심 가치에 가깝게 조정하는 중추적인 기술입니다. RLHF의 초기 단계는 랭킹 데이터에서 보상 모델을 사용하여 인간의 가치를 학습하는 것입니다. 보상 모델의 성능은 한 번의 학습을 거치면 저하되며, 학습된 보상 모델에 대해 지나치게 최적화하면 결국 진정한 목표에 방해가 된다는 사실이 관찰되었습니다. 이 백서에서는 이러한 문제를 심층적으로 분석하고 이론적 통찰력을 활용하여 '반복적 데이터 스무딩(IDS)'이라는 개선된 보상 학습 알고리즘을 설계합니다. 핵심 아이디어는 각 훈련 기간 동안 데이터로 모델을 업데이트할 뿐만 아니라 모델을 사용하여 날짜도 업데이트하여 하드 레이블을 소프트 레이블로 대체한다는 것입니다. 경험적 연구 결과는 이 접근 방식이 기존 방식에 비해 우수한 성능을 보인다는 점을 강조합니다. [abs|pdf]

[22/136] Tradeoffs Between Alignment and Helpfulness in Language Models

Keywords: language_model_alignment, humans_language_models, representation_engineering_alignment
Abstract: 언어 모델 정렬은 원하는 행동을 강화하고 원치 않는 행동을 억제함으로써 인간과 언어 모델 간의 안전한 상호 작용을 가능하게 하는 AI 안전의 중요한 구성 요소가 되었습니다. 보통 모델을 튜닝하거나 사전 설정된 정렬 프롬프트를 삽입하는 방식으로 수행됩니다. 최근에는 학습 후 표현을 변경하여 모델의 행동을 변경하는 방법인 표현 엔지니어링이 LLM을 정렬하는 데 효과적인 것으로 나타났습니다(Zou et al., 2023a). 표현 엔지니어링은 적대적 공격에 대한 저항과 사회적 편견 감소와 같은 정렬 지향적 작업에서 이득을 가져다주지만, 모델의 기본 작업 수행 능력은 저하시키는 것으로도 나타났습니다. 이 논문에서는 모델의 정렬성 증가와 유용성 감소 사이의 트레이드오프에 대해 연구합니다. 이 두 가지 수치의 한계를 제공하는 이론적 틀을 제안하고, 그 관련성을 경험적으로 입증합니다. 흥미롭게도 유용성은 일반적으로 감소하지만, 표현 공학 벡터의 규범에 따라 이차적으로 감소하는 반면, 정렬은 선형적으로 증가하여 표현 공학을 사용하는 것이 효율적인 체제를 나타냅니다. 이러한 연구 결과를 경험적으로 검증하고, 정렬에 대한 표현 공학의 유용성의 한계를 도표로 표시했습니다. [abs|pdf]

[23/136] Defining and Extracting generalizable interaction primitives from DNNs

Keywords: interactions_shared_dnns, knowledge_encoded_deep, dnns_trained_task
Abstract: 심층 신경망(DNN)에 의해 인코딩된 지식을 많은 정보를 잃지 않고 몇 가지 상징적인 기본 패턴으로 충실히 요약하는 것은 설명 가능한 AI의 핵심 과제입니다. 이를 위해 Ren 등(2023c)은 DNN의 추론 점수가 입력 변수 간의 작은 상호 작용 집합으로 설명될 수 있음을 증명하는 일련의 정리를 도출했습니다. 그러나 일반화 능력이 부족하기 때문에 이러한 상호작용을 DNN에 의해 인코딩된 충실한 기본 패턴으로 간주하기는 여전히 어렵습니다. 따라서 동일한 작업에 대해 서로 다른 DNN이 훈련된 경우, 이러한 DNN이 공유하는 상호 작용을 추출하는 새로운 방법을 개발했습니다. 실험 결과, 추출된 상호 작용은 서로 다른 DNN이 공유하는 공통 지식을 더 잘 반영할 수 있는 것으로 나타났습니다. [abs|pdf]

[24/136] Security Code Review by LLMs: A Deep Dive into Responses

Keywords: code_review_security, security_code_review, security_defects_development
Abstract: 보안 코드 리뷰는 개발 중 보안 결함을 탐지하기 위해 자동화된 도구와 수작업을 결합하는 것을 목표로 합니다. 대규모 언어 모델(LLM)의 급속한 발전은 소프트웨어 개발에서 유망한 잠재력을 보여주었을 뿐만 아니라 자동화된 보안 코드 리뷰의 새로운 가능성을 열어주었습니다. 이 연구에서는 보안 결함 탐지를 위해 실제 코드 리뷰에 LLM을 적용할 때 어떤 어려움이 있는지 살펴보기 위해 실제 코드 리뷰에서 보안 결함이 포함된 549개의 코드 파일에 대해 5가지 프롬프트에서 세 가지 최신 LLM(Gemini Pro, GPT-4, GPT-3.5)의 탐지 성능을 비교했습니다. 무작위로 선택한 100개의 코드 파일을 기반으로 가장 성능이 좋은 LLM-프롬프트 조합으로 생성된 82개의 응답을 분석하여 이러한 응답에 존재하는 품질 문제를 5개 주제와 16개 카테고리로 추출하고 분류했습니다. 연구 결과, LLM이 생성하는 응답은 장황함, 모호함, 불완전성으로 인해 종종 어려움을 겪는 것으로 나타났으며, 간결성, 이해 가능성, 보안 결함 탐지에 대한 적합성을 향상시킬 필요성이 강조되었습니다. 이 연구는 보안 코드 검토에서 LLM이 생성한 응답의 결함을 밝히고 향후 이 작업을 위해 LLM을 최적화할 수 있는 길을 열어줍니다. [abs|pdf]

[25/136] Enhancing Molecular Property Prediction with Auxiliary Learning and Task-Specific Adaptation

Keywords: pretrained_gnns_molecular, pretrained_graph_neural, gradients_learning_task
Abstract: 사전 훈련된 그래프 신경망은 다양한 분자 특성 예측 작업에 널리 채택되어 왔습니다. 분자의 구조적 및 관계적 특징을 인코딩할 수 있는 능력에도 불구하고, 이러한 사전 훈련된 GNN을 대상 작업에 대해 기존의 미세 조정 방식으로는 일반화가 제대로 이루어지지 않을 수 있습니다. 이 문제를 해결하기 위해 여러 보조 작업과 함께 사전 훈련된 GNN을 공동으로 훈련하여 목표 작업에 적응시키는 방법을 모색합니다. 이렇게 하면 GNN이 일반적 특징과 작업별 특징을 모두 학습할 수 있어 목표 작업에 도움이 될 수 있습니다. 하지만 보조 작업과 목표 작업의 관련성을 파악하는 것이 가장 큰 과제입니다. 이 문제를 해결하기 위해 우리는 보조 작업의 관련성을 측정하고 작업 경사도를 적응적으로 결합하거나 2단계 최적화를 통해 작업 가중치를 학습하여 이러한 작업을 통합하는 여러 전략을 조사합니다. 또한, 회전을 통해 상충하는 보조 과제 경사도를 정렬하는 방법을 학습하는 새로운 경사도 수술 기반 접근 방식인 '충돌하는 경사도의 회전($RCGrad$)'을 제안합니다. 사전 훈련된 최신 GNN을 사용한 실험 결과, 미세 조정에 비해 최대 7.7%의 개선 효과가 있는 것으로 나타나 제안한 방법의 효율성을 입증했습니다. 이는 목표 작업 미세 조정과 함께 보조 작업을 통합하는 것이 분자 특성 예측을 위해 사전 훈련된 GNN의 일반화 가능성을 개선하는 효과적인 방법이 될 수 있음을 시사합니다. [abs|pdf]

[26/136] Breaking the Barrier: Selective Uncertainty-based Active Learning for Medical Image Segmentation

Keywords: active_learning, tumors_uncertainty_based, active_learning_al
Abstract: 액티브 러닝(AL)은 주석 작업량을 줄이고 성능을 향상시키기 위해 의료 이미지 세분화 분야에서 폭넓게 활용되고 있습니다. 엔트로피와 베이지안과 같은 기존의 불확실성 기반 AL 방법은 모든 픽셀 수준 메트릭의 집합에 의존하는 경우가 많습니다. 그러나 불균형한 환경에서는 이러한 방법이 병변이나 종양과 같은 목표 영역의 중요성을 무시하는 경향이 있습니다. 또한 불확실성 기반 선택은 중복을 초래합니다. 이러한 요인들은 만족스럽지 못한 성능으로 이어지며, 많은 경우 무작위 샘플링보다 성능이 떨어지는 경우도 있습니다. 이 문제를 해결하기 위해 유니티는 모든 픽셀의 메트릭을 합산하는 기존 방식에서 벗어나 선택적 불확실성 기반 AL이라는 새로운 접근 방식을 도입했습니다. 이 전략은 필터링 프로세스를 통해 목표 영역 내 픽셀과 의사 결정 경계에 가까운 픽셀의 우선순위를 정합니다. 이를 통해 앞서 언급한 목표 영역에 대한 무시와 중복 문제를 해결합니다. 이 방법은 다섯 가지 불확실성 기반 방법과 두 가지 다른 데이터 세트에서 상당한 개선을 보였으며, 더 적은 수의 레이블이 지정된 데이터를 활용하여 감독 기준선에 도달하고 일관되게 가장 높은 전체 성능을 달성했습니다. 코드는 https URL_Uncertainty_AL에서 확인할 수 있습니다. [abs|pdf]

[27/136] Dual feature-based and example-based explanation methods

Keywords: explanation_feature, based_explanation_neural, explanation_feature_importance
Abstract: 로컬 및 글로벌 설명에 대한 새로운 접근 방식이 제안됩니다. 이 접근법은 설명된 인스턴스 주변의 유한한 수의 점에 대해 구성된 볼록 헐을 선택하는 것을 기반으로 합니다. 컨벡스 헐을 사용하면 생성된 폴리토프의 극단점을 볼록하게 조합한 형태로 인스턴스의 이중 표현을 고려할 수 있습니다. 유클리드 특징 공간에서 새로운 인스턴스를 교란하는 대신, 볼록 조합 계수의 벡터가 단위 심플렉스에서 균일하게 생성되어 새로운 이중 데이터 집합을 형성합니다. 이중 데이터 세트에 대해 이중 선형 대리 모델이 훈련됩니다. 설명 기능 중요도 값은 간단한 행렬 계산을 통해 계산됩니다. 이 접근 방식은 잘 알려진 모델 LIME을 수정한 것으로 볼 수 있습니다. 이중 표현은 본질적으로 예제 기반 설명을 얻을 수 있게 해줍니다. 신경 덧셈 모델은 예제 기반 설명 접근법을 구현하기 위한 도구로 간주되기도 합니다. 이 접근법을 연구하기 위해 실제 데이터 세트를 사용한 많은 수치 실험이 수행되었습니다. 제안된 알고리즘의 코드를 사용할 수 있습니다. [abs|pdf]

[28/136] Textual Entailment for Effective Triple Validation in Object Prediction

Keywords: textual_entailment_validate, textual_entailment_improves, entailment_validate_facts
Abstract: 지식 기반 모집단은 일반적으로 텍스트 코퍼스에서 추출한 사실로 지식 그래프를 확장하려고 합니다. 최근에는 대규모 코퍼스에 대해 사전 학습된 언어 모델에 클로즈 스타일 전략을 사용하여 검색할 수 있는 사실 지식이 포함되어 있는 것으로 나타났습니다. 이러한 접근 방식은 사실에 대한 제로 샷 리콜을 가능하게 하여 감독 기준선에 비해 객체 예측에서 경쟁력 있는 결과를 보여줍니다. 그러나 프롬프트 기반 사실 검색은 취약할 수 있으며 사용된 프롬프트와 문맥에 따라 크게 좌우되어 의도하지 않거나 환각적인 결과가 나올 수 있습니다. 우리는 클로즈 진술을 통해 언어 모델에서 추출한 사실을 검증하기 위해 텍스트 수반을 사용할 것을 제안합니다. 연구 결과에 따르면 텍스트 수반에 기반한 삼중 검증은 다양한 훈련 체제에서 언어 모델 예측을 향상시킵니다. 또한, 기존 지식 그래프와 명명된 개체가 인식되는 텍스트 구절 등 다른 소스에서 추출한 후보 사실을 검증하는 데에도 인태일먼트 기반 삼중 검증이 효과적임을 보여줍니다. [abs|pdf]

[29/136] Capturing Pertinent Symbolic Features for Enhanced Content-Based Misinformation Detection

Keywords: misinformation_detection, misinformation_detection_terms, detecting_misleading_content
Abstract: 잘못된 정보의 확산을 막는 것은 어려운 일입니다. 오해의 소지가 있는 콘텐츠를 탐지하는 것은 언어적, 도메인적 가변성이 매우 크기 때문에 상당한 어려움이 있습니다. 콘텐츠 기반 모델은 소셜 미디어 게시물과 웹 기사 등의 텍스트 데이터에서 표현을 학습하여 기만적인 언어를 식별하는 데 성공했습니다. 그러나 이러한 이질적인 현상의 대표적인 샘플을 취합하고 효과적인 실제 적용을 구현하는 것은 여전히 어려운 일입니다. 이 백서에서는 잘못된 정보의 언어에 대한 분석 작업을 기반으로 이러한 현상을 특징짓는 언어적 속성과 가장 인기 있는 잘못된 정보 데이터 세트가 이러한 특징을 얼마나 대표적으로 나타내는지 분석합니다. 또한 신경 언어 모델과 함께 적절한 상징적 지식을 적절히 사용하면 오해의 소지가 있는 콘텐츠를 탐지하는 데 도움이 된다는 것을 입증합니다. 우리의 결과는 전반적으로 잘못된 정보 데이터 세트에서 최첨단 성능을 달성하여 우리의 접근 방식이 추가 학습 데이터 없이도 멀티태스크 전이 학습에 대한 유효하고 강력한 대안을 제공한다는 것을 보여줍니다. 또한, 이 결과는 구조화된 지식이 정확도뿐만 아니라 시간 효율성과 리소스 활용도 측면에서 잘못된 정보 탐지와 같이 복잡하고 예측하기 어려운 실제 문제를 해결하는 데 필요한 추가적인 지원을 제공할 수 있다는 증거를 보여줍니다. [abs|pdf]

[30/136] MAPLE: Micro Analysis of Pairwise Language Evolution for Few-Shot Claim Verification

Keywords: fact_checking_pipeline, automated_fact_checking, fact_checking_datasets
Abstract: 클레임 검증은 자동화된 사실 확인 파이프라인에서 필수적인 단계로, 증거와 비교하여 클레임의 진실성을 평가합니다. 이 연구에서는 감독을 위해 매우 제한된 데이터만 사용할 수 있는 소수의 청구 검증의 잠재력을 살펴봅니다. 소규모 seq2seq 모델과 새로운 의미 측정을 통해 주장과 증거 간의 일치 여부를 탐색하는 선구적인 접근 방식인 MAPLE(마이크로 언어 진화 분석)을 제안합니다. 마이크로 언어 진화 경로의 혁신적인 활용은 레이블이 지정되지 않은 쌍별 데이터를 활용하여 클레임 검증을 용이하게 하는 동시에 데이터 주석 및 컴퓨팅 리소스에 대한 요구 사항을 낮춥니다. MAPLE은 세 가지 사실 확인 데이터 세트에서 SOTA 기준선인 SEED, PET 및 LLaMA 2에 비해 상당한 성능 향상을 보여줍니다: FEVER, Climate FEVER, SciFact. 데이터와 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[31/136] MosquIoT: A System Based on IoT and Machine Learning for the Monitoring of Aedes aegypti (Diptera: Culicidae)

Keywords: zika_mosquito, vector_viruses_dengue, chikungunya_zika_mosquito
Abstract: 매년 전 세계 수백만 명의 사람들이 모기 매개 질병에 감염되고 있습니다. 가장 위험한 모기 중 하나는 뎅기열, 황열, 치쿤구니야, 지카 등의 바이러스를 옮기는 주요 매개체인 흰줄숲모기(Aedes aegypti)입니다. 모기 예방 및 박멸 캠페인은 공중 보건에 중대한 영향을 미치는 결과를 피하기 위해 필수적입니다. 이러한 측면에서 곤충학적 감시는 중요한 도구입니다. 현재 이 전통적인 모니터링 도구는 수작업으로 실행되며, 당국이 더 나은 결정을 내리고, 계획 수립을 개선하고, 실행 속도를 높이고, 가용 자원을 더 잘 관리하려면 디지털 혁신이 필요합니다. 따라서 검증된 기술을 기반으로 한 새로운 기술 도구를 설계하고 개발해야 합니다. 그러나 이러한 도구는 비용 효율적이고, 자율적이며, 안정적이고, 구현하기 쉬워야 하며, 연결성과 멀티플랫폼 소프트웨어 애플리케이션을 통해 구현할 수 있어야 합니다. 이 백서에서는 MosquIoT라는 혁신적인 시스템의 설계, 개발 및 테스트에 대해 설명합니다. 이 시스템은 사물인터넷(IoT)과 초소형 머신러닝(TinyML) 기술이 내장된 전통적인 오비트랩을 기반으로 하며, 이를 통해 이집트숲모기 알을 탐지하고 정량화할 수 있습니다. 이 혁신적이고 유망한 솔루션은 현재의 사후 대응적인 곤충학적 모니터링 모델에서 사전 예방적이고 예측적인 디지털 모니터링 모델로 전환하여 도시 내 이집트숲모기 개체군의 행동을 역동적으로 이해하는 데 도움이 될 수 있습니다. [abs|pdf]

[32/136] Cross-silo Federated Learning with Record-level Personalized Differential Privacy

Keywords: personalized_differential_privacy, differential_privacy, personalized_privacy_budget
Abstract: 차등 개인정보 보호로 강화된 연합 학습은 교육 과정에서 고객의 기여를 보호하여 클라이언트 측 데이터의 개인정보를 더 잘 보호하기 위한 인기 있는 접근 방식으로 부상했습니다. 기존 솔루션은 일반적으로 모든 기록에 대해 균일한 개인정보 보호 예산을 가정하고 각 기록의 개인정보 보호 요구사항을 충족하기에 적절하지 않을 수 있는 획일적인 솔루션을 제공합니다. 이 백서에서는 레코드 수준의 개인화된 차등 개인정보 보호를 통해 미지의 영역인 크로스-실로 FL을 탐구합니다. 다양한 개인정보 보호 요구사항을 수용하기 위해 클라이언트 수준 샘플링과 비균일 레코드 수준 샘플링을 모두 사용하는 2단계 하이브리드 샘플링 체계를 채택한 새로운 프레임워크인 rPDP-FL을 고안했습니다. 개인 정보 보호 예산 $\epsilon$이 주어졌을 때 이상적인 레코드당 샘플링 확률 q를 선택하는 것은 매우 중요하고 사소한 문제입니다. 저희는 시뮬레이션 커브 피팅이라는 다용도 솔루션을 도입하여 q와 $\epsilon$ 사이의 비선형 상관관계에 대한 중요한 인사이트를 발견하고 이 문제를 해결할 수 있는 우아한 수학적 모델을 도출했습니다. 평가 결과, 저희 솔루션은 개인 정보 보호를 고려하지 않는 기준선보다 상당한 성능 향상을 제공할 수 있음을 입증했습니다. [abs|pdf]

[33/136] Clinically meaningful timeline summarisation in social media for mental health monitoring

Keywords: timeline_assess_summaries, clinically_meaningful_summarisation, assess_summaries_generated
Abstract: 정신 건강 모니터링에 적합한 소셜 미디어 사용자 타임라인의 임상적으로 의미 있는 요약이라는 새로운 작업을 소개합니다. 저희는 비지도 추상적 요약에 대한 새로운 접근 방식을 개발하여, 임상 전문가에게 유용한 측면을 다루는 높은 수준의 정보와 사용자의 소셜 미디어 타임라인에서 시간에 민감한 증거를 수반하는 2계층 요약본을 생성합니다. 방법론적으로 새로운 점은 긴 텍스트를 표현하도록 조정되고 LLM 주석이 달린 핵심 문구로 안내되는 계층적 변형 자동 인코더(VAE) 버전에 기반한 타임라인 요약 구성 요소에서 비롯됩니다. 그 결과 생성된 타임라인 요약은 지시 프롬프트를 통해 얻은 높은 수준의 정보와 사용자 타임라인의 해당 증거를 모두 포함하는 최종 요약을 생성하기 위해 LLM(LLaMA-2)에 입력됩니다. 전문가가 작성한 요약본과 비교한 자동 평가와 임상 전문가의 인적 평가를 통해 새로운 아키텍처로 생성된 요약을 평가한 결과, TH-VAE에 의한 타임라인 요약은 임상적 유용성이 풍부하고 논리적으로 일관된 요약을 제공하며 시간 경과에 따른 변화를 포착하는 데 있어 LLM 전용 접근법보다 우수한 것으로 나타났습니다. [abs|pdf]

[34/136] Learning big logical rules by joining small rules

Keywords: inductive_logic_programming, logic_programming_learning, learning_big_rules
Abstract: 귀납적 논리 프로그래밍의 가장 큰 난제는 큰 규칙을 학습하는 것입니다. 이 문제를 해결하기 위해 작은 규칙을 결합하여 큰 규칙을 학습하는 접근 방식을 도입했습니다. 우리는 제약 조건 기반 시스템에서 접근 방식을 구현하고 제약 조건 솔버를 사용하여 규칙을 효율적으로 결합합니다. 게임 플레이와 약물 설계를 포함한 다양한 영역에 대한 실험을 통해 우리의 접근 방식이 (i) 100개 이상의 리터럴이 포함된 규칙을 학습할 수 있고, (ii) 예측 정확도 측면에서 기존 접근 방식을 크게 능가한다는 것을 보여주었습니다. [abs|pdf]

[35/136] MultiMUC: Multilingual Template Filling on MUC-4

Keywords: multilingual_parallel_corpus, multilingual_machine_translation, parallel_corpus_template
Abstract: 템플릿 작성을 위한 최초의 다국어 병렬 말뭉치인 MultiMUC를 소개합니다. 이 말뭉치는 고전적인 MUC-4 템플릿 작성 벤치마크의 5개 언어 번역본으로 구성되어 있습니다: 아랍어, 중국어, 페르시아어, 한국어, 러시아어. 강력한 다국어 기계 번역 시스템에서 자동 번역을 얻고 원본 영어 주석을 각 대상 언어에 수동으로 투영합니다. 모든 언어에 대해 주석이 달린 템플릿 인수가 포함된 개발 및 테스트 스플릿의 문장에 대한 사람 번역도 제공합니다. 마지막으로, 최첨단 템플릿 채우기 모델과 ChatGPT를 통해 MultiMUC에 대한 기준선을 제시합니다. [abs|pdf]

[36/136] Contracting with a Learning Agent

Keywords: contracts_learning_agent, repeated_contracts_learning, optimizing_regret_agent
Abstract: 실제 계약 관계는 주객전도 이론의 핵심인 깨끗하고 정적인 모델과는 완전히 다른 경우가 많습니다. 일반적으로 이러한 관계는 불확실한 상황에서 시간이 지남에 따라 주인과 에이전트의 반복적인 전략적 상호작용을 수반합니다. 이론적으로는 매력적이지만 실제로는 복잡하고 동적인 전략을 거의 사용하지 않으며, 복잡성을 회피하고 학습을 통해 불확실성에 접근하는 것을 선호합니다. 유니티는 후회 없는 결과를 달성하는 에이전트에 초점을 맞춰 학습 에이전트와 반복 계약에 대한 연구를 시작합니다.
후회 없는 에이전트에 대한 최적화는 일반적인 게임에서 알려진 미해결 문제로, 우리는 에이전트의 여러 행동 중 선택이 성공/실패로 이어지는 표준 계약 설정에서 이 문제에 대한 최적의 솔루션을 도출했습니다. 이 솔루션의 구조는 놀라울 정도로 간단합니다. 일부 $\alpha > 0$의 경우, 처음에는 에이전트에게 스칼라 $\alpha$의 선형 계약을 제안한 다음, 스칼라 $0$의 선형 계약으로 전환합니다. 이러한 전환은 에이전트가 자신의 작업 공간에서 '자유 낙하'하도록 하며, 이 기간 동안 원주에게 0이 아닌 보상을 0의 비용으로 제공합니다. 에이전트의 명백한 착취에도 불구하고, 이 동적 계약은 최상의 정적 계약에 비해 두 플레이어 모두에게 더 나은 결과를 가져올 수 있습니다. 우리의 결과는 성공/실패를 넘어 주체가 동적으로 재조정하는 임의의 비선형 계약으로 일반화됩니다.
마지막으로, 우리는 시간 지평에 대한 지식에 대한 결과의 의존성을 정량화하여 학습 에이전트에 대한 전략 수립 연구에서 이러한 고려 사항을 처음으로 다루었습니다. [abs|pdf]

[37/136] AI prediction of cardiovascular events using opportunistic epicardial adipose tissue assessments from CT calcium score

Keywords: eat_features_fat, features_fat, fat_features
Abstract: 배경: 최근 연구에서는 죽상동맥경화증과 관련된 주요 심혈관 이상 사건(MACE)의 위험을 예측하기 위해 기본적인 심외막 지방 조직(EAT) 평가(예: 체적 및 평균 HU)를 사용했습니다. 목표: EAT의 병태생리를 파악하고 MACE 예측을 개선하기 위해 수작업으로 제작된 새로운 EAT 기능인 '지방 오믹스'를 생성합니다. 방법: 이전에 검증된 딥러닝 방법과 수동 보정 옵션을 사용하여 EAT를 세분화했습니다. 148개의 방사성 특징(형태적, 공간적, 강도)을 추출하고 특징 감소 및 MACE 예측을 위해 콕스 엘라스틱 넷을 사용했습니다. 결과: 기존의 지방 피처는 예측에 한계가 있었습니다(EAT-volume/EAT-mean-HU/ BMI는 각각 0.53/0.55/0.57의 C-지수를 제공했습니다). 15개의 지방 오믹스 피처를 사용하면 상당한 개선 효과를 얻을 수 있었습니다(C-index=0.69, 테스트 세트). 고위험 특징에는 지방 염증과 관련이 있는 높은 HU를 평가하는 볼륨-복셀-높은-HU-[-50, -30-HU] 및 HU-음성-비뚤어짐이 포함되었습니다. 다른 고위험 특징으로는 두께의 이질성을 반영하는 EAT 두께의 첨도, 근위 관상동맥 근처의 지방을 강조하는 EAT 볼륨-상위 25% 등이 있습니다. 콕스로 식별된 고위험군과 저위험군 환자의 카플란-마이어 플롯은 지방 오믹스 위험의 중앙값으로 잘 구분되었으며, 고위험군은 저위험군의 2.4배에 달하는 HR을 보였습니다(P<0.001). 결론: 예비 연구 결과는 심혈관 질환 위험 예측을 개선하기 위해 EAT에 대한 보다 세밀하고 설명 가능한 평가를 사용할 수 있는 기회를 제시합니다. [abs|pdf]

[38/136] An Empirical Study on Usage and Perceptions of LLMs in a Software Engineering Project

Keywords: code_generation_human, code_generation, software_engineering_students
Abstract: 대규모 언어 모델(LLM)은 인간의 언어를 사용하는 작업에서 탁월한 성능을 발휘하는 인공 지능의 비약적인 발전을 나타냅니다. 범용 LLM의 주요 초점은 코드 생성이 아니지만, 이 분야에서 유망한 결과를 보여주었습니다. 그러나 학술 소프트웨어 엔지니어링 프로젝트에서 LLM의 유용성은 아직 충분히 연구되지 않았습니다. 이 연구에서는 최대 6명으로 구성된 팀에서 일하는 214명의 학생을 대상으로 LLM의 유용성을 살펴봅니다. 특히, 이 연구가 수행된 학술 과정에서는 대부분의 다른 학술 과정이 LLM 사용을 명시적으로 금지하는 것과 달리 학생들에게 개발 도구 체인에 LLM을 통합하도록 권장했습니다.
이 백서에서는 AI가 생성한 코드, 코드 생성에 사용된 프롬프트, 코드를 코드베이스에 통합하기 위한 사람의 개입 수준을 분석합니다. 또한 컴퓨터 공학과 학생의 관점에서 LLM의 유용성, 영향 요인, 향후 전망에 대한 인사이트를 얻기 위해 인식 연구를 수행했습니다. 연구 결과에 따르면 LLM은 소프트웨어 개발의 초기 단계, 특히 기초적인 코드 구조를 생성하고 구문 및 오류 디버깅을 지원하는 데 중요한 역할을 할 수 있는 것으로 나타났습니다. 이러한 인사이트는 소프트웨어 공학도들의 생산성 향상을 위한 도구로서 LLM을 효과적으로 활용하는 방법에 대한 프레임워크를 제공하며, 학생들이 성공적인 인간-AI 협업을 준비할 수 있도록 교육 초점을 전환해야 할 필요성을 강조합니다. [abs|pdf]

[39/136] LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning

Keywords: vulnerability_reasoning_capabilities, vulnerability_reasoning_capability, vulnerability_reasoning_enhanced
Abstract: 대규모 언어 모델(LLM)은 취약점 탐지와 같이 인간 수준의 지능이 필요한 작업을 포함하여 많은 다운스트림 작업에서 상당한 잠재력을 입증했습니다. 그러나 취약점 탐지에 LLM을 사용하려는 최근의 시도는 모델 자체에서 비롯된 것이든, 도구 지원 호출이나 취약점 지식 검색과 같은 외부 지원에서 비롯된 것이든 간에 대상 LLM의 취약점 추론 능력에 대한 심층적인 이해가 부족하기 때문에 아직은 예비적인 단계에 머물러 있습니다. 이 백서에서는 LLM의 취약성 추론 기능을 추가 정보를 적극적으로 찾고(예: SOTA 모델에서 함수 호출을 통해), 관련 취약성 지식을 채택하고(예: 벡터 기반 매칭 및 검색을 통해), 지침에 따라 구조화된 결과를 산출하는 기능 등 다른 기능에서 분리하는 것을 목표로 합니다. 이를 위해 저희는 LLM의 취약성 추론을 다른 기능과 분리하고 다른 기능의 향상과 결합했을 때 LLM의 취약성 추론이 어떻게 향상될 수 있는지를 평가하는 통합 평가 프레임워크인 LLM4Vuln을 제안합니다. 2023년 8월부터 11월까지 Code4rena에서 고위험으로 광범위하게 감사된 75개의 실제 스마트 컨트랙트 취약점을 사용하여 대조 실험을 설계하고, 세 가지 대표적인 LLM(GPT-4, 믹스트랄, 코드 라마)에서 4,950개의 다양한 시나리오로 테스트했습니다. 그 결과 지식 강화, 컨텍스트 보완, 프롬프트 체계, 모델의 다양한 효과에 관한 10가지 결과를 발견했을 뿐만 아니라 두 개의 파일럿 버그 바운티 프로그램에서 1,000달러 이상의 상금이 걸린 9개의 제로데이 취약점을 식별할 수 있었습니다. [abs|pdf]

[40/136] LLaMandement: Large Language Models for Summarization of French Legislative Proposals

Keywords: summaries_legislative_proposals, legislative_amendments_llamandement, summaries_legislative
Abstract: 이 보고서에서는 입법 제안의 중립적인 요약을 생성하여 의회 회의 처리(부처 간 회의에 필요한 벤치 메모 및 문서 작성 포함)의 효율성과 효과를 높이기 위해 프랑스 정부에서 세밀하게 조정한 최첨단 대규모 언어 모델인 LLaMandement를 소개합니다. 증가하는 법률 개정안을 수작업으로 처리해야 하는 관리상의 어려움을 해결해 주는 LLaMandement는 전문 법률 초안 작성자의 견고함과 동시에 기존 인력 작업의 확장성을 뛰어넘는 솔루션을 제공하는 법률 기술 분야의 중요한 이정표가 될 것입니다. 저희는 미세 조정된 모든 모델과 학습 데이터를 커뮤니티에 공개합니다. [abs|pdf]

[41/136] A Survey on Structure-Preserving Graph Transformers

Keywords: preserving_graph_transformers, graph_learning_transformers, graph_structure_preservation
Abstract: 트랜스포머 아키텍처는 자연어 처리 및 컴퓨터 비전과 같은 다양한 영역에서 괄목할 만한 성공을 거두었습니다. 그래프 학습에 있어 트랜스포머는 노드 쌍 간의 상호작용을 포착할 뿐만 아니라 노드 간의 기본 관계와 근접성을 의미하는 그래프 구조를 보존하여 다양한 그래프 구조를 포착할 수 있는 표현력을 보여줘야 합니다. 이에 따라 다양한 구조 보존 그래프 변환기가 제안되어 생물 정보학 및 화학 정보학의 그래프 수준 작업 등 다양한 작업에 널리 사용되고 있습니다. 그러나 그래프 구조 보존과 관련된 전략은 문헌에서 잘 정리되고 체계화되어 있지 않습니다. 이 논문에서는 구조 보존 그래프 변환기에 대한 포괄적인 개요를 제공하고 이러한 방법을 설계 목적의 관점에서 일반화합니다. 먼저 전략을 노드 기능 변조, 컨텍스트 노드 샘플링, 그래프 재작성, 트랜스포머 아키텍처 개선의 네 가지 주요 그룹으로 나눕니다. 그런 다음 그래프 구조 보존의 범위와 목표에 따라 전략을 다시 나눕니다. 또한 그래프 구조를 보존하고 그래프의 본질을 이해하기 위한 그래프 트랜스포머 모델의 과제와 향후 방향에 대해서도 논의합니다. [abs|pdf]

[42/136] Spatial-Aware Latent Initialization for Controllable Image Generation

Keywords: attention_maps_layout, attention_maps, text_image_diffusion
Abstract: 최근 텍스트-이미지 확산 모델은 텍스트 입력에 따라 고품질 이미지를 생성하는 인상적인 능력을 보여주었습니다. 그러나 이러한 모델은 공간 레이아웃 정보에 관한 텍스트 지침을 정확하게 준수하는 데 어려움을 겪습니다. 이전의 연구는 주로 교차 주의 지도를 레이아웃 조건에 맞추는 데 초점을 맞췄지만, 초기화 노이즈가 레이아웃 지침에 미치는 영향을 간과했습니다. 더 나은 레이아웃 제어를 위해 노이즈 제거 과정에서 공간 인식 초기화 노이즈를 활용할 것을 제안합니다. 특히, 반전 단계가 유한한 반전 참조 이미지에 물체의 위치에 대한 유용한 공간 인식이 포함되어 있어 생성된 이미지에서 유사한 레이아웃이 생성된다는 사실을 발견했습니다. 이러한 관찰을 바탕으로 각 레이아웃 조건에 맞게 공간 인식 초기화 노이즈를 사용자 정의할 수 있는 개방형 어휘 프레임워크를 개발했습니다. 초기화 노이즈를 제외한 다른 모듈을 수정하지 않고도 우리의 접근 방식은 다른 학습이 필요 없는 레이아웃 안내 프레임워크 내에서 플러그 앤 플레이 모듈로 원활하게 통합될 수 있습니다. 사용 가능한 안정 확산 모델과 COCO 데이터 세트를 통해 우리의 접근 방식을 정량적, 정성적으로 평가합니다. 공간 인식 잠재 초기화 기능을 갖춘 이 방법은 고품질 콘텐츠를 보존하면서 레이아웃 안내의 효과를 크게 향상시킵니다. [abs|pdf]

[43/136] Divide and Conquer: Rethinking the Training Paradigm of Neural Radiance Fields

Keywords: rendering_quality_nerfs, high_fidelity_views, enhances_rendering
Abstract: 신경 방사 필드(NeRF)는 3D 장면의 고충실도 뷰를 합성하는 데 잠재력을 보여 왔지만, NeRF의 표준 훈련 패러다임은 훈련 세트의 각 이미지의 중요도가 동일하다고 전제합니다. 이러한 가정은 복잡한 지오메트리를 나타내는 특정 뷰를 렌더링하는 데 상당한 문제를 야기하며, 그 결과 최적의 성능을 발휘하지 못합니다. 이 백서에서는 현재 트레이닝 패러다임의 함의를 자세히 살펴보고 NeRF의 렌더링 품질을 더욱 향상시키기 위해 이를 재설계합니다. 시각적 유사성에 따라 입력 뷰를 여러 그룹으로 나누고 각 그룹에 대해 개별 모델을 훈련하면 속도나 효율성을 저하시키지 않으면서도 각 모델이 특정 영역에 특화할 수 있습니다. 그 후, 이러한 전문화된 모델의 지식은 교사-학생 증류 패러다임을 통해 단일 개체로 통합되어 온라인 렌더링을 위한 공간 효율성이 향상됩니다. 유니티는 공개적으로 사용 가능한 두 가지 데이터 세트, 즉 NeRF 합성 데이터와 탱크&템플 데이터에 대해 새로운 훈련 프레임워크를 실증적으로 평가합니다. 평가 결과, 유니티의 DaC 훈련 파이프라인은 최첨단 기준 모델의 렌더링 품질을 향상시키면서도 최소한의 수렴을 통해 뛰어난 성능을 발휘하는 것으로 나타났습니다. [abs|pdf]

[44/136] X-PEFT: eXtremely Parameter-Efficient Fine-Tuning for Extreme Multi-Profile Scenarios

Keywords: efficient_fine_tuning, model_fine_tuning, trained_language_model
Abstract: 어댑터 튜닝과 같은 파라미터 효율적 미세 조정(PEFT) 기법은 특정 작업 또는 프로필에 대해 최소한의 파라미터를 사용하여 사전 학습된 언어 모델(PLM)을 미세 조정하는 것을 목표로 합니다. 어댑터 튜닝은 전체 모델 미세 조정에 비해 매개변수 효율성이 향상되지만 각 프로필에 대해 PLM에 연결된 작은 추가 매개변수 세트를 도입합니다. 이는 여러 프로파일을 사용하는 실제 애플리케이션에서 문제가 될 수 있으며, 특히 프로파일 수가 크게 증가하여 추가 파라미터의 총 수가 선형적으로 증가하는 경우 더욱 그렇습니다. 이 문제를 완화하기 위해 유니티는 새로운 프로파일에 대해 주어진 어댑터를 적응적으로 선택하는 바이너리 마스크 역할을 하는 매우 작은 소형 텐서 세트를 미세 조정하여 주어진 다수의 어댑터를 활용하는 새로운 PEFT 방법인 X-PEFT를 도입했습니다. 제안한 방법을 효율적으로 검증하기 위해 다수의 훈련된 또는 훈련되지 않은(무작위) 어댑터를 사용해 구현합니다. LaMP 및 GLUE 작업을 통해 X-PEFT의 성능을 평가한 결과, 프로파일당 메모리 요구량을 기존 대비 10,000배나 줄였음에도 불구하고 기존 어댑터 튜닝의 효과와 비슷하거나 능가하는 성능을 보였음을 입증했습니다. [abs|pdf]

[45/136] Neural Network Training on Encrypted Data with TFHE

Keywords: fully_homomorphic_encryption, encrypted_data_learns, confidential_data_train
Abstract: 저희는 악의적인 당사자로부터 데이터 기밀을 보호하면서 신경망 학습을 아웃소싱하는 접근 방식을 제시합니다. 완전 동형 암호화를 사용하여 암호화된 데이터에서 작동하고 양자화된 신경망 모델을 학습하는 통합된 학습 접근 방식을 구축합니다. 데이터는 여러 당사자 간에 수평적 또는 수직적으로 분할할 수 있어 기밀 데이터에 대한 협업이 가능합니다. 여러 데이터 세트에 대해 로지스틱 회귀와 다층 퍼셉트론을 훈련합니다. [abs|pdf]

[46/136] Looking for a better fit? An Incremental Learning Multimodal Object Referencing Framework adapting to Individual Drivers

Keywords: driving_referencing, driving_referencing_objects, task_driving_referencing
Abstract: 자동차 산업이 자동화 및 반자동 차량으로 빠르게 발전함에 따라 터치 기반 및 음성 명령 시스템과 같은 기존의 차량 상호 작용 방식은 차량 외부의 물체를 참조하는 등 운전과 무관한 다양한 작업을 수행하기에 부적합해졌습니다. 따라서 운전 중 상호작용에 더 적합한 방식으로 제스처 입력(예: 손, 시선, 머리 자세 제스처)에 대한 연구가 진행되었습니다. 하지만 운전의 역동적인 특성과 개인별 편차로 인해 운전자의 제스처 입력 성능에는 상당한 차이가 있습니다. 이론적으로는 이러한 내재적 변동성을 상당한 데이터 기반 머신러닝 모델을 통해 완화할 수 있지만, 현재 널리 사용되는 방법론은 객체 참조를 위한 제한된 단일 인스턴스 학습 모델에 의존하고 있습니다. 이러한 모델은 개별 운전자의 다양한 행동과 다양한 주행 시나리오에 지속적으로 적응하는 데 한계가 있습니다. 이 문제를 해결하기 위해 유니티는 운전과 객체 참조라는 이중 작업을 수행하는 운전자의 행동 변화와 고유한 특성에 적응하는 새로운 회귀 기반 점진적 학습 접근 방식인 $IcRegress$를 제안합니다. 지속적인 평생 학습을 통해 운전자 경험, 안전, 편의성을 향상시키는 멀티모달 제스처 인터페이스를 위한 보다 개인화되고 적응 가능한 솔루션을 제안합니다. 유니티의 접근 방식은 차량 외부 객체 참조 사용 사례를 통해 평가되었으며, 손 사용, 운전 경험, 다양한 주행 조건 등 다양한 운전자 특성에 걸쳐 단일 학습 모델보다 점진적 학습 모델이 더 우수하다는 점을 강조했습니다. 마지막으로, 재현성을 높이고 배포를 용이하게 하며 추가 연구를 촉진하기 위해 유니티는 이 접근 방식을 오픈소스 프레임워크인 이 https URL에서 제공합니다. [abs|pdf]

[47/136] Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis

Keywords: ai_healthcare_diagnoses, context_automatic_diagnosis, healthcare_diagnoses_generated
Abstract: 자동 진단은 환자의 증상 설명을 기반으로 진단을 생성하는 의료 분야에서 AI의 중요한 응용 분야입니다. 기존 연구에서는 정규화된 증상과 모든 가능한 질병 간의 관계를 모델링하여 이 작업에 직접적으로 접근했습니다. 그러나 임상 진단 과정에서 환자는 처음에 일반의와 상담하고, 필요한 경우 보다 포괄적인 평가를 위해 특정 분야의 전문가에게 의뢰합니다. 최종 진단은 종종 의료 전문가 그룹 간의 협업을 통해 이루어집니다. 최근 대규모 언어 모델은 자연어 이해에서 인상적인 능력을 보여주고 있습니다. 이 연구에서는 튜닝이 필요 없는 LLM 기반 에이전트를 의료진으로 채택하고, 잠재적 질병에 대한 에이전트의 확률 분포를 적응적으로 융합하여 현실 세계의 진단 과정을 모델링하는 에이전트 파생 다중 전문가 상담(AMSC) 프레임워크를 제안합니다. 실험 결과는 기준선에 비해 우리의 접근 방식이 우수하다는 것을 입증합니다. 특히, 우리의 접근 방식은 매개변수 업데이트와 훈련 시간이 훨씬 짧아 효율성과 실용성이 향상됩니다. 또한 자동 진단의 맥락에서 암시적 증상의 역할에 대한 새로운 관점을 탐구합니다. [abs|pdf]

[48/136] Flexible Parallel Neural Network Architecture Model for Early Prediction of Lithium Battery Life

Keywords: prediction_battery, abstraction_inceptionblock_fpnn, inceptionblock_fpnn
Abstract: 배터리 수명의 조기 예측(EPBL)은 리튬 배터리의 효율성을 높이고 수명을 연장하는 데 필수적입니다. 고정된 아키텍처를 가진 기존 모델은 다양한 EPBL 작업의 다양한 데이터 분포로 인해 종종 과소 적합 또는 과대 적합 문제에 직면합니다. 이 논문에서는 인셉션 블록, 3D 컨볼루션 신경망(CNN), 2D CNN, 듀얼 스트림 네트워크를 포함하는 유연한 병렬 신경망(FPNN)의 해석 가능한 딥러닝 모델을 제안합니다. 제안된 모델은 3D CNN을 사용하여 비디오와 같은 형식의 데이터에서 전기화학적 특징을 효과적으로 추출하고 InceptionBlock을 통해 고급 멀티스케일 특징 추상화를 달성합니다. FPNN은 EPBL에서 다양한 복잡성의 작업을 유연하게 처리하기 위해 InceptionBlock의 수를 적응적으로 조정할 수 있습니다. MIT 데이터 세트에 대한 테스트 결과, 입력 주기적 데이터 볼륨이 10, 20, 30, 40일 때 FPNN 모델은 각각 2.47%, 1.29%, 1.08%, 0.88%의 MAPE로 EPBL 작업에서 뛰어난 예측 정확도를 달성하는 것으로 나타났습니다. FPNN의 해석 가능성은 주로 유연한 단위 구조와 매개변수 선택에 반영되어 있습니다. 다양한 분기 구조를 통해 모델이 다양한 규모의 특징을 포착할 수 있으므로 기계가 유익한 특징을 학습할 수 있습니다. 여기에 제시된 접근 방식은 리튬 배터리의 조기 수명 예측을 위한 정확하고 적응 가능하며 이해하기 쉬운 솔루션을 제공하여 배터리 상태 모니터링 분야에서 새로운 가능성을 열어줍니다. [abs|pdf]

[49/136] Federated unsupervised random forest for privacy-preserving patient stratification

Keywords: unsupervised_random_forests, unsupervised_random_forest, random_forests_unsupervised
Abstract: 정밀 의학의 영역에서 효과적인 환자 계층화와 질병 하위 유형화를 위해서는 멀티오믹스 데이터에 맞는 혁신적인 방법론이 필요합니다. 멀티오믹스 데이터에 적용된 클러스터링 기법은 뚜렷한 환자 하위 그룹을 식별하여 질병의 다양성을 더 세밀하게 파악하는 데 중요한 역할을 하고 있습니다. 이 연구는 비지도 랜덤 포레스트 기반 클러스터링과 연합 컴퓨팅을 통해 정밀 의학을 발전시키기 위한 강력한 프레임워크를 구축합니다. 비지도 랜덤 포레스트를 활용한 새로운 멀티 오믹스 클러스터링 접근법을 소개합니다. 비지도 랜덤 포레스트의 특성으로 인해 클러스터별 특징의 중요도를 결정할 수 있으며, 각기 다른 환자 그룹에 대한 주요 분자 기여 요인을 밝혀낼 수 있습니다. 게다가, 우리의 방법론은 개인정보 보호가 가장 중요한 의료 영역에서 중요한 측면인 연합 실행을 위해 설계되었습니다. 우리는 머신러닝 벤치마크 데이터 세트와 암 게놈 아틀라스(TCGA)의 암 데이터에 대해 우리의 접근 방식을 검증했습니다. 우리의 방법은 질병 하위 유형화 측면에서 최첨단 기술과 경쟁할 수 있을 뿐만 아니라, 동시에 클러스터 해석 가능성을 크게 향상시킵니다. 실험 결과, 연합 컴퓨팅을 통해 로컬 클러스터링 성능을 개선할 수 있는 것으로 나타났습니다. [abs|pdf]

[50/136] Probabilistic Abduction for Visual Abstract Reasoning via Learning Rules in Vector-symbolic Architectures

Keywords: reasoning_abilities, abstract_reasoning_abilities, reasoning_abilities_using
Abstract: 추상적 추론은 인간 지능의 초석이며, 이를 인공지능(AI)으로 재현하는 것은 지속적인 도전 과제입니다. 이 연구는 벡터 기호 아키텍처(VSA)가 제공하는 분산 연산과 연산자를 사용하여 추상적 추론 능력을 평가하는 시각적 테스트인 Raven의 프로그레시브 행렬(RPM)을 효율적으로 푸는 데 중점을 둡니다. RPM과 관련된 규칙 공식을 하드코딩하는 대신, 우리의 접근 방식은 단 한 번의 훈련 데이터 통과로 VSA 규칙 공식(따라서 Learn-VRF라는 이름)을 학습할 수 있습니다. 하지만 이 접근 방식은 간결한 매개변수를 사용하여 투명성과 해석 가능성을 유지합니다. Learn-VRF는 I-RAVEN의 배포 내 데이터에 대한 정확한 예측을 산출하고, 보이지 않는 속성-규칙 쌍에 대한 강력한 배포 외 기능을 보여줌으로써 대규모 언어 모델을 포함한 순수 연결주의 기준선보다 훨씬 뛰어난 성능을 발휘합니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[51/136] SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning

Keywords: robotic_reinforcement_learning, reinforcement_learning_rl, robotic_reinforcement
Abstract: 최근 몇 년 동안 로봇 강화 학습(RL) 분야에서 상당한 진전이 이루어지면서 복잡한 이미지 관찰을 처리하고, 실제 세계에서 학습하며, 데모 및 이전 경험과 같은 보조 데이터를 통합하는 방법이 가능해졌습니다. 하지만 이러한 발전에도 불구하고 로봇 RL은 여전히 사용하기 어렵습니다. 실무자들 사이에서는 이러한 알고리즘의 특정 구현 세부 사항이 알고리즘의 선택만큼이나 성능에 중요하다는 것이 인정되고 있습니다(그 이상은 아니더라도). 우리는 로봇 RL의 광범위한 채택과 로봇 RL 방법의 발전을 가로막는 중요한 과제는 이러한 방법의 접근성이 상대적으로 낮다는 점이라고 생각합니다. 이러한 문제를 해결하기 위해 효율적인 오프정책 딥러닝 방법 샘플과 함께 보상 계산 및 환경 재설정 방법, 널리 채택된 로봇을 위한 고품질 컨트롤러, 여러 가지 까다로운 예제 작업을 포함하는 세심하게 구현된 라이브러리를 개발했습니다. 저희는 이 라이브러리를 커뮤니티를 위한 리소스로 제공하고, 설계 선택 사항을 설명하며, 실험 결과를 제시합니다. 놀랍게도 이 라이브러리를 구현하면 PCB 기판 조립, 케이블 라우팅, 물체 재배치에 대한 정책을 평균적으로 정책당 25분에서 50분 사이에 학습하여 매우 효율적인 학습을 달성할 수 있으며, 이는 문헌에서 보고된 유사한 작업에 대한 최신 결과보다 개선된 것입니다. 이러한 정책은 완벽하거나 거의 완벽에 가까운 성공률을 달성하고, 교란 상황에서도 극도의 견고성을 보이며, 긴급 복구 및 수정 동작을 보여줍니다. 이러한 유망한 결과와 고품질 오픈소스 구현이 로봇 커뮤니티가 로봇 RL을 더욱 발전시킬 수 있는 도구가 되기를 바랍니다. 코드, 문서 및 동영상은 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[52/136] GPS: Graph Contrastive Learning via Multi-scale Augmented Views from Adversarial Pooling

Keywords: graph_contrastive_learning, graph_representation_learning, representation_learning_graphs
Abstract: 자기 지도형 그래프 표현 학습은 최근 생물 정보학 및 소셜 네트워크를 포함한 다양한 분야에서 상당한 가능성을 보여 왔습니다. 수많은 그래프 대조 학습 접근 방식이 그래프 표현 학습에서 유망한 성능을 보였는데, 원본 그래프와 증강된 보기(즉, 긍정적인 보기) 간의 일치도를 최대화하여 모델을 훈련합니다. 안타깝게도 이러한 방법에는 일반적으로 인간 전문가의 지식을 기반으로 사전 정의된 증강 전략이 포함됩니다. 게다가 이러한 전략은 충분한 감독 신호를 제공하기에 도전적인 긍정적인 견해를 생성하지 못할 수도 있습니다. 이 백서에서는 이러한 문제를 해결하기 위해 그래프 풀링 콘트라스트(GPS)라는 새로운 접근 방식을 제시합니다. 그래프 풀링이 중복성을 제거하여 그래프를 적응적으로 거칠게 만들 수 있다는 사실에 착안하여, 우리는 그래프 풀링을 재고하고 이를 활용하여 도전적인 포지티브 뷰를 제공하고 의미를 보존하는 데 중점을 둔 다양한 규모의 포지티브 뷰, 즉 강력하게 증강된 뷰와 약하게 증강된 뷰를 자동으로 생성할 수 있도록 합니다. 그런 다음 유사성 학습과 일관성 학습을 통해 두 가지 관점을 공동 대조 학습 프레임워크에 통합하고, 풀링 모듈은 인코더에 대해 적대적 강건성을 위해 적대적으로 훈련됩니다. 그래프 분류와 전이 학습 작업에 대한 12개의 데이터 세트에 대한 실험을 통해 제안된 방법이 다른 방법보다 우수하다는 것을 확인했습니다. [abs|pdf]

[53/136] HEQuant: Marrying Homomorphic Encryption and Quantization for Communication-Efficient Private Inference

Keywords: computation_homomorphic_encryption, homomorphic_encryption, computation_homomorphic
Abstract: 동형 암호화(HE)를 사용한 안전한 양 당사자 계산은 공식적인 보안 보장으로 데이터 프라이버시를 보호하지만 통신 오버헤드가 높다는 단점이 있습니다. Cheetah, Iron 등의 이전 연구에서 다양한 신경망(NN) 연산을 위한 효율적인 HE 기반 프로토콜을 제안했지만, 여전히 NN 연산에 대해 고정 소수점 37비트와 같은 높은 정밀도를 가정하고 양자화 오류에 대한 NN의 기본 견고성을 무시하고 있습니다. 이 백서에서는 HE 기반 프로토콜을 위한 저정밀도 양자화 인식 최적화를 특징으로 하는 HEQuant를 제안합니다. 우리는 양자화와 HE의 순진한 조합의 이점이 비트 정밀도가 낮아짐에 따라 빠르게 포화되는 것을 관찰했습니다. 따라서 통신 효율성을 더욱 향상시키기 위해 전송되는 데이터의 수와 정밀도를 동시에 줄이기 위해 계수 패킹 알고리즘과 양자화 인식 타일링 알고리즘을 포함한 일련의 최적화를 제안합니다. 이전 HE 기반 프로토콜(예: CrypTFlow2, 치타, 아이언 등)과 비교했을 때 HEQuant는 $3.5\sim 23.4\times$의 통신 감소와 $3.0\sim 9.3\times$의 지연 시간 감소를 달성했습니다. 한편, 이전 네트워크 최적화 프레임워크(예: SENet, SNL 등)와 비교했을 때 HEQuant는 $3.1\sim 3.6\times$의 통신 감소를 달성합니다. [abs|pdf]

[54/136] Routers in Vision Mixture of Experts: An Empirical Study

Keywords: tokens_routers_sparse, assignment_experts_tokens, sparse_moe_expert
Abstract: 전문가 혼합(MoE) 모델은 계산 비용을 크게 늘리지 않고도 모델 용량을 확장할 수 있는 유망한 방법입니다. MoE의 핵심 구성 요소는 라우터로, 임베딩(토큰)을 처리하는 매개변수(전문가)의 하위 집합을 결정합니다. 이 백서에서는 컴퓨터 비전 작업을 위한 MoE의 라우터에 대한 포괄적인 연구를 소개합니다. 두 개의 파라메트릭 라우팅 텐서를 사용하여 서로 다른 MoE를 포괄하는 통합 MoE 공식을 소개합니다. 이 공식은 전문가와 토큰 간의 이진 또는 하드 할당을 사용하는 희소 MoE와 전문가와 토큰의 가중치 조합 간의 소프트 할당을 사용하는 소프트 MoE를 모두 다룹니다. 희소 MoE용 라우터는 두 가지 변형으로 더 분류할 수 있습니다: 각 토큰에 전문가를 매칭하는 토큰 초이스와 각 전문가에 토큰을 매칭하는 전문가 초이스입니다. 저희는 이전 작업의 기존 라우터와 새로 도입한 라우터를 포함하여 6가지 라우터로 정면 대결 실험을 진행했습니다. 그 결과, (i) 원래 언어 모델링을 위해 개발된 많은 라우터가 비전 작업에서 강력한 성능을 발휘하도록 조정될 수 있으며, (ii) 희소성 MoE에서 전문가 선택 라우터가 일반적으로 토큰 선택 라우터보다 성능이 뛰어나고, (iii) 소프트 MoE가 일반적으로 컴퓨팅 예산이 고정된 희소성 MoE보다 성능이 뛰어나다는 것을 보여줍니다. 이러한 결과는 비전 MoE 모델에서 라우터의 중요한 역할에 대한 새로운 인사이트를 제공합니다. [abs|pdf]

[55/136] Response Generation for Cognitive Behavioral Therapy with Large Language Models: Comparative Study with Socratic Questioning

Keywords: dialogue_quality_empathy, dialogue_qualities_improve, dialogue_model_trained
Abstract: 인지 행동 치료(CBT)와 같은 상담 기법에서 파생된 사전 정의 또는 규칙 기반 시나리오에 의해 제어되는 대화 시스템은 정신 건강 앱에서 중요한 역할을 합니다. 책임감 있는 응답이 필요함에도 불구하고, 새롭게 부상하는 LLM을 사용하여 문맥과 관련된 발화를 생성하면 이러한 앱을 향상시킬 수 있을 것으로 예상할 수 있습니다. 이 연구에서는 오사카부(OsakaED)에서 제공한 소셜 미디어 공감 상담 데이터 세트로 추가 학습된 트랜스포머 기반 대화 모델과 OpenAI에서 만든 최첨단 LLM인 GPT-4를 사용하여 전통적인 소크라테스식 질문에 초점을 맞춘 CBT 시나리오를 기반으로 대화 모듈을 구축합니다. LLM으로 생성된 응답을 사용하는 시스템과 그렇지 않은 시스템을 비교하여 기분 변화, 인지 변화, 대화의 질(예: 공감)과 같은 주관적인 평가에 대해 생성된 응답이 미치는 영향을 조사했습니다. 그 결과, 오사카ED 모델을 사용할 때 눈에 띄는 개선 사항은 관찰되지 않았습니다. GPT-4를 사용하면 기분 변화, 공감 및 기타 대화의 질이 크게 향상됩니다. 결과는 GPT-4가 높은 상담 능력을 가지고 있음을 시사합니다. 그러나 인간 상담 데이터 세트로 훈련된 대화 모델을 사용하더라도 시나리오 기반 대화에 비해 반드시 더 나은 결과를 얻을 수 있는 것은 아니라는 사실도 보여줍니다. 실제 정신건강 상담 서비스에서 GPT-4를 포함한 LLM이 생성한 답변을 제시하고 사용자와 직접 상호작용하게 하는 것은 윤리적 문제를 야기할 수 있지만, 인간 전문가가 규칙, 시나리오 또는 예시 답변을 사용하는 시스템에서 미리 LLM을 사용하여 예시 답변이나 답변 템플릿을 생성하는 것은 여전히 가능합니다. [abs|pdf]

[56/136] NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness

Keywords: evaluation_benchmarks_language, benchmarks_language_models, code_semantics_propose
Abstract: 코드 언어 모델(코드 LM)에 대한 기존의 평가 벤치마크는 거의 전적으로 LM이 기능적으로 올바른 코드를 생성할 수 있는지 여부에 초점을 맞추고 있습니다. 실제 소프트웨어 엔지니어링에서 개발자는 기능적 정확성 그 이상을 생각합니다. 개발자는 효율성, 보안, 유지보수성 등 전반적인 시스템 설계 목표를 충족하기 위해 기능을 '어떻게' 구현해야 하는지에 대한 요구 사항을 가지고 있습니다. 또한 LM이 요구사항과 코드 의미론에 대한 강력한 이해를 보여줄 경우 코드 LM을 더 신뢰하게 됩니다.
저희는 기능적 요구사항과 비기능적 요구사항 모두에 대한 간단한 분류 인스턴스 및 비기능적 요구사항에 대한 코드 LM을 평가하기 위한 새로운 벤치마크 NoFunEval을 제안합니다. 개발자가 도메인 지식을 LM에 전달할 수 있는 방법으로 코딩 개념(CoCo)이라는 프롬프트 방법을 제안합니다. 22개의 코드 LM에 대한 광범위한 평가를 실시했습니다. 그 결과 벤치마크에서 테스트했을 때 대체로 실패했으며, 이는 교육 설정에 근본적인 맹점이 있음을 암시하는 것이었습니다. 놀랍게도 인기 있는 HumanEval 벤치마크에서 도출된 기능적 정확도 인스턴스에 대한 분류 정확도조차 낮아, 애초에 기능적으로 올바른 코드를 생성하는 데 성공할 수 있는 원천과 이해의 깊이에 의문을 제기합니다. 벤치마크 및 평가 스크립트는 이 https URL에서 공개적으로 공개할 예정입니다. [abs|pdf]

[57/136] Scalable Federated Unlearning via Isolated and Coded Sharding

Keywords: scalable_federated_unlearning, federated_unlearning_framework, models_federated_unlearning
Abstract: 연합 언러닝은 협업 학습 모델의 성능에 영향을 주지 않으면서 클라이언트 수준의 데이터 효과를 지울 수 있는 유망한 패러다임으로 부상했습니다. 그러나 연합된 언러닝 프로세스는 종종 스토리지 오버헤드를 유발하고 상당한 컴퓨팅 리소스를 소모하기 때문에 실제로 구현하는 데 어려움이 있습니다. 이 문제를 해결하기 위해 본 백서에서는 격리된 샤딩과 코드화된 컴퓨팅을 기반으로 확장 가능한 연합 언러닝 프레임워크를 제안합니다. 먼저 분산된 클라이언트를 여러 단계에 걸쳐 여러 개의 격리된 샤드로 분할하여 영향을 받는 클라이언트 수를 줄입니다. 그런 다음 중앙 서버의 스토리지 오버헤드를 줄이기 위해 모델 파라미터를 여러 샤드에 걸쳐 압축하여 코드화된 컴퓨팅 메커니즘을 개발합니다. 또한, 격리형 샤딩과 코드형 샤딩의 시간 효율성과 스토리지 효과에 대한 이론적 분석을 제공합니다. 마지막으로 분류와 생성이라는 두 가지 대표적인 학습 작업에 대한 광범위한 실험을 통해 우리가 제안한 프레임워크가 정확도, 재학습 시간, 스토리지 오버헤드, 멤버십 추론 공격에 대한 F1 점수 측면에서 세 가지 최신 프레임워크보다 더 나은 성능을 달성할 수 있음을 입증했습니다. [abs|pdf]

[58/136] A Class-aware Optimal Transport Approach with Higher-Order Moment Matching for Unsupervised Domain Adaptation

Keywords: unsupervised_domain_adaptation, domain_adaptation, domain_adaptation_uda
Abstract: 비지도 도메인 적응(UDA)은 레이블이 지정된 소스 도메인에서 레이블이 지정되지 않은 타깃 도메인으로 지식을 전송하는 것을 목표로 합니다. 이 백서에서는 소스 클래스 조건부 분포와 소스 및 타깃 데이터 분포의 혼합에 대한 분포 사이의 OT 거리를 측정하는 클래스 인식 최적 전송(OT)이라는 새로운 접근 방식을 소개합니다. 클래스 인식 OT는 주어진 데이터 예시와 소스 클래스 조건부 분포 간의 일치 정도를 결정하는 비용 함수를 활용합니다. 이 비용 함수를 최적화함으로써 대상 예제와 소스 클래스 조건부 분포 간의 최적의 매칭을 찾아내어 두 도메인 간에 발생하는 데이터 및 레이블 이동을 효과적으로 해결합니다. 클래스 인식 OT를 효율적으로 처리하기 위해 심층 신경망을 사용하여 전송 확률과 비용 함수를 공식화하는 상각 솔루션을 제안합니다. 또한 소스 도메인과 타겟 도메인에서 해당 클래스 영역을 정렬하기 위해 클래스 인식 고차 모멘트 매칭(HMM)을 최소화할 것을 제안합니다. 클래스 인식 HMM 구성 요소는 두 분포 사이의 HMM 거리를 정확하게 평가하기 위한 경제적인 계산 접근 방식을 제공합니다. 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 우리가 제안한 방법이 기존의 최첨단 기준선보다 훨씬 뛰어난 성능을 발휘한다는 것을 입증했습니다. [abs|pdf]

[59/136] Bridging the Domain Gap: A Simple Domain Matching Method for Reference-based Image Super-Resolution in Remote Sensing

Keywords: super_resolution_refsr, remote_sensing_super, image_super_resolution
Abstract: 최근 참조 기반 이미지 초해상도(RefSR)가 이미지 초해상도(SR) 작업에서 뛰어난 성능을 보이고 있습니다. RefSR의 주요 아이디어는 참조(Ref) 이미지의 추가 정보를 활용하여 저해상도(LR) 이미지의 고주파 성분을 복구하는 것입니다. 특징 매칭을 통해 관련 텍스처를 전송함으로써 RefSR 모델은 기존의 단일 이미지 초해상도(SISR) 모델보다 성능이 뛰어납니다. 그러나 위성 이미지와 같은 실제 시나리오에서 자주 발생하는 Ref 이미지와 LR 이미지 사이에 도메인 갭이 존재할 경우 성능이 크게 저하됩니다. 이 서신에서는 플러그 앤 플레이 방식으로 성능을 향상시키기 위해 기존 RefSR 모델과 원활하게 통합할 수 있는 도메인 매칭(DM) 모듈을 소개합니다. 저희가 아는 한, 원격 감지 이미지 처리에서 도메인 매칭 기반 RefSR을 연구한 것은 이번이 처음입니다. 분석 결과, 서로 다른 위성에서 도메인 갭이 자주 발생하는 것으로 나타났으며, 기존 모델이 이러한 문제를 효과적으로 해결한 반면, 저희 모델은 어려움을 겪었습니다. 실험을 통해 제안된 DM 모듈이 원격 감지 초고해상도 작업에서 SR 성능을 질적, 양적으로 향상시킨다는 사실을 입증했습니다. [abs|pdf]

[60/136] Self-Supervised Learning in Event Sequences: A Comparative Study and Hybrid Approach of Generative Modeling and Contrastive Learning

Keywords: approaches_self_supervised, generative_contrastive_approaches, generative_contrastive_embeddings
Abstract: 이 연구에서는 이벤트 시퀀스의 표현을 얻기 위한 자기 지도 학습 기법을 살펴봅니다. 이는 은행, 전자 상거래, 의료 등 다양한 분야에서 핵심적으로 사용되는 기법입니다.
우리는 자기 지도 학습에서 생성적 접근법과 대조적 접근법을 독립적으로 적용하여 포괄적인 연구를 수행합니다. 그 결과 최고의 방법은 하나도 없다는 사실을 발견했습니다. 따라서 이러한 접근법을 결합하여 얻을 수 있는 잠재적 이점을 탐구합니다. 이 목표를 달성하기 위해 현대의 멀티모달 연구에서 영감을 얻어 생성적 임베딩과 대조적 임베딩을 별개의 양식으로 조정하는 새로운 방법을 소개합니다.
생성적 접근 방식과 대조적 접근 방식은 종종 상호 배타적인 것으로 취급되어 함께 탐구할 수 있는 간극을 남깁니다. 연구 결과, 이 통합 모델이 적어도 기존 방법과 동등하거나 대부분 능가하는 성능을 보이며 다양한 작업에서 더 보편적이라는 것이 입증되었습니다. 또한, 자체 지도 방식이 데이터 세트에서 지도 방식보다 일관되게 우수한 성능을 보였음을 입증했습니다. [abs|pdf]

[61/136] EmoDM: A Diffusion Model for Evolutionary Multi-objective Optimization

Keywords: evolutionary_optimization_tasks, evolutionary_multi_objective, diffusion_evolutionary_search
Abstract: 진화 알고리즘은 다목적 최적화 문제(MOP)를 해결하는 데 성공했습니다. 그러나 모집단 기반 탐색 방법론의 일종인 진화 알고리즘은 목적 함수에 대한 많은 수의 평가가 필요하기 때문에 비용이 많이 드는 광범위한 MOP에 적용하기에는 한계가 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 진화적 다목적 검색을 학습할 수 있는 확산 모델인 EmoDM을 최초로 제안합니다. 이는 진화적 탐색의 역 수렴 과정을 순방향 확산으로 취급하고 이전에 해결된 진화적 최적화 작업으로부터 잡음 분포를 학습함으로써 달성됩니다. 이렇게 사전 학습된 EmoDM은 추가적인 진화적 탐색 없이 역확산을 통해 새로운 MOP에 대한 비지배 솔루션 세트를 생성할 수 있으므로 필요한 함수 평가가 크게 줄어듭니다. EmoDM의 확장성을 높이기 위해 상호 엔트로피 기반 주의 메커니즘을 도입하여 목표에 가장 중요한 결정 변수를 포착합니다. 실험 결과, 최대 5000개의 의사 결정 변수가 있는 MOP를 해결하는 데 있어 최신 진화 알고리즘과 비교했을 때 검색 성능과 계산 효율성 측면에서 EmoDM의 경쟁력이 입증되었습니다. 사전 학습된 EmoDM은 보이지 않는 문제에도 잘 일반화되는 것으로 나타나 일반적이고 효율적인 MOP 솔버로서의 강력한 잠재력을 보여줍니다. [abs|pdf]

[62/136] Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

Keywords: vision_language_models, existing_vision_language, zero_shot_recognition
Abstract: 기존의 시각 언어 모델은 다양한 시각 영역과 작업에서 강력한 일반화 능력을 보여줍니다. 그러나 이러한 모델은 주로 폐쇄적인 방식으로 제로 샷 인식을 수행하므로 설계상 개방형 시각 개념을 처리하는 데 어려움을 겪습니다. 최근 신속한 학습과 같은 미세 조정 방법을 통해 배포 내(ID) 샘플과 배포 외(OOD) 샘플 간의 구별을 연구할 뿐만 아니라 ID와 OOD 정확도 모두에서 일부 개선된 결과를 보여주고 있습니다. 이 논문에서는 먼저 시각 언어 모델을 충분히 미세 조정했지만 적절한 정규화가 이루어지지 않은 경우, 주어진 데이터 세트에서 알려진 클래스에 대해서는 과적합하고 알려지지 않은 클래스에 대해서는 성능이 저하되는 경향이 있음을 입증합니다. 그런 다음 이 함정을 해결하기 위해 미세 조정된 모델의 OOD 일반화를 개선하는 데 중점을 둔 새로운 접근 방식인 OGEN을 제안합니다. 구체적으로, 클래스 조건부 특징 생성기를 도입하여 알 수 없는 클래스의 클래스 이름만으로 OOD 특징을 합성합니다. 이렇게 합성된 특징은 미지 데이터에 대한 유용한 지식을 제공하고, 공동으로 최적화할 때 ID 데이터와 OOD 데이터 사이의 결정 경계를 정규화하는 데 도움이 됩니다. 마찬가지로 중요한 것은 공동 최적화 중에 특징 생성 모델을 규칙화하는 적응형 자체 증류 메커니즘, 즉 과적합을 방지하기 위해 모델 상태 간에 지식을 적응적으로 전송하는 것입니다. 실험을 통해 이 방법이 다양한 설정에서 OOD 일반화 성능에서 확실한 이득을 가져온다는 것을 검증했습니다. [abs|pdf]

[63/136] $\boldsymbol{M^2}$-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining

Keywords: benchmarks_languages_multimodal, bilingual_image, english_dataset_bm
Abstract: CLIP과 같은 비전 언어 기반 모델은 인공지능 분야에 혁신을 가져왔습니다. 그럼에도 불구하고 중국어와 영어 등 다국어를 지원하는 VLM 모델은 대규모 사전 학습 데이터 세트의 상대적 부족으로 인해 발전이 더뎠습니다. 이를 위해 유니티는 60억 개 이상의 이미지-텍스트 쌍이 포함된 포괄적인 이중 언어(중국어-영어) 데이터 세트 BM-6B를 도입하여 두 언어의 이미지를 잘 이해할 수 있도록 멀티모달 기반 모델을 개선하고자 합니다. 이러한 규모의 데이터 세트를 처리하기 위해 유니티는 이미지-텍스트 대비 손실 계산을 위한 새로운 그룹화된 집계 방식을 제안하여 통신 오버헤드와 GPU 메모리 수요를 크게 줄이고 훈련 속도를 60% 향상시켰습니다. 우리는 BM-6B에서 향상된 세분화된 이해 능력을 갖춘 일련의 이중 언어 이미지-텍스트 기초 모델을 사전 훈련하고, 그 결과 $M^2$-인코더("M-Square"로 발음)라고 불리는 이 모델은 다중 모드 검색 및 분류 작업에서 두 언어 모두에서 새로운 벤치마크를 설정했습니다. 특히, 가장 큰 $M^2$-Encoder-10B 모델은 제로 샷 분류 설정에서 ImageNet에서 88.5%, ImageNet-CN에서 80.7%의 최고 정확도를 달성하여 이전에 보고된 SoTA 방법을 각각 2.2%, 21.1% 능가하는 결과를 얻었습니다. $M^2$-인코더 시리즈는 현재까지 가장 포괄적인 이중 언어 이미지-텍스트 기반 모델 중 하나이므로 연구 커뮤니티에서 추가 탐색 및 개발을 위해 사용할 수 있도록 제공하고 있습니다. [abs|pdf]

[64/136] A Gated MLP Architecture for Learning Topological Dependencies in Spatio-Temporal Graphs

Keywords: temporal_gnn_based, spatio_temporal_gnn, gnn_based_topological
Abstract: 시공간 그래프의 복잡한 벡터 표현을 학습하고, 트래픽 데이터 세트와 같은 애플리케이션에 중요한 복잡한 시공간 종속성을 포착하기 위해 그래프 신경망(GNN)과 트랜스포머가 점점 더 많이 채택되고 있습니다. 기존의 많은 방법들이 다중 헤드 주의 메커니즘과 메시지 전달 신경망(MPNN)을 사용해 공간적 관계와 시간적 관계를 모두 포착하지만, 이러한 접근 방식은 시간적 관계와 공간적 관계를 독립적으로 인코딩하고 그래프의 위상학적 특성을 제한적으로 반영합니다. 이 글에서는 게이트 다층 퍼셉트론(gMLP)이 있는 시공간 그래프의 위상학적 비소수 불변량을 기반으로 하는 새로운 시공간 GNN인 Cy2Mixer(Cycle to Mixer)를 소개합니다. Cy2Mixer는 MLP를 기반으로 하는 세 가지 블록으로 구성됩니다: 공간 정보를 캡슐화하기 위한 메시지 전달 블록, 주기적 하위 그래프를 통해 위상 정보를 강화하기 위한 주기 메시지 전달 블록, 시간적 속성을 포착하기 위한 시간적 블록이 그것입니다. 싸이클 메시지 전달 블록이 메시지 전달 블록에 비해 딥러닝 모델에 차별화된 정보를 제공할 수 있음을 강조하는 수학적 증거를 통해 Cy2Mixer의 효율성을 강화합니다. 또한, 다양한 트래픽 벤치마크 데이터 세트에서 최첨단 성능을 입증하는 경험적 평가를 통해 Cy2Mixer의 효율성을 입증합니다. [abs|pdf]

[65/136] Sliced Wasserstein with Random-Path Projecting Directions

Keywords: minimizing_sliced_wasserstein, projection_sliced_wasserstein, sliced_wasserstein_random
Abstract: 슬라이싱 분포 선택은 애플리케이션에서 슬라이싱된 바서슈타인 거리를 최소화하여 매개변수 추정기의 성능을 개선하는 효과적인 기법으로 사용되어 왔습니다. 기존 연구에서는 슬라이싱 분포를 선택하기 위해 고비용의 최적화를 활용하거나 고비용의 샘플링 방법이 필요한 슬라이싱 분포를 사용했습니다. 본 연구에서는 몬테카를로 기대치 추정을 위한 빠른 샘플링을 제공하는 최적화 없는 슬라이싱 분포를 제안합니다. 특히, 두 개의 입력 측정값에 따른 두 개의 랜덤 벡터 사이의 정규화된 차이를 활용하여 구성되는 랜덤 경로 투영 방향(RPD)을 도입합니다. RPD로부터 랜덤 경로 슬라이싱 분포(RPSD)와 슬라이싱된 바서슈타인의 두 가지 변형, 즉 랜덤 경로 투영 슬라이싱 바서슈타인(RPSW)과 중요도 가중 랜덤 경로 투영 슬라이싱 바서슈타인(IWRPSW)을 도출합니다. 그런 다음 RPSW와 IWRPSW의 위상학적, 통계적, 계산적 특성에 대해 설명합니다. 마지막으로 그라디언트 흐름과 이미지에 대한 노이즈 제거 확산 생성 모델 훈련에서 RPSW와 IWRPSW의 우수한 성능을 보여드립니다. [abs|pdf]

[66/136] Importance-Aware Adaptive Dataset Distillation

Keywords: adaptive_dataset_distillation, novel_dataset_distillation, dataset_distillation
Abstract: 본 논문에서는 대규모 원본 데이터셋의 정보를 보존하는 소규모 정보 데이터셋을 구축하기 위한 새로운 데이터셋 증류 방법을 제안합니다. 딥러닝 모델의 개발은 대규모 데이터 세트의 가용성을 통해 가능합니다. 전례 없는 성공에도 불구하고 대규모 데이터 세트는 저장 및 전송 비용을 크게 증가시켜 모델 학습 과정을 번거롭게 만듭니다. 또한, 훈련에 원시 데이터를 사용하면 개인정보 보호 및 저작권 문제가 발생합니다. 이러한 문제를 해결하기 위해 데이터 세트 증류라는 새로운 작업이 도입되어 대규모 원본 데이터 세트에서 필수 정보를 유지하면서 압축된 데이터 세트를 합성하는 것이 목표입니다. 실제 데이터 세트와 합성 데이터 세트에 대한 훈련 중에 얻은 기울기 또는 네트워크 매개변수를 일치시키는 최신(SOTA) 데이터 세트 증류 방법이 제안되었습니다. 다양한 네트워크 매개변수가 증류 과정에 기여하는 정도는 다양하며, 이를 일률적으로 처리하면 증류 성능이 저하될 수 있습니다. 이러한 관찰을 바탕으로, 우리는 증류 과정에서 서로 다른 네트워크 파라미터에 자동으로 중요도 가중치를 할당하여 증류 성능을 개선함으로써 보다 강력한 증류 데이터셋을 합성할 수 있는 중요도 인식 적응형 데이터셋 증류(IADD) 방법을 제안합니다. IADD는 여러 벤치마크 데이터 세트에 대한 파라미터 매칭을 기반으로 다른 SOTA 데이터 세트 증류 방법보다 우수한 성능을 보여주며, 아키텍처 간 일반화 측면에서도 뛰어난 성능을 보입니다. 또한, 자체 적응형 가중치 분석은 IADD의 효과를 입증합니다. 또한, 코로나19 감지와 같은 실제 의료 애플리케이션에서 IADD의 효과가 검증되었습니다. [abs|pdf]

[67/136] DrBERT: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining

Keywords: decoder_adapted_bert, adapted_bert_encoder, decoder_refined_bert
Abstract: BERT(양방향 인코더 표현)는 수많은 작업에서 탁월한 성능을 발휘하며 자연어 처리 분야에 혁신을 일으켰습니다. 하지만 대부분의 연구자들은 주로 상대적 위치 임베딩이나 보다 효율적인 주의 메커니즘과 같은 모델 구조와 관련된 개선 사항에 집중해 왔습니다. 또 다른 연구자들은 전체 단어 마스킹 등 마스크드 언어 모델링과 관련된 사전 학습 기법을 연구하기도 했습니다. DeBERTa는 사전 학습을 위해 BERT의 인코더 모델에 맞게 조정된 향상된 디코더를 도입하여 매우 효과적인 것으로 입증했습니다. 우리는 향상된 마스킹 언어 모델링 디코더에 대한 설계와 연구가 과소평가되어 왔다고 주장합니다. 이 백서에서는 향상된 디코더의 몇 가지 설계를 제안하고 모델링 학습을 위한 새로운 방법인 DrBERT(Decoder-refined BERT)를 소개합니다. 일반적으로 사전 학습된 BERT 모델은 특정 자연어 이해(NLU) 작업을 위해 미세 조정됩니다. 이 접근 방식에서는 인코더를 변경하지 않고 디코더만 변경하여 원본 BERT 모델을 인코더로 활용합니다. 이 접근 방식은 모델 아키텍처를 광범위하게 수정할 필요가 없으며 기존의 미세 조정 파이프라인 및 서비스에 원활하게 통합할 수 있어 효율적이고 효과적인 개선 전략을 제공합니다. 다른 방법과 비교했을 때, 사전 훈련 과정에서 디코더에 적당한 수준의 훈련 비용이 발생하지만, 우리의 접근 방식은 미세 조정 단계에서 추가적인 훈련 비용이 발생하지 않습니다. 사전 훈련 후 여러 가지 향상된 디코더 구조를 테스트하고 GLUE 벤치마크에서 성능을 평가합니다. 그 결과, 사전 훈련 과정에서 모델 구조에 미세한 개선만 가한 DrBERT가 추론 시간과 서비스 예산을 늘리지 않고도 모델 성능을 크게 향상시키는 것으로 나타났습니다. [abs|pdf]

[68/136] Diffusion Facial Forgery Detection

Keywords: generated_facial_forgeries, generation_facial_forgeries, facial_forgeries
Abstract: 확산 생성 이미지 감지는 최근 떠오르는 연구 분야로 성장하고 있습니다. 기존의 확산 기반 데이터 세트는 주로 일반적인 이미지 생성에 초점을 맞추고 있습니다. 그러나 더 심각한 사회적 위험을 초래할 수 있는 얼굴 위조는 지금까지 연구가 덜 진행되었습니다. 이러한 격차를 해소하기 위해 이 백서에서는 얼굴 중심의 확산 생성 이미지 전용 종합 데이터 세트인 DiFF를 소개합니다. DiFF는 네 가지 조건에서 13가지 생성 방법을 사용하여 합성된 50만 개 이상의 이미지로 구성되어 있습니다. 특히 이 데이터 세트는 신중하게 수집된 30,000개의 텍스트 및 시각적 프롬프트를 활용하여 높은 충실도와 의미적 일관성을 갖춘 이미지를 합성할 수 있습니다. 저희는 인적 테스트와 몇 가지 대표적인 위변조 감지 방법을 통해 DiFF 데이터 세트에 대한 광범위한 실험을 수행했습니다. 그 결과, 인간 관찰자와 자동화된 검출기 모두의 이진 검출 정확도가 종종 30% 미만으로 떨어지는 것으로 나타나 확산으로 생성된 얼굴 위조를 검출하는 데 따르는 어려움을 조명했습니다. 또한 기존 검출기의 일반화 기능을 효과적으로 향상시킬 수 있는 에지 그래프 정규화 접근법을 제안합니다. [abs|pdf]

[69/136] Look Around! Unexpected gains from training on environments in the vicinity of the target

Keywords: understand_reinforcement_learning, reinforcement_learning_rl, reinforcement_learning
Abstract: 마르코프 의사 결정 과정(MDP)에 대한 솔루션은 종종 상태 전환 확률에 매우 민감합니다. 실제로 이러한 확률의 추정이 부정확한 경우가 많기 때문에 강화 학습(RL) 에이전트가 전환 확률이 변할 때 언제 어떻게 일반화되는지 이해하는 것이 중요합니다. 이 글에서는 전이 확률의 작은 변화 하에서 RL 에이전트의 일반화를 평가하는 새로운 방법론을 제시합니다. 구체적으로, 훈련 MDP의 전이 함수에 정량화 가능한 파라메트릭 노이즈를 추가하여 생성된 훈련 MDP 인근의 새로운 환경(MDP)에서 에이전트를 평가합니다. 이 프로세스를 노이즈 주입이라고 하며, 그 결과 생성되는 환경을 $\delta$-환경이라고 합니다. 이 프로세스를 통해 동일한 환경의 제어된 변형을 생성할 수 있으며, 노이즈 레벨이 환경 간 거리의 척도로 사용됩니다. 일반적인 상식으로는 동일한 MDP에서 훈련과 테스트를 진행해야 가장 좋은 결과를 얻을 수 있다고 생각합니다. 하지만 특정 환경을 타깃으로 하는 경우, 다른 소음 환경에서 에이전트를 훈련시키면 더 우수한 결과를 얻을 수 있다는 반대의 사례도 보고되고 있습니다. 이 현상은 팩맨, 퐁, 브레이크아웃 등 60달러 상당의 다양한 ATARI 게임에서 확인할 수 있습니다. [abs|pdf]

[70/136] Muffin or Chihuahua? Challenging Large Vision-Language Models with Multipanel VQA

Keywords: visual_question_answering, question_answering_multipanelvqa, vision_language_models
Abstract: 웹 스크린샷, 포스터 등에서 흔히 볼 수 있는 멀티패널 이미지는 우리 일상에 널리 퍼져 있습니다. 이러한 이미지는 여러 개의 하위 그림이 서로 다른 레이아웃으로 구성된 것이 특징이며, 사람들에게 정보를 효과적으로 전달합니다. 복잡한 장면을 이해하고 웹 페이지를 탐색하는 에이전트와 같은 고급 멀티모달 AI 애플리케이션을 구축하기 위해서는 멀티패널 시각 추론 기술이 필수적이며, 이와 관련된 모델에 대한 종합적인 평가가 중요합니다. 따라서 본 백서에서는 멀티패널 이미지를 이해하는 모델의 능력을 구체적으로 평가하는 새로운 벤치마크인 멀티패널 시각적 질문 답변(MultipanelVQA)을 소개합니다. 이 벤치마크는 멀티패널 이미지와 관련된 6,600개의 질문과 답변으로 구성되어 있습니다. 이러한 질문은 일반 사람이라면 거의 완벽하게 정답을 맞출 수 있는 간단한 문제이지만, 우리가 테스트한 최첨단 대규모 시각 언어 모델(LVLM)에게는 상당한 도전이 됩니다. 이 연구에서는 모델 성능에 대한 다양한 요인의 영향을 분리하고 평가하기 위해 특별히 고안된 합성 큐레이션 멀티패널 이미지를 활용하여 인접한 하위 그림 및 레이아웃 복잡성과 같은 멀티패널 이미지의 다양한 간섭에 대한 LVLM의 민감도를 드러냈습니다. 결과적으로 멀티패널VQA는 복잡한 시각적 언어 컨텍스트를 이해하는 LVLM의 능력을 개선해야 할 필요성과 방향을 강조합니다. 코드와 데이터는 이 https URL에서 공개됩니다. [abs|pdf]

[71/136] LCVO: An Efficient Pretraining-Free Framework for Visual Question Answering Grounding

Keywords: visual_question_answering, vision_language_multimodal, vocabulary_object_detection
Abstract: 이 논문에서는 시각 언어 멀티모달 영역의 시각적 질문 답변(VQA) 접지 작업을 위한 LCVO 모듈식 방법을 제안합니다. 이 접근 방식은 고정된 대규모 언어 모델(LLM)을 기성 VQA 모델과 기성 개방형 어휘 객체 감지(OVD) 모델 사이의 중간 매개체로 사용하며, LLM은 설계된 프롬프트에 따라 두 모듈 간에 텍스트 정보를 변환하고 전달합니다. LCVO는 사전 교육 과정 없이도 통합된 플러그 앤 플레이 프레임워크를 구축합니다. 이 프레임워크는 컴퓨팅 리소스가 부족한 상황에서 VQA 접지 작업을 위해 배포할 수 있습니다. 프레임워크 내 모듈화된 모델을 통해 사전 학습된 다양한 최신 모델을 적용할 수 있어 시대에 발맞춰 발전할 수 있는 잠재력을 보여줍니다. 제한된 계산 및 메모리 리소스 하에서 실험적 구현을 수행하여 GQA, CLEVR, VizWiz-VQA-Grounding을 포함한 벤치마크 데이터 세트에서 제안된 방법의 성능을 평가했습니다. 기준 방법과의 비교 분석은 LCVO의 강력한 경쟁력을 입증합니다. [abs|pdf]

[72/136] Few and Fewer: Learning Better from Few Examples Using Fewer Base Classes

Keywords: shot_learning_target, improve_shot_learning, shot_learning
Abstract: 훈련 데이터가 부족한 경우, '대상' 데이터 세트에 대한 파라미터를 미세 조정하거나 간단한 분류기의 특징으로 직접 채택하여 대규모 기본 데이터 세트에서 사전 훈련된 특징 추출기를 사용하는 것이 일반적입니다. 대상 데이터 세트에는 소수의 예시만 포함되어 있기 때문에 미세 조정은 소수 학습에는 효과적이지 않습니다. 그러나 미세 조정 없이 특징을 직접 채택하려면 기본 분포와 목표 분포가 충분히 유사하여 특징이 분리 가능성과 일반화를 달성할 수 있어야 합니다. 이 논문에서는 주어진 작업에 더 유용한 기본 데이터 세트를 식별하기 위해 더 적은 수의 기본 클래스에 대한 훈련을 통해 목표 데이터 세트에 대해 더 나은 특징을 얻을 수 있는지 조사합니다. 우리는 메타 데이터 세트의 8가지 도메인에서 교차 도메인 소수 샷 이미지 분류를 고려하고 목표 작업에 대해 점진적으로 더 적은 세부 정보가 알려진 여러 실제 설정(도메인 정보, 작업 정보 및 비정보)을 즐깁니다. 우리가 아는 한, 이것은 신중하게 선택된 기본 클래스의 하위 집합에서 미세 조정을 통해 소수 학습을 크게 개선할 수 있다는 것을 보여주는 첫 번째 데모입니다. 저희는 모든 소수 학습 솔루션에서 구현할 수 있는 간단하고 직관적인 방법을 제공합니다. 또한 이러한 솔루션이 정확도를 높일 수 있는 조건에 대한 인사이트도 제공합니다. 이 백서의 모든 실험을 재현할 수 있는 코드를 GitHub에 공개합니다. 이 https URL [abs|pdf]

[73/136] Knowledge-Aware Neuron Interpretation for Scene Classification

Keywords: scene_based_knowledge, concepts_based_conceptnet, conceptnet
Abstract: 신경망 모델은 괄목할 만한 성능을 달성했지만, 여전히 투명성 문제로 인해 의구심을 받고 있습니다. 이에 따라 모델 예측 설명이 점점 더 주목받고 있습니다. 그러나 현재의 방법은 외부 지식을 거의 통합하지 않고 여전히 다음과 같은 세 가지 한계를 가지고 있습니다: (1) 개념의 완전성을 무시합니다. 단순히 개념을 선택하는 것만으로는 예측에 충분하지 않을 수 있습니다. (2) 개념 융합 부족. 의미적으로 동등한 개념을 병합하지 못함. (3) 모델 행동 조작의 어려움. 원본 모델에 대한 설명에 대한 검증 부족. 이러한 문제를 해결하기 위해 이미지 장면 분류를 위한 모델 예측을 설명하기 위한 새로운 지식 인식 뉴런 해석 프레임워크를 제안합니다. 특히, 개념의 완성도를 측정하기 위해 지식 그래프인 ConceptNet을 기반으로 장면의 핵심 개념을 제시하여 개념의 완성도를 측정합니다. 완성도 높은 개념을 통합하는 방식은 기준선 대비 더 나은 예측 설명을 효과적으로 제공합니다. 또한, 개념 융합을 위해 뉴런 해석을 위한 뉴런 행동에서 23% 이상의 성능 향상을 가져오는 개념 필터링이라는 지식 그래프 기반 방법을 도입합니다. 마지막으로 개념망 기반의 핵심 개념을 모델 행동 조작에 활용할 수 있는지 연구하기 위해 모델 조작을 제안합니다. 그 결과 핵심 개념이 기존 모델의 성능을 26% 이상 효과적으로 향상시킬 수 있음을 확인했습니다. [abs|pdf]

[74/136] Green Runner: A tool for efficient deep learning component selection

Keywords: software_machine_learned, demonstrates_toolname_efficient, model_selection_brute
Abstract: 머신러닝 기능에 의존하는 소프트웨어의 경우, 원하는 성능 특성을 가진 작업에 적합한 모델을 찾는 데 있어 모델 선택이 핵심입니다. 모델을 평가하려면 개발자는 i) 여러 모델(예: 포옹하는 얼굴 모델 저장소) 중에서 선택하고, ii) 평가 지표와 학습 전략을 선택하며, iii) 문제 영역에 따라 절충점을 조정해야 합니다. 그러나 현재의 평가 접근 방식은 임시방편적이어서 최적이 아닌 모델을 선택하거나 무차별 대입으로 인해 컴퓨팅 낭비를 초래합니다. 이 연구에서는 자연어로 제공되는 애플리케이션 시나리오를 기반으로 모델을 자동으로 선택하고 평가하는 새로운 도구인 $GreenRunner$을 소개합니다. 대규모 언어 모델의 추론 기능을 활용하여 훈련 전략을 제안하고 문제 설명에서 원하는 트레이드 오프를 추출합니다. $GreenRunner$은 문제에 따른 제약 조건과 트레이드 오프를 모델 선택 프로세스에 통합하는 리소스 효율적인 실험 엔진을 갖추고 있습니다. 예비 평가 결과 $GreenRunner$은 임시 평가 및 무차별 대입에 비해 효율적이고 정확하다는 것이 입증되었습니다. 이 연구는 머신러닝 기능을 갖춘 소프트웨어에 대한 수요 증가로 인한 환경 영향을 줄이는 데 도움이 되는 에너지 효율적인 도구를 향한 중요한 단계를 제시합니다. [abs|pdf]

[75/136] GarchingSim: An Autonomous Driving Simulator with Photorealistic Scenes and Minimalist Workflow

Keywords: driving_simulator_photorealistic, autonomous_driving_simulator, driving_simulator
Abstract: 자율주행 알고리즘에 대한 실제 도로 테스트를 수행하는 것은 특히 소규모 스타트업이나 연구소의 경우 비용이 많이 들고 때로는 비현실적일 수 있습니다. 따라서 시뮬레이션은 이러한 알고리즘을 평가하는 중요한 방법이 됩니다. 하지만 무료 오픈소스 시뮬레이터의 가용성은 제한되어 있고, 설치 및 구성 과정은 초보자나 학제 간 연구자에게는 어려울 수 있습니다. 유니티는 사용자 친화적인 워크플로를 유지하면서 사실적인 장면을 구현하는 자율주행 시뮬레이터를 소개합니다. 이 시뮬레이터는 ROS2 또는 이 http URL을 통해 외부 알고리즘과 통신할 수 있으므로 기존 소프트웨어 스택과 호환됩니다. 또한 유니티는 시뮬레이터 내에 매우 정확한 차량 동역학 모델을 구현하여 차량의 물리적 효과의 사실성을 높였습니다. 이 시뮬레이터는 합성 데이터 생성, 머신러닝 기반 알고리즘을 통한 주행 등 다양한 기능을 제공할 수 있습니다. 또한 배포 프로세스의 단순성을 우선시하여 초보자도 쉽게 접근할 수 있고 사용자 친화적으로 사용할 수 있습니다. [abs|pdf]

[76/136] On the Statistical Properties of Generative Adversarial Models for Low Intrinsic Data Dimension

Keywords: data_distributions_gans, gans_theoretical_guarantees, analyses_gans_known
Abstract: 생성적 적대 신경망(GAN)의 놀라운 경험적 성공에도 불구하고, 통계적 정확성에 대한 이론적 보장은 다소 비관적입니다. 특히 자연 이미지와 같이 GAN이 적용되는 데이터 분포는 일반적으로 고차원 특징 공간에서 본질적으로 저차원 구조를 갖는다고 가정하는 경우가 많지만, 최신 분석에서는 이러한 점이 도출된 비율에 반영되지 않는 경우가 많습니다. 이 논문에서는 데이터의 내재적 차원과 잠재 공간 측면에서 추정 밀도에 대한 통계적 보증을 도출함으로써 GAN과 그 양방향 변형인 양방향 GAN(BiGAN)의 이론과 실제 사이의 간극을 메우려고 시도합니다. 미지의 목표 분포에서 $n$개의 샘플에 액세스할 수 있고 네트워크 아키텍처를 적절히 선택하면 다음과 같이 분석적으로 보여줍니다, 목표로부터의 추정치의 예상 바서슈타인-1 거리는 GAN의 경우 $O\left( n^{-1/d_\mu } \right)$, BiGAN의 경우 $O\left( n^{-1/(d_\mu+\ell)} \right)$로 확장되며, 여기서 $d_\mu$와 $\ell$은 각각 데이터 분포와 잠재 공간 차원의 상위 바서슈타인-1 차원을 나타냅니다. 이론적 분석은 이러한 방법이 오차율의 $n$ 지수가 데이터 차원에 의존하지 않는다는 점에서 차원의 저주를 성공적으로 피할 수 있음을 보여줄 뿐만 아니라 GAN의 이론적 분석과 최적 전송 문헌에서 알려진 급격한 오차율 사이의 간극을 메우는 데도 도움이 됩니다. 또한 GAN이 더 큰 발전기 네트워크를 사용하여 기본 분포가 매끄럽지 않은 경우에도 효과적으로 최소 최대 최적율을 달성할 수 있음을 보여줍니다. [abs|pdf]

[77/136] Evaluation of k-means time series clustering based on z-normalization and NP-Free

Keywords: time_series_clustering, series_clustering_normalization, time_series_normalization
Abstract: 다양한 영역에서 k-평균 시계열 클러스터링이 널리 사용되고 있음에도 불구하고, 다양한 시계열 정규화 접근법을 사용한 포괄적인 평가에 관한 문헌에는 간극이 존재합니다. 이 백서에서는 실제 오픈소스 시계열 데이터 세트에 대한 k-평균 시계열 클러스터링의 철저한 성능 평가를 수행하여 이러한 간극을 메우고자 합니다. 이 평가는 z-노멀라이제이션과 NP-Free라는 두 가지 정규화 기법에 초점을 맞춥니다. 전자는 시계열에 가장 일반적으로 사용되는 정규화 방식 중 하나입니다. 후자는 실시간 시계열 표현 기법으로, 시계열 정규화 기법으로 사용될 수 있습니다. 이 백서의 주요 목적은 이 두 가지 정규화 기법이 K-평균 시계열 클러스터링에 미치는 영향을 클러스터링 품질 측면에서 평가하는 것입니다. 실험에서는 데이터 세트에서 클러스터의 품질을 평가하기 위해 잘 정립된 지표인 실루엣 점수를 사용합니다. 이 논문은 이 두 가지 정규화 기법을 사용한 k-평균 시계열 클러스터링의 성능을 체계적으로 조사함으로써 현재 k-평균 시계열 클러스터링 평가의 격차를 해소하고 시계열 클러스터링의 발전에 귀중한 인사이트를 제공합니다. [abs|pdf]

[78/136] EEG for fatigue monitoring

Keywords: assessing_physiological_fatigue, monitoring_physiological_fatigue, effective_fatigue_monitoring
Abstract: 장시간의 정신적 또는 육체적 활동으로 인해 인지적, 신체적 능력이 저하되는 상태인 생리적 피로는 의료, 항공, 운송, 산업 분야를 비롯한 다양한 영역에서 심각한 문제를 야기합니다. 피로가 인간의 수행 능력에 미치는 영향에 대한 이해가 높아지면서 효과적인 피로 모니터링 기법 개발에 대한 관심이 높아지고 있습니다. 이러한 기술 중 뇌파 검사(EEG)는 비침습성, 높은 시간적 해상도, 신경 활동에 대한 민감도로 인해 생리적 피로를 객관적으로 평가할 수 있는 유망한 도구로 부상하고 있습니다. 이 백서는 생리적 피로를 모니터링하기 위한 뇌파 사용 현황에 대한 종합적인 분석을 제공하는 것을 목표로 합니다. [abs|pdf]

[79/136] An objective comparison of methods for augmented reality in laparoscopic liver resection by preoperative-to-intraoperative image fusion

Keywords: laparoscopic_image_3d, projecting_laparoscopic_image, augmented_reality_laparoscopic
Abstract: 복강경 간 절제술을 위한 증강 현실은 외과의가 복강경 이미지 위에 투영하여 간 내에 박혀 있는 종양과 혈관의 위치를 파악할 수 있는 시각화 모드입니다. 이 과정에서 CT 또는 MRI 데이터에서 추출한 수술 전 3D 모델이 수술 중 복강경 이미지에 등록됩니다. 3D-2D 융합의 경우, 대부분의 알고리즘은 해부학적 랜드마크를 사용하여 등록을 안내합니다. 이러한 랜드마크에는 간 하부 융기, 팔형 인대, 폐색 윤곽 등이 포함됩니다. 이러한 랜드마크는 일반적으로 복강경 이미지와 3D 모델 모두에서 수작업으로 표시되는데, 이는 시간이 많이 걸리고 숙련되지 않은 사용자가 수행할 경우 오류가 발생할 수 있습니다. 따라서 수술실에서 증강 현실을 효과적으로 사용할 수 있도록 이 과정을 자동화할 필요가 있습니다. 유니티는 이러한 랜드마크를 자동으로 감지하여 등록에 사용할 수 있는 가능성을 조사하기 위해 의료 영상 및 컴퓨터 보조 중재(MICCAI 2022) 컨퍼런스 기간 동안 P2ILF(Preoperative-to-Intoperative Laparoscopic Fusion Challenge)를 개최했습니다. 이 챌린지는 두 가지 과제로 나누어 진행되었습니다: 1) 2D 및 3D 랜드마크 탐지 과제와 2) 3D-2D 등록 과제. 각 팀에는 9명의 환자로부터 얻은 167개의 복강경 이미지와 9개의 수술 전 3D 모델로 구성된 훈련 데이터와 해당 2D 및 3D 랜드마크 주석이 제공되었습니다. 4개국에서 총 6개 팀이 참가했으며, 제안된 방법은 두 명의 환자에서 얻은 16개의 이미지와 두 개의 수술 전 3D 모델에 대해 평가되었습니다. 모든 팀이 2D 및 3D 랜드마크 분할 작업에는 딥러닝 기반 방법을, 등록 작업에는 차별적 렌더링 기반 방법을 제안했습니다. 실험 결과를 바탕으로 이 분야의 현재 한계와 향후 연구 방향을 결정하는 세 가지 주요 가설을 제안합니다. [abs|pdf]

[80/136] SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks

Keywords: attention_fusion, attention_boosting_modules, residual_network_attention
Abstract: 시맨틱 분할에서 최첨단 방법의 효율성을 개선하려면 증가하는 계산 비용과 글로벌 및 로컬 컨텍스트의 시맨틱 정보를 융합하는 것과 같은 문제를 극복해야 합니다. 이 연구는 의미 분할에서 컨볼루션 신경망(CNN)이 최근 거둔 성공과 문제점을 바탕으로 고유의 효율적인 잔여 네트워크를 갖춘 인코더-디코더 아키텍처를 제안합니다. 특징 기반 시맨틱 정보를 인코더의 효율적인 잔여 네트워크의 글로벌 컨텍스트와 융합하는 것을 목표로 주의 부스팅 게이트(AbG)와 주의 부스팅 모듈(AbM)을 배치합니다. 디코더 네트워크는 각각 AbM에서 영감을 얻은 추가 주의 융합 네트워크(AfN)로 개발됩니다. AfN은 디코더 부분에 컨볼루션 레이어를 추가로 배치하여 의미 정보의 일대일 변환 효율을 개선하도록 설계되었습니다. 저희 네트워크는 까다로운 CamVid 및 Cityscapes 데이터 세트에서 테스트되었으며, 제안된 방법은 ResNet-50과 같은 기존 기준선에서 상당한 개선이 이루어졌음을 보여줍니다. 우리가 아는 한, 개발된 네트워크인 SERNet-Former는 CamVid 데이터 세트에서 최첨단 결과(평균 IoU 84.62%)를, Cityscapes 검증 데이터 세트에서 까다로운 결과(평균 IoU 87.35%)를 달성했습니다. [abs|pdf]

[81/136] A Study of Acquisition Functions for Medical Imaging Deep Active Learning

Keywords: deep_learning_revolution, folding_deep_learning, deep_learning
Abstract: 딥 러닝 혁명은 최근 몇 년 동안 획기적인 성과를 가능하게 했습니다. 유방암 탐지부터 단백질 폴딩에 이르기까지 딥러닝 알고리즘은 매우 중요한 발전의 핵심이었습니다. 그러나 이러한 현대의 발전은 특히 가용성이 부족한 레이블이 지정된 데이터에 대해 점점 더 많은 데이터를 필요로 하고 있으며, 이러한 현상은 의료 분야에서 더욱 두드러지게 나타나고 있습니다. 이 연구에서는 라벨링된 데이터(또는 주석 예산)를 확보하는 것이 매우 제한적인 데이터 부족 상황에서 능동적 학습이 어떻게 매우 효과적인지 보여줍니다. ISIC 2016 데이터 세트에 대해 여러 가지 선택 기준(BALD, 평균표준편차, 맥스엔트로피)을 비교합니다. 또한 획득한 풀 크기가 모델 성능에 미치는 영향도 살펴봤습니다. 우리의 결과는 불확실성이 흑색종 검출 작업에 유용하다는 것을 시사하며, 관심 있는 논문의 저자가 BALD가 다른 획득 함수보다 평균적으로 더 나은 성능을 보인다는 가설을 확인시켜 주었습니다. 그러나 확장된 분석 결과, 모든 획득 함수가 양성(암) 샘플에서 성능이 좋지 않은 것으로 나타나 실제 환경에서 중요할 수 있는 클래스 불균형에 대한 악용을 시사했습니다. 마지막으로 현재의 작업을 개선하는 데 도움이 될 수 있는 향후 작업 방향을 제안합니다. 구현 코드는 이 https URL에서 오픈 소스입니다 [abs|pdf]

[82/136] Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings

Keywords: sentence_similarity_models, similarity_models, domains_simultaneously_training
Abstract: 트랜스포머 신경망의 발전으로 문장 유사도 모델의 기능이 크게 향상되었으며, 특히 자연어 입력의 효과적인 벡터 표현을 생성하는 데 있어서는 더욱 그러합니다. 그러나 이러한 모델은 도메인별 상황, 특히 고도로 전문화된 과학 하위 분야에서 상당한 어려움에 직면해 있습니다. 기존 방식은 틈새 시장 내의 유사성을 지나치게 일반화하거나 사소한 차이에 지나치게 민감하게 반응하여 부정확한 텍스트 분류와 수준 이하의 벡터 표현을 초래하는 등 이러한 상황에서 종종 어려움을 겪습니다. 검색 증강과 검색이 점점 더 중요해지는 시대에는 정확하고 간결한 수치 표현이 필수적입니다. 이 백서에서는 생물의학 분야를 중심으로 공동 인용을 유사성 지표로 사용하여 틈새 데이터 세트를 수집함으로써 이 문제를 해결하고자 합니다. 우리는 최첨단 모델을 미세 조정하기 위해 두 가지 핵심 전략을 사용합니다: 1. 사전 학습된 모델을 단일 도메인에 맞게 조정하는 도메인별 미세 조정, 그리고 2. 여러 도메인에 대해 동시에 강제 라우팅을 적용하여 사전 학습된 모델을 조정하는 MoE(전문가 혼합을 통한 범용 적용성)입니다. 유니티의 훈련 접근 방식은 더 빠른 훈련을 위해 초록 사용을 강조하며, 효율적인 대조 학습을 위해 다중 부정적 순위 손실을 통합합니다. 특히, $N$ 명의 전문가로 구성된 MoE 변형은 $N$ 명의 개별 모델의 효율을 달성하여 다양한 작업을 위한 다용도 원사이즈-핏-올 트랜스포머 네트워크의 새로운 시대를 예고합니다. 이 방법론은 과학적 텍스트 분류 메트릭의 상당한 발전을 의미하며, 벡터 데이터베이스 검색 및 컴파일을 향상시킬 수 있는 가능성을 제시합니다. [abs|pdf]

[83/136] Detection of a facemask in real-time using deep learning methods: Prevention of Covid 19

Keywords: facemask_real_time, face_masks_monitoring, detection_facemask
Abstract: 신종 코로나바이러스 감염증(코로나19)의 급속한 전파로 인해 전 세계적으로 보건 위기가 확산되고 있습니다. 세계보건기구(WHO)가 코로나19로부터 우리를 보호하기 위해 발표한 지침 중 마스크 착용이 가장 효과적입니다. 많은 국가에서 마스크 착용을 의무화하고 있지만, 사람이 많은 곳에서 많은 사람이 마스크를 착용하고 있는지 모니터링하는 것은 그 자체로 어려운 일입니다. 신종 코로나바이러스 감염증(코로나19)은 이미 우리의 일상 생활은 물론 세계 무역 움직임에도 영향을 미치고 있습니다. 세계보건기구(WHO)에 따르면 2021년 4월 말까지 전 세계 신종 코로나바이러스 감염증(코로나19) 확진자는 144,358,956명, 사망자는 3,066,113명을 기록했습니다. 이러한 수치의 증가는 코로나19 예방을 위해 실시간 시나리오에서 마스크를 감지하는 자동화 기술에 대한 동기를 부여합니다. 저희는 웹캠으로 촬영한 정지 상태 또는 움직이는 프레임에서 한 명 또는 여러 명의 사람을 딥러닝을 통해 감지하는 기술을 제안합니다. 또한 야간 조명에서도 이러한 접근 방식을 실험했습니다. 우리 모델의 정확도는 야간에 여러 사람이 있는 경우 74%, 주간에 한 사람이 있는 경우 99%에 이르는 등 기존의 다른 접근 방식에 비해 우수한 것으로 나타났습니다. [abs|pdf]

[84/136] YODA: Teacher-Student Progressive Learning for Language Models

Keywords: questions_enhancing_learning, learns_iteratively_refine, student_learns_iteratively
Abstract: 대규모 언어 모델(LLM)은 다양한 작업에서 능숙함을 입증했지만, 여전히 인간의 학습 효율에 비해서는 뒤쳐져 있습니다. 이러한 격차는 기본적인 예제에서 학습하고, 점차 일반화하여 복잡한 문제를 처리하며, 지속적인 피드백을 통해 기술을 개선하는 인간의 고유한 능력과 관련이 있는 경우가 많습니다. 이에 착안하여 이 백서에서는 모델 미세 조정의 효율성을 개선하기 위해 교사-학생 교육 과정을 모방한 새로운 교사-학생 점진적 학습 프레임워크인 YODA를 소개합니다. 이 프레임워크는 대화형 basic-generalized-harder 루프에서 작동합니다. 교사 에이전트는 학생의 답변에 대한 맞춤형 피드백을 제공하고 교육 과정을 체계적으로 구성합니다. 이 과정은 학생에게 기본적인 예제를 가르치고, 일반화된 질문을 통해 이해를 강화한 다음, 점차 난이도가 높아지는 질문을 통해 학습을 강화하는 방식으로 전개됩니다. 학생은 교사의 지도를 통해 피드백을 받으며 답을 반복적으로 다듬는 방법을 배우고, 제시된 질문에 대한 견고하고 포괄적인 이해를 형성합니다. 그런 다음 인간의 점진적 학습 과정을 반영하는 체계적인 절차적 데이터를 모델 훈련에 활용합니다. 수학 추론을 테스트베드로 삼아 실험한 결과, YODA의 데이터로 LLaMA2를 훈련하면 상당한 성능 향상(GSM8K에서 +17.01%, MATH에서 +9.98%)과 함께 SFT가 개선되는 것으로 나타났습니다. 또한 커리큘럼 학습으로 훈련하면 학습 견고성이 더욱 향상되는 것으로 나타났습니다. [abs|pdf]

[85/136] UP-CrackNet: Unsupervised Pixel-Wise Road Crack Detection via Adversarial Image Restoration

Keywords: supervised_crack_segmentation, road_crack_detection, crack_detection_network
Abstract: 지난 10년 동안 기존의 수동 육안 검사 기술을 대체하기 위해 보다 효율적이고 정확하며 객관적으로 균열을 감지하는 자동화된 방법이 개발되었습니다. 이러한 방법 중 시맨틱 세그멘테이션 알고리즘은 픽셀 단위의 균열 감지 작업에서 유망한 결과를 보여주었습니다. 하지만 이러한 데이터 기반 알고리즘을 학습시키려면 픽셀 단위의 주석이 포함된 대량의 사람이 직접 입력한 데이터 세트가 필요하며, 이는 매우 노동 집약적이고 시간이 많이 소요되는 프로세스입니다. 또한 지도 학습 기반 방법은 보이지 않는 데이터 세트에서 일반화 능력이 떨어지는 경우가 많습니다. 따라서 저희는 비지도 픽셀 단위의 도로 균열 감지 네트워크인 UP-CrackNet을 제안합니다. 이 접근 방식은 먼저 다중 스케일 정사각형 마스크를 생성하고 이를 무작위로 선택하여 특정 영역을 제거함으로써 손상되지 않은 도로 이미지를 손상시킵니다. 그 후, 생성적 적대 네트워크를 훈련시켜 손상되지 않은 주변 영역에서 학습한 시맨틱 컨텍스트를 활용하여 손상된 영역을 복원합니다. 테스트 단계에서는 입력 이미지와 복원된 이미지의 차이를 계산하여 오류 맵을 생성하고, 이를 통해 픽셀 단위의 균열을 감지할 수 있습니다. 종합적인 실험 결과, UP-CrackNet은 다른 범용 비지도 이상 감지 알고리즘보다 성능이 뛰어나며, 최첨단 지도 균열 분할 알고리즘과 비교했을 때 비슷한 성능과 우수한 일반화 가능성을 보여줍니다. 소스 코드는 mias.group/UP-CrackNet에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[86/136] TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks and Action-Tree Based Scheduled Sampling

Keywords: dialog_training_inference, dialog_training, task_oriented_dialog
Abstract: 작업 중심 대화 시스템은 대화형 사전 학습 기법 덕분에 상당한 발전을 이루었습니다. 하지만 여전히 두 가지 중요한 과제가 남아 있습니다. 첫째, 대부분의 시스템은 주로 최신 턴의 상태 레이블을 제너레이터에 사용합니다. 이러한 방식은 미래 세대를 위한 모델의 이해도를 높이는 데 있어 상태 레이블의 포괄적인 가치를 간과합니다. 둘째, 생성된 정책에 과도하게 의존하면 오류가 누적되어 잘못된 조치를 고수할 때 차선책으로 대응하는 경우가 많습니다. 이러한 문제를 해결하기 위해 인코더에 대한 단계별 멀티태스크 목표를 제안합니다. 레이블이 지정된 중간 상태의 필수 정보를 안내하여 이해와 생성 모두에서 보다 강력한 표현을 구축합니다. 디코더의 경우 액션 트리 기반 스케줄링 샘플링 기법을 도입합니다. 구체적으로 계층적 정책을 트리로 모델링하고 트리 간의 유사성을 활용하여 스케줄링 샘플링을 기반으로 부정적인 정책을 샘플링함으로써 모델이 섭동 하에서 불변의 응답을 생성하기를 기대합니다. 이 방법은 유사한 네거티브 정책을 샘플링하여 잠재적인 함정을 시뮬레이션함으로써 작업 지향 대화 훈련과 추론 사이의 간극을 메웁니다. 지속적인 사전 학습이 없는 방법 중에서도 이 접근 방식은 멀티웍스 데이터세트 시리즈에서 최고 수준의 성능을 달성했으며, 사전 학습된 SOTA 방법과도 경쟁력이 있었습니다. [abs|pdf]

[87/136] Generative AI-enabled Blockchain Networks: Fundamentals, Applications, and Case Study

Keywords: blockchain_attacks_smart, challenges_blockchain_detecting, blockchains_gai
Abstract: 생성적 인공 지능(GAI)은 최근 확장성, 보안, 프라이버시, 상호 운용성 등 블록체인 기술의 중요한 과제를 해결할 수 있는 유망한 솔루션으로 떠오르고 있습니다. 이 백서에서는 먼저 GAI 기술을 소개하고, 그 응용 분야를 간략히 설명하며, GAI를 블록체인에 통합하기 위한 기존 솔루션에 대해 논의합니다. 그런 다음 알려지지 않은 블록체인 공격과 스마트 컨트랙트 취약점 탐지, 주요 비밀 공유 체계 설계, 프라이버시 강화 등 블록체인의 다양한 과제를 해결하는 데 있어 GAI의 효과를 입증하는 새로운 솔루션에 대해 논의합니다. 또한, GAI, 특히 생성적 확산 모델을 사용하여 블록체인 네트워크 성능 지표를 최적화할 수 있음을 입증하는 사례 연구를 제시합니다. 실험 결과에 따르면, 제안된 생성적 확산 모델 접근 방식은 기준이 되는 기존 AI 접근 방식에 비해 더 빠르게 수렴하고 더 높은 보상을 달성하며 블록체인 네트워크의 처리량과 지연 시간을 크게 개선할 수 있음을 분명히 보여줍니다. 또한, 개인화된 GAI 지원 블록체인, GAI와 블록체인의 시너지, 블록체인 생태계 내 개인정보 보호 및 보안 고려사항 등 블록체인 애플리케이션에서 GAI의 향후 연구 방향을 제시합니다. [abs|pdf]

[88/136] Data-Driven Strategies for Coping with Incomplete DVL Measurements

Keywords: sea_deep_learning, autonomous_underwater_vehicles, velocity_prediction_accuracy
Abstract: 자율 수중 차량은 심해 작업을 위해 설계된 특수 플랫폼입니다. 자율 항법은 일반적으로 관성 항법 시스템과 도플러 속도 로그에 의존하는 자율 항법 기능의 핵심입니다. 실제 시나리오에서는 불완전한 도플러 속도 로그 측정이 발생하여 위치 오류와 임무 중단이 발생합니다. 이러한 상황에 대처하기 위해 모델과 학습 접근법을 도출했습니다. 이 논문에서는 모델 기반 평균 추정기와 함께 두 가지 첨단 딥러닝 방법론, 즉 LiBeamsNet과 MissBeamNet을 비교 분석합니다. 이 접근법은 두 개의 빔을 사용할 수 없을 때 누락된 도플러 속도 로그 빔을 회귀시키는 데 효과적인지 평가합니다. 이 연구에서는 지중해에서 운행 중인 자율 수중 차량에 장착된 DVL이 기록한 데이터를 사용했습니다. 그 결과, 두 딥러닝 아키텍처 모두 속도 예측 정확도에서 모델 기반 접근 방식보다 16% 이상 뛰어난 성능을 보였습니다. [abs|pdf]

[89/136] Diffusion-based graph generative methods

Keywords: generative_methods_diffusion, graph_generative_methods, diffusion_based_graph
Abstract: 가장 최신의 생성 방법인 확산 방법은 광범위한 생성 작업에서 큰 발전을 보였습니다. 그 중에서도 그래프 생성은 실생활에 폭넓게 적용되어 많은 연구자들의 주목을 받고 있습니다. 본 논문에서는 확산 기반 그래프 생성 방법에 대해 체계적이고 종합적으로 검토합니다. 먼저 확산 방법의 세 가지 주요 패러다임인 노이즈 제거 확산 확률 모델, 점수 기반 생성 모델, 확률 미분 방정식에 대해 살펴봅니다. 그런 다음 확산 모델의 최신 응용 사례를 그래프로 분류하여 소개합니다. 마지막으로 기존 연구의 한계와 앞으로의 연구 방향을 짚어봅니다. 이번 조사에서 언급된 기존 방법의 요약은 이 https URL에 있습니다. [abs|pdf]

[90/136] Intriguing Equivalence Structures of the Embedding Space of Vision Transformers

Keywords: adversarial_inputs_models, small_adversarial_inputs, representations_empirical_results
Abstract: 사전 학습된 대규모 기초 모델은 최근 급증하는 인공지능에서 중심적인 역할을 하며, 벤치마크 데이터 세트, 표준 시험 및 애플리케이션에서 측정했을 때 놀라운 능력을 가진 미세 조정된 모델을 만들어 냅니다. 이러한 모델은 내재된 복잡성으로 인해 잘 이해되지 않고 있습니다. 이러한 모델에 대한 작은 적대적 입력은 잘 알려져 있지만, 표현 공간의 구조는 그 근본적인 중요성에도 불구하고 잘 특성화되어 있지 않습니다. 본 논문에서는 입력 공간의 연속적인 특성으로 인해 비전 변환기를 예로 들어, 표현 공간이 동일한 표현을 공유하는 매우 다른 입력이 존재하는 큰 조각 선형 부분 공간과 시각적으로 구별할 수 없는 매우 다른 표현을 가진 입력이 존재하는 국부 정상 공간으로 구성되어 있음을 분석과 체계적인 실험을 통해 보여줍니다. 경험적 결과는 기본 모델의 립시츠 상수에 대한 국소 방향 추정치를 사용하여 추가로 검증됩니다. 결과적으로 결과 표현은 하위 모델의 결과를 변경하며, 이러한 모델은 과도하게 일반화될 수 있고 의미적으로 의미 있는 일반화 기능이 제한됩니다. [abs|pdf]

[91/136] Design of UAV flight state recognition and trajectory prediction system based on trajectory feature construction

Keywords: uav_trajectory_prediction, trajectory_prediction_uavs, prediction_based_uav
Abstract: 인공지능이 전통적인 무인항공기 산업에 영향을 미치면서 무인항공기 자율 비행은 현재 가장 뜨거운 연구 분야가 되었습니다. 본 논문에서는 자율 비행을 위한 핵심 기술에 대한 연구 수요를 바탕으로 무인 항공기의 비행 상태 인식 및 궤적 예측 분야를 다룹니다. 본 논문에서는 무인항공기 비행 상태 인식을 기반으로 무인항공기 궤적 예측의 정확도를 향상시키는 방법을 제안하고, 두 가지 예측 모델을 사용하여 검증합니다. 첫째, 무인항공기 비행 데이터 수집 및 데이터 전처리를 수행하고, 둘째, 데이터 융합을 기반으로 무인항공기 비행 궤적 특징을 추출하고 PCA-DAGSVM 모델 기반의 무인항공기 비행 상태 인식 모델을 구축하며, 마지막으로 두 개의 무인항공기 비행 궤적 예측 모델을 구축하고 비행 상태 인식 후 두 예측 모델의 궤적 예측 오차를 비교 분석한다. 결과는 다음과 같습니다: 1) PCA-DAGSVM 기반의 UAV 비행 상태 인식 모델이 인식 효과가 우수합니다. 2) 기존 UAV 궤적 예측 모델에 비해 비행 상태 인식 기반 예측 모델이 예측 오차를 효과적으로 줄일 수 있습니다. [abs|pdf]

[92/136] PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models

Keywords: large_code_generation, code_generation_models, diverse_programming_problems
Abstract: 최근에는 복잡한 프로그래밍 작업을 수행하는 개발자를 지원하는 데 상당한 잠재력을 보여주는 대규모 코드 생성 모델(LCGM)이 많이 제안되고 있습니다. LCGM을 벤치마킹하려면 다양한 프로그래밍 문제 집합을 만들어야 하며, 각 문제는 프롬프트(작업 설명 포함), 표준 솔루션, 테스트 입력으로 구성됩니다. 이러한 문제 집합을 구성하는 기존의 방법은 크게 수동 방법과 섭동 기반 방법의 두 가지 유형으로 분류할 수 있습니다. 그러나 수동 방식은 많은 노력이 필요하고 확장성이 부족할 뿐만 아니라 LCGM의 오염된 데이터 수집으로 인해 데이터 무결성이 위협받을 수 있으며, 섭동 기반 방식은 주로 동일한 정식 해를 사용하여 의미적으로 동질적인 문제를 생성하고 IDE에서 쉽게 자동 수정할 수 있는 오타를 발생시켜 비효율적이고 비현실적이라는 단점이 있습니다. 이 연구에서는 프로그래밍 문제 병합(PPM)이라는 아이디어를 제안하고 이를 구현하는 두 가지 방법을 제시하며, 널리 사용되는 두 개의 데이터 세트에서 도구를 활용하고 8개의 코드 생성 모델을 사용하여 9개의 기준 방법과 비교합니다. 그 결과, 우리 도구가 기준선에 비해 더 도전적이고 다양하며 자연스러운 프로그래밍 문제를 생성하는 데 효과적임을 입증했습니다. [abs|pdf]

[93/136] Style-News: Incorporating Stylized News Generation and Adversarial Verification for Neural Fake News Detection

Keywords: neural_fake_news, adversary_generating_news, fake_news_detection
Abstract: 생성 모델의 발전으로 다양한 영역(예: 법률, 글쓰기)에서 허위 정보를 생성하는 문제가 사람들의 관심을 끌면서 잘못된 정보에 대한 우려도 커지고 있습니다. 이 백서에서는 실제 뉴스의 스타일을 모방하여 사람들을 속이기 위해 신경망에 의해 생성된 콘텐츠를 의미하는 신경 가짜 뉴스에 초점을 맞춥니다. 악성 소셜 미디어(예: 콘텐츠 팜)에서 잘못 퍼지는 유해한 허위 정보를 방지하기 위해 게시자 메타데이터를 사용하여 해당 텍스트 유형, 정치적 입장, 신뢰도를 가진 게시자의 템플릿을 암시하는 새로운 검증 프레임워크인 Style-News를 제안합니다. 위협 모델링 측면을 기반으로 특정 퍼블리셔를 위한 뉴스 콘텐츠 컨디셔닝을 생성하는 적으로 스타일 인식 신경 뉴스 생성기를 도입하고, 스타일 및 소스 판별기를 학습시켜 해당 스타일이 어느 퍼블리셔에 해당하는지 식별하고 주어진 뉴스의 소스가 사람이 작성한 것인지 기계가 생성한 것인지 판별하여 이 공격을 방어합니다. 생성된 콘텐츠의 품질을 평가하기 위해 다양한 차원의 지표(언어 유창성, 콘텐츠 보존, 스타일 준수)를 통합한 결과, 스타일 뉴스는 유창성에서 0.35, 콘텐츠에서 15.24, 스타일에서 최대 0.38의 차이로 이전 접근 방식을 크게 능가하는 것으로 나타났습니다. 또한, 당사의 판별 모델은 퍼블리셔 예측(최대 4.64%)과 신경망 가짜 뉴스 탐지(+6.94% $\sim$ 31.72%) 측면에서 최첨단 기준선보다 뛰어난 성능을 보였습니다. [abs|pdf]

[94/136] Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization

Keywords: dialogue_summarization_datasets, dialogue_summarization_task, dialogue_summarization
Abstract: 라마, 바이촨, 블룸 모델과 같은 대규모 언어 모델(LLM)은 많은 자연어 작업에서 인스트럭션 미세 조정을 통해 놀라운 능력을 보여줍니다. 그럼에도 불구하고 대화에서 다양한 역할에 대한 요약을 생성하는 것을 목표로 하는 대화 요약 작업의 경우, 대부분의 최신 방법은 작은 모델(예: Bart 및 Bert)에서 수행됩니다. 기존 방법들은 모델에 글로벌-로컬 중심성 점수를 추가하는 것과 같이 작은 모델에서 작업 지정 최적화를 추가하려고 합니다. 이 논문에서는 명령어 미세 조정 모델을 제안합니다: 역할 지향 다이어그램 요약을 위한 명령어 미세 조정 모델인 Baichuan2-Sum을 제안합니다. 역할에 따라 서로 다른 명령어를 설정함으로써 모델은 대화 상호작용을 통해 학습하고 예상되는 요약을 출력할 수 있습니다. 또한 훈련 중에 적절한 노이즈를 추가하여 결과를 개선하기 위해 NEFTune 기법을 적용했습니다. 실험을 통해 제안된 모델이 두 개의 공개 대화 요약 데이터 세트에서 새로운 최첨단 결과를 얻을 수 있음을 입증했습니다: CSDS와 SAMSUM. 향후 대화 요약 작업에 대한 연구를 촉진하기 위해 모델과 관련 코드를 공개합니다. [abs|pdf]

[95/136] Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport

Keywords: multimodal_teacher_representation, models_trained_modality, multimodal_affect_recognition
Abstract: 멀티모달 감정 인식 모델은 상호 보완적이고 중복적인 의미 정보를 모델링할 수 있기 때문에 실험실 환경에서 놀라운 성능을 발휘했습니다. 그러나 이러한 모델은 주로 훈련에 사용되는 양식의 가용성 또는 품질 때문에 실제 환경에서 어려움을 겪습니다. 실제로는 훈련 시 사용 가능한 양식의 일부만 테스트 시점에 사용할 수 있습니다. 권한이 부여된 정보(PI)로 학습하면 딥러닝 모델(DL)이 훈련 중에만 사용할 수 있는 추가 양식의 데이터를 활용할 수 있습니다. 여러 교사 모델(각각 양식에 대해 학습된)을 공통의 학생 모델로 추출하기 위해 최첨단 지식 증류(KD) 방법이 제안되었습니다. 이러한 특권화된 KD 방법은 일반적으로 지점 간 매칭을 활용하며 특권화된 모달리티를 도입하여 형성된 교사 표현 공간의 구조적 정보를 캡처할 수 있는 명시적인 메커니즘이 없습니다. 우리는 학생 공간에서도 이와 동일한 구조를 인코딩하면 학생의 성과를 향상시킬 수 있다고 주장합니다. 이 논문에서는 엔트로피 정규화된 OT가 구조적 암묵지를 추출하는 최적 전송(OT)에 기반한 새로운 구조적 KD 메커니즘을 소개합니다. PKDOT(Privileged KD with OT) 방법은 코사인 유사도 행렬을 계산하여 다중 모드 교사 표현에서 국소 구조를 포착하고, 희소 OT 해를 허용하는 상위 k 앵커를 선택함으로써 보다 안정적인 증류 과정을 가능하게 합니다. 실험은 Biovid 데이터 세트의 통증 추정(서수 분류)과 Affwild2 데이터 세트의 각성-밸런스 예측(회귀)이라는 두 가지 문제에 대해 수행되었습니다. 결과는 제안된 방법이 이러한 문제에 대해 최첨단 특권 KD 방법을 능가할 수 있음을 보여줍니다. 다양한 모달리티와 융합 아키텍처의 다양성은 제안된 PKDOT 방법이 모달리티와 모델에 구애받지 않음을 나타냅니다. [abs|pdf]

[96/136] Artificial Intelligence: Arguments for Catastrophic Risk

Keywords: dangerous_power_seeking, power_seeking, power_seeking_behavior
Abstract: 최근 인공지능(AI)의 발전으로 인해 이 기술의 혁신적 잠재력에 대한 관심이 높아졌지만, 일부에서는 AI가 대규모 피해를 야기할 수 있다는 우려도 제기되고 있습니다. AI가 어떻게 치명적인 위험을 초래할 수 있는지 보여주는 두 가지 영향력 있는 주장을 살펴봅니다. 첫 번째 주장인 '권력 추구의 문제'는 특정 가정 하에서 첨단 AI 시스템이 목표를 추구하기 위해 위험한 권력 추구의 행동을 할 가능성이 있다고 주장합니다. AI 시스템이 권력을 추구할 수 있다고 생각하는 이유, 권력을 획득할 수 있다고 생각하는 이유, 이로 인해 재앙이 발생할 수 있다고 생각하는 이유, 어쨌든 그러한 시스템을 구축하고 배포할 수 있다고 생각하는 이유를 검토합니다. 두 번째 주장은 인간 수준의 AI가 개발되면 급속도로 발전하여 인간보다 훨씬 더 뛰어난 능력을 가진 AI 시스템이 탄생할 것이라는 '특이점 가설'입니다. 이러한 시스템의 권력 추구 행동은 특히 위험할 수 있습니다. 이 두 가지 주장에 대한 다양한 반론에 대해 논의하고 논쟁의 현황을 평가하면서 결론을 내립니다. [abs|pdf]

[97/136] Social Interpretable Reinforcement Learning

Keywords: agent_group_learns, reinforcement_learning_rl, group_learns
Abstract: 강화 학습(RL)은 많은 애플리케이션에서 활용될 수 있는 기술이라는 가능성을 지니고 있습니다. 그러나 현재 이 분야의 대부분의 문헌이 불투명 모델에 초점을 맞추고 있기 때문에 해석 가능성이 중요한 고위험 시나리오에서 RL을 사용하는 것은 여전히 제한적입니다. 최근 의사결정 트리를 기반으로 하는 등 해석 가능한 RL에 대한 몇 가지 접근 방식이 제안되었지만, 이러한 기법의 주요 한계 중 하나는 학습 비용입니다. 이러한 한계를 극복하기 위해 유니티는 학습 효율성을 높이기 위해 소셜 학습 원리에서 영감을 얻은 새로운 인구 기반 방법인 소셜 인터프리터블 RL(SIRL)을 제안합니다. 이 방법은 그룹의 각 에이전트가 자신의 개별 경험과 동료와 함께 얻은 경험을 바탕으로 주어진 과제를 해결하는 방법을 학습하는 사회적 학습 과정을 모방합니다. 우리의 접근 방식은 두 단계로 나뉩니다. 협업 단계에서는 모집단의 모든 에이전트가 환경의 공유 인스턴스와 상호 작용하며, 각 에이전트는 상태를 관찰하고 독립적으로 행동을 제안합니다. 그런 다음 투표를 통해 환경에서 실제로 수행될 동작을 선택합니다. 엠프{개별 단계}에서는 각 에이전트가 자신의 환경 인스턴스와 상호 작용하여 개별 성능을 개선합니다. 이 메커니즘을 통해 에이전트는 더 많은 수의 에피소드를 경험하는 동시에 프로세스의 계산 비용을 절감할 수 있습니다. 잘 알려진 6개의 벤치마크에 대한 결과, SIRL은 문헌에서 해석 가능한 다른 방법과 비교했을 때 최첨단 성능에 도달하는 것으로 나타났습니다. [abs|pdf]

[98/136] Wind speed super-resolution and validation: from ERA5 to CERRA via diffusion models

Keywords: cerra_downscaling_data, forecasting_climate, copernicus_regional_reanalysis
Abstract: 유럽을 위한 코페르니쿠스 지역 재분석(CERRA)은 유럽 지역을 위한 고해상도 지역 재분석 데이터 세트입니다. 최근 몇 년 동안 예측 및 기후 변화 연구부터 재생 에너지 예측, 자원 관리, 대기질 위험 평가, 희귀 현상 예측에 이르기까지 다양한 기후 관련 업무에 걸쳐 상당한 유용성을 보여 왔습니다. 안타깝게도 필요한 외부 데이터 확보의 제약과 생성에 내재된 집약적인 연산 수요로 인해 CERRA의 가용성은 현재보다 2년 정도 늦어지고 있습니다. 이에 대한 해결책으로 이 백서에서는 확산 모델을 사용하여 추가 정보 없이 데이터 기반 방식으로 CERRA 다운스케일링을 근사화하는 새로운 방법을 소개합니다. CERRA의 경계 조건을 제공하는 저해상도 ERA5 데이터 세트를 활용하여 이를 초고해상도 작업으로 접근합니다. 이탈리아 주변의 풍속에 초점을 맞춰 기존 CERRA 데이터로 학습된 모델은 원본 CERRA 데이터를 거의 그대로 반영하는 유망한 결과를 보여줍니다. 현장 관측을 통한 검증을 통해 지상 측정값을 근사화하는 모델의 정확성을 더욱 확인했습니다. [abs|pdf]

[99/136] DataFrame QA: A Universal LLM Framework on DataFrame Question Answering Without Data Exposure

Keywords: dataframe_question_answering, dataframes_emphasizing_safe, propose_dataframe_qa
Abstract: 이 백서에서는 데이터프레임에서 정보 검색 및 데이터 분석을 위한 판다 쿼리를 생성하기 위해 대규모 언어 모델(LLM)을 활용하는 새로운 작업인 데이터프레임 질문 답변(QA)을 소개하며, 안전하고 비노출적인 데이터 처리에 중점을 둡니다. 데이터 프레임 열 이름에만 의존하는 이 방식은 데이터 프라이버시를 보장할 뿐만 아니라 프롬프트의 컨텍스트 창을 크게 줄여 정보 처리를 간소화하고 LLM 기반 데이터 분석의 주요 과제를 해결합니다. 안전한 Pandas 쿼리 생성 및 코드 실행을 포함하는 포괄적인 프레임워크로서 DataFrame QA를 제안합니다. 특히 GPT-4를 비롯한 다양한 LLM을 유명한 WikiSQL의 pass@1 메트릭과 복잡한 데이터 분석 쿼리에 맞게 새로 개발한 'UCI-DataFrameQA'를 사용하여 평가했습니다. 그 결과, GPT-4는 WikiSQL에서 86%, UCI-DataFrameQA에서 97%의 합격률을 달성하여 데이터 프레임 값을 안전하게 검색 및 집계하고 정교한 데이터 분석을 수행할 수 있는 능력을 입증했습니다. 사전 교육이나 조정 없이 제로 샷 방식으로 배포할 수 있는 이 접근 방식은 다양한 애플리케이션에 매우 적합하고 안전한 것으로 입증되었습니다. [abs|pdf]

[100/136] A microservice architecture for real-time IoT data processing: A reusable Web of things approach for smart ports

Keywords: reusable_microservice_architecture, fully_reusable_microservice, reusable_microservice
Abstract: 통신과 사물 인터넷의 주요 발전으로 스마트 서비스가 제공되는 수많은 스마트 시티 시나리오가 생겨났습니다. 한때는 미래의 꿈으로만 여겨졌던 것이 이제는 현실이 되었습니다. 그러나 이러한 스마트 서비스를 빠르고 효율적으로, 상호 운용 가능한 방식으로, 실시간으로 제공해야 하는 것은 최첨단 기술 과제입니다. 일부 소프트웨어 아키텍처가 이 분야의 솔루션을 제공하지만, 독립적인 모듈로 구성되어 있어 유지보수나 발전 시 시스템 다운타임이 발생하고 인터페이스의 상호운용성 측면에서 표준이 부족하여 재사용성 및 유지보수 측면에서 한계가 있는 경우가 많습니다. 이 백서에서는 사물 인터넷 패러다임을 사용하여 표준화되고 복잡한 이벤트 처리 기술로 지원되는 실시간 데이터 처리의 높은 효율성을 갖춘 완전히 재사용 가능한 마이크로서비스 아키텍처를 제안합니다. 이 제안을 설명하기 위해 스마트 항구의 대기질 모니터링 및 경보 분야에서 아키텍처를 배포하는 데 필요한 마이크로서비스의 완전히 재사용 가능한 구현을 제시합니다. 이 아키텍처의 성능 평가는 우수한 결과를 보여줍니다. [abs|pdf]

[101/136] A RAG-based Question Answering System Proposal for Understanding Islam: MufassirQAS LLM

Keywords: teachings_chatbots, chatbots_question_answering, doctrines_teachings_chatbots
Abstract: 종교 교리와 가르침이 복잡하고 심오하기 때문에 종교를 배우고 이해하는 데는 어려움이 있습니다. 질문 답변 시스템으로서의 챗봇은 이러한 문제를 해결하는 데 도움이 될 수 있습니다. LLM 챗봇은 자연어 처리 기술을 사용하여 주제 간의 연관성을 파악하고 복잡한 질문에 정확하게 응답합니다. 이러한 기능 덕분에 종교에 대한 깨달음을 주는 질문 답변 챗봇으로 사용하기에 적합합니다. 그러나 LLM은 환각이라고 하는 잘못된 정보를 생성하는 경향도 있습니다. 챗봇의 답변에는 개인의 종교적 신념, 종교 간 갈등, 논란의 여지가 있거나 민감한 주제를 모욕하는 내용이 포함될 수 있습니다. 챗봇은 혐오 발언을 조장하거나 특정 집단이나 그들의 신념을 불쾌하게 하지 않으면서도 이러한 경우를 피해야 합니다. 이 연구는 벡터 데이터베이스 기반의 검색 증강 생성(RAG) 접근 방식을 사용하여 LLM의 정확성과 투명성을 향상시킵니다. 우리의 질문-응답 시스템은 "MufassirQAS"라고 불립니다. 우리는 터키어 문맥이 포함된 여러 오픈 액세스 도서로 벡터 데이터베이스를 만들었습니다. 터키어 번역본과 이슬람에 대한 해석서입니다. 유해하거나 모욕적이거나 무례한 응답을 방지하는 지침을 제공하는 시스템 프롬프트를 신중하게 만들었습니다. 또한 민감한 질문으로 무파시르QAS와 ChatGPT를 테스트했습니다. 시스템을 통해 더 나은 성능을 얻을 수 있었습니다. 연구와 개선은 여전히 진행 중입니다. 결과와 향후 작업 내용을 알려드립니다. [abs|pdf]

[102/136] A Survey on Neural Topic Models: Methods, Applications, and Challenges

Keywords: neural_topic_models, topic_models, conventional_topic_models
Abstract: 토픽 모델은 잠재 토픽을 발견하고 비지도 방식으로 문서의 토픽 비율을 추론하는 데 수십 년 동안 널리 사용되어 왔습니다. 토픽 모델은 텍스트 분석 및 문맥 추천과 같은 다양한 애플리케이션에서 널리 사용되어 왔습니다. 최근에는 신경망의 부상으로 새로운 연구 분야인 신경 토픽 모델(NTM)이 등장했습니다. 기존의 토픽 모델과 달리 NTM은 모델별 파생 없이 매개변수를 직접 최적화합니다. 따라서 NTM은 확장성과 유연성이 뛰어나기 때문에 많은 연구자들이 주목하고 있으며, 새로운 방법과 애플리케이션이 많이 개발되고 있습니다. 이 백서에서는 신경 주제 모델에 대한 방법, 응용 및 과제에 관한 포괄적인 조사를 제시합니다. 특히, 네트워크 구조에 따라 현재 사용되고 있는 NTM 방법을 체계적으로 정리하고, 짧은 텍스트와 다국어 문서 등 다양한 시나리오에 대한 NTM을 소개합니다. 또한 NTM을 기반으로 구축된 다양한 인기 애플리케이션에 대해서도 설명합니다. 마지막으로, 향후 연구에 영감을 주기 위해 NTM이 직면한 과제를 강조합니다. [abs|pdf]

[103/136] A Comprehensive Survey of Compression Algorithms for Language Models

Keywords: compressing_language_models, compress_language_models, compressing_language
Abstract: 정확도를 떨어뜨리지 않으면서 언어 모델을 압축하려면 어떻게 해야 할까요? 탄소 배출량 증가, 비싼 유지보수 비용 등 언어 모델의 거대한 크기로 인한 부작용 없이 최근 언어 모델의 괄목할 만한 발전의 혜택을 누리기 위해 언어 모델용 압축 알고리즘의 수가 빠르게 증가하고 있습니다. 수많은 압축 알고리즘이 언어 모델을 압축하는 데 괄목할 만한 발전을 보였지만, 아이러니하게도 알고리즘의 수가 너무 많아서 새로운 트렌드를 파악하고 그 근간이 되는 기본 개념을 파악하는 것이 어려워졌습니다. 이 백서에서는 가지치기, 양자화, 지식 증류, 저순위 근사화, 매개변수 공유, 효율적인 아키텍처 설계 등 다양한 압축 알고리즘을 조사하고 요약합니다. 다양한 압축 알고리즘의 전반적인 동향을 정리할 뿐만 아니라 대표적인 알고리즘을 선정하여 심층 분석합니다. 압축 알고리즘의 범주별 가치와 대용량 언어 모델의 등장으로 큰 영향을 미치고 있는 저비용 압축 알고리즘의 바람직한 속성에 대해 논의합니다. 마지막으로 설문조사 결과를 바탕으로 향후 유망한 연구 주제를 소개합니다. [abs|pdf]

[104/136] Deep Learning with Information Fusion and Model Interpretation for Health Monitoring of Fetus based on Long-term Prenatal Electronic Fetal Heart Rate Monitoring Data

Keywords: fetal_heart_data, fetal_heart_monitoring, heart_data
Abstract: 전자식 태아 심박수 모니터링에 의해 점차 대중화되고 있는 산전 기간 동안의 장기 태아 심박수(FHR) 모니터링은 태아 심박수 모니터링에 있어 점점 더 많은 접근 방식을 나타냅니다. 이러한 종류의 지속적인 모니터링은 단기 모니터링과 달리 장기간의 태아 심장 데이터를 수집합니다. 이를 통해 태아의 상태를 보다 포괄적으로 이해할 수 있습니다. 그러나 장기 산전 태아 심장 모니터링의 해석은 아직 초기 단계에 있으며, 이에 상응하는 임상 표준이 부족합니다. 또한 지속적인 모니터링을 통해 생성되는 방대한 양의 데이터는 수작업으로 분석할 경우 임상 업무에 상당한 부담을 줍니다. 이러한 문제점을 해결하기 위해 본 연구에서는 딥러닝과 정보 융합 기법을 결합한 지속적 FHR 모니터링을 위한 자동 분석 시스템인 'LARA(Long-term Antepartum Risk Analysis system)'를 개발했습니다. LARA의 핵심은 잘 정립된 컨볼루션 신경망(CNN) 모델입니다. 이 모델은 장기 FHR 데이터를 입력으로 처리하고 분석 결과로서 위험 분포도(RDM)와 위험 지수(RI)를 생성합니다. 내부 테스트 데이터 세트에서 LARA를 평가한 성능 지표는 다음과 같습니다: AUC 0.872, 정확도 0.816, 특이도 0.811, 민감도 0.806, 정밀도 0.271, F1 점수 0.415입니다. 본 연구에서는 RI가 높은 장기 FHR 모니터링 데이터는 부정적인 결과를 초래할 가능성이 더 높다는 것을 관찰했습니다(p=0.0021). 결론적으로, 이 연구는 장기 FHR 모니터링을 위한 최초의 자동화된 분석 시스템인 LARA를 소개하며 향후 임상적 가치에 대한 추가 연구를 시작합니다. [abs|pdf]

[105/136] L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks

Keywords: learning_adversarial_attacks, adversarial_attacks_present, adversarial_attack_generation
Abstract: 빠르게 진화하는 머신 러닝 분야에서 적대적 공격은 모델의 견고성과 보안에 중대한 도전이 되고 있습니다. 세부적인 확률이나 점수가 아닌 모델의 결정에 대한 피드백만 필요한 의사 결정 기반 공격은 특히 교묘하고 방어하기 어렵습니다. 이 연구에서는 이러한 공격의 설계를 자동화하기 위해 대규모 언어 모델(LLM)의 생성 기능을 활용하는 새로운 접근 방식인 L-AutoDA(대규모 언어 모델 기반 자동화된 의사 결정 기반 적대적 공격)를 소개합니다. 진화적 프레임워크에서 LLM과 반복적으로 상호 작용함으로써 L-AutoDA는 사람의 노력 없이도 경쟁력 있는 공격 알고리즘을 효율적으로 자동으로 설계합니다. 저희는 CIFAR-10 데이터 세트에서 L-AutoDA의 효과를 입증하여 성공률과 계산 효율성 모두에서 기준 방법보다 크게 개선되었음을 보여줍니다. 이번 연구 결과는 적대적 공격 생성을 위한 도구로서 언어 모델의 잠재력을 강조하고 강력한 AI 시스템 개발을 위한 새로운 길을 제시합니다. [abs|pdf]

[106/136] Music Auto-Tagging with Robust Music Representation Learned via Domain Adversarial Training

Keywords: music_auto_tagging, music_data_improves, enhancing_music_discovery
Abstract: 음악 자동 태그 지정은 음악 검색 및 추천 기능을 향상시키는 데 매우 중요합니다. 음악 정보 검색(MIR)의 기존 모델은 멀티미디어 콘텐츠의 환경음이나 음성 소리와 같은 실제 노이즈 때문에 어려움을 겪습니다. 이 연구에서는 노이즈가 많은 환경에서 음악 자동 태깅 성능을 향상시키기 위해 음성 관련 작업에서 영감을 얻은 방법을 제안합니다. 이 접근 방식은 도메인 적대적 훈련(DAT)을 음악 도메인에 통합하여 노이즈에 견딜 수 있는 강력한 음악 표현을 가능하게 합니다. 이전 연구와 달리 이 접근 방식은 후속 단계에서 성능 저하를 방지하기 위해 도메인 분류기에 대한 추가 사전 훈련 단계를 포함합니다. 다양한 합성 노이즈 음악 데이터를 추가하면 다양한 노이즈 수준에서 모델의 일반화가 향상됩니다. 제안된 아키텍처는 라벨이 없는 노이즈 음악 데이터를 효과적으로 활용함으로써 음악 자동 태깅의 향상된 성능을 보여줍니다. 레이블이 지정되지 않은 추가 데이터를 사용한 추가 실험을 통해 모델의 성능이 더욱 향상되어 강력한 일반화 기능과 광범위한 적용 가능성을 입증했습니다. [abs|pdf]

[107/136] Gaussian Splashing: Dynamic Fluid Synthesis with Gaussian Splatting

Keywords: animations_solids_fluids, 3d_gaussian_splatting, solids_fluids_3d
Abstract: 유니티는 고체 및 유체의 물리 기반 애니메이션을 3D 가우시안 스플래팅(3DGS)과 통합하여 3DGS로 재구성된 가상 장면에서 새로운 효과를 구현할 수 있는 가능성을 보여줍니다. 유니티는 기본 표현에서 가우시안 스플래팅과 위치 기반 동역학(PBD)의 일관성을 활용하여 렌더링, 뷰 합성, 고체와 유체의 동역학을 일관된 방식으로 관리합니다. 가우시안 셰이더와 마찬가지로 각 가우시안 커널에 노멀을 추가하여 커널의 방향을 표면 노멀과 정렬하여 PBD 시뮬레이션을 개선합니다. 이 접근 방식은 솔리드의 회전 변형으로 인해 발생하는 스파이크 노이즈를 효과적으로 제거합니다. 또한 물리 기반 렌더링을 통합하여 유체의 동적 표면 반사를 보강할 수 있습니다. 결과적으로 유니티 프레임워크는 동적 유체의 표면 하이라이트를 사실적으로 재현하고 새로운 뷰에서 씬 오브젝트와 유체 간의 상호작용을 촉진할 수 있습니다. 자세한 내용은 프로젝트 페이지에서 확인할 수 있습니다. [abs|pdf]

[108/136] SupplyGraph: A Benchmark Dataset for Supply Chain Planning using Graph Neural Networks

Keywords: gnns_supply_chain, graph_neural_networks, supply_chain_networks
Abstract: 그래프 신경망(GNN)은 운송, 생물 정보학, 언어 처리, 컴퓨터 비전 등 다양한 영역에서 주목을 받고 있습니다. 하지만 공급망 네트워크에 GNN을 적용하는 연구는 눈에 띄게 부족합니다. 공급망 네트워크는 본질적으로 그래프와 같은 구조를 가지고 있기 때문에 GNN 방법론을 적용하기에 가장 적합한 후보입니다. 이는 가장 복잡한 공급망 문제도 최적화, 예측, 해결할 수 있는 무한한 가능성을 열어줍니다. 이 접근법의 가장 큰 장애물은 GNN을 사용하여 공급망 문제를 연구하고 해결할 수 있는 실제 벤치마크 데이터 세트가 없다는 것입니다. 이 문제를 해결하기 위해 방글라데시의 선도적인 일용소비재(FMCG) 기업 중 한 곳에서 생산 목적의 공급망 계획에 초점을 맞춰 얻은 시간적 작업에 대한 실제 벤치마크 데이터 세트를 제시합니다. 이 데이터 세트에는 판매 예측, 생산 계획, 공장 문제 식별을 가능하게 하는 노드 기능으로 시간 데이터가 포함되어 있습니다. 연구자들은 이 데이터 세트를 활용하여 수많은 공급망 문제를 해결함으로써 공급망 분석 및 계획 분야를 발전시키는 데 GNN을 사용할 수 있습니다. 출처: 이 https URL [abs|pdf]

[109/136] A Survey on 3D Skeleton Based Person Re-Identification: Approaches, Designs, Challenges, and Future Directions

Keywords: skeleton_modeling_feature, person_identification_3d, skeleton_modeling
Abstract: 3D 골격을 통한 사람 재식별은 패턴 인식 커뮤니티에서 큰 관심을 불러일으키는 중요한 신흥 연구 분야입니다. 최근 몇 년 동안 다양한 응용 시나리오에서 뚜렷한 장점을 가진 3D 골격 기반 사람 재식별(SRID) 방법이 제안되어 골격 모델링과 특징 학습의 두드러진 문제를 효과적으로 해결하고 있습니다. 최근의 발전에도 불구하고, 우리가 아는 한 이러한 연구와 그 과제를 종합적으로 요약하려는 노력은 거의 이루어지지 않았습니다. 이 백서에서는 현재의 SRID 접근 방식, 모델 설계, 과제 및 향후 방향에 대한 체계적인 조사를 제공하여 이러한 간극을 메우려고 시도합니다. 구체적으로, 먼저 SRID 문제를 공식화하고, 벤치마크 데이터 세트, 일반적으로 사용되는 모델 아키텍처의 요약, 다양한 방법의 특성에 대한 분석적 검토를 통해 SRID 연구의 분류법을 제안합니다. 그런 다음 다양한 측면에서 SRID 모델의 설계 원칙을 자세히 설명하여 모델 개선을 위한 핵심 인사이트를 제공합니다. 마지막으로, 현재 연구가 직면하고 있는 중요한 과제를 파악하고 향후 SRID 연구를 위한 몇 가지 유망한 방향에 대해 논의합니다. [abs|pdf]

[110/136] SkipViT: Speeding Up Vision Transformers with a Token-Level Skip Connection

Keywords: intensive_cnn, intensive_cnn_models, data_intensive_cnn
Abstract: 비전 트랜스포머는 CNN 모델보다 계산 및 데이터 집약적인 것으로 알려져 있습니다. ViT와 같은 이러한 트랜스포머 모델은 입력 이미지 토큰 간의 관계를 학습하기 위해 모든 입력 이미지 토큰이 필요합니다. 그러나 이러한 토큰 중 상당수는 정보가 부족하고 관련 없는 배경이나 중요하지 않은 풍경과 같은 무의미한 정보를 포함할 수 있습니다. 이러한 토큰은 멀티헤드 자기주의(MHSA)에 의해 간과되어 MHSA와 피드 포워드 네트워크(FFN)에서 많은 중복되고 불필요한 계산을 초래합니다. 본 연구에서는 중요하지 않은 토큰을 분리하여 다른 저비용 계산 경로를 통해 전송함으로써 불필요한 상호 작용을 최적화하는 방법을 제안합니다. 이 방법은 ViT 모델에 어떠한 파라미터도 추가하지 않으며, 훈련 처리량과 최종 모델의 정확도 상위 1% 손실 0%를 달성하는 것 사이에서 최적의 절충점을 찾는 것을 목표로 합니다. 처음부터 작은 규모의 ViT 훈련에 대한 실험 결과에 따르면 SkipViT는 13% 이상의 훈련 처리량을 확보하면서 토큰의 55%를 효과적으로 삭제할 수 있으며 Huawei Ascend910A의 기준 모델 수준에서 분류 정확도를 유지할 수 있는 것으로 나타났습니다. [abs|pdf]

[111/136] Building ethical guidelines for generative AI in scientific research

Keywords: ai_safeguarding_research, ethical_guidelines_generative, safeguarding_research_integrity
Abstract: 대규모 언어 모델과 같은 생성적 인공 지능 도구는 학술 연구와 실제 응용 분야를 빠르게 변화시키고 있습니다. 그러나 과학 분야의 생성적 AI에 대한 윤리적 가이드라인에 대한 논의는 여전히 파편화되어 있어 합의에 기반한 표준이 시급히 필요함을 강조합니다. 이 백서는 진실성과 편향성에 관한 모델 한계 이해, 프라이버시, 기밀성, 저작권 존중, 모델 결과물 통합 시 표절 및 정책 위반 방지, 애플리케이션이 전반적인 혜택을 제공하도록 보장, 투명하고 재현 가능한 AI 사용 등 5가지 핵심 주제에 대한 분석 및 완화 전략을 개발하여 초기 프레임워크를 제시합니다. 잠재적인 윤리적 위반을 입증하기 위해 일반적인 시나리오가 설명되어 있습니다. 연구 무결성을 보호하면서 AI의 이점을 증진하기 위해서는 전문 교육과 합리적인 집행이 결합된 글로벌 합의가 중요하다고 주장합니다. [abs|pdf]

[112/136] SimFair: Physics-Guided Fairness-Aware Learning with Simulation Models

Keywords: fairness_aware_learning, fairness_aware, guided_fairness_aware
Abstract: 공정성 인식은 실제 애플리케이션에서 인공지능을 책임감 있게 사용하기 위한 필수 구성 요소로 부상했습니다. 많은 경우, 성과 불평등은 지역별로 분포가 다르기 때문에 발생합니다. 공정성의 이전 가능성을 개선하기 위한 기법이 개발되었지만, 새로운 지역의 샘플이 없는 경우 이 문제를 해결하는 것이 항상 가능한 것은 아니며, 이는 순수한 데이터 기반 시도의 병목 현상입니다. 다행히도 사회적으로 큰 영향을 미치는 많은 문제에 대해 물리학 기반의 기계론적 모델이 연구되어 왔습니다. 유니티는 물리 규칙 기반 시뮬레이션과 역 모델링을 훈련 설계에 통합하여 데이터의 한계를 극복하는 물리 기반 공정성 인식 학습 프레임워크인 SimFair를 제안합니다. 온도 예측을 예로 들어 공정성 유지에 있어 제안된 SimFair의 효과를 입증합니다. [abs|pdf]

[113/136] Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models

Keywords: generating_explanations_retrieving, retrieval_augmented_generation, question_answering_benchmark
Abstract: GPT-4와 같은 최근의 독점적인 대규모 언어 모델(LLM)은 객관식 문제부터 장문 생성에 이르기까지 생물의학 영역의 다양한 문제를 해결하는 데 획기적인 성과를 거두었습니다. 인코딩된 자연어처리 지식으로는 여전히 처리할 수 없는 문제를 해결하기 위해 지식 코퍼스에서 문서를 검색하고 이를 자연어처리 입력에 무조건 또는 선택적으로 추가하여 생성하는 다양한 검색-증강 생성(RAG) 방법이 개발되어 왔습니다. 그러나 기존 방법을 도메인별 문제에 적용할 경우 일반화가 제대로 이루어지지 않아 잘못된 문서를 가져오거나 부정확한 판단을 내리는 경우가 많습니다. 본 논문에서는 설명 생성, 도메인별 문서 검색, 생성된 답변의 자가 반영에 특화된 생물의학 텍스트에 신뢰할 수 있는 프레임워크인 Self-BioRAG를 소개합니다. 84,000개의 필터링된 생물의학 명령어 세트를 활용하여 맞춤형 반사 토큰으로 생성된 설명을 평가할 수 있는 Self-BioRAG를 훈련합니다. 우리의 연구는 도메인 관련 지침을 준수하기 위해서는 검색기, 도메인 관련 문서 코퍼스, 명령어 세트와 같은 도메인별 구성 요소가 필요하다는 것을 증명합니다. 세 가지 주요 의학 질문 답변 벤치마크 데이터 세트를 사용한 Self-BioRAG의 실험 결과, 매개변수 크기가 7B 이하인 최신 개방형 기반 모델에 비해 평균 7.2%의 절대적인 성능 향상을 달성함으로써 상당한 성능 향상을 입증했습니다. 전반적으로 Self-BioRAG는 질문의 단서를 찾고, 필요한 경우 관련 문서를 검색하며, 검색된 문서와 인코딩된 지식의 정보로 의료 전문가처럼 답변하는 방법을 이해하는 것으로 분석됩니다. 프레임워크 구성 요소와 모델 가중치(7B 및 13B)를 훈련하기 위한 데이터와 코드를 공개하여 생물의학 및 임상 영역의 기능을 강화합니다. [abs|pdf]

[114/136] Towards Stable Preferences for Stakeholder-aligned Machine Learning

Keywords: stakeholder_preferences_kidney, preferences_kidney_allocation, preferences_pertaining_kidney
Abstract: 이 연구는 장기 수요 증가로 인한 신장 배분이라는 시급한 과제에 대응하기 위해 이해관계자의 가치도 반영한 데이터 기반 솔루션을 개발하기 위해 시작되었습니다. 이 연구의 주요 목표는 신장 할당과 관련된 개인 및 그룹 수준의 선호도를 모두 학습할 수 있는 방법을 개발하는 것입니다. '쌍둥이 신장 환자 온라인 설문조사'의 데이터를 기반으로 합니다 두 개의 서로 다른 데이터 세트를 활용하고 개인, 그룹, 안정성의 세 가지 수준에서 평가하며, 여러 지표를 통해 평가된 머신러닝 분류기를 사용합니다. 개인 수준 모델은 개별 참여자의 선호도를 예측하고, 그룹 수준 모델은 참여자 전체의 선호도를 집계하며, 그룹 수준을 확장한 안정성 수준 모델은 시간이 지남에 따라 이러한 선호도의 안정성을 평가합니다. 이해관계자의 선호도를 신장 할당 프로세스에 통합함으로써 장기 이식의 윤리적 측면을 발전시키고, 보다 투명하고 공평한 관행에 기여하는 동시에 도덕적 가치를 알고리즘 의사 결정에 통합하는 것을 목표로 합니다. [abs|pdf]

[115/136] GenPluSSS: A Genetic Algorithm Based Plugin for Measured Subsurface Scattering Representation

Keywords: based_subsurface_scattering, heterogeneous_subsurface_scattering, subsurface_scattering_data
Abstract: 이 백서에서는 블렌더 3D 모델링 툴에서 동종 및 이종, 광학적으로 두꺼운 반투명 머티리얼의 표현을 추가하는 플러그인을 소개합니다. 이 플러그인의 작동 원리는 유전자 알고리즘(GA)과 특이값 분해(SVD) 기반 지표면 산란법(GenSSS)의 조합을 기반으로 합니다. 제안된 플러그인은 오픈소스 렌더링 소프트웨어인 미쓰바 렌더러를 사용하여 구현되었습니다. 제안된 플러그인은 측정된 지표면 산란 데이터에 대해 검증을 거쳤습니다. 제안한 플러그인은 동종 및 이종 지표면 산란 효과를 정확하고 간결하며 계산적으로 효율적으로 시각화하는 것으로 나타났습니다. [abs|pdf]

[116/136] Unlearning Reveals the Influential Training Data of Language Models

Keywords: language_models_mitigating, unlearning_trained_model, datasets_generating_toxic
Abstract: 언어 모델의 성능을 향상시키면서 유해한 콘텐츠 생성의 위험을 완화하려면 어떤 학습 데이터 세트가 모델의 출력에 영향을 미치는지 파악하는 것이 중요합니다. 이상적으로는 각 데이터 세트를 학습에서 제거하여 영향력을 측정할 수 있지만, 모델을 여러 번 재학습하는 데는 막대한 비용이 소요됩니다. 이 백서에서는 훈련된 모델에서 학습을 해제하여 훈련 데이터 세트의 영향력을 추정하는 UnTrac을 소개합니다. 각 훈련 데이터 세트는 경사도 상승에 따라 학습을 해제하고, 학습 해제 후 모델의 예측이 얼마나 변화하는지 평가하는 매우 간단한 방법입니다. 또한, 사전 학습 데이터 세트가 유해하고 편향적이며 진실하지 않은 콘텐츠를 생성하는 데 미치는 영향을 평가할 수 있는지 실증적으로 살펴봅니다. 실험 결과, 우리의 방법은 과도한 메모리 공간이나 여러 개의 모델 체크포인트가 필요하지 않으면서도 기존 방법보다 훨씬 더 정확하게 영향력을 추정하는 것으로 나타났습니다. [abs|pdf]

[117/136] Deep Learning with Tabular Data: A Self-supervised Approach

Keywords: supervised_tabtransformer, mlp_supervised_tabtransformer, supervised_tabtransformer_research
Abstract: 이 논문에서는 자가 지도 학습이 가능한 TabTransformer 모델을 사용해 표 형식 데이터를 훈련하는 새로운 접근법을 설명합니다. GBDT와 같은 전통적인 표 형식 데이터용 머신러닝 모델이 널리 사용되고 있지만, 본 논문에서는 표 형식 데이터에 특별히 최적화된 Transformer 기반 모델인 TabTransformer의 효과를 살펴봅니다. 탭트랜스포머는 트랜스포머의 자기 주의 메커니즘을 활용하여 표 형식 데이터의 특징들 간의 복잡한 관계와 종속성을 포착합니다. 이 연구에서는 탭트랜스포머가 레이블이 지정되지 않은 데이터에서 대리 감독 작업을 생성하여 레이블이 지정된 데이터의 필요성을 제거함으로써 학습하는 자가 감독 학습 접근법을 사용했습니다. 이 연구의 목표는 범주형 및 숫자형 특징을 가장 효과적으로 표현하는 탭트랜스포머 모델을 찾는 것입니다. 이를 위해 다양한 입력 설정을 트랜스포머에 구축하는 과정에서 직면하는 문제를 해결합니다. 또한, MLP 및 감독형 탭트랜스포머와 같은 기준 모델에 대한 탭트랜스포머 모델의 성능을 조사하기 위해 비교 분석도 수행했습니다.
이 연구에서는 최적의 입력을 구성하여 표 형식 데이터 세트의 다양한 특징 간의 기저 관계를 효과적으로 포착할 수 있는 다양한 변형 모델, 즉 비닝-TT, 바닐라-MLP-TT, MLP 기반-TT를 생성하여 새로운 접근 방식을 제시했습니다. 또한 표 형식 데이터에 대해 마스킹 기반 비지도 설정의 형태로 자가 지도 학습 접근 방식을 채택했습니다. 이 연구 결과는 범주형 및 수치형 특징을 표현하는 가장 좋은 방법을 제시하며, 기존 머신러닝 모델 및 기타 자가 지도 학습 방법과 비교했을 때 TabTransformer의 성능을 강조합니다. [abs|pdf]

[118/136] Transfer Learning for the Prediction of Entity Modifiers in Clinical Text: Application to Opioid Use Disorder Case Detection

Keywords: clinical_entity_modifiers, modifiers_clinical_entities, learning_clinical_entity
Abstract: 배경: 임상 텍스트에서 추출된 엔티티의 의미는 엔티티 부정, 불확실성, 조건부, 심각도 및 주어를 포함한 수식어에 의해 크게 달라질 수 있습니다. 임상 엔티티의 수식어를 결정하기 위한 기존 모델에는 각 수식어에 대해 독립적으로 학습된 정규식 또는 특징 가중치가 포함됩니다.
방법: 공개적으로 사용 가능한 SemEval 2015 Task 14 코퍼스와 SemEval과 공유되는 수식어와 OUD에 특화된 새로운 수식어가 포함된 새로운 오피오이드 사용 장애(OUD) 데이터 세트를 사용하여 수식어를 공동으로 학습하고 예측하는 다중 작업 트랜스포머 아키텍처 설계를 개발하고 평가합니다. 이전에 발표된 시스템과 비교하여 멀티태스크 학습 접근법의 효과를 평가하고, 임상 수식어의 일부만 공유되는 경우 임상 실체 수식어에 대한 전이 학습의 타당성을 평가합니다.
결과: 우리의 접근 방식은 SemEval 2015 과제 14의 ShARe 말뭉치에서 가중 정확도 1.1%, 비가중 정확도 1.7%, 마이크로 F1 점수 10%의 증가를 보여주는 최첨단 결과를 달성했습니다.
결론: 공유 모델에서 학습한 가중치를 부분적으로 일치하는 새로운 데이터 세트로 효과적으로 이전할 수 있음을 보여줌으로써 임상 텍스트 수정자에 대한 전이 학습의 사용을 검증했습니다 [abs|pdf]

[119/136] Roq: Robust Query Optimization Based on a Risk-aware Learned Cost Model

Keywords: query_optimizers, query_optimizers_sufficiently, performs_query_optimization
Abstract: 관계형 데이터베이스 관리 시스템(RDBMS)의 쿼리 최적화 도구는 주어진 쿼리에 대해 최적일 것으로 예상되는 실행 계획을 검색합니다. 이 최적화 도구는 종종 부정확한 매개변수 추정치를 사용하며 실제로는 맞지 않을 수 있는 가정을 합니다. 따라서 이러한 추정치와 가정이 유효하지 않은 경우 런타임에 차선책인 실행 계획을 선택할 수 있으며, 이로 인해 쿼리 성능이 저하될 수 있습니다. 따라서 쿼리 최적화 도구는 강력한 쿼리 최적화를 충분히 지원하지 못합니다. 최근 몇 년 동안 데이터 시스템의 효율성을 개선하고 유지 관리 오버헤드를 줄이기 위해 머신 러닝(ML)을 사용하는 것에 대한 관심이 급증했으며, 특히 쿼리 최적화 영역에서 유망한 결과를 얻었습니다. 이 백서에서는 이러한 발전에서 영감을 얻고 이 여정에서 IBM Db2의 수년간의 경험을 바탕으로 위험 인식 학습 접근 방식을 기반으로 강력한 쿼리 최적화를 가능하게 하는 전체론적 프레임워크인 Robust Optimization of Queries(Roq)를 제안합니다. Roq에는 쿼리 최적화의 맥락에서 견고성 개념의 새로운 공식화와 근사 확률론적 ML에 기반한 정량화 및 측정에 대한 원칙적인 접근 방식이 포함되어 있습니다. 또한 쿼리 계획 평가 및 선택을 위한 새로운 전략과 알고리즘도 포함되어 있습니다. Roq에는 쿼리 실행 비용과 관련 리스크를 예측하고 그에 따라 쿼리 최적화를 수행하도록 설계된 새로운 학습 비용 모델도 포함되어 있습니다. Roq가 최신 기술에 비해 강력한 쿼리 최적화에 상당한 개선 효과를 제공한다는 것을 실험적으로 입증했습니다. [abs|pdf]

[120/136] SCANIA Component X Dataset: A Real-World Multivariate Time Series Dataset for Predictive Maintenance

Keywords: predictive_maintenance_scenarios, benchmark_predictive_maintenance, predictive_maintenance
Abstract: 이 백서에서는 스웨덴 스카니아의 트럭 차량의 익명화된 엔진 부품(컴포넌트 X라고 함)에서 수집한 실제 다변량 시계열 데이터 세트에 대해 설명합니다. 이 데이터 세트에는 트럭의 상세한 운행 데이터, 수리 기록, 사양을 포착하는 다양한 변수가 익명화를 통해 기밀성을 유지하면서 포함되어 있습니다. 분류, 회귀, 생존 분석, 이상 징후 감지 등 다양한 머신러닝 애플리케이션에 적합하며, 특히 예측 유지보수 시나리오에 적용할 때 유용합니다. 대규모 모집단 규모와 히스토그램 및 숫자 카운터 형식의 다양한 특징, 그리고 시간적 정보가 포함된 이 실제 데이터 세트는 이 분야에서 독보적인 데이터 세트입니다. 이 데이터세트를 공개하는 목적은 광범위한 연구자들에게 국제적으로 잘 알려진 기업의 실제 데이터로 작업할 수 있는 기회를 제공하고, 예측 유지보수 분야에 표준 벤치마크를 도입하여 재현 가능한 연구를 촉진하는 것입니다. [abs|pdf]

[121/136] Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks

Keywords: humanistic_study_gpt, recently_advances_interpretive, advances_interpretive
Abstract: 정성적 코딩 또는 콘텐츠 분석은 텍스트에서 의미를 추출하여 텍스트 코퍼스 전반에서 정량적 패턴을 식별하는 작업입니다. 최근 대규모 언어 모델(LLM)의 해석 능력이 발전함에 따라 코딩 프로세스(텍스트에 카테고리 레이블 적용)를 자동화하여 인간 연구자가 보다 창의적인 연구 측면에 집중하는 동시에 이러한 해석 작업을 AI에 위임할 수 있는 잠재력을 제공합니다. 우리의 사례 연구는 인문학 연구를 대표하는 밀도 높은 문단 길이의 구절에 대한 일련의 사회역사적 코드로 구성되어 있습니다. 이를 통해 GPT-4는 인간과 동등한 수준의 해석이 가능한 반면, GPT-3.5는 그렇지 않다는 것을 보여줍니다. 인간에서 추출한 골드 표준과 비교했을 때, GPT-4는 9개 코드 중 3개 코드에 대해 우수한 인터코더 신뢰도(Cohen의 $\kappa \geq 0.79$)를 제공하고, 9개 코드 중 8개 코드에 대해 상당한 신뢰도($\kappa \geq 0.6$)를 제공합니다. 반면, GPT-3.5는 모든 코드에서 성능이 크게 떨어졌습니다($mean(\kappa) = 0.34$, $max(\kappa) = 0.55$). 중요한 것은 코딩 충실도가 코딩 결정을 정당화하는 근거(연쇄 추론)를 제시하라는 메시지가 LLM에 표시될 때 상당히 향상된다는 사실입니다. 이러한 연구 결과와 기타 연구 결과를 기존 코드북을 LLM에 맞게 조정하기 위한 모범 사례와 함께 제시합니다. 연구 결과에 따르면 특정 코드북의 경우 최첨단 LLM이 이미 대규모 콘텐츠 분석에 능숙한 것으로 나타났습니다. 또한 차세대 모델을 통해 대부분의 코드북에서 AI 코딩이 실행 가능한 옵션이 될 가능성이 높다는 것을 시사합니다. [abs|pdf]

[122/136] On the Emergence of Symmetrical Reality

Keywords: symmetrical_reality_framework, symmetrical_reality_systems, introduce_symmetrical_reality
Abstract: 인공지능(AI)은 인간의 인지 능력에 혁신을 가져왔으며, 물리적 환경과 가상 환경 모두에서 인간과 상호 작용할 수 있는 새로운 AI 개체의 개발을 촉진했습니다. 가상현실, 혼합현실, 증강현실은 이미 수년 전부터 존재해 왔지만, 서로 다른 적용 방향으로 인해 이러한 기술 분야를 통합하는 것은 여전히 어려운 과제입니다. 자율적으로 인식하고 행동할 수 있는 인공지능 에이전트의 등장은 인간 중심의 기존 연구 접근법의 한계를 드러냄으로써 이 문제를 더욱 복잡하게 만듭니다. 물리적 세계와 가상 세계 모두에서 인간과 AI 에이전트의 이중 지각 중심을 수용할 수 있는 포괄적인 프레임워크를 구축하는 것이 필수적입니다. 이 백서에서는 다양한 형태의 물리적-가상적 융합을 아우르는 통합된 표현을 제공하는 대칭적 현실 프레임워크를 소개합니다. 이 프레임워크를 통해 연구자들은 AI 에이전트가 인간과 협업하는 방법과 물리적-가상적 통합의 서로 다른 기술적 경로를 보다 넓은 관점에서 통합할 수 있는 방법을 더 잘 이해할 수 있습니다. 그런 다음 물을 붓는 것과 같은 특정 작업을 위한 대칭 현실 시스템의 작동을 보여주는 프로토타입 시스템을 시연하면서 인간과 AI의 공존에 대해 살펴봅니다. 이어서 대칭 현실의 잠재적 적용 가능성을 보여주는 AI 기반 활동 지원 서비스 사례를 제안합니다. 이 백서는 다양한 분야의 연구자와 실무자에게 유익한 관점과 지침을 제공하여 물리적 환경과 가상 환경 모두에서 인간과 AI의 공존에 대한 지속적인 연구에 기여하는 것을 목표로 합니다. [abs|pdf]

[123/136] Sensor-Based Data Acquisition via Ubiquitous Device to Detect Muscle Strength Training Activities

Keywords: physical_activities, activity_recognition_har, physical_activities_pa
Abstract: 건강 저하를 예방하기 위해 신체 활동(PA)을 통해 높은 삶의 질을 유지하는 것은 매우 중요합니다. 하지만 개인의 건강 상태, PA 선호도, 운동 요인 간의 관계는 복잡합니다. PA에 대한 논의는 건강한 노화 경험과 긍정적인 상관관계를 일관되게 보여 주지만, 특정 유형의 근골격계 운동과 명확한 상관관계는 밝혀지지 않았습니다. 이 연구는 특히 인도네시아에서 스마트폰이 점점 더 널리 보급되고 있는 점을 활용하여 인체 활동 인식(HAR)을 위한 임베디드 센서를 활용합니다. 25명의 참가자가 9가지 유형의 동작을 수행한 데이터를 바탕으로 근력 운동에 있어 오른손과 왼손에서 중요한 역할을 하는 센서 속성을 파악하는 데 성공했으며, 이를 바탕으로 LSTM 알고리즘을 적용한 머신러닝 모델을 개발했습니다. [abs|pdf]

[124/136] Large Language Model Guided Knowledge Distillation for Time Series Anomaly Detection

Keywords: anomaly_detection, anomalyllm_knowledge, series_anomaly_detection
Abstract: 자체 지도 방법은 사용 가능한 주석의 부족으로 인해 시계열 이상 징후 탐지 분야에서 각광을 받고 있습니다. 하지만 일반적으로 일반화 가능한 표현 맵을 얻기 위해 광범위한 훈련 데이터가 필요하며, 이는 사용 가능한 몇 가지 샘플의 시나리오와 충돌하여 성능을 제한합니다. 이러한 한계를 극복하기 위해 대규모 데이터 세트에 대해 사전 학습된 대규모 언어 모델(LLM) 기반 교사 네트워크의 특징을 모방하도록 학생 네트워크를 훈련하는 지식 증류 기반 시계열 이상 징후 탐지 접근 방식인 \textbf{AnomalyLLM}을 제안합니다. 테스트 단계에서 교사 네트워크와 학생 네트워크의 특징이 크게 차이가 나면 이상 징후가 감지됩니다. 학생 네트워크가 교사 네트워크의 이상 샘플 특징을 학습하지 못하도록 하기 위해 두 가지 핵심 전략을 고안합니다. 1) 프로토타입 신호를 학생 네트워크에 통합하여 정상적인 특징 추출을 통합합니다. 2) 합성 변칙을 사용해 두 네트워크 간의 대표성 간극을 확대합니다. AnomalyLLM은 15개의 데이터 세트에서 최첨단 성능을 보여주며, UCR 데이터 세트에서 정확도를 14.5% 이상 향상시켰습니다. [abs|pdf]

[125/136] A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics

Keywords: simulations_protein_ligand, discovery_molecular_dynamics, simulation_protein_ligand
Abstract: 신약 개발에서 단백질-리간드 결합을 위한 분자 역학(MD) 시뮬레이션은 결합 친화도를 예측하고, 수송 특성을 추정하고, 포켓 부위를 탐색하는 데 강력한 도구를 제공합니다. 더 나은 수치적 방법을 통해 MD 시뮬레이션의 효율성을 개선하고 최근에는 머신 러닝(ML) 방법을 보강하여 시뮬레이션의 효율성을 개선해 온 역사가 오래되었습니다. 하지만 확장된 타임스케일 시뮬레이션의 정확한 모델링과 같은 과제는 여전히 남아 있습니다. 이 문제를 해결하기 위해 유니티는 수치적 MD를 용이하게 하고 단백질-리간드 결합 역학의 정확한 시뮬레이션을 제공할 수 있는 최초의 ML 대리자인 NeuralMD를 제안합니다. 새로운 물리학 기반 다립 그룹 대칭 프레임워크를 통합하는 원칙적인 접근 방식을 제안합니다. 구체적으로 (1) 벡터 프레임을 사용하여 그룹 대칭을 만족하고 다단계 단백질-리간드 상호작용을 포착하는 바인딩넷 모델과 (2) 뉴턴 역학 하에서 궤적을 학습하는 증강 신경 미분 방정식 솔버를 제안합니다. 실험을 위해 10개의 단일 궤적과 3개의 다중 궤적 결합 시뮬레이션 작업을 설계합니다. 표준 수치 MD 시뮬레이션에 비해 2000$\times$ 빠른 속도와 안정성 지표에서 다른 모든 ML 접근법을 최대 80%까지 능가하는 NeuralMD의 효율성과 효과성을 보여줍니다. 또한 다른 머신러닝 방법과 비교하여 NeuralMD가 더 안정적인 결합 예측에 도달한다는 것을 정성적으로 보여줍니다. [abs|pdf]

[126/136] Expressive Power of ReLU and Step Networks under Floating-Point Operations

Keywords: floating_point_operations, limits_neural_networks, universal_approximation_floating
Abstract: 신경망의 표현력에 대한 연구는 신경망의 근본적인 한계를 탐구해 왔습니다. 대부분의 기존 연구 결과는 신경망을 평가할 때 실수 값의 입력과 매개변수, 정확한 연산을 가정합니다. 그러나 신경망은 일반적으로 실수의 극히 일부만 표현할 수 있고 부정확한 연산을 적용할 수 있는 컴퓨터에서 실행됩니다. 이 연구에서는 부동 소수점 숫자와 연산을 사용할 때라는 보다 현실적인 설정에서 신경망의 표현력을 분석합니다. 첫 번째 결과에서는 부동소수점 연산을 가정하여 부동소수점의 지수는 유한한 비트로 표현되지만 지수는 임의의 정수 값을 취할 수 있습니다. 이 설정에서는 이진 임계값 단위 또는 ReLU를 사용하는 신경망이 모든 유한 입출력 쌍을 기억할 수 있고 작은 오차 내에서 모든 연속 함수를 근사화할 수 있음을 보여줍니다. 또한 부동소수점 연산이 지수와 지수 모두에 유한 비트를 사용할 때 암기 및 범용 근사에 대한 유사한 결과를 보여주며, 이러한 결과는 IEEE 754 표준(예: 32비트 단정밀도 형식) 및 bfloat16과 같이 널리 사용되는 많은 부동소수점 형식에 적용할 수 있습니다. [abs|pdf]

[127/136] Context-driven self-supervised visual learning: Harnessing the environment as a data source

Keywords: visual_learning_agents, environments_learning, unfamiliar_environments_learning
Abstract: 시각적 학습은 종종 에이전트가 일관된 환경에서 자신의 위치를 탐색하고 추적하여 기술을 습득하는 특정 맥락에서 발생합니다. 에이전트의 과거 공간적 컨텍스트는 자기 감독 대조 학습을 위한 유사도 신호를 제공합니다. 유니티는 기존의 대조 학습 방법을 보완하는 환경 공간 유사성(ESS)이라는 고유한 접근 방식을 제시합니다. 시뮬레이션된 사실적인 환경의 이미지를 실험 환경으로 사용하여 ESS가 기존의 인스턴스 판별 접근법보다 성능이 뛰어나다는 것을 입증합니다. 또한 동일한 환경에서 추가 데이터를 샘플링하면 정확도가 크게 향상되고 새로운 증강 기능이 제공됩니다. ESS는 특히 익숙하지 않은 환경에서 공간 분류 및 공간 예측 작업에서 놀라운 숙련도를 제공합니다. 이 학습 패러다임은 독특한 시각적 특성을 가진 새로운 환경에서 근무하는 상담원에게 빠른 시각적 학습을 가능하게 할 수 있는 잠재력을 가지고 있습니다. 로봇 공학에서 우주 탐사에 이르기까지 잠재적으로 혁신적인 애플리케이션을 구현할 수 있습니다. 유니티의 개념 증명은 광범위하고 단절된 데이터 세트에 의존하는 방식에 비해 향상된 효율성을 보여줍니다. [abs|pdf]

[128/136] Interpreting Time Series Transformer Models and Sensitivity Analysis of Population Age Groups to COVID-19 Infections

Keywords: prediction_model_covid, learning_time_series, time_series_models
Abstract: 딥러닝 시계열 모델을 해석하는 것은 실시간 의사결정을 위해 원시 데이터에서 모델의 동작과 학습 패턴을 이해하는 데 매우 중요합니다. 그러나 트랜스포머 기반 시계열 모델에 내재된 복잡성으로 인해 개별 특징이 예측에 미치는 영향을 설명하는 데 어려움이 있습니다. 이 연구에서는 최신 로컬 해석 방법을 활용하여 최신 시계열 모델을 해석합니다. 실제 데이터 세트를 사용하기 위해 미국 3,142개 카운티에 대한 3년간의 일일 사례 데이터를 수집했습니다. 먼저, 6개의 트랜스포머 기반 모델을 비교하여 코로나19 감염에 가장 적합한 예측 모델을 선택했습니다. 지난 2주 동안의 13가지 입력 기능을 사용하여 향후 2주 동안의 감염 사례를 예측할 수 있습니다. 둘째, 매우 동적인 다변량 감염 데이터에 대해 8개 인구 연령 그룹에 대한 예측 민감도를 평가하는 혁신적인 방법을 제시합니다. 셋째, 우리가 제안한 섭동 기반 해석 방법을 총 8개의 지역 해석 방법을 포함한 관련 연구와 비교합니다. 마지막으로, 우리의 프레임워크를 교통 및 전력 데이터 세트에 적용하여 우리의 접근 방식이 일반적이며 다른 시계열 영역에도 적용될 수 있음을 보여줍니다. [abs|pdf]

[129/136] GeoDecoder: Empowering Multimodal Map Understanding

Keywords: text_module_geodecoder, geodecoder_dedicated_multimodal, beitgpt_architecture_geodecoder
Abstract: 이 백서에서는 지도의 지리 공간 정보 처리를 위해 설계된 전용 멀티모달 모델인 GeoDecoder를 소개합니다. BeitGPT 아키텍처를 기반으로 구축된 지오디코더는 이미지 및 텍스트 처리를 위한 전문 모듈을 통합합니다. 이미지 측면에서 지오디코더는 기본적으로 도로 및 건물 모양, 상대적 위치, 기타 속성에 대한 필수 세부 정보를 포함하는 기본 지도인 가오데 아맵을 기본으로 활용합니다. 이 모델은 렌더링 기술을 활용하여 심볼 마커, 드라이브 궤적, 히트맵, 사용자 정의 마커와 같은 외부 데이터와 기능을 원활하게 통합하므로 별도의 기능 엔지니어링이 필요하지 않습니다. 지오디코더의 텍스트 모듈은 다양한 문맥 텍스트와 질문 프롬프트를 수용하여 GPT 스타일의 텍스트 출력을 생성합니다. 또한 GPT 기반 모델을 사용하면 동일한 모델 내에서 여러 작업을 엔드투엔드 방식으로 훈련하고 실행할 수 있습니다. 지도 인식을 향상시키고 지오디코더가 베이징의 지리적 개체 분포에 대한 지식을 습득할 수 있도록 8가지 기본 지리공간 작업을 고안하고 대규모 텍스트 이미지 샘플을 사용하여 모델에 대한 사전 학습을 실시했습니다. 그 후 세 가지 하위 작업에 대해 신속한 미세 조정을 수행하여 성능을 크게 개선했습니다. 지오디코더 모델은 지도 요소와 관련 작업에 대한 포괄적인 이해를 보여줌으로써 다양한 비즈니스 시나리오에서 다양한 지리공간 작업을 효율적이고 고품질로 적용할 수 있게 해줍니다. [abs|pdf]

[130/136] Towards Collective Superintelligence: Amplifying Group IQ using Conversational Swarms

Keywords: conversational_swarm_intelligence, intelligence_swarm, intelligence_swarm_ai
Abstract: 군집 지능(SI)은 생물학적 집단이 실시간 시스템을 형성하여 결합된 지능을 증폭시킬 수 있는 자연 현상입니다. 인공 군집 지능(또는 군집 AI)은 네트워크로 연결된 인간 집단이 유사한 시스템을 형성하여 결합된 지능을 증폭시킬 수 있는 기술입니다. 과거에는 스웜 기반 방식이 확률적 예측이나 객관식 의사 결정과 같이 좁게 정의된 작업에 국한되어 있었습니다. 2023년에는 자연스러운 대화식 숙의를 통해 네트워크로 연결된 인간 집단의 의사 결정 정확도를 증폭시키는 대화형 군집 지능(CSI)이라는 새로운 기술이 개발되었습니다. 이번 연구에서는 CSI 플랫폼을 사용하는 실시간 그룹이 RAPM(Raven's Advanced Progressive Matrices)으로 알려진 일반적인 IQ 테스트에 응시할 수 있는 능력을 평가했습니다. 먼저, 기준이 되는 참가자 그룹은 전통적인 설문조사로 Raven의 IQ 테스트를 치렀습니다. 이 그룹의 평균 정답률은 45.6%였습니다. 그런 다음 약 35명의 개인으로 구성된 그룹이 Thinkscape라는 CSI 플랫폼을 사용하여 IQ 테스트 문제에 함께 답했습니다. 이 그룹은 평균 80.5%의 정답률을 보였습니다. 이는 IQ 테스트 응시자 중 97번째 백분위수에 해당하는 수치이며, 28점(p<0.001)의 효과적인 IQ 상승 효과에 해당합니다. 이는 매우 고무적인 결과이며, CSI가 네트워크로 연결된 대규모 그룹에서 대화형 집단 지성을 활성화하는 강력한 방법임을 시사합니다. 또한, CSI는 잠재적으로 모든 규모의 그룹에 걸쳐 확장할 수 있기 때문에 이 기술은 집단 초지능을 구축하기 위한 실행 가능한 경로를 제공할 수 있습니다. [abs|pdf]

[131/136] Multi-agent Deep Reinforcement Learning for Dynamic Pricing by Fast-charging Electric Vehicle Hubs in ccompetition

Keywords: pricing_game_charging, pricing_strategies_modeling, dynamic_pricing
Abstract: 전기 자동차를 위한 고속 충전 허브는 곧 전 세계에 걸쳐 새롭게 구축될 교통 전기화 인프라의 일부가 될 것입니다. 이러한 허브에는 많은 DC 급속 충전소가 설치될 것으로 예상되며, 전기차만 충전할 수 있습니다. 휘발유 주유소와 마찬가지로, 한 지역의 고속 충전 허브는 동일한 전기차 소유자 풀을 놓고 경쟁하기 위해 가격을 동적으로 변경할 것입니다. 이러한 허브는 전력 수요의 상당 부분을 하루 전(DA) 전력 시장에서 구매하기로 약정하고 실시간(RT) 시장과의 차이를 충족함으로써 전력 네트워크와 상호 작용할 것입니다. 허브는 차익거래에 사용할 보조 배터리 저장 시스템(BSS)을 보유할 수 있습니다. 이 백서에서는 가격 경쟁 중인 허브를 위한 2단계 데이터 기반 동적 가격 책정 방법론을 개발합니다. 먼저 확률적 DA 약정 모델을 풀어서 DA 약정을 구합니다. 그런 다음 게임을 경쟁적 마르코프 결정 과정(CMDP)으로 모델링하고 다중 에이전트 심층 강화 학습(MADRL) 접근법을 사용하여 해결함으로써 허브 가격 책정 전략을 얻습니다. 두 충전 허브 간의 가격 책정 게임에 대한 수치적 사례 연구를 개발합니다. 두 가지 다른 DRL 알고리즘인 DQN과 SAC, 두 가지 다른 신경망(NN) 아키텍처인 피드 포워드(FF) 신경망과 다중 헤드 주의(MHA) 신경망의 조합을 사용하여 방법론으로 이 사례 연구를 해결합니다. 허브 수익을 사용하여 담합의 척도(지수)를 구성합니다. 이 지수의 값이 0이면 담합이 없는 상태(완전 경쟁)를, 1이면 완전한 담합(독점적 행위)을 나타냅니다. 연구 결과에 따르면 담합 지수는 허브가 선택한 알고리즘과 아키텍처의 조합에 따라 대략 0.14에서 0.45 사이로 변화하는 것으로 나타났습니다. [abs|pdf]

[132/136] Decision Theoretic Foundations for Experiments Evaluating Human Decisions

Keywords: ai_assisted_decisions, decision_making_information, information_characterize_behavior
Abstract: 정보 표시를 통한 의사 결정은 설명 가능한 인공지능, 인간과 인공지능의 팀워크, 데이터 시각화와 같은 분야의 핵심 연구 주제입니다. 그러나 의사 결정 문제를 구성하는 요소와 실험에서 인간의 의사 결정에 어떤 식으로든 결함이 있다는 결론을 내리기 위해 무엇이 필요한지는 여전히 추측의 여지가 있습니다. 이 글에서는 통계적 의사결정 이론과 정보경제학에서 종합한 의사결정 문제에 대한 널리 적용 가능한 정의를 제시합니다. 우리는 인간 수행 능력의 손실을 편향의 형태로 돌리려면 실험에서 참가자들에게 합리적 행위자가 규범적 결정을 식별하는 데 필요한 정보를 제공해야 한다고 주장합니다. 우리는 인공지능 지원 의사결정에 관한 문헌에서 최근의 의사결정 평가가 이 기준을 어느 정도 충족하는지 평가합니다. 편향된 행동을 식별한다고 주장하는 35개 연구 중 6개(17%) 연구만이 참가자들에게 그들의 행동이 올바른 의사 결정에서 벗어난 것으로 특징지을 수 있는 충분한 정보를 제공한다는 사실을 발견했습니다. 우리는 잘 정의된 의사결정 문제를 연구함으로써 우리가 상상할 수 있는 성과 손실의 특성을 설명함으로써 그 가치를 부여합니다. 반대로 의사결정 문제가 제대로 전달되지 않는 모호성은 규범적 해석을 방해합니다. 마지막으로 실천을 위한 권장 사항으로 마무리합니다. [abs|pdf]

[133/136] Diffusion Enhancement for Cloud Removal in Ultra-Resolution Remote Sensing Imagery

Keywords: cloud_removal_cr, cloud_removal_cuhk, cloud_removal
Abstract: 클라우드 레이어가 존재하면 광학 원격 감지(RS) 이미지의 품질과 효율성이 심각하게 저하됩니다. 그러나 기존의 딥러닝(DL) 기반 클라우드 제거(CR) 기술은 이미지의 원본 시각적 진위 여부와 상세한 의미적 내용을 정확하게 재구성하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해 이 연구에서는 데이터와 방법론 측면의 개선을 제안합니다. 데이터 측면에서는 0.5m 공간 해상도의 CUHK 클라우드 제거(CUHK-CR)라는 초고해상도 벤치마크가 설정됩니다. 이 벤치마크는 풍부한 디테일 텍스처와 다양한 클라우드 커버리지를 통합하여 CR 모델을 설계하고 평가하는 데 강력한 기반이 됩니다. 방법론의 관점에서 볼 때, 점진적인 텍스처 디테일 복구를 수행하여 추론 정확도를 높이고 훈련 난이도를 완화하는 새로운 확산 기반 CR 프레임워크인 확산 향상(DE)이 제안됩니다. 또한 특징 융합을 위한 가중치를 동적으로 조정하는 가중치 할당(WA) 네트워크가 개발되어 특히 초고해상도 이미지 생성의 맥락에서 성능을 더욱 향상시킵니다. 또한 초고해상도 이미지를 처리하는 데 필요한 계산 복잡성을 줄이면서 훈련 융합을 효과적으로 가속화하기 위해 거친 훈련에서 세분화된 훈련 전략이 적용됩니다. 새로 구축된 CUHK-CR과 RICE와 같은 기존 데이터 세트에 대한 광범위한 실험을 통해 제안된 DE 프레임워크가 지각 품질과 신호 충실도 측면에서 기존 DL 기반 방법보다 성능이 뛰어나다는 것을 확인했습니다. [abs|pdf]

[134/136] PruneSymNet: A Symbolic Neural Network and Pruning Algorithm for Symbolic Regression

Keywords: expression_greedy_pruning, symbolic_network, symbolic_expression_greedy
Abstract: 기호 회귀는 데이터를 더 잘 이해하고 해석하기 위해 데이터에서 해석 가능한 기호 표현식을 도출하는 것을 목표로 합니다. 지식 발견과 해석 가능한 기계 학습에 중요한 역할을 합니다.
본 연구에서는 기호 회귀를 위한 심볼릭 네트워크인 PruneSymNet을 제안합니다. 이 네트워크는 활성화 함수가 공통 기본 함수와 연산자로 구성된 새로운 신경망입니다. 전체 네트워크는 분화 가능하며 경사 하강 방법으로 훈련할 수 있습니다. 네트워크의 각 하위 네트워크는 하나의 식에 해당하며, 우리의 목표는 이러한 하위 네트워크를 추출하여 원하는 기호 식을 얻는 것입니다.
따라서 데이터 피팅의 정확도를 보장하면서 네트워크를 하위 네트워크로 잘라내기 위해 탐욕적 가지치기 알고리즘을 제안합니다. 제안된 탐욕적 가지치기 알고리즘은 각 가지치기에서 손실이 가장 적은 에지를 보존하지만, 탐욕적 알고리즘은 종종 최적의 해를 얻지 못하는 경우가 있습니다. 이러한 문제를 완화하기 위해 가지치기를 하는 동안 빔 탐색을 결합하여 매번 여러 개의 후보 표현식을 얻고, 최종적으로 손실이 가장 작은 표현식을 최종 결과로 선택합니다. 이 알고리즘을 공개 데이터 세트에서 테스트하고 현재 널리 사용되는 알고리즘과 비교했습니다. 그 결과 제안한 알고리즘의 정확도가 더 높은 것으로 나타났습니다. [abs|pdf]

[135/136] Hi-Core: Hierarchical Knowledge Transfer for Continual Reinforcement Learning

Keywords: level_policy_learning, policy_learning_rl, hierarchical_knowledge_transfer
Abstract: 지속적 강화 학습(CRL)은 RL 에이전트가 일련의 작업을 통해 학습할 수 있는 능력을 강화하여 이전 지식을 보존하고 이를 활용하여 향후 학습을 용이하게 합니다. 하지만 기존 방식은 유사한 작업 간에 낮은 수준의 지식을 전달하는 데 초점을 맞추기 때문에 인간 인지 제어의 계층적 구조를 무시하고 다양한 작업 간에 지식 전달이 불충분한 경우가 많습니다. 본 연구에서는 고수준 지식 전이를 강화하기 위해 1) 대규모 언어 모델(LLM)의 강력한 추론 능력을 활용하여 목표를 설정하는 고수준 정책 수립과 2) 고수준 목표를 지향하는 RL을 통한 저수준 정책 학습의 두 가지 계층으로 구조화된 Hi-Core(Hierarchical knowledge transfer for Continuous reinforcement learning)라는 새로운 프레임워크를 제안합니다. 또한, 계층적 지식 전달을 위해 검색할 수 있는 정책을 저장하는 지식 기반(정책 라이브러리)을 구축합니다. 미니그리드에서 수행한 실험을 통해 다양한 CRL 작업을 처리하는 데 있어 하이코어가 널리 사용되는 기준선을 능가하는 효과를 입증했습니다. [abs|pdf]

[136/136] ZS4C: Zero-Shot Synthesis of Compilable Code for Incomplete Code Snippets using ChatGPT

Keywords: zs4c_improves_compilation, compiler_thoroughly, analyze_code_snippets
Abstract: 스택 오버플로와 같은 기술 질문과 답변(Q&A) 사이트는 소프트웨어 개발자가 지식을 찾는 데 중요한 출처가 되었습니다. 그러나 Q&A 사이트의 코드 조각은 일반적으로 해결되지 않은 유형과 종속 라이브러리의 누락으로 인해 컴파일이 불가능하고 의미적으로 불완전하여 사용자가 Q&A 코드 조각을 재사용하거나 분석하는 데 장애가 됩니다. 기존의 접근 방식은 컴파일 가능한 코드 합성을 위해 설계되지 않았거나 컴파일 성공률이 낮습니다. 이 문제를 해결하기 위해 저희는 대규모 언어 모델(LLM)을 사용하여 불완전한 코드 조각에서 컴파일 가능한 코드를 제로 샷으로 합성하는 경량 접근 방식인 ZS4C를 제안합니다. ZS4C는 두 단계로 작동합니다. 첫 번째 단계에서는 ZS4C가 LLM, 즉 ChatGPT를 활용하여 특정 코드 조각에 대해 누락된 가져오기 문을 식별하고, 설계된 작업별 프롬프트 템플릿을 활용합니다. 두 번째 단계에서는 ChatGPT와 컴파일러 간의 공동 작업을 통해 잘못된 가져오기 문과 구문 오류로 인한 컴파일 오류를 수정합니다. 저희는 널리 사용되는 StatType-SO라는 벤치마크에서 ZS4C를 SOTA 접근 방식인 SnR과 비교하여 철저하게 평가했습니다. SnR과 비교했을 때, ZS4C는 컴파일 속도가 63%에서 87.6%로 39.3% 향상되었습니다. 평균적으로 ZS4C는 F1에서 6.6%의 개선으로 SnR보다 더 정확한 가져오기 문을 추론할 수 있습니다. [abs|pdf]