프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-12]

다각 2024. 1. 16. 13:30

[1/108] Secrets of RLHF in Large Language Models Part II: Reward Modeling

Keywords: responses_reward_models, intent_reward_models, reward_models_trained
Abstract: 인간 피드백을 통한 강화 학습(RLHF)은 언어 모델을 인간의 가치와 의도에 맞게 조정하여 모델이 보다 유용하고 무해한 반응을 생성할 수 있도록 하는 중요한 기술이 되었습니다. 보상 모델은 강화 학습 최적화를 추진하기 위해 인간 선호도의 프록시로 훈련됩니다. 보상 모델은 종종 높은 성능을 달성하는 데 핵심적인 역할을 하는 것으로 간주되지만, 실제 적용 시 다음과 같은 문제에 직면합니다. (1) 데이터 세트의 부정확하고 모호한 선호도 쌍은 보상 모델이 사람의 의도를 정확하게 포착하는 데 방해가 될 수 있습니다. (2) 특정 분포의 데이터로 훈련된 보상 모델은 해당 분포를 벗어난 예시로 일반화하기 어렵고 반복적인 RLHF 훈련에 적합하지 않은 경우가 많습니다.
이 보고서에서는 이 두 가지 문제를 해결하고자 합니다. (1) 데이터 관점에서 다중 보상 모델의 투표 메커니즘을 기반으로 데이터 내 선호도의 강도를 측정하는 방법을 제안합니다. 실험 결과, 다양한 선호 강도를 가진 데이터가 보상 모델 성능에 미치는 영향이 서로 다르다는 것을 확인했습니다. 데이터 세트에서 부정확하고 모호한 선호도의 영향을 완화하고 고품질의 선호도 데이터를 최대한 활용할 수 있는 일련의 새로운 방법을 소개합니다. (2) 알고리즘의 관점에서 보상 모델이 선택된 응답과 거부된 응답을 구분하는 능력을 향상시키기 위해 대조 학습을 도입하여 모델 일반화를 개선합니다. 또한, 메타 학습을 도입하여 보상 모델이 분포에서 벗어난 샘플의 미묘한 차이를 구분하는 능력을 유지할 수 있도록 하며, 이러한 접근 방식은 반복적인 RLHF 최적화에 활용할 수 있습니다. [abs|pdf]

[2/108] Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion

Keywords: temporal_knowledge_graph, temporal_link_prediction, knowledge_graph_completion
Abstract: 시간적 지식 그래프 완성(TKGC)은 확립된 시간적 구조 지식을 활용하여 미래 타임스탬프에서 누락된 이벤트 링크를 예측하는 까다로운 작업입니다. 이 백서에서는 시간적 링크 예측을 과거 이벤트 체인의 맥락에서 이벤트 생성 작업으로 개념화하는 새로운 접근 방식을 제안합니다. 우리는 효율적인 미세 조정 방법을 사용하여 시간적 타임라인에서 발견된 특정 그래프 텍스트 정보와 패턴에 맞게 LLM을 조정합니다. 또한 구조 기반 기록 데이터 증강과 역지식의 통합을 도입하여 구조적 정보에 대한 LLM의 인식을 강조함으로써 추론 능력을 향상시킵니다. 널리 사용되는 여러 데이터 세트에 대한 철저한 실험을 통해 미세 조정된 모델이 여러 지표에서 기존 임베딩 기반 모델보다 뛰어난 성능을 발휘하여 SOTA 결과를 달성한다는 사실을 확인했습니다. 또한 LLM이 구조화된 시간적 지식 추론 작업을 수행할 때 주요 영향을 미치는 요인을 탐색하기 위해 충분한 제거 실험을 수행했습니다. [abs|pdf]

[3/108] Machine Learning Insides OptVerse AI Solver: Design Principles and Applications

Keywords: optverse_ai_solver, cloud_optverse_ai, personalized_solver_strategies
Abstract: 디지털 유비쿼터스 시대에 효율적인 리소스 관리와 의사 결정은 수많은 산업에서 가장 중요한 요소입니다. 이를 위해 실제 수학 프로그래밍 인스턴스의 희소성을 완화하고 기존 최적화 기법의 기능을 능가하는 것을 목표로 하는 화웨이 클라우드의 옵버스 AI 솔버에 머신 러닝(ML) 기술을 통합하는 포괄적인 연구를 발표합니다. 실제 문제의 다면 구조를 반영하는 생성 모델을 활용하여 복잡한 SAT 및 MILP 인스턴스를 생성하는 방법을 소개합니다. 또한 동적 환경에서 솔버의 유용성을 유지하기 위해 증강 정책을 활용하는 훈련 프레임워크도 소개합니다. 데이터 생성 및 증강 외에도 유니티에서 제안하는 접근 방식에는 초기 기저선 선택을 위한 그래프 컨볼루션 네트워크, 고급 사전 해결 및 컷 선택을 위한 강화 학습과 같은 애플리케이션에 중점을 둔 개인화된 솔버 전략을 위한 새로운 ML 기반 정책도 포함됩니다. 또한 솔버 성능을 획기적으로 향상시키는 최첨단 파라미터 튜닝 알고리즘의 통합에 대해서도 자세히 설명합니다. ML로 강화된 유니티의 옵버스 AI 솔버는 구로비 및 SCIP와 같은 기존 솔버에 비해 확립된 벤치마크와 실제 시나리오 모두에서 뛰어난 속도와 정밀도를 보여줌으로써 수학 프로그래밍 솔버에서 머신러닝 기법의 실질적인 필요성과 효율성을 강화합니다. [abs|pdf]

[4/108] Towards Goal-Oriented Agents for Evolving Problems Observed via Conversation

Keywords: dqn_based_chatbot, conversational_dqn_based, architecture_chatbot_trained
Abstract: 이 작업의 목적은 챗봇이 직접 관찰할 수 없는 문제에 대해 사용자와 대화를 통해 진화하는 문제를 해결할 수 있는 챗봇을 훈련하는 것입니다. 이 시스템은 가상 문제(이 경우 간단한 게임), 문제를 관찰하고 조치를 취할 수 있는 자연어 질문에 답할 수 있는 시뮬레이션된 사용자, 그리고 딥 큐 네트워크(DQN) 기반 챗봇 아키텍처로 구성됩니다. 챗봇은 강화 학습을 사용하여 시뮬레이션된 사용자와의 대화를 통해 문제를 해결하는 것을 목표로 훈련됩니다. 본 논문의 주요 내용은 대화형 DQN 기반 에이전트를 진화하는 문제에 적용하기 위한 아키텍처 제안, 커리큘럼 학습과 같은 훈련 방법이 모델 성능에 미치는 영향, 환경 복잡성 증가 시 수정된 보상 함수의 효과에 대한 탐구입니다. [abs|pdf]

[5/108] Consistent Query Answering for Existential Rules under Tuple-Deletion Semantics

Keywords: query_answering_repair, consistent_query_answering, inconsistency_tolerant_query
Abstract: 우리는 실존 규칙으로 표현된 지식 베이스에 대한 일관된 쿼리 응답을 연구합니다. 구체적으로, 분리형 실존 규칙의 일반 클래스와 그 하위 클래스(비순환, 선형, 전체, 가드, 스티키)에 대해 튜플 삭제 의미론 하에서 일관된 쿼리 응답 및 복구 검사의 데이터 복잡도를 설정합니다. 특히, 위의 문제들이 추적 가능하거나 심지어 일차적으로 재작성 가능한 몇 가지 사례를 확인하고, 실질적인 불일치 허용 질의 응답 시스템의 기반이 될 수 있는 새로운 질의 재작성 기법을 제시합니다. [abs|pdf]

[6/108] Towards Conversational Diagnostic AI

Keywords: conversational_diagnostic_ai, patient_dialogue_skillful, optimized_diagnostic_dialogue
Abstract: 의료의 핵심은 의사와 환자 간의 대화이며, 숙련된 병력 청취는 정확한 진단, 효과적인 관리, 지속적인 신뢰의 토대를 마련합니다. 진단 대화를 할 수 있는 인공지능(AI) 시스템은 접근성, 일관성, 치료의 질을 향상시킬 수 있습니다. 하지만 임상의의 전문 지식에 근접하는 것은 매우 어려운 과제입니다. 여기에서는 진단 대화에 최적화된 대규모 언어 모델(LLM) 기반 AI 시스템인 AMIE(Articulate Medical Intelligence Explorer)를 소개합니다.
AMIE는 다양한 질병 상태, 전문 분야 및 상황에 따라 학습을 확장하기 위해 자동화된 피드백 메커니즘을 갖춘 새로운 셀프 플레이 기반 시뮬레이션 환경을 사용합니다. 병력 청취, 진단 정확도, 관리 추론, 의사소통 기술, 공감 능력 등 임상적으로 의미 있는 성과 축을 평가하는 프레임워크를 설계했습니다. 객관적 구조화 임상시험(OSCE) 방식으로 검증된 환자 행위자와의 텍스트 기반 상담에 대한 무작위 이중맹검 교차 연구를 통해 AMIE의 성과를 1차 진료 의사(PCP)의 성과와 비교했습니다. 이 연구에는 캐나다, 영국, 인도의 임상 제공자가 제공한 149개의 사례 시나리오, AMIE와 비교하기 위한 20개의 PCP, 전문 의사와 환자 배우의 평가가 포함되었습니다. 전문 의사가 평가한 32개 축 중 28개 축, 환자 행위자가 평가한 26개 축 중 24개 축에서 AMIE가 더 높은 진단 정확도와 우수한 성능을 보여주었습니다. 이번 연구에는 몇 가지 한계가 있으므로 적절한 주의를 기울여 해석해야 합니다. 임상의들은 익숙하지 않은 동기식 텍스트 채팅으로 제한되었으며, 이는 대규모의 LLM-환자 상호작용을 허용하지만 일반적인 임상 실습을 대표하지 않습니다. AMIE를 실제 환경에 적용하기 위해서는 더 많은 연구가 필요하지만, 이번 연구 결과는 대화형 진단 AI를 향한 이정표가 될 것입니다. [abs|pdf]

[7/108] E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation

Keywords: distilling_gans_diffusion, distilling_gans, gans_diffusion
Abstract: 유연한 실시간 온디바이스 이미지 편집을 가능하게 하는 매우 유망한 방향 중 하나는 안정적인 확산과 같은 대규모 텍스트-이미지 확산 모델을 활용하여 생성적 적대 신경망(GAN) 훈련에 사용되는 쌍을 이루는 데이터 세트를 생성하는 데이터 증류법을 활용하는 것입니다. 이 접근 방식은 확산 모델로 이미지 편집을 수행하기 위해 일반적으로 하이엔드 상용 GPU에 부과되는 엄격한 요구 사항을 완화할 수 있습니다. 그러나 텍스트-이미지 확산 모델과 달리 각각의 증류된 GAN은 특정 이미지 편집 작업에 특화되어 있어 다양한 개념의 모델을 얻기 위해 많은 비용이 드는 훈련이 필요합니다. 본 연구에서는 확산 모델에서 GAN을 추출하는 과정을 훨씬 더 효율적으로 만들 수 없을까라는 새로운 연구 방향을 제시하고 다룹니다 이 목표를 달성하기 위해 일련의 혁신적인 기법을 제안합니다. 첫째, 미세 조정을 통해 다양한 개념에 적용할 수 있는 일반화된 기능을 갖춘 기본 GAN 모델을 구축하여 처음부터 훈련할 필요가 없도록 합니다. 둘째, 기본 GAN 모델 내에서 중요한 레이어를 식별하고 전체 기본 모델을 미세 조정하는 대신 간단하면서도 효과적인 순위 검색 프로세스를 통해 낮은 순위 적응(LoRA)을 사용합니다. 셋째, 미세 조정에 필요한 최소한의 데이터를 조사하여 전체 학습 시간을 더욱 단축합니다. 광범위한 실험을 통해 각 개념에 대한 훈련 비용과 저장 공간을 현저히 줄이면서 모바일 기기에서 실시간으로 고품질 이미지 편집을 수행할 수 있는 능력을 GAN에 효율적으로 부여할 수 있음을 보여주었습니다. [abs|pdf]

[8/108] Manipulating Feature Visualizations with Gradient Slingshots

Keywords: adversarial_model_manipulations, adversarial_model, adversarial
Abstract: 심층 신경망(DNN)은 복잡하고 다양한 표현을 학습할 수 있지만, 학습된 개념의 의미적 특성은 아직 알려지지 않았습니다. DNN이 학습한 개념을 설명하는 데 사용되는 일반적인 방법은 네트워크의 특정 뉴런을 최대로 활성화하는 합성 입력 신호를 생성하는 활성화 최대화(AM)입니다. 이 백서에서는 적대적 모델 조작에 대한 이 접근법의 취약성을 조사하고, 모델 아키텍처를 변경하거나 모델의 의사 결정 과정에 큰 영향을 주지 않으면서 특징 시각화를 조작할 수 있는 새로운 방법을 소개합니다. 여러 신경망 모델에서 이 방법의 효과를 평가하고, 모델 감사 중에 선택한 목표 설명으로 뉴런의 원래 설명을 마스킹하여 특정 뉴런의 기능을 숨길 수 있는 기능을 시연합니다. 이를 해결하기 위해 이러한 조작에 대한 보호 조치를 제안하고 연구 결과를 입증하는 정량적 증거를 제공합니다. [abs|pdf]

[9/108] Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models

Keywords: generating_human_understandable, large_language_models, language_models_llms
Abstract: 대규모 언어 모델(LLM)의 숨겨진 표현에 인코딩된 정보를 검사하면 모델의 동작을 설명하고 인간의 가치와 일치하는지 확인할 수 있습니다. 사람이 이해할 수 있는 텍스트를 생성하는 LLM의 기능을 고려할 때, 모델 자체를 활용하여 내부 표현을 자연어로 설명할 것을 제안합니다. 패치스코프라는 프레임워크를 소개하고 이 프레임워크를 사용하여 LLM의 계산에 대한 다양한 질문에 답하는 방법을 보여드립니다. 표현을 어휘 공간에 투영하고 LLM 계산에 개입하는 것을 기반으로 하는 사전 해석 가능성 방법이 이 프레임워크의 인스턴스로 볼 수 있음을 보여줍니다. 또한 초기 레이어 검사 실패나 표현력 부족과 같은 몇 가지 단점을 패치스코프를 통해 완화할 수 있습니다. 패치스코프는 사전 검사 기법을 통합하는 것 외에도 더 큰 모델을 사용하여 더 작은 모델의 표현을 설명하는 것과 같은 새로운 가능성을 열어주며, 멀티홉 추론에서 자체 수정과 같은 새로운 애플리케이션의 가능성을 열어줍니다. [abs|pdf]

[10/108] Autocompletion of Chief Complaints in the Electronic Health Records using Large Language Models

Keywords: phrases_sentences_clinical, text_generation, short_term_memory
Abstract: 주요 불만 사항(CC)은 의료 서비스를 받는 주된 이유 또는 우려 사항을 설명하는 것으로 환자 의료 기록의 중요한 구성 요소입니다. 이는 의료진이 환자 치료에 대해 정보에 입각한 결정을 내리는 데 중요한 정보를 제공합니다. 하지만 의료진이 CC를 문서화하는 것은 특히 바쁜 응급실에서 시간이 많이 소요될 수 있습니다. 이 문제를 해결하기 위해 임상 노트에 정확하고 적절한 형식의 구절이나 문장을 제안하는 자동 완성 도구는 분류 간호사에게 유용한 리소스가 될 수 있습니다. 이 연구에서는 텍스트 생성 기법을 활용하여 CC 데이터를 이용한 머신러닝 모델을 개발했습니다. 제안된 작업에서는 장단기 기억(LSTM) 모델을 훈련하고 바이오메디컬 생성 사전 훈련 트랜스포머(BioGPT)의 세 가지 변형, 즉 마이크로소프트/바이오GPT, 마이크로소프트/BioGPT-Large, 마이크로소프트/BioGPT-Large-PubMedQA를 미세 조정합니다. 또한 GPT-4의 OpenAI API를 활용하여 예시적인 CC 문장을 통합하여 프롬프트를 튜닝합니다. 당사는 난해성 점수, 수정된 BERTS 점수, 코사인 유사성 점수를 기반으로 모델의 성능을 평가합니다. 그 결과 BioGPT-Large가 다른 모델에 비해 우수한 성능을 보이는 것으로 나타났습니다. CC를 생성할 때 1.65의 현저히 낮은 난해성 점수를 지속적으로 달성하는 반면, 기준이 되는 LSTM 모델은 최고 난해성 점수인 170을 달성했습니다. 또한, 제안된 모델의 성능과 GPT-4.0의 결과를 평가하고 평가합니다. 이 연구는 BioGPT와 같은 LLM을 활용하면 의료 환경에서 CC 문서를 생성하는 데 효과적인 자동 완성 도구를 개발할 수 있음을 보여줍니다. [abs|pdf]

[11/108] XGBoost Learning of Dynamic Wager Placement for In-Play Betting on an Agent-Based Model of a Sports Betting Exchange

Keywords: betting_strategies_learning, learning_profitable_bets, betting_strategies
Abstract: 저희는 경마와 같은 트랙 레이싱 이벤트 중 인플레이 베팅을 통해 현대 스포츠 베팅 거래소를 시뮬레이션하도록 설계된 오픈 소스 에이전트 기반 모델(ABM)인 브리스톨 베팅 거래소(BBE)에서 매우 효과적인 머신러닝(ML) 방법인 XGBoost를 사용한 첫 번째 결과를 발표합니다. 저희는 BBE ABM과 최소한의 간단한 베터 에이전트 배열을 합성 데이터 생성기로 사용하여 XGBoost ML 시스템에 공급하며, XGBoost가 BBE 베터 에이전트의 수익성 높은 베팅을 학습하여 수익성 높은 동적 베팅 전략을 발견하도록 합니다. 하나 이상의 의사 결정 트리를 생성하는 이 XGBoost 학습 후, XGBoost 학습 의사 결정 트리에 의해 결정된 베팅 전략을 가진 베터 에이전트가 BBE ABM에 추가되어 다양한 조건과 베팅 시장 시나리오에서 일련의 경주에 베팅하게 되며, 수익성을 비교 및 평가의 주요 지표로 삼습니다. 여기에 제시된 초기 연구 결과는 이러한 방식으로 훈련된 XGBoost가 실제로 수익성 있는 베팅 전략을 학습할 수 있으며, 훈련 데이터 생성에 사용된 각 전략 세트를 능가하는 전략을 학습하도록 일반화할 수 있음을 보여줍니다. 추가 연구와 개선을 촉진하기 위해 XGBoost 통합을 포함한 확장된 BBE의 전체 버전이 GitHub에서 오픈 소스 릴리스로 무료로 제공되고 있습니다. [abs|pdf]

[12/108] Investigating Data Contamination for Pre-training Language Models

Keywords: training_corpus_phenomenon, pre_training_corpus, contamination_effects_language
Abstract: 웹 규모의 말뭉치에 대해 사전 학습된 언어 모델은 다양한 다운스트림 작업에서 인상적인 능력을 보여줍니다. 그러나 이러한 성능이 인위적으로 성능을 향상시키는 방식으로 사전 훈련 코퍼스에 포함된 평가 데이터 세트(텍스트 데이터 오염이라고 알려진 현상)로 인해 발생할 수 있는지에 대한 우려가 커지고 있습니다. 이러한 잠재적 오염이 다운스트림 작업에서 LM의 성능에 어떤 영향을 미칠 수 있는지에 대한 이해는 거의 이루어지지 않았습니다. 이 백서에서는 일련의 GPT-2 모델(from scratch)을 사전 훈련하여 사전 훈련 단계에서 데이터 오염이 미치는 영향을 살펴봅니다. 평가 데이터에서 텍스트 오염(i.e. 평가 샘플의 입력 텍스트)과 실측값 오염(i.e. 입력에 대한 프롬프트와 원하는 출력값)의 영향을 강조합니다. 또한 다양한 다운스트림 작업에 대한 반복 오염의 영향도 조사합니다. 또한 현재 LLM 보고서에서 널리 사용되는 n-그램 기반 오염 정의를 조사하여 그 한계와 부적절성을 정확히 파악합니다. 이번 연구 결과는 데이터 오염이 언어 모델 기능에 미치는 영향에 대한 새로운 인사이트를 제공하며, LLM 연구에서 독립적이고 포괄적인 오염 평가의 필요성을 강조합니다. [abs|pdf]

[13/108] On the Power of Graph Neural Networks and Feature Augmentation Strategies to Classify Social Networks

Keywords: gnns_graph_classification, architectures_gnns_graph, graph_neural_network
Abstract: 이 논문에서는 네트워크 과학의 고전적인 생성 모델을 사용하여 생성된 합성 데이터 세트의 그래프 분류 작업을 위한 네 가지 그래프 신경망 아키텍처(GNN)를 연구합니다. 합성 네트워크에는 (노드 또는 에지) 특징이 포함되어 있지 않기 때문에 다섯 가지 증강 전략(인공 특징 유형)이 노드에 적용됩니다. 4가지 합성곱 신경망(계층적 및 글로벌 집계가 있는 GCN, GIN 및 GATv2)과 5가지 특징 유형(상수 1, 노이즈, 차수, 정규화된 차수, 다양한 길이의 사이클 수 벡터인 ID)의 모든 조합을 연구하고 그 성능을 합성곱 신경망에 사용된 인공 신경망의 숨겨진 차원에 따라 비교합니다. 또한 다양한 크기의 네트워크를 포함하는 두 번째 합성 네트워크 데이터 세트를 사용하여 이러한 모델의 일반화 능력을 분석합니다. 우리의 결과는 GNN 아키텍처의 계산 능력과 인공 특징이 제공하는 정보 수준의 균형 잡힌 중요성을 지적합니다. GIN 및 GATv2와 같이 계산 능력이 높은 GNN 아키텍처는 대부분의 증강 전략에 대해 우수한 성능을 발휘합니다. 반면에 ID나 학위와 같이 정보량이 많은 인공 피처는 다른 증강 전략보다 지속적으로 성능이 우수할 뿐만 아니라 계산 능력이 낮은 GNN 아키텍처가 좋은 성능을 달성하는 데 도움이 될 수 있습니다. [abs|pdf]

[14/108] Surgical-DINO: Adapter Learning of Foundation Models for Depth Estimation in Endoscopic Surgery

Keywords: surgical_depth_estimation, model_surgical_depth, dinov2_depth_estimation
Abstract: 목적: 로봇 수술의 깊이 추정은 3D 재구성, 수술 내비게이션, 증강 현실 시각화에서 매우 중요합니다. 기초 모델은 깊이 추정(예: DINOv2)을 포함한 많은 비전 작업에서 뛰어난 성능을 보이지만, 최근 연구에서는 의료 및 수술 영역별 애플리케이션에서 한계가 있음을 확인했습니다. 이 연구에서는 수술 깊이 추정을 위한 기초 모델의 저순위 적응(LoRA)을 제시합니다. 방법: 우리는 내시경 수술에서 깊이 추정을 위한 DINOv2의 저순위 적응인 Surgical-DINO라고 하는 기초 모델 기반 깊이 추정 방법을 설계합니다. 유니티는 기존의 미세 조정 대신 수술에 특화된 도메인 지식으로 적응할 수 있도록 LoRA 레이어를 구축하고 이를 DINO에 통합합니다. 훈련 중에는 뛰어난 시각적 표현 능력을 보여주는 DINO 이미지 인코더를 동결하고 수술 장면의 특징을 통합하기 위해 LoRA 레이어와 깊이 디코더만 최적화합니다. 결과: 소니의 모델은 다빈치 Xi 내시경 수술에서 수집한 SCARED의 MICCAI 챌린지 데이터 세트에서 광범위하게 검증되었습니다. 내시경 깊이 추정 작업에서 Surgical-DINO가 모든 최신 모델보다 훨씬 뛰어난 성능을 발휘한다는 것을 실증적으로 보여줍니다. 절제 연구를 통한 분석은 LoRA 레이어와 적응의 놀라운 효과에 대한 증거를 보여주었습니다. 결론: Surgical-DINO는 깊이 추정을 위해 기초 모델을 수술 영역에 성공적으로 적용하는 방법을 제시합니다. 컴퓨터 비전 데이터 세트의 사전 학습된 가중치에 대한 제로 샷 예측이나 순진한 미세 조정만으로는 수술 영역에서 파운데이션 모델을 직접 사용하기에 충분하지 않다는 분명한 증거가 결과에서 드러납니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[15/108] How does the primate brain combine generative and discriminative computations in vision?

Keywords: vision_inference, vision_inverts_generative, vision_inference_process
Abstract: 시각은 추론 문제로 널리 이해되고 있습니다. 그러나 추론 과정에 대한 두 가지 대조적인 개념이 각각 생물학적 시각 연구와 머신 비전 엔지니어링에 영향을 미쳤습니다. 첫 번째는 상향식 신호 흐름을 강조하는 것으로, 시각 정보를 필터링하고 변환하여 관련 없는 변이를 제거하고 인지 및 행동 제어의 다운스트림 기능에 적합한 형식으로 행동 관련 정보를 표현하는 대체로 피드포워드 방식의 차별적 추론 프로세스로 시각을 설명합니다. 이 개념에서 시각은 감각 데이터에 의해 주도되고, 지각은 데이터에서 관심 있는 잠재 변수로 처리가 진행되기 때문에 직접적입니다. 이 개념에서 '추론'의 개념은 신경망에 관한 공학 문헌에서 사용되는 개념으로, 이미지를 처리하는 피드포워드 컨볼루션 신경망은 추론을 수행한다고 알려져 있습니다. 또 다른 개념은 헬름홀츠가 말하는 추론 과정으로서의 시각으로, 감각적 증거가 그것을 발생시키는 인과적 과정의 생성적 모델의 맥락에서 평가되는 개념입니다. 이 개념에서 시각은 대체 가설의 가능성을 평가하기 위해 감각 데이터에 대한 하향식 예측을 포함하는 것으로 여겨지는 과정에서 증거에 대한 심문을 통해 생성 모델을 뒤집습니다. 저자들은 각 개념에 거의 같은 수의 과학자들로 구성되어 있으며, 이들 사이의 잘못된 이분법을 극복하고 이론과 실험의 영역에서 다른 관점을 끌어들이고자 하는 동기를 가지고 있습니다. 영장류의 뇌는 두 개념의 장점을 결합할 수 있는 알려지지 않은 알고리즘을 사용합니다. 우리는 용어를 설명하고 명확히 하며, 주요 경험적 증거를 검토하고, 이분법을 초월하여 영장류 시각의 신비한 하이브리드 알고리즘을 밝히는 단계를 설정하는 경험적 연구 프로그램을 제안합니다. [abs|pdf]

[16/108] Combating Adversarial Attacks with Multi-Agent Debate

Keywords: attacks_adversarial_prompts, adversarial_prompts, adversarial_prompts_generated
Abstract: 최첨단 언어 모델은 인상적인 결과를 달성했지만, 레드팀에 의해 생성된 적대적 프롬프트와 같은 추론 시간 적대적 공격에 여전히 취약합니다 arXiv:2209.07858. 언어 모델 생성의 일반적인 품질을 개선하기 위해 제안된 한 가지 접근 방식은 언어 모델이 토론과 피드백을 통해 스스로 평가하는 다중 에이전트 토론 arXiv:2305.14325입니다. 우리는 현재 최신 언어 모델 간에 다중 에이전트 토론을 구현하고 단일 및 다중 에이전트 설정 모두에서 레드팀 공격에 대한 모델의 취약성을 평가합니다. 멀티 에이전트 디베이트는 탈옥되었거나 성능이 낮은 모델이 탈옥되지 않았거나 성능이 높은 모델과 디베이트해야 할 때 모델 독성을 줄일 수 있다는 사실을 발견했습니다. 또한 멀티 에이전트 상호 작용을 일반적으로 사용함으로써 약간의 개선 효과도 발견했습니다. 또한 임베딩 클러스터링을 통해 적대적 프롬프트 콘텐츠 분류를 수행하고 다양한 유형의 공격 주제에 대한 각기 다른 모델의 취약성을 분석합니다. [abs|pdf]

[17/108] End-to-end Learnable Clustering for Intent Learning in Recommendation

Keywords: mining_users_intents, intent_learning, novel_intent_learning
Abstract: 사용자의 의도를 마이닝하는 것은 순차적 추천에서 중요한 역할을 합니다. 대조 학습과 클러스터링을 사용하여 사용자의 기본 의도를 추출하는 최근의 접근 방식인 ICLRec이 도입되었습니다. 효과는 입증되었지만, 기존 방식은 복잡하고 번거로운 최적화를 번갈아 수행해야 하기 때문에 크게 두 가지 문제가 있습니다. 첫째, 일반화된 기대 최대화(EM) 프레임워크 내에서 표현 학습과 클러스터링 최적화를 분리하면 성능이 최적화되지 않는 경우가 많습니다. 둘째, 전체 데이터 세트에 대해 클러스터링을 수행하면 대규모 산업 데이터에 대한 확장성이 저하됩니다. 이러한 문제를 해결하기 위해, 우리는 ELCRec이라는 새로운 의도 학습 방법을 제안합니다. 이 방법은 표현 학습을 Rec 추천을 위한 엔드투엔드 End-to-end Learnable
Clustering framework for Recommendation에 통합하는 것입니다. 구체적으로 사용자의 행동 시퀀스를 인코딩하고 클러스터 중심을 학습 가능한 네트워크 파라미터로 초기화합니다. 또한, 네트워크가 서로 다른 클러스터 중심을 구분하고 유사한 샘플을 각 클러스터 중심으로 끌어들이도록 유도하는 클러스터링 손실을 설계합니다. 이를 통해 미니 배치 데이터를 사용하여 추천과 클러스터링을 동시에 최적화할 수 있습니다. 또한 학습된 클러스터 중심을 표현 학습을 위한 자가 감독 신호로 활용하여 추천 성능을 더욱 향상시킬 수 있습니다. 공개 벤치마크와 업계 데이터에 대한 광범위한 실험을 통해 제안된 ELCRec 방법의 우수성, 효과성, 효율성을 검증했습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[18/108] Spatial-Aware Deep Reinforcement Learning for the Traveling Officer Problem

Keywords: parking_spots_agent, parking_offenses_planning, action_leveraging_spatial
Abstract: 여행하는 경찰관 문제(TOP)는 까다로운 확률적 최적화 과제입니다. 이 문제에서는 주차 단속원이 주차 센서가 장착된 도시를 돌아다니며 최대한 많은 주차위반자에게 벌금을 부과해야 합니다. TOP의 주요 과제는 벌금 부과 여부와 관계없이 일정 시간이 지나면 무작위로 나타났다가 사라지는 주차 위반의 동적 특성입니다. 따라서 솔루션은 현재 벌금을 부과할 수 있는 주차 위반에 맞게 동적으로 조정하는 동시에 위반이 발생하는 동안 경찰관이 도착할 가능성을 높이기 위해 미리 계획해야 합니다. 다양한 솔루션이 존재하지만, 이러한 방법은 향후 주차위반에 대한 벌금 부과 능력에 대한 조치의 영향을 고려하지 못하는 경우가 많습니다. 이 백서에서는 TOP을 위한 새로운 공간 인식 심층 강화 학습 접근 방식인 SATOP을 제안합니다. 새로운 상태 인코더는 주차 공간, 에이전트, 행동 사이의 공간적 관계를 활용하여 각 행동의 표현을 생성합니다. 또한 주어진 환경에서 미래의 상호 작용 상관관계를 학습하기 위한 새로운 메시지 전달 모듈을 제안합니다. 따라서 에이전트는 액션을 실행한 후 추가 주차위반 과태료 부과 가능성을 예측할 수 있습니다. 멜버른의 실제 데이터를 기반으로 한 환경을 사용하여 이 방법을 평가합니다. 그 결과, SATOP은 최첨단 TOP 에이전트보다 지속적으로 성능이 뛰어나며 최대 22% 더 많은 주차 위반에 대해 벌금을 부과할 수 있는 것으로 나타났습니다. [abs|pdf]

[19/108] An attempt to generate new bridge types from latent space of PixelCNN

Keywords: pixelcnn_constructed_trained, bridge_based, generate_new_bridge
Abstract: 생성적 인공 지능 기술을 사용하여 새로운 교량 유형을 생성해 봅니다. 파이썬 프로그래밍 언어, 텐서플로우, 케라스 딥러닝 플랫폼 프레임워크를 기반으로 3경간 빔 교량, 아치 교량, 사장교, 현수교의 대칭 구조 이미지 데이터 세트를 사용하여 PixelCNN을 구축하고 학습시킵니다. 이 모델은 이미지의 통계적 구조를 파악하고 이전 픽셀이 주어졌을 때 다음 픽셀의 확률 분포를 계산할 수 있습니다. 이렇게 얻은 잠재 공간 샘플링을 통해 학습 데이터 세트와 다른 새로운 브리지 유형을 생성할 수 있습니다. PixelCNN은 인간의 원래 브리지 유형을 기반으로 다양한 구조 구성 요소를 유기적으로 결합하여 어느 정도 인간의 원래 능력을 가진 새로운 브리지 유형을 생성할 수 있습니다. 자동 회귀 모델은 시퀀스의 의미를 이해할 수 없는 반면, 다중 모드 모델은 회귀 모델과 자동 회귀 모델을 결합하여 시퀀스를 이해합니다. 다중 모드 모델은 앞으로 인공 일반 지능을 달성하는 방법이 될 것입니다. [abs|pdf]

[20/108] Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks

Keywords: context_learning_vulnerable, language_models_poisoning, learning_vulnerable_malicious
Abstract: 사전 학습과 미세 조정 사이의 간극을 메우는 패러다임인 컨텍스트 내 학습은 여러 NLP 작업, 특히 촬영 횟수가 적은 환경에서 높은 효율성을 입증했습니다. 기존의 미세 조정 방법과 달리, 상황에 맞는 학습은 매개변수를 업데이트하지 않고도 사전 학습된 모델을 보이지 않는 작업에 맞게 조정합니다. 인컨텍스트 학습은 널리 적용되고 있지만 악의적인 공격에 취약합니다. 이 연구에서는 이 패러다임에 대한 보안 문제를 제기합니다. 우리의 연구는 공격자가 모델을 미세 조정할 필요 없이 데모 컨텍스트를 오염시킴으로써 대규모 언어 모델의 동작을 조작할 수 있음을 보여줍니다. 특히, 컨텍스트 내 학습을 기반으로 대규모 언어 모델을 표적으로 삼는 새로운 백도어 공격 방법인 ICLAttack을 설계했습니다. 이 방법에는 포이즈닝 데모 예제와 포이즈닝 프롬프트의 두 가지 공격 유형이 포함되며, 이를 통해 모델이 사전 정의된 의도에 따라 작동하도록 만들 수 있습니다. ICLAttack은 백도어를 심기 위해 추가적인 미세 조정이 필요하지 않으므로 모델의 일반성을 유지합니다. 또한, 포이즌된 예제에는 정확한 레이블이 지정되어 있어 공격 방법의 자연스러운 스텔스성이 향상됩니다. 13억 개에서 40억 개에 이르는 다양한 언어 모델에 대한 광범위한 실험 결과는 OPT 모델에 대한 세 가지 데이터 세트에서 95.0%의 높은 평균 공격 성공률로 공격 방법의 효과를 입증했습니다. 이번 연구 결과는 언어 모델의 취약성을 강조하며, 이 연구를 통해 상황별 학습과 관련된 보안 위협에 대한 인식이 높아지기를 바랍니다. [abs|pdf]

[21/108] Learning Cognitive Maps from Transformer Representations for Efficient Planning in Partially Observed Environments

Keywords: planning, predictions_learn_explicit, planning_navigation
Abstract: 추론 중에만 드러나는 컨텍스트 내 작업을 포함한 광범위한 작업에서 뛰어난 성능을 보임에도 불구하고, 다음 토큰 예측을 위해 훈련된 바닐라 트랜스포머와 변형은 (a) 유연하게 쿼리할 수 있는 환경의 명시적 세계 모델을 학습하지 않으며, (b) 계획이나 탐색에 사용할 수 없습니다. 이 백서에서는 에이전트가 탐색할 때 지각적으로 에일리어싱된 관찰을 수신하여 경로 계획을 어렵게 만드는 부분적으로 관찰된 환경(POE)을 고려합니다. 이 논문에서는 (여러 개의) 이산 병목 현상이 있는 트랜스포머, 즉 잠재 코드가 관측 및 행동 기록의 압축된 표현을 학습하는 TDB를 소개합니다. 이력을 바탕으로 미래의 관찰을 예측하도록 TDB를 훈련시킨 후, 활성 병목 지수를 통해 환경에 대한 해석 가능한 인지 지도를 추출합니다. 그런 다음 이 지도를 외부 솔버와 결합하여 (제약된) 경로 계획 문제를 해결합니다. 첫째, POE에 대해 훈련된 TDB는 (a) 바닐라 트랜스포머나 LSTM의 거의 완벽한 예측 성능을 유지하면서 (b) 최단 경로 문제를 기하급수적으로 빠르게 해결한다는 것을 보여줍니다. 둘째, TDB는 텍스트 데이터 세트에서 해석 가능한 표현을 추출하는 동시에 바닐라 시퀀스 모델보다 더 높은 컨텍스트 내 정확도에 도달합니다. 마지막으로, 새로운 POE에서 TDB는 (a) 거의 완벽한 문맥 내 정확도에 도달하고, (b) 정확한 문맥 내 인지 맵을 학습하며, (c) 문맥 내 경로 계획 문제를 해결합니다. [abs|pdf]

[22/108] Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs

Keywords: code_generation_benchmark, code_generation_benchmarks, existing_code_generation
Abstract: 대규모 언어 모델(LLM)은 자연어와 프로그래밍 언어를 모두 처리하는 데 있어 뛰어난 성능을 보여 왔으며, 이를 통해 요구사항 엔지니어링, 코드 생성, 소프트웨어 테스트 등 소프트웨어 엔지니어링의 다양한 응용 분야를 가능하게 했습니다. 그러나 기존의 코드 생성 벤치마크는 자연어로 기술된 코드와 그 의미 사이에 발생할 수 있는 미묘한 불일치, 특히 LLM의 코드 이해 성능을 제대로 평가하지 못하고 있습니다.
이 논문에서는 기존 코드 생성 데이터세트에 코드 돌연변이를 도입하여 코드와 설명 사이의 미묘한 차이에 초점을 맞춰 LLM의 코드 이해 성능을 체계적으로 평가할 수 있는 새로운 방법을 제안합니다. 코드 돌연변이는 원래 코드의 의미를 변경하여 자연어 설명과 불일치를 일으키는 작은 변경 사항입니다. 연산자 교체 및 문 삭제와 같은 다양한 유형의 코드 돌연변이를 적용하여 일관성 없는 코드-설명 쌍을 생성합니다. 그런 다음 이 쌍을 사용하여 불일치를 올바르게 감지하는 LLM의 기능을 테스트합니다.
돌연변이 기반 일관성 테스트(MCT)라는 새로운 LLM 테스트 방법을 제안하고, 6개의 프로그래밍 언어(Python, C++, Java, Go, JavaScript, Rust)로 구성된 최첨단 코드 생성 벤치마크인 HumanEval-X를 사용하여 널리 사용되는 두 가지 LLM인 GPT-3.5와 GPT-4에 대한 사례 연구를 수행합니다. 다양한 유형의 코드 변이 및 프로그래밍 언어에 대한 LLM의 성능을 비교하고 결과를 분석합니다. 그 결과 LLM의 코드 이해 성능은 상당한 차이를 보였으며, 변이 유형과 언어에 따라 서로 다른 장단점을 가지고 있음을 발견했습니다. [abs|pdf]

[23/108] DREQ: Document Re-Ranking Using Entity-based Query Understanding

Keywords: document_ranking_model, dense_document_ranking, document_ranking
Abstract: 엔티티 지향 신경망 IR 모델은 크게 발전했지만, 문서 내의 개별 엔티티가 전체 관련성에 미치는 다양한 영향력이라는 중요한 뉘앙스를 간과하는 경우가 많습니다. 이러한 격차를 해소하기 위해 저희는 엔티티 중심의 고밀도 문서 재랭크 모델인 DREQ를 소개합니다. 고유하게도, 문서 표현 내에서 쿼리와 관련된 엔티티를 강조하는 동시에 관련성이 낮은 엔티티를 약화시켜 쿼리별 엔티티 중심의 문서 표현을 얻습니다. 그런 다음, 이 엔티티 중심 문서 표현을 문서의 텍스트 중심 표현과 결합하여 문서의 '하이브리드' 표현을 얻습니다. 이 하이브리드 표현을 사용하여 문서의 관련성 점수를 학습합니다. 네 가지 대규모 벤치마크를 사용해 DREQ가 최첨단 신경 및 비신경 재랭킹 방법보다 성능이 뛰어나다는 것을 보여줌으로써 엔티티 중심 표현 접근법의 효율성을 강조합니다. [abs|pdf]

[24/108] DiffDA: a diffusion model for weather-scale data assimilation

Keywords: autoregressive_data_assimilation, data_assimilation, data_assimilation_crucial
Abstract: 정확한 데이터 동화를 통한 초기 조건 생성은 신뢰할 수 있는 일기 예보와 기후 모델링을 위해 매우 중요합니다. 본 논문에서는 예측된 상태와 희박한 관측 자료를 사용하여 대기 변수를 동화시킬 수 있는 머신러닝 기반 데이터 동화 방법으로 DiffDA를 제안합니다. 이를 위해 사전 학습된 그래프캐스트 일기예보 모델을 노이즈 제거 확산 모델로 적용합니다. 이 방법은 훈련과 추론 모두에서 예측된 상태에 대해, 그리고 추론만 하는 동안에는 희박한 관측에 대해 2단계 컨디셔닝을 적용합니다. 이 전략은 부산물로서 관측이 불가능한 미래에 대한 예측의 후처리도 가능하게 하며, 재분석 데이터 세트를 기반으로 한 실험을 통해 우리의 방법이 0.25도 해상도의 관측과 일치하는 동화된 전지구 대기 데이터를 생성할 수 있음을 확인했습니다. 또한 실험을 통해 우리의 접근 방식을 통해 생성된 초기 조건은 최첨단 데이터 동화 제품군의 초기 조건과 비교할 때 최대 24시간의 리드 타임 손실 없이 예보 모델에 사용할 수 있음을 보여주었습니다. 따라서 이 방법을 자동 회귀 데이터 동화를 통한 재분석 데이터 세트 생성과 같은 실제 애플리케이션에 적용할 수 있습니다. [abs|pdf]

[25/108] SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully

Keywords: tokens_generation_decoding, language_models_llms, large_language_models
Abstract: 대규모 언어 모델(LLM)은 텍스트 생성에서 뛰어난 성능을 보여줍니다. 하지만, LLM은 여전히 환각 현상을 겪고 있습니다. 이 연구에서는 LLM이 보다 진실되게 해독할 수 있도록 추론 시간 방법인 자기 강조형 망설임(SH2)을 제안합니다. SH2는 정보 이론에 뿌리를 둔 간단한 사실에 기반한 것으로, LLM의 경우 낮은 확률로 예측된 토큰이 다른 토큰보다 더 많은 정보를 제공하는 경향이 있다는 것입니다. 우리의 분석에 따르면 LLM에서 낮은 확률로 할당된 토큰은 명사, 고유명사, 형용사와 같은 사실 정보와 밀접한 관련이 있을 가능성이 더 높습니다. 따라서 우리는 확률이 가장 낮은 토큰을 선택하고 원래의 문맥과 연결하여 사실 정보를 '강조'함으로써 모델이 생성 전에 이러한 토큰을 반복적으로 읽고 망설이도록 하는 방법을 제안합니다. 또한 디코딩 시에는 주저로 인한 출력 확률의 차이를 강조하기 위해 대조 디코딩을 채택합니다. 실험 결과, 추가 데이터나 모델 없이도 SH2가 LLM이 사실적 지식을 도출하고 환각적 맥락을 구별하는 데 효과적으로 도움을 줄 수 있음을 입증했습니다. 여러 환각 과제에서 LLaMA-7b와 LLaMA2-7b에 대해 SH2를 사용하면 유의미하고 일관된 개선이 이루어집니다. [abs|pdf]

[26/108] CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians

Keywords: segmenting_3d_gaussians, segmentation_fast_rendering, swift_segmenting_3d
Abstract: 본 논문에서는 RGB 이미지 입력만으로 빠른 렌더링 속도로 3D 일관성 있는 장면을 컴팩트하게 분할하는 방법인 컴팩트하고 신속한 3D 가우시안 분할(CoSSegGaussians)을 제안합니다. 기존의 NeRF 기반 3D 분할 방법은 암시적 또는 복셀 신경 장면 표현과 레이 마칭 볼륨 렌더링에 의존해 시간이 많이 소요되었습니다. 최근의 3D 가우시안 스플래팅은 렌더링 속도를 크게 향상시켰지만, 기존의 가우시안 기반 분할 방법(예: 가우시안 그룹화)은 특히 제로 샷 분할에서 컴팩트한 분할 마스크를 제공하지 못하는데, 이는 일관되지 않은 2D 기계 생성 레이블이 있을 때 각 가우시안에게 학습 가능한 파라미터를 직접 할당하기 위한 견고성과 컴팩트함이 부족하기 때문입니다. 우리의 방법은 각 가우시안 포인트에 대해 융합된 공간 및 의미론적으로 의미 있는 특징을 얕은 디코딩 네트워크로 매핑하여 컴팩트하고 안정적인 제로샷 장면 분할을 신속하게 달성하는 것을 목표로 합니다. 특히 이 방법은 먼저 RGB 이미지의 감독 하에 가우시안 포인트의 위치, 컨버젼스 및 색상 속성을 최적화합니다. 가우시안 로케이터링 후에는 이미지에서 언프로젝션을 통해 추출한 멀티스케일 DINO 특징을 각 가우시안으로 추출한 다음, 고속 포인트 특징 처리 네트워크, 즉 RandLA-Net의 공간 특징과 통합합니다. 그런 다음 얕은 디코딩 MLP를 다중 스케일 융합 특징에 적용하여 컴팩트한 세그먼테이션을 얻습니다. 실험 결과, 우리 모델은 시맨틱 및 파놉틱 분할 작업 모두에서 다른 분할 방법보다 성능이 뛰어나면서도 NeRF 기반 분할에 비해 분할 시간이 약 10%밖에 걸리지 않아 고품질의 제로샷 장면 분할을 수행할 수 있음을 보여줍니다. 코드와 더 많은 결과는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[27/108] How Teachers Can Use Large Language Models and Bloom's Taxonomy to Create Educational Quizzes

Keywords: generated_questions_quizzes, question_generation_qg, questions_generated_learning
Abstract: 질문 생성(QG)은 자연어 처리 작업으로, 교육 분야에서 많은 잠재적 이점과 사용 사례를 가지고 있습니다. 이러한 잠재력을 실현하기 위해서는 교육적 요구를 염두에 두고 QG 시스템을 설계하고 검증해야 합니다. 그러나 실제 교사나 학생의 의견을 반영하여 QG 접근법을 평가하거나 설계한 연구는 거의 없습니다. 이 논문에서는 블룸의 분류법에서 도출된 학습 목표에 따라 질문이 생성되는 대규모 언어 모델 기반 QG 접근 방식을 적용합니다. 자동으로 생성된 질문은 교사가 실제로 어떻게 사용하는지 평가하기 위해 고안된 여러 실험에 사용됩니다. 그 결과, 교사들은 자동으로 생성된 문제가 포함된 퀴즈를 작성하는 것을 선호하며, 이러한 퀴즈는 수기로 작성된 버전에 비해 품질이 떨어지지 않는다는 것이 입증되었습니다. 또한, 여러 지표에 따르면 자동 생성된 질문이 생성된 퀴즈의 품질을 향상시킬 수 있는 것으로 나타나 교실 환경에서 QG를 대규모로 사용할 수 있는 가능성을 보여주었습니다. [abs|pdf]

[28/108] Binary Linear Tree Commitment-based Ownership Protection for Distributed Machine Learning

Keywords: computational_integrity_distributed, integrity_distributed, preserving_computational_integrity
Abstract: 분산형 머신러닝은 여러 작업자에게 컴퓨팅 작업을 위임하여 광범위한 데이터 세트의 병렬 학습을 가능하게 합니다. 분산형 머신러닝의 비용 절감 이점에도 불구하고, 최종 모델 가중치를 배포하면 작업자가 훈련 계산에 자신이 참여했음을 입증하는 데 어려움을 겪으면서 모델 소유권을 둘러싼 잠재적 충돌이 발생할 수 있습니다. 위와 같은 소유권 문제를 해결하고 우발적인 실패와 악의적인 공격을 방지하기 위해 분산형 머신러닝에서는 작업자의 계산 무결성과 효율성을 검증하는 것이 특히 중요합니다. 이 논문에서는 제한된 오버헤드와 간결한 증명으로 계산 무결성을 보장하는 새로운 바이너리 선형 트리 커미션 기반 소유권 보호 모델을 제안합니다. 훈련 중 매개변수가 자주 업데이트되기 때문에 커미트먼트 체계는 유지 관리가 가능한 트리 구조를 도입하여 증명 업데이트 비용을 줄입니다. SNARK 기반의 검증 가능한 계산과 달리, 저희 모델은 내부 곱 인수를 활용하여 효율적인 증명 집계를 달성합니다. 또한, 모델 가중치에 대한 증명은 작업자 신원 키로 워터마킹되어 커미트먼트가 위조되거나 복제되는 것을 방지합니다. 성능 분석과 SNARK 기반 해시 커미트먼트와의 비교를 통해 분산 머신러닝 내에서 계산 무결성을 보존하는 데 있어 저희 모델의 효율성을 검증했습니다. [abs|pdf]

[29/108] HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced Diffusion Models

Keywords: style_transfer, arbitrary_style_transfer, style_transfer_ast
Abstract: 임의 스타일 전송(AST)의 목표는 스타일 참조의 예술적 특징을 주어진 이미지/비디오에 주입하는 것입니다. 기존 방식은 일반적으로 스타일과 콘텐츠 간의 균형을 추구하는 데 중점을 두는 반면, 유연하고 맞춤화된 스타일화 결과에 대한 상당한 수요를 무시하여 실제 적용에 한계가 있습니다. 이러한 문제를 해결하기 위해 다양한 의미적 단서에 따라 스타일화 결과를 명시적으로 커스터마이징할 수 있는 새로운 AST 접근 방식, 즉 HiCAST를 제안합니다. 구체적으로 이 모델은 잠재 확산 모델(LDM)을 기반으로 구축되었으며, 콘텐츠와 스타일 인스턴스를 LDM의 조건으로 흡수하도록 정교하게 설계되었습니다. 또한, 사용자가 다단계 스타일 정보와 내재적 지식을 LDM에서 정렬하여 출력 결과를 유연하게 조작할 수 있는 Style Adapter를 도입한 것이 특징입니다. 마지막으로, 비디오 AST를 수행하도록 모델을 더욱 확장합니다. 스타일화 강도를 유지한다는 전제 하에 프레임 간 시간적 일관성을 크게 개선하는 새로운 학습 목표를 비디오 확산 모델 훈련에 활용합니다. 정성적, 정량적 비교는 물론 포괄적인 사용자 연구를 통해 시각적으로 그럴듯한 스타일라이제이션 결과를 생성하는 데 있어 기존 SoTA 방법보다 뛰어난 성능을 발휘한다는 사실이 입증되었습니다. [abs|pdf]

[30/108] Inferring Intentions to Speak Using Accelerometer Data In-the-Wild

Keywords: intentions_speak_accelerometer, recognize_intentions_speak, infer_intentions_speak
Abstract: 인간은 다른 사람이 할 말이 있을 때 이를 알아차리는 직관력이 뛰어납니다. AI가 말하려는 의도를 인식할 수 있다면 흥미로울 것입니다. 특히 AI가 그룹 토론을 안내하는 시나리오에서 유용한 기술이 될 수 있습니다. 이 연구는 가속도계 데이터로부터 말하기의 성공 및 실패 의도를 추론하는 방법을 연구합니다. 이 방법은 개인정보를 보호하고 스마트 배지에 넣을 수 있기 때문에 실외 환경에서 실현 가능하기 때문에 선택되었습니다. 실제 소셜 네트워킹 이벤트의 데이터는 말하려는 의도를 추론하는 머신러닝 모델을 훈련하는 데 사용됩니다. 데이터에서 실패한 발화 의도의 하위 집합에는 주석이 달립니다. 모델은 성공적인 발화 의도에 대해 학습하고 성공적인 사례와 실패한 사례 모두에 대해 평가합니다. 결론적으로 가속도계 데이터에는 유용한 정보가 있지만 말하려는 의도를 안정적으로 포착하기에는 충분하지 않습니다. 예를 들어, 자세 변화는 말하려는 의도와 상관관계가 있지만, 사람들은 말하려는 의도가 없이 자세를 바꾸거나 자세를 바꾸지 않고 말하려는 의도가 있는 경우도 종종 있습니다. 말하려는 의도를 안정적으로 추론하려면 더 많은 양식이 필요할 것입니다. [abs|pdf]

[31/108] Pushing the Pareto front of band gap and permittivity: ML-guided search for dielectric materials

Keywords: objective_materials_optimization, materials_optimization_achieving, materials_optimization
Abstract: 유전율이 높은 재료는 외부 전기장에서 쉽게 분극되어 많은 최신 전자 장치에서 필수적인 기능을 수행할 수 있습니다. 높은 유전 상수는 좁은 밴드 갭을 가진 재료에서 발생하는 경향이 있어 유전 파괴 전 작동 전압을 제한한다는 두 가지 상충되는 특성에 의해 실용성이 결정됩니다. 우리는 원소 치환, ML 사전 스크리닝, 초기 시뮬레이션 및 전문가의 직관을 결합하여 잠재적 유전체에 대한 방대한 미지의 물질 공간을 효율적으로 탐색하는 고처리량 워크플로우를 제시하여 두 가지 새로운 유전체 물질인 CsTaTeO6 및 Bi2Zr2O7의 합성 및 특성 분석으로 이어집니다. 우리의 핵심 아이디어는 오목한 파레토 전면을 가진 다중 목표 최적화 설정에서 ML을 배포하는 것입니다. 일반적으로 단일 목표 최적화보다 더 어려운 것으로 간주되지만, 우리는 밴드 갭과 유전율 사이의 $1/x$ 상관관계가 실제로는 밴드 갭과 유전율에 대한 개별 모델이 각각 우수한 훈련 지원 영역에서 작동하면서 뛰어난 장점을 가진 재료를 예측할 수 있도록 함으로써 이 작업을 ML 방법에 더 적합하게 만든다는 예비 증거를 제시하고 주장합니다. 우리가 알기로는 실험적 합성 및 특성화를 달성한 ML 기반 다중 목표 재료 최적화 성공 사례는 이번이 처음입니다. CsTaTeO6는 레퍼런스 데이터 소스에 존재하지 않는 원소 치환을 통해 생성된 구조로, 성공적인 디노보 재료 설계의 예시입니다. 한편, 우리는 2.27eV의 밴드 갭과 20.5의 유전율을 가진 Bi2Zr2O7의 첫 번째 고순도 합성 및 유전체 특성화를 보고하여 다목적 검색의 모든 목표 지표를 충족했습니다. [abs|pdf]

[32/108] Decoding AI's Nudge: A Unified Framework to Predict Human Behavior in AI-assisted Decision Making

Keywords: conceptualizing_ai_assistance, ai_assistance_decision, ai_assistance_impacts
Abstract: AI 기반 의사결정 보조 도구의 급속한 발전으로 다양한 형태의 AI 지원이 인간의 의사결정 프로세스에 점점 더 많이 통합되고 있습니다. 인간의 의사결정을 가장 효과적으로 지원하려면 다양한 형태의 AI 지원이 인간의 의사결정 행동에 어떤 영향을 미치는지 정량적으로 이해하는 것이 필수적입니다. 이를 위해 현재 대부분의 연구는 '블랙박스' 모델을 사용한 인간 행동의 엔드투엔드 예측에 초점을 맞추고 있으며, AI 지원이 인간의 의사결정 과정에 미치는 미묘한 영향에 대한 해석이 부족한 경우가 많습니다. 한편, 인간 행동 예측의 해석 가능성을 우선시하는 방법은 특정 형태의 AI 지원에 맞춰진 경우가 많아 다른 형태의 지원에 적용하기가 어렵습니다. 이 백서에서는 AI 지원 의사결정에서 다양한 형태의 AI 지원이 의사결정권자에게 미치는 영향에 대한 해석 가능한 특성화를 제공할 수 있는 계산 프레임워크를 제안합니다. AI 지원을 인간 의사결정 과정의 '넛지'로 개념화함으로써, 다양한 형태의 AI 지원이 의사결정을 내릴 때 다양한 정보를 고려하는 인간의 전략을 어떻게 수정하는지를 모델링하는 데 중점을 둡니다. 실제 의사결정권자로부터 수집한 행동 데이터에 대한 평가 결과, 제안된 프레임워크는 AI 지원 의사결정에서 인간의 행동을 정확하게 예측하는 데 있어 다양한 기준선보다 뛰어난 성능을 보였습니다. 또한, 제안된 프레임워크를 기반으로 다양한 인지 스타일을 가진 개인이 AI의 도움을 어떻게 다르게 받아들이는지에 대한 인사이트를 제공합니다. [abs|pdf]

[33/108] Revisiting Silhouette: From Micro to Macro Aggregation

Keywords: averages_scores_clusters, silhouette_scores_cluster, score_robust_cluster
Abstract: 실루엣 계수는 데이터 포인트당 점수를 생성하여 클러스터링 할당의 품질을 평가하는 확립된 내부 클러스터링 평가 척도입니다. 전체 데이터 세트의 클러스터링 품질을 평가하기 위해 일반적으로 데이터 세트에 있는 모든 포인트의 점수를 단일 값으로 평균화하는데, 이를 마이크로 평균화라고 합니다. 이 연구에서 합성 예시를 통해 살펴본 바와 같이, 이 마이크로 평균화 전략은 클러스터 불균형과 이상값(배경 잡음)에 모두 민감합니다. 이러한 문제를 해결하기 위해 먼저 클러스터 수준에서 실루엣 점수의 평균을 구한 다음 (매크로) 클러스터 전체에 걸쳐 점수의 평균을 구하는 대안적인 집계 전략을 제안합니다. 동일한 합성 예시를 바탕으로 제안된 매크로 평균 실루엣 점수가 클러스터 불균형과 배경 노이즈에 대해 견고하다는 것을 보여줍니다. 실험 연구를 통해 매크로 평균화 방식이 일반적인 마이크로 평균화 점수에 비해 여러 사례에서 클러스터의 실측치 수를 더 잘 추정한다는 것을 보여주었습니다. [abs|pdf]

[34/108] Hallucination Benchmark in Medical Visual Question Answering

Keywords: vision_question_answering, language_vision_models, visual_assistants_healthcare
Abstract: 최근 시각 질문 답변(VQA)에 대한 대규모 언어 및 시각 모델의 성공, 특히 의료 분야에서의 적용(Med-VQA)은 효과적인 의료용 시각 보조 장치를 실현할 수 있는 큰 가능성을 보여주었습니다. 그러나 이러한 모델은 임상 환경에서 환각 현상에 대해 광범위하게 테스트되지 않았습니다. 이에 유니티는 의료 이미지와 질문-답변 세트를 결합한 환각 벤치마크를 만들고 최첨단 모델에 대한 종합적인 평가를 실시했습니다. 이 연구는 현재 모델의 한계를 심층적으로 분석하고 다양한 프롬프트 전략의 효과를 밝혀냈습니다. [abs|pdf]

[35/108] Cheetah: Bridging the Gap Between Machine Learning and Particle Accelerator Physics with High-Speed, Differentiable Simulations

Keywords: optimisation_accelerator, accelerators_fast_track, particle_accelerators_fast
Abstract: 머신러닝은 가속기 물리학의 현대적 과제를 해결할 수 있는 강력한 솔루션으로 부상했습니다. 그러나 빔 시간의 제한성, 시뮬레이션의 계산 비용, 최적화 문제의 고차원성 때문에 최첨단 머신러닝 모델을 훈련하는 데 필요한 데이터를 생성하는 데 상당한 어려움이 있습니다. 이 글에서는 파이토치 기반의 고속 미분 가능 선형 빔 동역학 코드인 Cheetah를 소개합니다. 치타는 계산 시간을 몇 배나 단축하여 대규모 데이터 세트를 빠르게 수집할 수 있으며 가속기 튜닝 및 시스템 식별을 위한 효율적인 기울기 기반 최적화를 지원합니다. 이를 통해 치타는 널리 채택된 머신러닝 툴과 원활하게 통합되는 사용자 친화적이고 쉽게 확장할 수 있는 툴로 자리매김했습니다. 강화 학습 훈련, 경사 기반 빔라인 튜닝, 경사 기반 시스템 식별, 물리학 정보 기반 베이지안 최적화 전제, 공간 전하 효과의 모듈식 신경망 대리 모델링 등 5가지 사례를 통해 Cheetah의 유용성을 살펴봅니다. 이러한 고속 차별화 시뮬레이션 코드를 사용하면 입자 가속기를 위한 머신러닝 기반 방법의 개발을 간소화하고 가속기 시설의 일상적인 운영에 빠르게 통합할 수 있습니다. [abs|pdf]

[36/108] Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages

Keywords: machine_translation_mt, challenges_machine_translation, improvements_translation_quality
Abstract: 이 문서에서는 대규모 언어 모델(LLM)에서 기계 번역(MT)의 두 가지 문제를 해결하기 위한 대조적 정렬 명령어(AlignInstruct)를 소개합니다. 하나는 지원 언어가 이전에 볼 수 없었던 언어까지 확장되는 것입니다. 두 번째는 리소스가 부족한 언어의 데이터 부족과 관련된 문제입니다. MT 명령어(MTInstruct)를 통한 모델 미세 조정은 첫 번째 과제에 대한 간단한 접근 방식입니다. 하지만 MTInstruct는 두 번째 과제에 내재된 약한 언어 간 신호로 인해 한계가 있습니다. AlignInstruct는 통계적 단어 정렬을 사용하여 구축된 언어 간 판별기를 통해 언어 간 감독을 강조합니다. 최대 24개 언어에 대해 BLOOMZ 모델(1b1, 3b, 7b1)을 미세 조정한 결과 다음과 같은 결과가 나타났습니다: (1) LLM은 MTInstruct를 사용하여 보이지 않는 언어를 효과적으로 번역할 수 있으며, (2) AlignInstruct는 영어를 포함한 48개의 번역 방향에서 번역 품질을 일관되게 개선했고, (3) 판별기 기반 명령어는 생성 명령어보다 언어 간 명령어 성능을 능가했으며, (4) AlignInstruct는 30개의 제로 샷 방향에서 성능을 개선했습니다. [abs|pdf]

[37/108] Graph Spatiotemporal Process for Multivariate Time Series Anomaly Detection with Missing Values

Keywords: anomalies_time_series, spatiotemporal_process_anomaly, detect_anomalies_time
Abstract: 다변량 시계열 데이터에서 이상 징후를 탐지하는 것은 스마트 전력망, 교통 흐름 예측, 산업 공정 제어 등 다양한 실제 애플리케이션에 매우 중요합니다. 그러나 실제 시계열 데이터는 일반적으로 잘 구조화되어 있지 않아 기존 접근 방식에 심각한 문제를 야기합니다. (1) 변수 및 시간 차원에 따른 다변량 시계열 데이터에 결측값이 존재하면 공간적, 시간적 종속성을 효과적으로 모델링하는 데 방해가 되어 모델 학습 중에 중요한 패턴이 간과되고, (2) 불규칙하게 샘플링된 관측값을 이용한 이상 징후 탐색이 어려워 완전히 관측된 값이 없는 다변량 계열에 기존 검출기를 사용하기가 어렵습니다. 이 연구에서는 그래프 시공간 프로세스와 이상점수를 활용하여 앞서 언급한 불규칙하게 샘플링된 다변량 시계열에서 이상 징후를 탐지하는 문제를 해결하기 위한 새로운 프레임워크인 GST-Pro를 소개합니다. 우리의 접근 방식은 두 가지 주요 구성 요소로 이루어져 있습니다. 첫째, 신경 제어 미분 방정식에 기반한 그래프 시공간 프로세스를 제안합니다. 이 프로세스를 사용하면 데이터에 결측치가 포함되어 있는 경우에도 공간적, 시간적 관점에서 다변량 시계열을 효과적으로 모델링할 수 있습니다. 둘째, 완전한 균일 관측치에 대한 의존도를 완화하는 새로운 분포 기반 이상치 점수 매기기법을 제시합니다. 우리의 접근 방식은 그래프의 시공간적 과정의 예측을 분석함으로써 이상 징후를 쉽게 감지할 수 있게 해줍니다. 실험 결과에 따르면 GST-Pro 방법은 시계열 데이터의 이상 징후를 효과적으로 감지할 수 있으며, 데이터에 결측값이 존재하는지 여부와 관계없이 최첨단 방법보다 성능이 뛰어납니다. 이 https URL에서 코드를 확인할 수 있습니다. [abs|pdf]

[38/108] Designing Heterogeneous LLM Agents for Financial Sentiment Analysis

Keywords: financial_sentiment_analysis, language_models_llms, large_language_models
Abstract: 대규모 언어 모델(LLM)은 지능형 시스템을 설계하는 방법을 크게 변화시켰으며, 대규모 데이터 수집과 새로운 모델링 학습에서 기존의 사전 학습된 모델의 잠재력을 최대한 끌어내는 인적 조정과 전략적 도출로 초점을 옮겼습니다. 그러나 이러한 패러다임의 변화는 금융 정서 분석(FSA)에서 완전히 실현되지 않았는데, 이는 이 작업의 차별적 특성과 이러한 맥락에서 생성 모델을 활용하는 방법에 대한 규범적 지식이 부족하기 때문입니다. 이 연구는 새로운 패러다임, 즉 FSA에 대한 미세 조정 없이 LLM을 사용하는 것의 효과를 조사합니다. 민스키의 마음과 감정 이론에 뿌리를 둔 이기종 LLM 에이전트가 포함된 설계 프레임워크가 제안됩니다. 이 프레임워크는 집계된 에이전트 토론에서 FSA 오류의 유형과 이유에 대한 사전 도메인 지식을 사용하여 전문화된 에이전트를 인스턴스화합니다. FSA 데이터 세트에 대한 종합적인 평가 결과, 이 프레임워크는 특히 논의가 상당할 때 더 나은 정확도를 보여줍니다. 이 연구는 설계 기반에 기여하고 LLM 기반 FSA의 새로운 길을 열어줍니다. 비즈니스와 경영에 대한 시사점도 논의됩니다. [abs|pdf]

[39/108] Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

Keywords: language_models_llms, extensive_corpora_toolchain, corpora_toolchain
Abstract: 대규모 언어 모델(LLM)은 다양한 자연어 처리 작업을 해결하는 데 강력한 기능을 가지고 있습니다. 그러나 LLM 시스템의 안전 및 보안 문제는 광범위한 적용에 있어 가장 큰 걸림돌이 되고 있습니다. 많은 연구에서 LLM 시스템의 위험성을 광범위하게 조사하고 그에 따른 완화 전략을 개발했습니다. OpenAI, 구글, 메타, 앤트로픽과 같은 첨단 기업들도 책임감 있는 LLM을 위해 많은 노력을 기울이고 있습니다. 따라서 기존 연구를 정리하고 커뮤니티를 위한 종합적인 분류 체계를 구축해야 할 필요성이 커지고 있습니다. 본 논문에서는 프롬프트를 받기 위한 입력 모듈, 광범위한 말뭉치에서 학습된 언어 모델, 개발 및 배포를 위한 툴체인 모듈, LLM에서 생성된 콘텐츠를 내보내기 위한 출력 모듈 등 LLM 시스템의 네 가지 필수 모듈에 대해 살펴봅니다. 이를 바탕으로 LLM 시스템의 각 모듈과 관련된 잠재적 위험을 체계적으로 분석하고 그에 따른 완화 전략을 논의하는 포괄적인 분류법을 제안합니다. 또한, LLM 시스템의 위험 평가를 용이하게 하기 위해 널리 사용되는 벤치마크를 검토합니다. 이 백서가 LLM 참여자들이 책임감 있는 LLM 시스템을 구축하기 위해 체계적인 관점을 받아들이는 데 도움이 되기를 바랍니다. [abs|pdf]

[40/108] Knowledge Translation: A New Pathway for Model Compression

Keywords: translation_model_trained, training_compressed_model, existing_model_compression
Abstract: 딥러닝은 최근 몇 년 동안 훈련, 추론, 모델 스토리지 오버헤드가 증가하는 대가로 상당한 발전을 이루었습니다. 기존의 모델 압축 방법은 높은 정확도를 유지하면서 모델 파라미터의 수를 줄이기 위해 노력하지만, 필연적으로 압축된 모델을 재학습해야 하거나 구조적 제약이 따릅니다. 이러한 한계를 극복하기 위해 이 논문에서는 '번역' 모델이 더 큰 모델의 파라미터를 받아 압축된 파라미터를 생성하도록 훈련하는 새로운 프레임워크인 Knowledge Translation(KT)을 제시합니다. KT의 개념은 신경망을 효과적으로 사용하여 서로 다른 언어를 동일한 의미를 유지하면서 변환하는 언어 번역에서 영감을 얻었습니다. 따라서 우리는 신경망의 기능을 유지하면서 서로 다른 크기의 모델을 변환할 수 있는 신경망의 잠재력을 탐구합니다. KT를 위한 포괄적인 프레임워크를 제안하고, 제한된 훈련 데이터에도 불구하고 모델 성능을 향상시키기 위한 데이터 증강 전략을 소개하며, MNIST 데이터 세트에서 KT의 실현 가능성을 성공적으로 입증합니다. 코드는 url에서 확인할 수 있습니다. [abs|pdf]

[41/108] A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism

Keywords: web_translated_languages, training_models_multilingual, content_translated_languages
Abstract: 웹상의 콘텐츠는 여러 언어로 번역되는 경우가 많으며, 이러한 다방향 번역의 품질이 낮다는 것은 기계 번역(MT)을 사용하여 생성되었을 가능성이 높다는 것을 나타냅니다. 다방향 병렬 기계 생성 콘텐츠는 리소스가 적은 언어의 번역을 지배할 뿐만 아니라 해당 언어의 전체 웹 콘텐츠에서 큰 비중을 차지합니다. 또한 여러 언어로 번역되는 콘텐츠 유형에서 선택 편향의 증거를 발견했는데, 이는 저품질 영어 콘텐츠가 MT를 통해 리소스가 낮은 여러 언어로 대량으로 번역되는 것과 일치합니다. 우리의 연구는 웹에서 스크랩한 단일 언어 및 이중 언어 데이터 모두에 대한 다국어 대규모 언어 모델과 같은 학습 모델에 대한 심각한 우려를 제기합니다. [abs|pdf]

[42/108] Enhancing Contrastive Learning with Efficient Combinatorial Positive Pairing

Keywords: non_contrastive_learning, learning_speed_views, contrastive_learning_methods
Abstract: 지난 몇 년 동안 대조 학습은 시각적 비지도 표현 학습의 성공에 핵심적인 역할을 해왔습니다. 이와 비슷한 시기에 고성능 비대조 학습 방법도 개발되었습니다. 대부분의 연구들이 두 개의 뷰만을 활용하고 있지만, 본 논문에서는 기존의 멀티뷰 방법들을 면밀히 검토하고, 대조 또는 비대조 방법의 학습 속도와 성능을 향상시킬 수 있는 일반적인 멀티뷰 전략을 제안합니다. 먼저 CMC의 전체 그래프 패러다임을 분석하고, 작은 학습률과 초기 훈련으로 K-view의 학습 속도를 ${K}\mathrm{C}{2}$ 배까지 높일 수 있음을 실증적으로 보여줍니다. 그런 다음, 자르기 전용 증강으로 생성된 뷰를 혼합하고, SwAV 멀티 크롭에서와 같이 작은 크기의 뷰를 채택하고, 네거티브 샘플링을 수정하여 CMC의 전체 그래프를 업그레이드합니다. 이러한 멀티뷰 전략을 ECPP(효율적인 조합 포지티브 페어링)라고 합니다. 이를 SimCLR에 적용하고 CIFAR-10 및 ImageNet-100에 대한 선형 평가 성능을 평가하여 ECPP의 효과를 조사합니다. 각 벤치마크에서 최고 수준의 성능을 달성했습니다. ImageNet-100의 경우, ECPP로 강화된 SimCLR이 지도 학습을 능가하는 성능을 보였습니다. [abs|pdf]

[43/108] R-BI: Regularized Batched Inputs enhance Incremental Decoding Framework for Low-Latency Simultaneous Speech Translation

Keywords: simultaneous_speech_translation, incremental_decoding_effective, incremental_decoding
Abstract: 증분 디코딩은 원본 모델을 수정하지 않고도 동시 설정에서 오프라인 모델을 사용할 수 있는 효과적인 프레임워크로, 지연 시간이 짧은 동시 음성 번역에 적합합니다. 하지만 이 프레임워크는 시스템이 불완전한 입력을 출력할 때 오류가 발생할 수 있습니다. 이러한 출력 오류를 줄이기 위해 Hold-$n$, LA-$n$, SP-$n$과 같은 여러 전략을 사용할 수 있지만 최적의 성능을 위해서는 하이퍼 파라미터 $n$을 신중하게 선택해야 합니다. 또한 이러한 전략은 캐스케이드 시스템보다 엔드투엔드 시스템에 더 적합합니다. 이 논문에서는 "정규화된 배치 입력"이라는 새로운 적응 가능하고 효율적인 정책을 제안합니다. 이 방법은 입력 다양성을 향상시켜 출력 오류를 완화하는 것이 특징입니다. 또한 엔드투엔드 시스템과 캐스케이드 시스템 모두에 대한 특정 정규화 기법을 제안합니다. IWSLT 동시 음성 번역(SimulST) 작업에 대한 실험을 통해 우리의 접근 방식이 오프라인 시스템과 비교했을 때 2 BLEU 포인트 이하의 손실을 유지하면서 낮은 지연 시간을 달성한다는 것을 입증했습니다. 또한, SimulST 시스템은 다양한 언어 방향에서 몇 가지 새로운 최첨단 결과를 달성했습니다. [abs|pdf]

[44/108] Deep Learning Meets Mechanism Design: Key Results and Some Novel Applications

Keywords: mechanism_include_incentive, deep_learning, inducing_game_strategic
Abstract: 메커니즘 설계는 본질적으로 게임의 리버스 엔지니어링이며, 유도된 게임이 게임의 평형 상태에서 일련의 바람직한 속성을 충족하는 방식으로 전략 에이전트들 사이에서 게임을 유도하는 것을 포함합니다. 메커니즘의 바람직한 속성에는 인센티브 호환성, 개인의 합리성, 후생 극대화, 수익 극대화(또는 비용 최소화), 배분의 공정성 등이 포함됩니다. 메커니즘 설계 이론에 따르면 이러한 속성의 일부 엄격한 부분 집합만이 특정 메커니즘에 의해 동시에 정확하게 충족될 수 있습니다. 실제 애플리케이션에 필요한 메커니즘은 이론적으로 동시에 만족하는 것이 불가능한 이러한 속성의 하위 집합을 필요로 하는 경우가 많습니다. 이러한 경우, 최근 주목받고 있는 접근 방식은 딥러닝 기반 접근 방식을 사용하여 적절하게 정의된 손실 함수를 최소화함으로써 필요한 속성을 대략적으로 만족하는 메커니즘을 학습하는 것입니다. 이 백서에서는 관련 문헌을 통해 메커니즘 설계에 딥러닝 접근법을 사용하는 기술적 세부 사항을 제시하고 이 주제에 대한 주요 결과의 개요를 제공합니다. (a) 차량 네트워크에서의 효율적인 에너지 관리 (b) 모바일 네트워크에서의 자원 할당 (c) 농업 투입물에 대한 대량 할인 조달 경매 설계 등 세 가지 사례 연구를 통해 이 접근법의 힘을 입증합니다. 섹션 6에서는 백서를 마무리합니다. [abs|pdf]

[45/108] Use of Graph Neural Networks in Aiding Defensive Cyber Operations

Keywords: cyber_defense, cyber_defense_adopt, cyber_threat_data
Abstract: 정보가 현대 사회의 생명줄인 상호 연결된 세상에서 정기적인 사이버 공격은 디지털 시스템과 정보의 기밀성, 무결성, 가용성을 방해합니다. 또한 사이버 공격은 목적에 따라 그 수법이 다양하고 방어 시스템을 위장하기 위해 빠르게 진화합니다. 그러나 일반적인 사이버 공격은 공격 시작부터 최종 해결까지 일련의 단계를 거치는데, 이를 공격 수명 주기라고 합니다. 이러한 다양한 특성과 사이버 공격의 끊임없는 진화로 인해 사이버 방어는 머신 러닝과 같은 최신 접근 방식을 채택하여 방어 조치를 강화하고 공격 라이프사이클을 끊고 있습니다. 머신 러닝 접근법 중 그래프 신경망은 이질적인 사이버 위협 데이터를 처리하고 학습할 수 있는 능력으로 인해 방어 조치의 효과를 높이는 데 유망한 접근법으로 부상하고 있습니다. 이 백서에서는 가장 유명한 공격 라이프사이클 중 하나인 록히드마틴 사이버 킬 체인의 각 단계를 차단하는 데 GNN을 어떻게 적용했는지 살펴봅니다. CKC의 각 단계를 다루고 방어적 관점에서 공격을 준비하고 방지하는 데 GNN이 어떻게 기여하는지 논의합니다. 또한 미개척 연구 분야와 추가 개선 범위에 대해서도 논의합니다. [abs|pdf]

[46/108] EsaCL: Efficient Continual Learning of Sparse Models

Keywords: continual_learning_benchmarks, continual_learning_sparse, accelerating_learning_sparse
Abstract: 지속적 학습 환경의 핵심 과제는 이전에 학습한 작업 수행 방법을 잊지 않고 일련의 작업을 효율적으로 학습하는 것입니다. 이 문제에 대한 기존의 많은 접근 방식은 이전 작업에 대해 모델을 재학습하거나 새로운 작업을 수용하도록 모델을 확장하는 방식으로 작동합니다. 그러나 이러한 접근 방식은 일반적으로 스토리지 및 계산 요구 사항의 증가로 인해 어려움을 겪으며, 스파스 모델의 경우 스파스화 후 고비용의 재학습이 필요하기 때문에 문제가 더욱 악화됩니다. 이러한 문제를 해결하기 위해 유니티는 모델의 예측력에 악영향을 미치지 않으면서 중복 매개변수를 자동으로 제거하고 재학습의 필요성을 피할 수 있는 새로운 희소 모델의 효율적인 지속적 학습 방법(EsaCL)을 제안합니다. 유니티는 매개변수 가지치기를 통해 손실 지형에 대한 이론적 분석을 수행하고, 모델 매개변수에 대한 손실 함수의 선명도에 따라 정보를 제공하는 방향성 가지치기(SDP) 전략을 설계합니다. SDP는 예측 정확도의 손실을 최소화하면서 각 단계에서 희소 모델의 학습을 가속화하여 모델을 보장합니다. 모델 업데이트를 가속화하기 위해 손실 환경을 추정하는 데 중요한 인스턴스를 식별할 수 있는 지능형 데이터 선택(IDS) 전략을 도입하여 데이터 효율성을 크게 향상시켰습니다. 실험 결과, EsaCL은 세 가지 연속 학습 벤치마크에서 메모리와 컴퓨팅 리소스를 크게 줄이면서 최신 방법과 경쟁할 수 있는 성능을 달성했습니다. [abs|pdf]

[47/108] DrawTalking: Building Interactive Worlds by Sketching and Speaking

Keywords: interactive_approach_drawtalking, interactive_worlds_sketching, sketching_speaking
Abstract: 사용자가 스케치하고 말하면서 인터랙티브한 세계를 구축하는 대화형 접근 방식인 드로토킹을 소개합니다. 사용자 제어와 유연성을 강조하고 코드 없이도 프로그래밍과 유사한 기능을 제공합니다. 우리는 이를 iPad에서 구현했습니다. 개방형 연구에 따르면 이 메커니즘은 공감을 불러일으키며 많은 창의적 탐구 사용 사례에 적용할 수 있습니다. 향후 자연스러운 사용자 중심 인터페이스에 대한 연구에 영감을 주고 정보를 제공할 수 있기를 바랍니다. [abs|pdf]

[48/108] The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models

Keywords: cot_prompt_engineering, general_insight_ai, insight_ai_researchers
Abstract: 이 백서에서는 간결한 생각의 사슬(CCoT) 프롬프트를 소개합니다. 간결성이 응답 길이와 정답 정확도에 어떤 영향을 미치는지 알아보기 위해 표준 CoT 프롬프트와 CCoT 프롬프트를 비교했습니다. 객관식 질의응답(MCQA) 벤치마크와 함께 GPT-3.5 및 GPT-4를 사용하여 이를 평가했습니다. CCoT는 GPT-3.5와 GPT-4 모두에서 평균 응답 길이를 48.70% 줄이면서도 문제 해결 성능에는 미미한 영향을 미쳤습니다. 그러나 수학 문제에서 CCoT가 적용된 GPT-3.5는 27.69%의 성능 저하가 발생했습니다. 전반적으로 CCoT는 토큰당 평균 22.67%의 비용 절감을 가져옵니다. 이러한 결과는 LLM을 사용하여 CoT 프롬프트 엔지니어링 기법으로 실제 문제를 해결하는 AI 시스템 엔지니어에게 실질적인 영향을 미칩니다. 또한 이러한 결과는 LLM에서 단계별 추론의 새로운 동작을 연구하는 AI 연구자에게 보다 일반적인 인사이트를 제공합니다. [abs|pdf]

[49/108] Graph Q-Learning for Combinatorial Optimization

Keywords: graph_neural_networks, graph_neural, sciences_graph_neural
Abstract: 그래프 구조의 데이터는 자연과학과 사회과학 전반에 걸쳐 어디에나 존재하며, 최근 그래프 신경망(GNN)이 그래프 데이터의 예측 및 추론 문제를 해결하는 데 효과적인 것으로 밝혀졌습니다. 이 백서에서는 조합 최적화(CO) 문제를 해결하는 데 GNN을 적용할 수 있는 방법을 제안하고 시연합니다. CO는 종종 다루기 어려울 정도로 큰 이산 해 공간에서 함수를 최적화하는 문제입니다. CO 문제를 해결하는 방법을 학습하기 위해 최적화 프로세스를 순차적 의사 결정 문제로 공식화하며, 여기서 수익은 후보 솔루션이 최적성에 얼마나 가까운지와 관련이 있습니다. 우리는 GNN을 사용하여 점점 더 유망한 후보 솔루션을 반복적으로 구축하는 정책을 학습합니다. 유니티는 Q러닝을 통해 훈련된 GNN이 일부 매개변수와 훈련 시간만을 사용하여 최첨단 휴리스틱 기반 솔버에 근접하는 성능으로 CO 문제를 해결할 수 있다는 예비 증거를 제시합니다. [abs|pdf]

[50/108] REBUS: A Robust Evaluation Benchmark of Understanding Symbols

Keywords: reasoning_multimodal_large, reasoning_multimodal, knowledge_reasoning_multimodal
Abstract: 우리는 리버스 퍼즐에서 멀티모달 대규모 언어 모델의 성능을 평가하는 새로운 벤치마크를 제안합니다. 이 데이터 세트는 영화, 작곡가, 주요 도시, 음식 등 13개 카테고리의 단서가 되는 이미지 기반 단어 놀이의 원본 예제 333개를 포함합니다. 단서가 되는 단어나 구를 식별하는 벤치마크에서 우수한 성능을 달성하려면 모델은 이미지 인식 및 문자열 조작과 가설 테스트, 다단계 추론, 인간 인지에 대한 이해를 결합해야 하므로 복합적이고 다양한 방식으로 능력을 평가해야 합니다. 그 결과 GPT-4V 및 Gemini Pro와 같은 독점 모델이 다른 모든 테스트 모델보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다. 그러나 가장 우수한 모델조차도 최종 정확도가 24%에 불과해 추론의 상당한 개선이 필요하다는 점을 강조합니다. 또한 모델이 퍼즐의 모든 부분을 이해하는 경우는 거의 없으며, 정답을 소급하여 설명할 수 없는 경우가 거의 대부분입니다. 따라서 이 벤치마크는 다중 모드 대규모 언어 모델의 지식과 추론의 주요 단점을 파악하는 데 사용할 수 있습니다. [abs|pdf]

[51/108] POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource Unsupervised Neural Machine Translation

Keywords: neural_machine_translation, translation_transfer_learning, machine_translation_unmt
Abstract: 리소스가 적은 언어(LRL)는 병렬 데이터의 제한으로 인해 지도 신경망 기계 번역에 어려움을 겪고 있어 비지도 방식에 대한 연구가 활발히 진행되고 있습니다. 역번역, 전이 학습, 피벗 기반 번역을 포함한 비지도 신경 기계 번역(UNMT) 방법은 LRL 번역에 실용적인 솔루션을 제공하지만 합성 데이터 노이즈, 언어 편향, 오류 전파 등의 문제로 인해 어려움을 겪는데, 이는 대규모 언어 모델(LLM)로 완화할 수 있습니다. LLM은 컨텍스트 내 학습(ICL)과 감독된 미세 조정 방법을 통해 NMT를 발전시켰지만, 훈련 데이터가 충분하지 않으면 LRL의 성능이 저하됩니다. 우리는 LLM이 보조 언어를 통해 언어적 노이즈를 완화하여 LRL의 번역을 개선할 수 있다고 주장합니다. 이 백서에서는 여러 보조 언어의 동적 샘플링 기반 그래프를 사용하여 LLM의 LRL 번역 기능을 향상시키는 새로운 접근 방식인 확률 기반 메타그래프 프롬프터(Probability-driven Meta-graph Prompter, POMP)를 제안합니다. POMP는 각 소스 언어에 대한 방향성 비순환 메타그래프를 구성하고, 이를 통해 여러 경로를 동적으로 샘플링하여 학습 중에 언어적 노이즈를 완화하고 번역을 개선하도록 LLM에 프롬프트를 표시하는 방식입니다. BLEURT 메트릭을 사용하여 번역을 평가하고 점수로 추정된 보상을 역전파하여 경로에서 보조 언어의 확률을 업데이트합니다. 실험 결과 세 가지 LRL의 번역 품질이 크게 개선되어 이러한 접근 방식의 효과가 입증되었습니다. [abs|pdf]

[52/108] FourCastNeXt: Improving FourCastNet Training with Limited Compute

Keywords: fourcastnet_neural_earth, recently_fourcastnet_neural, fourcastnet_neural
Abstract: 최근 FourCastNet 신경 지구 시스템 모델(NESM)은 ERA5 재분석 데이터 세트로 훈련된 다양한 대기 변수를 예측하는 데 있어 인상적인 결과를 보여주었습니다. 바닐라 트랜스포머의 이차적 복잡성에 비해 포캐스트넷은 시퀀스 길이의 시간과 메모리 복잡성이 준선형적이지만, 처음부터 ERA5에서 포캐스트넷을 훈련하려면 여전히 많은 양의 컴퓨팅 리소스가 필요하기 때문에 대부분의 연구자들이 접근하기 어렵거나 비용이 많이 들기도 합니다. 이번 연구에서는 기준선에 필요한 컴퓨팅의 1%만 사용하면서 모델 성능을 기준선과 비슷하거나 더 좋게 유지하면서 FourCastNet을 훈련할 수 있는 개선된 방법을 보여드리겠습니다. [abs|pdf]

[53/108] Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systems

Keywords: innate_value_agents, innate_values_agents, starcraft_multi_agent
Abstract: 내재적 가치는 에이전트의 내재적 동기를 설명하며, 이는 목표를 추구하고 다양한 요구를 충족하는 다양한 기술을 개발하도록 유도하는 에이전트의 고유한 관심사와 선호도를 반영합니다. 강화 학습(RL)의 핵심은 타고난 에이전트처럼 보상 중심(예: 유틸리티) 행동에 기반한 상호작용을 통해 학습하는 것입니다. 이는 AI 에이전트의 타고난 가치 중심(IV) 행동을 설명하는 데 탁월한 모델입니다. 특히 다중 에이전트 시스템(MAS)에서 그룹 유틸리티와 시스템 비용의 균형을 맞추고 그룹 구성원의 협력 요구를 충족시키기 위해 AI 에이전트의 인식을 구축하는 것은 장기적으로 커뮤니티를 지원하고 인간 사회를 통합하는 방법을 학습하는 개인에게 매우 중요한 문제입니다. 이 논문에서는 다중 에이전트의 협력에서 발생하는 복잡한 행동을 설명하기 위해 계층적 복합 내재적 가치 강화 학습 모델, 즉 내재적 가치 중심 강화 학습(IVRL)을 제안합니다. 스타크래프트 멀티 에이전트 챌린지(SMAC) 환경에서 IVRL 아키텍처를 구현하고 세 가지 벤치마크 멀티 에이전트 RL 알고리즘을 통해 타고난 가치 에이전트의 세 가지 특성(겁쟁이, 중립, 무모)에 따른 협력 성능을 비교합니다: QMIX, IQL, QTRAN. 그 결과, 개개인의 다양한 욕구를 합리적으로 조직화하면 적은 비용으로 더 나은 성과를 효과적으로 달성할 수 있음을 입증했습니다. [abs|pdf]

[54/108] Siamese Networks with Soft Labels for Unsupervised Lesion Detection and Patch Pretraining on Screening Mammograms

Keywords: mammogram_patch_classification, embeddings_image_pairs, mammograms_train_neural
Abstract: 자가 지도 학습은 딥 러닝 모델을 사전 학습한 다음 이를 전송하여 다운스트림 작업을 수행하는 데 널리 사용되는 방법입니다. 그러나 이러한 방법의 대부분은 텍스처, 윤곽선, 뚜렷한 색상 대비가 있는 자연물이 포함된 대규모 이미지 데이터 세트를 대상으로 개발되었습니다. 이러한 방법이 관심 영역이 주변 조직과 미묘하고 불분명하게 섞여 있는 경우가 많은 의료 영상에서도 똑같이 효과적인지는 아직 불확실합니다. 이 연구에서는 반대측 유방조영술을 사용하여 한 쌍에 정상 이미지가 모두 포함된 경우 유사한 임베딩을 인코딩하고 정상 이미지와 비정상 이미지가 포함된 경우 서로 다른 임베딩을 인코딩하도록 신경망을 훈련하는 대안을 제안합니다. 우리의 접근 방식은 인체의 자연스러운 대칭성을 약한 라벨로 활용하여 완전히 비지도 방식으로 비정상적인 병변과 배경 조직을 구별하는 방법을 학습합니다. 우리의 연구 결과는 이미지 쌍의 임베딩 사이의 유클리드 거리에서 파생된 소프트 라벨을 샴 네트워크 손실에 통합함으로써 이 방법이 가능하다는 것을 시사합니다. 이 방법은 기존의 자기 지도 학습 방법에 비해 유방조영술 패치 분류에서 우수한 성능을 보여줍니다. 이 접근 방식은 방대한 양의 이미지 데이터를 효과적으로 활용할 뿐만 아니라 값비싼 라벨에 대한 의존도를 최소화할 수 있어 특히 의료 영상 분야에서 중요한 이점을 제공합니다. [abs|pdf]

[55/108] Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Keywords: backdoors_adversarial_training, deceptive_strategy_detect, ai_learned_deceptive
Abstract: 인간은 전략적으로 기만적인 행동을 할 수 있습니다. 대부분의 상황에서는 도움이 되는 행동을 하다가도 기회가 주어지면 다른 목표를 추구하기 위해 매우 다르게 행동하는 것이죠. AI 시스템이 이러한 기만적인 전략을 학습했다면, 현재의 최첨단 안전 훈련 기법을 사용하여 이를 감지하고 제거할 수 있을까요? 이 질문을 연구하기 위해 대규모 언어 모델(LLM)에서 기만적 행동에 대한 개념 증명 사례를 구축합니다. 예를 들어, 연도가 2023년이라고 표시되면 안전한 코드를 작성하지만 연도가 2024년이라고 표시되면 악용 가능한 코드를 삽입하는 모델을 훈련합니다. 이러한 백도어 동작은 지속적일 수 있기 때문에 감독된 미세 조정, 강화 학습, 적대적 훈련(안전하지 않은 동작을 유도한 다음 이를 제거하는 훈련)을 포함한 표준 안전 훈련 기법으로는 제거되지 않습니다. 백도어 동작은 가장 큰 모델과 훈련 과정을 속이는 연쇄 추론을 생성하도록 훈련된 모델에서 가장 지속적이며, 연쇄 추론이 사라진 후에도 지속성이 남아 있습니다. 또한 적대적 훈련을 통해 백도어를 제거하는 대신 모델이 백도어 트리거를 더 잘 인식하도록 학습시켜 안전하지 않은 동작을 효과적으로 숨길 수 있다는 사실을 발견했습니다. 연구 결과에 따르면 모델이 기만적인 행동을 보이면 표준 기법으로는 이를 제거하지 못하고 안전하다는 잘못된 인상을 심어줄 수 있습니다. [abs|pdf]

[56/108] CodePrompt: Improving Source Code-Related Classification with Knowledge Features through Prompt Learning

Keywords: code_related_classification, trained_language_models, improve_source_code
Abstract: 연구자들은 코드버트와 같이 사전 학습된 언어 모델을 활용하여 소스 코드 관련 작업을 개선할 수 있는 가능성을 탐구해 왔습니다. 이전 연구에서는 주로 CodeBERT의 텍스트 임베딩 기능과 '[CLS]' 문장 임베딩 정보를 의미론적 표현으로 사용하여 소스 코드 관련 작업을 미세 조정하는 데 사용했습니다. 하지만 이러한 방법들은 효과적인 특징을 추출하기 위해 추가적인 신경망 레이어가 필요하기 때문에 연산 비용이 높아집니다. 또한 기존 접근 방식은 소스 코드와 관련 텍스트에 포함된 풍부한 지식을 활용하지 않아 정확도가 떨어질 수 있습니다. 이 논문에서는 소스 코드 관련 분류 작업을 개선하기 위해 즉각적인 학습과 주의 메커니즘을 통해 사전 학습된 모델에서 불러온 풍부한 지식을 활용하는 새로운 접근 방식인 CodePrompt를 소개합니다. 이 접근 방식은 우선 입력과 관련된 풍부한 지식을 대표 특징으로 검색할 수 있도록 프롬프트 정보로 언어 모델에 동기를 부여하여 추가적인 신경망 계층이 필요하지 않고 계산 비용을 절감할 수 있습니다. 그 후, 주의 메커니즘을 사용하여 각 작업에 대한 여러 계층의 관련 지식을 최종 특징으로 집계하여 정확도를 높입니다. 저희는 이러한 접근 방식을 평가하기 위해 4개의 다운스트림 소스 코드 관련 작업에 대한 광범위한 실험을 수행했으며, 그 결과 CodePrompt가 정확도 지표에서 새로운 최첨단 성능을 달성하는 동시에 계산 비용 절감 기능도 제공한다는 것을 입증했습니다. [abs|pdf]

[57/108] Improving the Accuracy and Interpretability of Random Forests via Forest Pruning

Keywords: accuracy_random_forests, underperform_decision_trees, random_forests_interpretability
Abstract: 처음 등장한 지 수십 년이 지난 지금도 랜덤 포레스트는 다양한 학습 문제에서 최첨단 정확도를 제공하며 의사 결정 트리나 신경망과 같은 다른 머신 러닝 알고리즘을 능가하는 성능을 발휘하고 있습니다. 그러나 앙상블 방식인 랜덤 포레스트가 의사 결정 트리보다 성능이 떨어지는 한 가지 측면은 해석 가능성입니다. 본 연구에서는 랜덤 포리스트의 정확성과 의사 결정 트리의 해석성이라는 두 가지 장점을 모두 갖추는 것을 목표로 하는 사후 접근법을 제안합니다. 이를 위해 주어진 랜덤 포레스트 내에서 최적의 하위 포리스트를 찾은 다음, 해당되는 경우 선택된 트리를 하나로 결합하는 두 가지 포레스트 가지치기 방법을 제시합니다. 첫 번째 방법은 제한적 완전 탐색에 의존하고, 두 번째 방법은 올가미 방법론을 응용한 것입니다. 합성 및 실제 데이터 세트에 대한 광범위한 실험 결과, 대부분의 시나리오에서 제안된 두 가지 방법 중 하나 이상이 원래의 무작위 포레스트보다 더 정확하면서도 나무의 일부만 사용하므로 결과 해석에 도움이 되는 것으로 나타났습니다. 현재의 최신 숲 가지치기 방법, 즉 순차적 순방향 선택과 (변형된) 순차적 역방향 선택과 비교했을 때, 저희의 방법은 정확도, 사용된 나무 수 또는 두 가지 모두에서 두 방법 모두보다 우수한 성능을 보이는 경향이 있습니다. [abs|pdf]

[58/108] Current Effect-eliminated Optimal Target Assignment and Motion Planning for a Multi-UUV System

Keywords: multi_unmanned_underwater, unmanned_underwater_vehicle, unmanned_underwater
Abstract: 이 논문은 다중 무인 수중 차량(UUV) 시스템의 목표 할당 및 모션 계획을 최적화할 때 해류로 인해 발생하는 복잡성과 문제를 해결하는 혁신적인 접근 방식(CBNNTAP)을 제시합니다. 제안된 알고리즘의 핵심은 몇 가지 주요 구성 요소를 통합하는 것입니다. 첫째, 생체 영감 신경망 기반(BINN) 접근 방식을 통합하여 개별 UUV의 가장 효율적인 경로를 예측하는 동시에 차량 간의 충돌을 피할 수 있도록 합니다. 둘째, BINN 알고리즘에 의해 결정된 경로 거리를 고려하여 효율적인 목표 할당 구성 요소를 통합합니다. 또한, 해류로 인한 편차에 대응하기 위해 조정 구성 요소가 원활하게 통합되어 UUV의 모션 계획과 표적 할당의 정확도를 향상시키는 CBNNTAP 알고리즘의 중요한 혁신은 해류의 파괴적인 영향을 처리할 수 있다는 점입니다. CBNNTAP 알고리즘의 효과는 종합적인 시뮬레이션 결과를 통해 입증되었으며, 이 결과는 2D 및 3D 시나리오에서 정적 및 동적 해류의 영향을 무효화하는 데 있어 개발된 알고리즘의 우수성을 강조합니다. [abs|pdf]

[59/108] From Pampas to Pixels: Fine-Tuning Diffusion Models for Gaúcho Heritage

Keywords: generative_models, generative_models_help, generative_ai
Abstract: 제너레이티브 AI는 다양한 영역에서 상당한 발전을 이루며 사회에 널리 퍼져 있습니다. 특히 텍스트-이미지 변환(TTI) 모델 영역에서 잠재 확산 모델(LDM)은 텍스트 프롬프트를 기반으로 시각적 콘텐츠를 생성하는 데 있어 놀라운 기능을 보여줍니다. 이 백서에서는 지역 문화 개념, 역사적 인물, 멸종 위기에 처한 종을 표현하는 데 있어 LDM의 잠재력을 다룹니다. 이 연구에서는 브라질 리우 그란지 두 술(RS)의 문화유산을 예시 사례로 사용합니다. 우리의 목표는 제너레이티브 모델이 지역의 문화적, 역사적 정체성을 포착하고 보존하는 데 어떻게 도움이 될 수 있는지에 대한 폭넓은 이해에 기여하는 것입니다. 이 백서에서는 주제 선정, 데이터 세트 생성 및 미세 조정 프로세스를 포함한 방법론을 간략하게 설명합니다. 그 결과 생성된 이미지와 함께 각 개념의 도전 과제 및 실현 가능성을 보여줍니다. 결론적으로, 이 연구는 다양한 지역과 커뮤니티의 고유한 측면을 표현하고 보존하는 데 있어 이러한 모델의 힘을 보여줍니다. [abs|pdf]

[60/108] Correlated Quantization for Faster Nonconvex Distributed Optimization

Keywords: correlated_quantizers_outperforms, correlated_quantizers_advantages, introduce_correlated_quantizers
Abstract: 양자화(양자화)는 분산 모델 훈련에서 각 통신 라운드 동안 전송되는 비트의 양을 줄이는 중요한 (확률적) 압축 기법입니다(Alistarh 외, 2017). Suresh 등(2022)은 상관 양자화기를 도입하고 분산 SGD 통신 복잡성을 분석하여 독립 양자화기에 비해 이점이 있음을 보여줍니다. 제안된 상관 양자화기를 활용하여 최첨단의 분산 비볼록 최적화 알고리즘인 MARINA(Gorbunov 외., 2022)를 분석하고, 통신 복잡도 측면에서 원래의 MARINA와 Suresh 외.(2022)의 분산 SGD보다 우수한 성능을 보임을 보여줍니다. 우리는 가중 헤시안 분산(Tyurin 외, 2022)을 사용하여 추가 가정 없이 MARINA의 원래 분석을 크게 개선한 다음, 잠재적으로 상관관계가 있고 편향된 압축기를 훨씬 더 광범위하게 수용하도록 MARINA의 이론적 틀을 확장하여 기존의 독립적인 비편향 압축기 설정 이상으로 방법의 적용 가능성을 확대합니다. 광범위한 실험 결과가 이론적 결과를 뒷받침합니다. [abs|pdf]

[61/108] FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields

Keywords: 3d_scene_stylization, photorealistic_style_transfer, 3d_scene_styles
Abstract: 대규모 3D 신경 방사장을 위한 피드 포워드 포토리얼리스틱 스타일 전송 방법인 FPRF를 소개합니다. FPRF는 멀티뷰 외관의 일관성을 유지하면서 추가 최적화 없이 임의의 여러 스타일 참조 이미지로 대규모 3D 장면을 스타일화합니다. 기존 기술에서는 스타일/씬별로 지루한 최적화가 필요했으며 소규모 3D 씬으로 제한되었습니다. FPRF는 AdaIN의 피드 포워드 스타일라이제이션 메커니즘을 이어받은 스타일 분해 3D 신경 방사 필드를 도입하여 임의의 스타일 레퍼런스 이미지를 지원함으로써 대규모 3D 장면을 효율적으로 스타일라이즈합니다. 또한 FPRF는 시맨틱 대응 매칭과 로컬 AdaIN을 통해 다중 참조 스타일화를 지원하여 3D 장면 스타일에 대한 다양한 사용자 제어 기능을 추가합니다. 또한 FPRF는 시맨틱 매칭과 스타일 전송 프로세스를 3D 공간에서 쿼리된 피처에 직접 적용하여 멀티뷰 일관성을 유지합니다. 실험을 통해 다양한 참조 이미지가 있는 대규모 씬에 대해 FPRF가 실사 수준의 3D 씬 스타일링을 구현하는 것을 시연합니다. 프로젝트 페이지: 이 https URL [abs|pdf]

[62/108] Optimized Ensemble Model Towards Secured Industrial IoT Devices

Keywords: industrial_iot, industrial_iot_iiot, surfaces_industrial_iot
Abstract: 사물인터넷(IoT) 디바이스의 배포가 지속적으로 증가하면서 특히 산업 환경에서 연결에 대한 수요가 증가했습니다. 하지만 이로 인해 잠재적인 공격 표면이 늘어나면서 네트워크 관련 공격도 증가하고 있습니다. 산업용 IoT(IIoT) 디바이스는 다양한 네트워크 관련 공격에 노출되기 쉬우며, 이는 제조 공정은 물론 제조 공장 내 작업자의 안전에 심각한 결과를 초래할 수 있습니다. 최근 몇 년간 공격 탐지를 위해 떠오르고 있는 유망한 솔루션 중 하나는 머신 러닝(ML)입니다. 특히, 앙상블 학습 모델은 기본 ML 모델의 성능을 개선하는 데 큰 가능성을 보여주었습니다. 이에 본 논문에서는 베이지안 최적화-가우시안 프로세스(BO-GP)와 앙상블 트리 기반 학습 모델을 결합하여 IIoT 환경에서 침입 및 공격 탐지의 성능을 향상시키는 프레임워크를 제안합니다. 제안된 프레임워크의 성능은 뉴사우스웨일스 대학교의 사이버 범위 및 IoT 연구소에서 수집한 Windows 10 데이터 세트를 사용하여 평가됩니다. 실험 결과는 표준 트리 및 앙상블 트리 모델과 비교했을 때 탐지 정확도, 정밀도, F-점수가 향상되었음을 보여줍니다. [abs|pdf]

[63/108] InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

Keywords: data_analysis_agents, evaluation_datasets_toolkits, analysis_agents
Abstract: 이 백서에서는 데이터 분석 작업에서 LLM 기반 에이전트를 평가하기 위해 특별히 설계된 최초의 벤치마크인 "InfiAgent-DABench"를 소개합니다. 이 벤치마크에는 55개의 CSV 파일에서 파생된 311개의 데이터 분석 질문으로 구성된 데이터 세트인 DAEval과 데이터 분석 에이전트로서 LLM을 평가하기 위한 에이전트 프레임워크가 포함되어 있습니다. 형식 프롬프트 기법을 채택하여 질문이 자동으로 평가될 수 있는 폐쇄형 질문이 되도록 했습니다. 23개의 최신 LLM에 대한 광범위한 벤치마킹을 통해 데이터 분석 작업에서 현재 직면하고 있는 과제를 파악합니다. 또한 명령어 튜닝 데이터 세트에 대해 훈련된 전문 에이전트인 DAAgent를 개발했습니다. InfiAgent-DABench의 평가 데이터세트와 툴킷은 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[64/108] Diversity-aware clustering: Computational Complexity and Approximation Algorithms

Keywords: diversity_aware_clustering, diversity_aware_median, aware_median_diversity
Abstract: 이 작업에서는 데이터 포인트가 여러 속성과 연관되어 교차 그룹을 형성하는 다양성 인식 클러스터링 문제를 연구합니다. 클러스터링 솔루션은 각 그룹에서 최소한의 클러스터 중심이 선택되도록 하는 동시에 $k$-중앙값, $k$-평균 또는 $k$-공급자가 될 수 있는 클러스터링 목표를 최소화해야 합니다. 다양성을 고려한 $k$-중앙값, 다양성을 고려한 $k$-평균, 다양성을 고려한 $k$-공급자에 대해 각각 $1+ \frac{2}{e}$, $1+\frac{8}{e}$ 및 $3$의 근사 비율을 갖는 매개 변수화된 근사 알고리즘을 제시합니다. 근사 비율은 Gap-ETH와 FPT $\neq$ W[2]를 가정할 때 타이트합니다. 불연속성 그룹이 있는 공정한 $k$-중앙값과 공정한 $k$-평균의 경우, 각각 근사화 비율 $1+\frac{2}{e}$와 $1+\frac{8}{e}$를 갖는 매개변수화된 근사화 알고리즘을 제시합니다. 불연속 시설 그룹을 가진 공정한 $k$-공급자의 경우, 이전에 가장 잘 알려진 근사 비율인 $5$를 개선하여 계수가 $3$인 다항식 시간 근사 알고리즘을 제시합니다. [abs|pdf]

[65/108] Population Graph Cross-Network Node Classification for Autism Detection Across Sample Groups

Keywords: graph_neural_networks, graph_convolutional_networks, graph_neural
Abstract: 그래프 신경망(GNN)은 노드 분류 작업을 위해 이미징 및 비이미징 의료 정보를 결합하는 강력한 도구입니다. 교차 네트워크 노드 분류는 도메인 드리프트를 고려하도록 GNN 기법을 확장하여 라벨이 없는 대상 네트워크에서 노드를 분류할 수 있게 해줍니다. 이 백서에서는 네트워크 간 노드 분류에 대한 강력하고 새로운 접근 방식인 OTGCN을 소개합니다. 이 접근 방식은 그래프 컨볼루션 네트워크의 개념을 활용하여 그래프 데이터 구조에서 인사이트를 활용하는 동시에 최적의 전송에 기반한 전략을 적용하여 서로 다른 데이터 수집 사이트의 샘플 간에 발생할 수 있는 도메인 드리프트를 보정합니다. 이러한 혼합 접근 방식은 다양한 위치와 장비에서 다양한 형태의 데이터가 수집되는 시나리오에 실용적인 솔루션을 제공합니다. 영상 데이터와 비영상 데이터를 혼합하여 자폐 스펙트럼 장애 대상자를 분류할 때 이 접근법의 효과를 입증합니다. [abs|pdf]

[66/108] Standardizing Your Training Process for Human Activity Recognition Models: A Comprehensive Review in the Tunable Factors

Keywords: model_training, activity_recognition_whar, provided_model_training
Abstract: 최근 몇 년 동안 딥러닝은 다양한 영역에서 강력한 도구로 부상하면서 웨어러블 인간 활동 인식(WHAR) 영역에서의 적용과 관련된 연구가 급증하고 있습니다. 이러한 급속한 발전에도 불구하고 실험 모델 훈련에 사용되는 절차의 표준화와 일관성이 부족하여 연구 결과의 재현성과 신뢰성에 영향을 미칠 수 있다는 우려가 제기되고 있습니다. 이 백서에서는 WHAR 분야의 최신 딥러닝 연구를 철저히 검토하고 다양한 연구에서 사용된 훈련 절차와 관련된 정보를 수집합니다. 연구 결과에 따르면 주요 트렌드는 모델 훈련 프로토콜이 제공하는 세부 정보가 부족하다는 것입니다. 또한 설명 누락의 영향을 보다 명확하게 이해하기 위해 통제변수 접근법을 활용하여 조정 가능한 주요 구성 요소(예: 최적화 기법 및 조기 중지 기준)가 HAR 모델의 대상 간 일반화 기능에 미치는 영향을 평가합니다. 분석에서 얻은 인사이트를 바탕으로 WHAR 모델에 맞춘 새로운 통합 훈련 절차를 정의합니다. 5개의 잘 알려진 WHAR 벤치마크 데이터 세트와 3개의 기존 HAR 모델 아키텍처를 사용하여 도출한 실증적 결과는 우리가 제안한 방법론의 효과를 입증합니다. 특히 한 피험자를 제외한 매크로 F1의 교차 검증 성능이 크게 향상되었습니다. [abs|pdf]

[67/108] CADgpt: Harnessing Natural Language Processing for 3D Modelling to Enhance Computer-Aided Design Workflows

Keywords: traditional_cad_software, cad_software_fostering, design_cad_environments
Abstract: 본 백서에서는 컴퓨터 지원 설계(CAD) 환경에서 3D 모델링을 향상시키기 위해 자연어 처리(NLP)와 Rhino3D를 통합한 혁신적인 플러그인, CADgpt를 소개합니다. OpenAI의 GPT-4를 활용하는 CADgpt는 CAD 인터페이스를 간소화하여 사용자, 특히 초보자도 직관적인 자연어 명령을 통해 복잡한 3D 모델링 작업을 수행할 수 있도록 합니다. 이러한 접근 방식은 기존 CAD 소프트웨어와 관련된 학습 곡선을 크게 줄임으로써 보다 포용적이고 매력적인 교육 환경을 조성합니다. 이 백서에서는 Rhino3D 내 통합과 CAD 작업에 대한 GPT-4 기능의 적용을 포함한 CADgpt의 기술 아키텍처에 대해 설명합니다. 다양한 설계 시나리오에서 CADgpt의 효과를 입증하는 사례 연구를 제시하고, 더 많은 학생들이 정교한 설계 도구를 사용할 수 있게 함으로써 설계 교육을 민주화할 수 있는 잠재력을 강조합니다. 또한 디자인 교육에서 창의적 탐구와 개념적 사고를 향상시키는 데 있어 CADgpt의 역할을 강조하면서 교육학 및 커리큘럼 개발에 대한 CADgpt의 함의를 살펴봅니다.
키워드: 자연어 처리, 컴퓨터 지원 설계, 3D 모델링, 디자인 자동화, 디자인 교육, 건축 교육 [abs|pdf]

[68/108] Introducing New Node Prediction in Graph Mining: Predicting All Links from Isolated Nodes with Graph Neural Networks

Keywords: graph_link_prediction, graph_links_prediction, citation_network
Abstract: 이 백서에서는 그래프 마이닝과 소셜 네트워크 분석 분야에서 새로운 노드 예측이라는 새로운 문제를 소개합니다. 좀 더 기술적으로 이 과제는 제로 샷 아웃 오브 그래프 모든 링크 예측으로 분류할 수 있습니다. 이 어려운 문제는 이전에 그래프에서 연결이 끊겼던 고립되고 관찰되지 않은 새로운 노드에서 모든 링크를 예측하는 것을 목표로 합니다. 링크 예측에 대한 기존의 접근 방식(그래프에서 벗어난 몇 개의 링크 예측 포함)과 달리 이 문제에는 두 가지 주요 차이점이 있습니다: (1) 새 노드에는 새로운 예측을 위해 패턴을 추출할 수 있는 기존 링크가 없다는 점, (2) 새 노드의 모든 링크 또는 적어도 그 중 상당 부분을 예측하는 것이 목표라는 점입니다. 실험을 통해 심층 그래프 신경망에 기반한 아키텍처가 서지 인용 네트워크에서 이 까다로운 문제를 해결하는 방법을 학습할 수 있음을 입증했습니다. [abs|pdf]

[69/108] Machine Teaching for Building Modular AI Agents based on Zero-shot Learners

Keywords: zero_shot_learners, conversational_ai_agents, zero_shot_learning
Abstract: 최근 대규모 언어 모델(LLM)의 발전으로 인해 많은 모듈형 AI 에이전트가 탄생했습니다. 이러한 에이전트는 인간 사용자가 설정한 복잡한 작업을 해결하기 위해 제로 샷 학습자로 LLM을 사용하여 하위 작업을 수행합니다. 유니티는 LLM을 제로 샷 학습자로 활용하는 모듈형 AI 에이전트의 견고성과 성능을 향상시킬 수 있는 접근 방식을 제안합니다. 유니티의 반복적 머신 러닝 방식은 인간의 피드백이 제한적인 상황에서 시간이 지남에 따라 AI 에이전트를 효율적으로 학습시킬 수 있는 방법을 제공하여 제로 샷 학습의 품질에 따른 한계를 해결합니다. 유니티는 초기 배포에서 얻은 데이터 추적과 제로 샷 학습자의 출력 또는 주석을 활용하여 금전적 비용과 환경에 미치는 영향을 모두 줄일 수 있는 소규모의 업무별 대체 모델을 훈련할 것을 권장합니다. 머신러닝 프로세스는 인간의 전문 지식을 활용하여 잘못된 주석이 있을 가능성이 높은 예제를 수정합니다. 대화형 AI 에이전트에 공통적으로 사용되는 세 가지 작업에 대한 결과, 작업의 복잡성과 제로 샷 학습자의 성능에 따라 데이터 세트의 20~70%에 대한 감독을 통해 오라클에 가까운 성능을 달성할 수 있는 것으로 나타났습니다. [abs|pdf]

[70/108] The two-way knowledge interaction interface between humans and neural networks

Keywords: reasoning_explanations_humans, explanations_humans_based, explainable_ai_achieved
Abstract: 신경망(NN)은 다양한 분야에서 널리 적용되어 일반적으로 인간을 능가하는 성능을 보이지만, 여전히 해석 가능성이 어느 정도 부족하고 인간은 신경망의 결정 로직을 직관적으로 이해하지 못합니다. 이는 또한 인간과 NN 간의 지식 상호 작용을 방해하여 NN의 결정이 잘못되었을 때 인간이 직접 개입하여 가이드를 제시하지 못하게 합니다. 최근의 설명 가능한 인공지능 연구는 다양한 관점에서 NN의 해석 가능성을 확보했지만, 아직까지 인간과 NN 간의 효과적인 지식 교환 방법을 제공하지 못하고 있습니다. 이 문제를 해결하기 위해 우리는 시각적 개념과 그 관계에 대한 구조화된 표현을 인간과 NN 간의 지식 교환을 위한 '언어'로 사용하는 양방향 인터랙션 인터페이스를 구축했습니다. 구체적으로, NN은 클래스별 구조적 개념 그래프(C-SCG)를 기반으로 인간에게 직관적인 추론 설명을 제공합니다. 반면, 인간은 자신의 사전 지식과 추론 능력을 통해 C-SCG에 존재하는 편향성을 수정할 수 있으며, 이를 통해 NN에게 직접적인 지식 안내를 제공할 수 있습니다. 이러한 상호작용 인터페이스를 기반으로 한 실험적 검증을 통해 NN은 추론 과정에 대한 이해하기 쉬운 설명을 인간에게 제공할 수 있습니다. 또한, 인간의 참여와 사전 지식은 NN의 성능을 향상시키는 데 직접적이고 효과적으로 기여할 수 있습니다. [abs|pdf]

[71/108] Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security

Keywords: intelligent_personal_assistants, personal_assistants_ipas, personal_assistants
Abstract: 개인용 컴퓨팅 기기가 등장한 이래로 지능형 개인 비서(IPA)는 사용자가 효율적으로 정보를 얻고 작업을 수행하도록 돕고 사용자에게 보다 지능적이고 편리하며 풍부한 상호 작용 경험을 제공하는 것을 목표로 연구자와 엔지니어가 집중해온 핵심 기술 중 하나였습니다. 스마트폰과 IoT의 발달로 컴퓨팅 및 센싱 기기가 보편화되면서 IPA의 범위가 크게 확장되었습니다. 하지만 사용자 의도 파악, 작업 계획, 도구 사용, 개인 데이터 관리 등의 기능이 부족해 기존 IPA는 여전히 실용성과 확장성에 한계가 있습니다. 최근 대규모 언어 모델(LLM)로 대표되는 기반 모델의 등장은 IPA의 발전을 위한 새로운 기회를 제공합니다. 강력한 의미 이해 및 추론 기능을 갖춘 LLM은 지능형 에이전트가 복잡한 문제를 자율적으로 해결할 수 있도록 지원합니다. 이 백서에서는 개인 데이터 및 개인 기기와 긴밀하게 통합되어 개인 지원에 사용되는 LLM 기반 에이전트인 퍼스널 LLM 에이전트에 초점을 맞춥니다. 우리는 퍼스널 LLM 에이전트가 다가오는 시대에 최종 사용자를 위한 주요 소프트웨어 패러다임이 될 것으로 예상합니다. 이러한 비전을 실현하기 위한 첫 번째 단계로 개인용 LLM 에이전트의 아키텍처, 기능, 효율성 및 보안을 비롯한 몇 가지 중요한 질문에 대해 논의하고자 합니다. 먼저 개인용 LLM 에이전트 아키텍처의 주요 구성 요소와 설계 선택 사항을 요약한 다음, 도메인 전문가들로부터 수집한 의견을 심층적으로 분석합니다. 그런 다음, 지능적이고 효율적이며 안전한 개인용 LLM 에이전트를 구현하기 위한 몇 가지 주요 과제를 논의하고 이러한 과제를 해결하기 위한 대표적인 솔루션에 대한 종합적인 설문조사를 실시합니다. [abs|pdf]

[72/108] CoLafier: Collaborative Noisy Label Purifier With Local Intrinsic Dimensionality Guidance

Keywords: lid_learning, dimensionality_lid_learning, learning_noisy_labels
Abstract: 심층 신경망(DNN)은 많은 머신 러닝 작업을 발전시켜 왔지만, 실제 데이터의 노이즈 레이블로 인해 성능이 저하되는 경우가 많습니다. 이러한 문제를 해결하기 위해 로컬 고유 차원(LID)을 사용하여 노이즈가 있는 레이블을 학습하는 새로운 접근 방식인 CoLafier를 소개합니다. CoLafier는 두 개의 서브넷으로 구성됩니다: LID-dis와 LID-gen. LID-dis는 전문 분류기입니다. 고유한 방식으로 훈련된 LID-dis는 샘플의 특징과 레이블을 모두 사용하여 레이블을 예측함으로써 향상된 내부 표현을 생성할 수 있습니다. 이 표현을 통해 계산된 LID 점수는 다양한 노이즈 시나리오에서 올바른 레이블과 잘못된 레이블을 효과적으로 구분하는 것으로 나타났습니다. LID-dis와 달리, 일반 분류기 역할을 하는 LID-gen은 샘플의 특징에만 작동합니다. 훈련 중에 CoLafier는 인스턴스당 두 개의 증강 보기를 활용하여 두 서브넷에 모두 정보를 제공합니다. CoLafier는 LID-dis가 생성한 두 보기의 LID 점수를 고려하여 두 서브넷 모두에 대해 적응된 손실 함수에 가중치를 할당합니다. 동시에 분류기 역할을 하는 LID-gen은 의사 레이블을 제안합니다. 그런 다음 LID-dis는 이 의사 레이블을 두 가지 보기와 함께 처리하여 LID 점수를 도출합니다. 마지막으로, 두 서브넷의 예측 차이와 함께 이러한 LID 점수가 라벨 업데이트 결정을 내리는 데 참고됩니다. 이러한 듀얼 뷰 및 듀얼 서브넷 접근 방식은 프레임워크의 전반적인 신뢰성을 향상시킵니다. 훈련이 완료되면 최종 분류 모델로 CoLafier의 LID-gen 서브넷을 배포합니다. CoLafier는 특히 라벨 노이즈가 심한 상황에서 기존 방법을 뛰어넘는 향상된 예측 정확도를 보여줍니다. 자세한 내용은 이 https URL에서 코드를 참조하세요. [abs|pdf]

[73/108] Dimensionality-Aware Outlier Detection: Theoretical and Experimental Analysis

Keywords: dimensionality_aware_outlier, benchmark_outlier_detection, local_outlier
Abstract: 데이터 세트 내에서 내재적 차원의 국부적 변화를 충분히 고려하는 이상값 탐지를 위한 비모수적 방법을 제시합니다. 국소 내재 차원(LID) 이론을 사용하는 '차원 인식' 이상값 탐지 방법인 DAO는 쿼리 포인트와 무작위로 그려진 가까운 이웃을 포함하는 점근적인 국소 기대 밀도 비율의 추정치로 도출됩니다. DAO의 차원 인식 동작은 이론적으로 정당한 방식으로 LID 값의 로컬 추정을 사용하기 때문입니다. 800개 이상의 합성 데이터 세트와 실제 데이터 세트에 대한 포괄적인 실험을 통해 DAO가 널리 사용되고 중요한 세 가지 벤치마크 이상값 탐지 방법보다 훨씬 뛰어난 성능을 발휘한다는 것을 보여주었습니다: 로컬 이상값 계수(LOF), 단순화된 LOF, 그리고 kNN입니다. [abs|pdf]

[74/108] Can ChatGPT Compute Trustworthy Sentiment Scores from Bloomberg Market Wraps?

Keywords: headlines_affect_stock, future_equity_market, affect_stock_market
Abstract: 2010년부터 2023년까지 대형 금융 미디어에 재게시된 블룸버그의 일일 금융 시장 요약 데이터 세트를 사용해 글로벌 뉴스 헤드라인이 주식 시장 움직임에 어떤 영향을 미치는지 ChatGPT와 2단계 프롬프트 접근법을 통해 확인했습니다. 그 결과, 단기 및 중기적으로 감정 점수와 미래 주식 시장 수익률 사이에 통계적으로 유의미한 양의 상관관계가 있으며, 이는 장기적으로는 음의 상관관계로 되돌아가는 것으로 나타났습니다. 여러 주식 시장에서 이러한 상관관계 패턴을 검증한 결과, 피어슨 상관관계와 스피어만 상관관계의 비교를 통해 주식 지역 전반에 걸친 견고성과 비선형성에 대한 복원력을 확인할 수 있었습니다. 마지막으로, 새로운 정보에 대한 반응성과 상관관계 사이의 균형을 맞출 수 있는 최적의 지평선을 추정합니다. [abs|pdf]

[75/108] Self-supervised Learning for Electroencephalogram: A Systematic Survey

Keywords: ssl_eeg_analysis, ssl_eeg_signals, ssl_eeg_research
Abstract: 뇌파(EEG)는 생체 전기 신호를 기록하는 비침습적 기술입니다. 최근 지도형 딥러닝 기법과 뇌파 신호의 통합으로 다양한 뇌파 기반 작업에서 자동 분석이 가능해졌습니다. 하지만 뇌파 신호의 레이블 문제로 인해 뇌파 기반 딥 모델 개발에 제약이 있었습니다. 뇌파 주석을 얻는 것은 어렵기 때문에 도메인 전문가가 수집과 라벨링을 안내해야 하며, 피험자마다 뇌파 신호의 가변성으로 인해 라벨이 크게 달라질 수 있습니다. 이러한 문제를 해결하기 위해 잘 설계된 사전 작업을 통해 라벨이 지정되지 않은 샘플에서 표현을 추출하는 자기 지도 학습(SSL)이 제안되었습니다. 본 논문에서는 효율적인 표현을 위해 SSL 프레임워크를 시간적 뇌파 신호와 통합하는 데 집중하고, 뇌파 신호에 대한 SSL에 대한 체계적인 검토를 제안합니다. 본 논문에서는 1) 자기 지도 학습의 개념과 이론, 그리고 대표적인 SSL 프레임워크를 소개합니다. 2) 기존 뇌파 기반 SSL 프레임워크의 분류, 방법론, 기술 세부 사항 등 뇌파 분석을 위한 SSL에 대한 종합적인 검토를 제공하고, 이들 방법 간의 차이점을 논의합니다. 3) 작업 설명 및 관련 벤치마크 데이터 세트를 포함하여 다양한 다운스트림 작업에 대한 SSL 접근 방식의 적용을 조사합니다. 4) 마지막으로 향후 SSL-EEG 연구의 잠재적 방향에 대해 논의합니다. [abs|pdf]

[76/108] Fully Spiking Actor Network with Intra-layer Connections for Reinforcement Learning

Keywords: spiking_neural_networks, spiking_neurons, spiking_neural
Abstract: 특수 뉴로모픽 하드웨어의 도움으로 스파이크 신경망(SNN)은 에너지 소비를 줄이면서 인공 지능(AI)을 실현할 수 있을 것으로 기대됩니다. SNN을 심층 강화 학습(DRL)과 결합하면 현실적인 제어 작업에 에너지 효율이 높은 유망한 방법을 제공할 수 있습니다. 이 논문에서는 실제 시나리오에서 흔히 볼 수 있는 에이전트가 다차원 결정론적 정책을 학습하여 제어해야 하는 작업에 초점을 맞춥니다. 최근에는 다층 SNN을 훈련하는 데 대리 경사법이 활용되고 있으며, 이를 통해 이 작업에서 SNN이 해당 심층 네트워크와 비슷한 성능을 달성할 수 있습니다. 기존의 대부분의 스파이크 기반 RL 방법은 발화율을 SNN의 출력으로 삼고, 이를 완전연결(FC) 계층을 통해 연속적인 행동 공간(즉, 결정론적 정책)을 표현하도록 변환합니다. 하지만 발동 속도의 소수점 특성으로 인해 부동 소수점 행렬 연산이 FC 계층에 발생하므로 전체 SNN을 뉴로모픽 하드웨어에 직접 배포할 수 없습니다. 부동소수점 행렬 연산 없이 완전한 스파이킹 액터 네트워크를 개발하기 위해 유니티는 곤충에서 발견되는 비스파이킹 인터뉴런에서 영감을 얻어 비스파이킹 뉴런의 막 전압을 사용하여 동작을 표현합니다. 비스파이킹 뉴런 이전에 다양한 차원의 동작을 해독하기 위해 여러 개의 집단 뉴런이 도입됩니다. 각 모집단은 행동의 차원을 해독하는 데 사용되므로 각 모집단의 뉴런은 시간 영역과 공간 영역에서 연결되어야 한다고 주장합니다. 따라서 레이어 내 연결은 표현 능력을 향상시키기 위해 출력 모집단에서 사용됩니다. 마지막으로, 레이어 내 연결이 있는 완전 스파이크 액터 네트워크(ILC-SAN)를 제안합니다. [abs|pdf]

[77/108] LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems

Keywords: automated_code_generation, code_generation_devoid, grammar_checkers_compilers
Abstract: 대규모 언어 모델(LLM)이 자동화된 코드 생성 분야에서 우위를 점하고 있지만, 단점이 없는 것은 아닙니다. 주로 생성된 코드에 대한 실행 보장 부재, 설명 가능성 부족, 필수적이지만 틈새 프로그래밍 언어에 대한 차선책 지원과 관련된 문제들이 있습니다. GPT-4 및 LLaMa2와 같은 최신 LLM은 PLC(프로그래머블 로직 컨트롤러)로 작동하는 ICS(산업용 제어 시스템)에 유효한 프로그램을 생성하지 못합니다. 유니티는 사용자 피드백과 문법 검사기, 컴파일러, SMV 검증기 등 외부 검증 도구를 활용하여 LLM의 생성을 유도하는 사용자 가이드 반복 파이프라인인 LLM4PLC를 제안합니다. 또한 프롬프트 엔지니어링과 LoRA의 생성 및 사용을 통한 모델 미세 조정을 통해 LLM의 생성 잠재력을 더욱 향상시킵니다. 유니티는 피셔테크닉의 제조 테스트베드(MFTB)를 사용하여 이 시스템을 검증함으로써 LLM이 구조적으로 결함이 있는 코드 생성에서 산업 애플리케이션을 위한 검증 가능한 올바른 프로그램 생성으로 어떻게 발전할 수 있는지 보여줍니다. 저희는 GPT-3.5, GPT-4, 코드 라마-7B, 미세 조정된 코드 라마-7B 모델, 코드 라마-34B, 미세 조정된 코드 라마-34B 모델에 대한 전체 테스트 스위트를 실행했습니다. 제안된 파이프라인을 통해 생성 성공률은 47%에서 72%로, 전문가 설문조사 코드 품질은 2.25/10에서 7.75/10으로 개선되었습니다. 유니티는 개방형 연구를 촉진하기 위해 전체 실험 설정, LLM 미세 조정 가중치, 다양한 프로그램의 동영상 데모를 전용 웹페이지에서 공유하고 있습니다. [abs|pdf]

[78/108] Functional Graphical Models: Structure Enables Offline Data-Driven Optimization

Keywords: data_driven_optimization, driven_optimization_formalize, driven_optimization_decomposing
Abstract: 머신러닝 모델은 일반적으로 예측 문제를 해결하도록 훈련되지만, 최적화 문제에도 사용할 수 있습니다. 예를 들어, 단백질 데이터 세트와 해당 단백질의 형광 수준이 주어지면 가능한 한 가장 높은 형광을 가진 새로운 단백질을 최적화하고 싶을 수 있습니다. 이러한 종류의 데이터 기반 최적화(DDO)는 훈련 세트에서 볼 수 있는 최상의 설계보다 더 나은 새로운 설계의 성능을 성공적으로 예측하는 모델이 필요하기 때문에 표준 예측 문제 이상의 다양한 과제를 제시합니다. 기존의 접근 방식이 데이터 세트에서 단순히 가장 좋은 디자인을 선택하는 순진한 접근 방식보다 더 나은 성능을 발휘할 수 있는 시점이 언제인지는 이론적으로 명확하지 않습니다. 이 백서에서는 구조를 통해 표본을 효율적으로 활용하는 데이터 기반 최적화를 가능하게 하는 방법을 연구합니다. 구조의 개념을 공식화하기 위해 함수형 그래픽 모델(FGM)을 도입하고, 이 모델이 원래의 고차원 최적화 문제를 더 작은 하위 문제로 분해하여 원칙적인 데이터 기반 최적화를 제공하는 방법을 이론적으로 보여줍니다. 이를 통해 DDO에 대한 훨씬 더 실용적인 후회 한계를 도출할 수 있으며, 그 결과 오프라인 데이터의 커버리지가 충분하지 않아 순진한 접근 방식이 실패하는 상황에서도 FGM을 사용한 DDO가 거의 최적의 설계를 달성할 수 있음을 시사합니다. 또한 원래 입력 변수 또는 입력의 잠재 변수 표현을 통해 FGM 구조 자체를 추론하는 데이터 기반 최적화 알고리즘을 제시합니다. [abs|pdf]

[79/108] Representation Learning for Wearable-Based Applications in the Case of Missing Data

Keywords: data_imputation_signals, missing_wearable_data, imputation_signals
Abstract: 웨어러블 디바이스는 센서 데이터를 지속적으로 수집하여 수면, 신체 활동, 감정과 같은 개인의 행동을 추론하는 데 사용합니다. 이 분야에 대한 많은 관심과 발전에도 불구하고, 실제 환경에서 멀티모달 센서 데이터를 모델링하는 것은 낮은 데이터 품질과 제한된 데이터 주석으로 인해 여전히 어려운 과제입니다. 이 연구에서는 누락된 웨어러블 데이터를 추정하기 위한 표현 학습을 조사하고 이를 최신 통계적 접근 방식과 비교합니다. 마스킹 비율이 다른 10가지 생리적 및 행동적 신호에 대한 트랜스포머 모델의 성능을 조사합니다. 연구 결과에 따르면 트랜스포머는 더 자주 변하는 신호의 누락 데이터 대입에서 기준선을 능가하지만 단조로운 신호에서는 그렇지 않은 것으로 나타났습니다. 또한 추론 전략과 마스킹 비율이 다운스트림 분류 작업에 미치는 영향도 조사했습니다. 이 연구는 마스킹 기반 자기 지도 학습 작업의 설계 및 개발에 대한 인사이트를 제공하고 웨어러블 기기의 데이터 누락 문제를 해결하기 위해 하이브리드 기반 추론 전략의 채택을 옹호합니다. [abs|pdf]

[80/108] ECGformer: Leveraging transformer for ECG heartbeat arrhythmia classification

Keywords: heartbeat_arrhythmia_classification, arrhythmia_classification, arrhythmia_classification_results
Abstract: 부정맥은 부정맥이라고도 하며 불규칙한 심장 박동을 말합니다. 부정맥에는 심장의 여러 부위에서 발생할 수 있는 다양한 유형의 부정맥이 있으며, 그 결과 심장 박동이 빠르거나 느리거나 불규칙해집니다. 심전도(ECG)는 심장의 불규칙성과 이상을 감지하는 데 사용되는 중요한 진단 도구로, 전문가들은 심장의 전기 신호를 분석하여 복잡한 패턴과 정상과의 편차를 식별할 수 있습니다. 지난 수십 년 동안 심전도 데이터를 기반으로 심장 박동을 분류하는 자동화된 방법을 개발하기 위해 수많은 연구가 진행되었습니다. 최근 몇 년 동안 딥러닝은 특히 시퀀스 처리를 위한 모델 아키텍처인 트랜스포머를 통해 다양한 의료 문제를 해결하는 데 탁월한 역량을 보여줬습니다. 유니티는 트랜스포머를 활용하여 심전도 데이터에 존재하는 다양한 부정맥을 분류하기 위한 ECGformer 모델을 개발했습니다. MIT-BIH 및 PTB 데이터 세트를 사용하여 제안된 접근 방식을 평가했습니다. 심전도 부정맥 분류 결과는 제안한 방법이 매우 효과적이라는 것을 보여줍니다. [abs|pdf]

[81/108] Enhancing Essay Scoring with Adversarial Weights Perturbation and Metric-specific AttentionPooling

Keywords: automated_essay_scoring, language_model_improving, learning_tasks_ells
Abstract: 이 연구의 목적은 머신러닝, 자연어 처리, 교육 데이터 분석을 아우르는 데이터 과학 기술을 활용하여 영어 학습자를 위해 설계된 자동화된 피드백 도구를 개선하는 것입니다. 자동 에세이 채점(AES) 연구는 에세이를 평가하는 데 있어 진전을 이루었지만, 언어 발달에 있어 영어 학습자(ELL)의 특정 요구 사항을 간과하는 경우가 많습니다. 이 연구에서는 AES 내에서 ELL의 작문 능력 평가를 향상시키기 위해 BERT 관련 기술을 적용하는 방법을 살펴봅니다.
ELL의 특정 요구 사항을 해결하기 위해 자동화된 피드백 도구를 개선하기 위해 최첨단 신경 언어 모델인 DeBERTa를 사용할 것을 제안합니다. 자가 지도 학습을 통해 대규모 텍스트 코퍼스를 사전 학습한 DeBERTa는 다양한 자연어 이해 작업에 적용할 수 있는 보편적인 언어 표현을 학습합니다. 이 모델에는 경쟁에서 각 레이블에 대한 적대적 가중치 섭동(AWP)과 메트릭별 주의 풀링(6가지 AP)을 통한 적대적 훈련 등 여러 가지 혁신적인 기술이 통합되어 있습니다.
이 연구의 주요 초점은 하이퍼파라미터, 특히 적대적 학습률이 모델 성능에 미치는 영향을 조사하는 것입니다. 6AP와 AWP의 영향을 포함하여 하이퍼파라미터 조정 프로세스를 미세 조정함으로써 결과 모델은 언어 능력에 대한 보다 정확한 평가를 제공하고 ELL을 위한 맞춤형 학습 과제를 지원할 수 있습니다. 이 작업은 영어 능력을 향상시키고 교육 여정을 촉진함으로써 ELL에게 상당한 혜택을 줄 수 있는 잠재력을 가지고 있습니다. [abs|pdf]

[82/108] TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep Neural Networks

Keywords: detects_backdoored_networks, backdoored_networks_accurately, backdoor_detection
Abstract: 딥 뉴럴 네트워크와 이를 훈련하는 데 사용되는 데이터 세트가 점점 더 커짐에 따라, 이를 연구 및 상업 프로젝트에 통합하기 위한 기본 접근 방식은 사전 훈련된 모델을 다운로드하여 미세 조정하는 것입니다. 그러나 이러한 모델은 출처가 불확실할 수 있으며, 입력(트리거)을 조금만 변경해도 모델이 잘못된 출력(예: 오분류)을 생성할 수 있는 트로이목마나 백도어와 같은 숨겨진 악성 동작을 포함할 가능성이 있습니다. 이 백서에서는 네트워크 활성화에 적용되는 두 가지 텐서 분해 방법을 사용하는 백도어 탐지에 대한 새로운 접근 방식을 소개합니다. 이 방법은 여러 모델을 동시에 분석할 수 있고, 다양한 네트워크 아키텍처에서 작동하며, 네트워크 동작을 변경하는 데 사용되는 트리거의 특성을 가정하지 않고, 계산적으로 효율적이라는 점 등 기존 탐지 방법과 비교하여 여러 가지 장점이 있습니다. 탐지 파이프라인에 대한 자세한 설명과 함께 MNIST 숫자 데이터 세트, CIFAR-10 데이터 세트, NIST의 트로이목마 경진대회에서 나온 두 가지 어려운 데이터 세트에 대해 훈련된 모델에 대한 결과를 제공합니다. 이러한 결과는 저희의 방법이 현재의 최신 방법보다 백도어 네트워크를 더 정확하고 효율적으로 탐지한다는 것을 보여줍니다. [abs|pdf]

[83/108] TRLS: A Time Series Representation Learning Framework via Spectrogram for Medical Signal Processing

Keywords: medical_signal_representation, medical_signal_classification, medical_signal_datasets
Abstract: 의료 신호 처리를 위해 레이블이 지정되지 않은 시계열의 표현 학습 프레임워크가 제안되었습니다. 기존 연구들에서 많은 발전이 있었음에도 불구하고, 시계열에 대해 추출된 표현은 여전히 일반화가 잘 되지 않는 것을 관찰할 수 있습니다. 본 논문에서는 스펙트로그램을 통한 시계열(의료 신호) 표현 학습 프레임워크(TRLS)를 제시하여 보다 유용한 표현을 얻을 수 있도록 합니다. 우리는 입력된 시간 영역의 의료 신호를 스펙트로그램으로 변환하고, 증강된 스펙트로그램에서 보다 강력한 다중 스케일 표현을 캡처하기 위해 시간 주파수 RNN(TFRNN)이라는 시간 주파수 인코더를 설계합니다. 유니티의 TRLS는 두 가지 유형의 서로 다른 데이터 증강이 적용된 스펙트로그램을 입력으로 받아 양성 데이터 간의 유사성을 극대화하여 음성 샘플을 설계하는 문제를 효과적으로 피할 수 있습니다. 의료 신호 분류에 초점을 맞춘 4개의 실제 의료 신호 데이터 세트를 평가한 결과, TRLS가 기존 프레임워크보다 우수한 것으로 나타났습니다. [abs|pdf]

[84/108] CoSS: Co-optimizing Sensor and Sampling Rate for Data-Efficient AI in Human Activity Recognition

Keywords: sampling_rate_training, sensor_sampling_rate, har_benchmark_datasets
Abstract: 최근 인공 신경망의 발전으로 여러 개의 시계열 센서를 사용하여 사람의 활동 인식을 크게 개선했습니다. 고주파 샘플링 속도를 가진 다수의 센서를 사용하면 일반적으로 결과가 개선되지만, 데이터 비효율성과 불필요한 ANN 확장을 초래하여 엣지 디바이스에 실제로 배포하는 데 어려움이 있습니다. 이러한 문제를 해결하기 위해 유니티는 센서 모달리티와 샘플링 속도를 동시에 최적화하여 HAR 작업에서 데이터를 효율적으로 활용할 수 있는 실용적인 프레임워크를 도입했습니다. 이 접근 방식의 핵심은 훈련 단계에서 각 센서 양식과 샘플링 속도의 중요성을 평가하는 '가중치 점수'라고 하는 설계된 훈련 가능한 매개변수입니다. 이 점수는 센서 양식과 샘플링 속도 선택을 안내합니다. 이 가지치기 방법을 통해 사용자는 가중치 점수 순위에 따라 센서 양식과 샘플링 속도를 선택함으로써 계산 예산과 성능 간의 균형을 맞출 수 있습니다. 세 가지 공개 HAR 벤치마크 데이터 세트를 사용하여 센서 모달리티와 샘플링 속도 선택을 최적화하는 프레임워크의 효과를 테스트했습니다. 그 결과, CoSS를 통해 선택한 센서와 샘플링 속도 조합은 모든 센서에서 가장 높은 샘플링 속도를 사용하는 구성과 유사한 분류 성능을 달성하면서도 하드웨어 비용은 절감할 수 있는 것으로 나타났습니다. [abs|pdf]

[85/108] Machine Learning (ML)-assisted Beam Management in millimeter (mm)Wave Distributed Multiple Input Multiple Output (D-MIMO) systems

Keywords: inference_best_beam, networks_gan_demonstrating, networks_gan
Abstract: 빔 관리(BM) 프로토콜은 네트워크 라디오 노드와 UE(사용자 장비) 간의 연결을 설정하고 유지하는 데 매우 중요합니다. 분산 다중 입력 다중 출력 시스템(D-MIMO)에서는 중앙 처리 장치(CPU)에 의해 조정되는 다수의 액세스 포인트(AP)가 다수의 UE에 서비스를 제공합니다. 밀리미터파 주파수에서는 다운링크(DL) 기준 신호로 사운딩해야 하는 빔의 수가 많기 때문에 UE에 서비스를 제공할 최적의 AP와 빔을 찾는 문제가 어렵습니다. 이 백서의 목적은 빔의 일부만 사운딩하고 AI/ML을 활용하여 최적의 빔/AP를 안정적으로 추론할 수 있는지 여부를 조사하는 것입니다. 이를 위해 랜덤 포레스트(RF), 미스포레스트(MF), 조건부 생성적 적대 신경망(c-GAN)을 사용하여 추론의 성능 이점을 입증합니다. [abs|pdf]

[86/108] ANALYTiC: Understanding Decision Boundaries and Dimensionality Reduction in Machine Learning

Keywords: annotations_trajectories_learning, annotations_trajectories, trajectory_labeling_study
Abstract: 소형 휴대용 기기의 등장으로 추적된 움직임 데이터 풀이 생겨났고, 이를 활용해 트렌드와 패턴을 추론할 수 있게 되었습니다. 이렇게 동물, 사람, 차량 등의 다양한 궤적 데이터가 넘쳐나면서 라벨링된 데이터 집합을 학습하여 궤적에서 의미적 주석을 추론하는 능동적 학습을 사용하는 ANALYTiC의 아이디어가 탄생했습니다. 이 연구에서는 이미 존재하는 액티브 러닝과 함께 차원 축소 및 결정 경계를 적용하여 데이터의 패턴과 클러스터를 강조하는 방법을 살펴봅니다. 이미 레이블이 지정된 데이터를 활용하고 해석 가능성을 높이기 위해 세 가지 다른 궤적 데이터 세트로 이러한 기능을 테스트합니다. 실험 분석은 궤적 라벨링의 효율성과 정확성을 개선하는 데 있어 이러한 결합된 방법론의 잠재력을 보여줍니다. 이 연구는 움직임 데이터 분석의 맥락에서 머신러닝과 시각적 방법의 광범위한 통합을 위한 디딤돌 역할을 합니다. [abs|pdf]

[87/108] Wavelet Dynamic Selection Network for Inertial Sensor Signal Enhancement

Keywords: wavelet_dynamic_selection, improving_selection_wavelet, propose_wavelet_dynamic
Abstract: 관성 센서는 자세 및 동작 감지 부품으로 다양한 휴대용 기기에 널리 사용되고 있습니다. 하지만 관성 센서의 심각한 오류로 인해 궤적 복구와 의미 인식 등의 기능에 제약이 있습니다. 주류 신호 처리 방법인 웨이브렛은 풍부하고 다양한 웨이브렛 기저 함수로 인해 신호의 수학적 현미경으로 환영받고 있습니다. 그러나 관성 센서의 복잡한 노이즈 유형과 적용 시나리오로 인해 웨이블릿 기저를 선택하는 것이 쉽지 않습니다. 이를 위해 본 논문에서는 가변 관성 신호에 적합한 웨이브렛 기저를 지능적으로 선택하는 웨이브렛 동적 선택 네트워크(WDSNet)를 제안합니다. 또한 기존의 딥러닝 아키텍처는 입력 데이터로부터 특징을 추출하는 데는 탁월하지만, 카테고리 인식 능력을 향상시켜 웨이블릿 기저의 선택을 개선하는 데 필수적인 목표 카테고리의 특성을 학습하는 데는 소홀했습니다. 따라서 본 논문에서는 학습 가능한 파라미터를 늘리지 않고도 네트워크가 카테고리 특징을 추출하고 표현할 수 있도록 하는 카테고리 표현 메커니즘(CRM)을 제안합니다. 또한 CRM은 일반적인 완전 연결 네트워크를 범주 표현으로 변환하여 멀리 떨어져 있는 사소한 분류 레이블보다 특징 추출기에 더 면밀한 감독을 제공합니다. 네트워크에 해석 가능성을 부여하고 이를 통해 특징 추출기를 감독하는 이 과정을 특징 감독 메커니즘이라고 하며, 이 논문에서는 그 효과를 실험적 및 이론적으로 입증합니다. 강화된 관성 신호는 궤적 재구성과 같이 원래 신호로는 불가능한 작업을 수행할 수 있습니다. 정량적 결과와 시각적 결과 모두 WDSNet이 기존 방법보다 성능이 뛰어나다는 것을 보여줍니다. 놀랍게도 WDSNet은 약한 지도 방법으로서 비교 대상인 모든 완전 지도 방법의 최첨단 성능을 달성합니다. [abs|pdf]

[88/108] Spatial-Related Sensors Matters: 3D Human Motion Reconstruction Assisted with Textual Semantics

Keywords: wearable_devices_motion, sensors_supervised_text, temporal_feature_alignment
Abstract: 모션 재구성을 위해 웨어러블 디바이스를 활용하는 것이 경제적이고 실행 가능한 기술로 부상하고 있습니다. 특정 방법론은 인체에 희박한 관성 측정 장치(IMU)를 사용하고 데이터 기반 전략을 활용하여 사람의 포즈를 모델링합니다. 그러나 희소 IMU 데이터만을 기반으로 동작을 재구성하는 것은 본질적으로 모호성을 내포하고 있으며, 이는 서로 다른 포즈에 해당하는 수많은 동일한 IMU 판독값의 결과입니다. 이 백서에서는 특정 동작을 설명하는 텍스트로 감독되는 여러 센서의 공간적 중요성에 대해 살펴봅니다. 특히 불확실성을 도입하여 각 IMU에 가중치를 부여한 특징을 도출합니다. 또한 계층적 시간 변환기(HTT)를 설계하고 대조 학습을 적용하여 텍스트 의미론과 센서 데이터의 정확한 시간적 및 특징적 정렬을 달성합니다. 실험 결과에 따르면 우리가 제안한 접근 방식은 기존 방식에 비해 여러 지표에서 상당한 개선을 달성했습니다. 특히, 텍스트 감독을 통해 앉거나 서 있는 것과 같은 모호한 동작을 구분할 뿐만 아니라 더 정확하고 자연스러운 동작을 생성합니다. [abs|pdf]

[89/108] Image-based Data Representations of Time Series: A Comparative Analysis in EEG Artifact Detection

Keywords: eeg_data_testbed, classification_eeg_data, classification_eeg
Abstract: 대체 데이터 표현은 다운스트림 모델의 성능을 강화하는 강력한 도구입니다. 하지만 머신러닝 툴박스에는 이러한 표현 방식이 너무 많고, 각 표현 방법의 적합성에 대한 비교 이해가 부족합니다.
이 백서에서는 시계열 데이터의 이미지 기반 데이터 표현을 프로파일링하기 위한 테스트베드로서 EEG 데이터 내 아티팩트 감지 및 분류를 제안합니다. 그런 다음 일반적으로 사용되는 6가지 표현 방법 각각에 대해 11개의 인기 있는 딥러닝 아키텍처를 평가합니다.
표현 방식은 편향과 분산 사이의 절충안 내에서 선택해야 하지만, 특정 표현 방식은 데이터의 신호 대 잡음비를 높이는 특징을 강조하는 데 실질적으로 더 효과적이라는 사실을 발견했습니다. 이러한 맥락에서 향후 비교 분석이 가능하도록 뇌파 데이터에 대한 결과를 제시하고 테스트 프레임워크를 오픈소스로 공개합니다. [abs|pdf]

[90/108] RFRL Gym: A Reinforcement Learning Testbed for Cognitive Radio Applications

Keywords: radio_frequency_reinforcement, learning_wireless_communications, reinforcement_learning_rfrl
Abstract: 무선 주파수 강화 학습(RFRL)은 차세대 무선 통신 시스템, 특히 6G 및 차세대 군 통신에 널리 적용될 수 있는 기술이 될 것으로 예상됩니다. 이러한 점을 감안하여 저희는 스펙트럼 센싱을 활용하는 RFRL 기술의 개발을 촉진하기 위한 도구를 개발하는 데 중점을 두고 연구하고 있습니다. 특히 이 도구는 두 가지 인지 무선 애플리케이션, 특히 동적 스펙트럼 액세스와 재밍을 다루기 위해 설계되었습니다. 이러한 애플리케이션을 위한 강화 학습(RL) 알고리즘을 훈련하고 테스트하기 위해서는 에이전트가 무선 주파수(RF) 스펙트럼 내에서 직면하게 될 조건을 시뮬레이션할 수 있는 시뮬레이션 환경이 필요합니다. 이 백서에서는 이러한 환경을 개발했으며, 이를 RFRL Gym이라고 합니다. RFRL Gym을 통해 사용자는 자신만의 시나리오를 설계하여 RL 에이전트가 RF 스펙트럼 내에서 마주칠 수 있는 상황을 모델링하고 다양한 스펙트럼 감지 기술을 실험할 수 있습니다. 또한 RFRL Gym은 OpenAI Gym의 하위 클래스로, 타사 ML/RL 라이브러리를 사용할 수 있습니다. 유니티는 이 코드베이스를 오픈소스화하여 다른 연구자들이 RFRL Gym을 활용하여 자체 시나리오와 RL 알고리즘을 테스트하고, 궁극적으로 무선 통신 영역의 RL 연구 발전에 기여할 수 있도록 할 계획입니다. 이 백서에서는 Gym의 구성 요소, 예시 시나리오의 결과, 향후 추가 계획에 대해 자세히 설명합니다.
색인 용어 - 기계 학습, 강화 학습, 무선 통신, 동적 스펙트럼 액세스, OpenAI 체육관 [abs|pdf]

[91/108] The Key Artificial Intelligence Technologies in Early Childhood Education: A Review

Keywords: ai_educational_technology, ai_educational, ai_technologies_ece
Abstract: 인공지능(AI) 기술은 유아 교육(ECE)을 비롯한 다양한 영역에 적용되고 있습니다. AI 교육 기술의 통합은 최근 ECE에서 중요한 트렌드입니다. 현재 유아교육 분야에서 인공지능에 대한 연구는 점점 더 많아지고 있습니다. 하지만 아직까지 ECE에서의 AI 연구에 대해 논의한 조사 논문은 부족합니다. 본 논문에서는 ECE 분야의 주요 AI 기술에 대해 역사적 관점을 제공하고, 대표적인 연구를 요약하고, 미해결 과제를 개괄하며, 상세한 서지 분석을 통해 동향과 과제를 논의하고, 향후 연구를 위한 통찰력 있는 제언을 제공하는 최신의 심층적인 개요를 제공합니다. 특히 자폐 스펙트럼 장애 아동의 사회적 상호작용을 개선하는 등 인공지능 기반 로봇과 인공지능 기술을 교육에 적용한 연구를 중심으로 논의합니다. 본 논문은 ECE 분야 AI 입문자를 위한 입문 자료와 고급 사용자를 위한 보충 자료로 적합한 최신의 심층 조사를 제공하는 데 크게 기여하고 있습니다. [abs|pdf]

[92/108] Vector Field Oriented Diffusion Model for Crystal Material Generation

Keywords: discovering_crystal_structures, inception_distance_based, prediction_inceptionv3
Abstract: 특정 화학적 특성을 가진 결정 구조를 발견하는 것은 재료 과학에서 점점 더 중요한 초점이 되고 있습니다. 그러나 현재의 모델은 원자 위치나 화학 성분만을 고려하기 때문에 새로운 결정 격자를 생성하는 데 한계가 있습니다. 이 문제를 해결하기 위해 저희는 기하학적으로 등가적인 GNN을 활용하여 원자 위치와 결정 격자를 함께 고려하는 확률론적 확산 모델을 제안합니다. 이 모델의 효과를 평가하기 위해 컴퓨터 비전에 사용되는 InceptionV3가 아닌, 프레셰트 시작 거리에서 영감을 얻은 차세대 메트릭을 도입하여 GNN 에너지 예측을 기반으로 합니다. 이 새로운 지표는 구조의 타당성을 평가하는 유효성과 같이 일반적으로 사용되는 지표 외에도 모델의 기능을 보다 포괄적으로 평가할 수 있습니다. 기존 벤치마크에 대한 실험을 통해 확산 모델의 중요성을 확인할 수 있습니다. 또한, 우리의 방법이 의미 있는 표현을 효과적으로 학습할 수 있음을 보여줍니다. [abs|pdf]

[93/108] Domain Similarity-Perceived Label Assignment for Domain Generalized Underwater Object Detection

Keywords: domain_adversarial_learning, domain_adversarial, underwater_cross_domain
Abstract: 수역의 고유한 특성과 빛의 변동으로 인해 수중 환경의 여러 층과 지역 간에 큰 차이가 발생합니다. 테스트 세트가 훈련 세트와 다른 해양 지역에서 수집되면 도메인 이동 문제가 발생하여 모델의 일반화 능력이 크게 저하됩니다. 이전에는 이러한 문제를 해결하기 위해 도메인 적대적 학습(DAL) 훈련 전략이 활용되었습니다. 그러나 DAL은 동일한 도메인에 있는 샘플 간에 차이가 없다는 것을 의미하는 수동으로 지정된 단일 도메인 레이블에 크게 의존합니다. 이러한 가정은 DAL의 불안정성을 초래합니다. 이 백서에서는 도메인 유사도 인식 라벨 할당(DSP)의 개념을 소개합니다. 각 이미지의 도메인 라벨은 지정된 도메인과의 유사성으로 간주됩니다. 도메인별 데이터 증강 기법을 통해 수중 교차 도메인 객체 탐지 벤치마크인 S-UODAC2020에서 최첨단 결과를 달성했습니다. 또한 도시 풍경 데이터 세트에서 이 방법의 효과를 검증했습니다. [abs|pdf]

[94/108] Collaborative Learning with Artificial Intelligence Speakers (CLAIS): Pre-Service Elementary Science Teachers' Responses to the Prototype

Keywords: collaborative_learning_ai, instructional_called_collaborative, called_collaborative_learning
Abstract: 이 연구는 AI가 학습을 위한 도구로서뿐만 아니라 인간이 협업 학습(CL)에 참여하여 과학 교실의 인식 관행을 변화시킬 수 있는 지능형 에이전트로서 기능할 수 있음을 입증하는 것을 목표로 합니다. 우리는 분석, 설계, 개발, 구현 및 평가(ADDIE) 모델에 따른 설계 및 개발 연구 접근법을 채택하여 AI 스피커를 활용한 협업 학습(CLAIS)이라는 유형의 교육 시스템을 프로토타입으로 제작했습니다. CLAIS 시스템은 3~4명의 인간 학습자가 AI 스피커에 참여하여 소규모 그룹을 구성하고, 인간과 AI가 직소 학습 과정에 참여하는 동료로 간주되도록 설계되었습니다. 개발은 인공지능 스피커 플랫폼 누구(NUGU)를 활용해 진행되었습니다. 예비 초등 과학교사 15명을 대상으로 한 과학교육 수업에서 클레이 시스템을 성공적으로 구현했습니다. 참가자들은 교사, 학습자, 동료 교사, 사용자로서 혼합 방법 설문조사를 통해 CLAIS 시스템을 평가했습니다. 정량적 데이터에 따르면 참가자들의 지능적-기술적, 교육적, 콘텐츠적 지식이 CLAIS 세션 후 크게 향상되었고, CLAIS 학습 경험에 대한 인식이 긍정적이었으며, AI 스피커와 인간 동료에 대한 동료 평가가 달랐고, 사용자 경험은 양가적이었다고 답했습니다. 정성적 데이터에 따르면 참가자들은 음성 인식 성능과 반응 지연과 같은 기술적 문제를 인정하면서도 과학 교실의 인식 과정의 미래 변화를 예상했습니다. 이 연구는 실제 교실 환경에서 지식 공동 구성을 위한 인간-AI 협업의 잠재력을 강조하고, AI가 교실에서 인식론적 관행의 미래 환경을 어떻게 형성할 수 있는지를 예시합니다. [abs|pdf]

[95/108] Automated Assessment of Students' Code Comprehension using LLMs

Keywords: compare_students_explanations, answers_programming, short_answers_programming
Abstract: 학생들의 답안, 특히 자연어 답안을 평가하는 것은 교육 분야에서 매우 중요한 과제입니다. 대규모 언어 모델(LLM)과 같은 트랜스포머 기반 모델을 비롯한 기계 학습의 발전으로 다양한 자연어 과제에서 상당한 진전이 있었습니다. 그럼에도 불구하고 다양한 작업에서 LLM을 평가하는 추세에 비해 자동화된 답안 평가 영역에서 LLM을 평가하는 것은 큰 주목을 받지 못했습니다. 이러한 격차를 해소하기 위해 우리는 학생의 짧은 주관식 답안 자동 평가에 LLM을 사용할 수 있는 잠재력을 탐구합니다. 특히 컴퓨터 프로그램을 한 줄씩 설명하는 상황에서 학생의 설명과 전문가의 설명을 비교하기 위해 LLM을 사용합니다.
비교를 위해 컴퓨터 코드에 대한 학생 설명의 정확성을 평가하는 맥락에서 대규모 언어 모델(LLM)과 인코더 기반 의미적 텍스트 유사성(STS) 모델을 모두 평가합니다. 연구 결과에 따르면 LLM은 프로그래밍 영역에서 학생들의 단답형 답안을 평가할 때 몇 개의 문장과 연쇄적 사고 설정으로 프롬프트할 때 미세 조정된 인코더 기반 모델과 비슷한 성능을 보였습니다. [abs|pdf]

[96/108] GeoAI in Social Science

Keywords: geoai_research, geoai_research_methods, intelligence_ai_geospatial
Abstract: 지리공간 인공 지능, 즉 지오AI는 인공지능(AI), 지리공간 빅데이터, 대규모 컴퓨팅 성능을 활용하여 고도의 자동화와 지능으로 문제를 해결하는 흥미진진한 새 영역입니다. 이 백서에서는 사회과학 연구에서 AI의 진전을 검토하고, 중요한 데이터와 지식 격차를 메우기 위해 GeoAI를 사용하는 데 있어 중요한 진전을 강조합니다. 또한 데이터 사일로를 허물고, GeoAI 연구 방법 간의 융합을 가속화하며, 지리공간적 이점을 뛰어넘어 GeoAI를 발전시키는 것의 중요성에 대해 논의합니다. [abs|pdf]

[97/108] SRNI-CAR: A comprehensive dataset for analyzing the Chinese automotive market

Keywords: automotive_industry_dataset, chinese_automotive_market, chinese_automotive_industry
Abstract: 자동차 산업은 세계 경제에서 중요한 역할을 담당하고 있으며, 특히 중국 자동차 시장은 그 규모와 영향력이 막대하기 때문에 더욱 중요합니다. 그러나 기존의 자동차 부문 데이터 세트는 그 범위가 제한되어 있어 점점 더 다양해지는 변수에 대한 수요를 적절히 고려하지 못하고 있습니다. 이 백서는 2016년부터 2022년까지 판매 데이터, 온라인 리뷰, 중국 자동차 산업과 관련된 풍부한 정보를 아우르는 포괄적인 데이터 세트를 소개함으로써 이러한 데이터 격차를 해소하는 것을 목표로 합니다. 이 데이터 세트는 가용 데이터를 크게 확장하는 귀중한 리소스 역할을 합니다. 예측 정확도 향상, 비즈니스 적용 범위 확대, 정책 개발 및 규제에 대한 정보 제공, 자동차 분야의 학술 연구 발전 등 다양한 측면에서 그 영향력이 확대되고 있습니다. 비즈니스 및 학술적 맥락에서 데이터 세트의 잠재적 활용 가능성을 설명하기 위해 두 가지 활용 사례를 제시합니다. 크리테오가 개발한 데이터 세트는 중국 자동차 시장에 대한 이해를 높이고 전 세계 연구자, 정책 입안자 및 업계 이해관계자에게 유용한 도구를 제공합니다. [abs|pdf]

[98/108] AT-2FF: Adaptive Type-2 Fuzzy Filter for De-noising Images Corrupted with Salt-and-Pepper

Keywords: denoised_images, pixels_filter, noise_preserving_image
Abstract: 노이즈는 디지털 이미지에 필연적으로 존재하며, 이는 시각적 이미지의 품질 저하로 이어집니다. 따라서 이미지의 특징(가장자리, 모서리 등)을 보존하면서 노이즈를 줄이기 위한 적절한 필터링 방법이 필요합니다. 본 논문에서는 SAP 노이즈를 제거하기 위해 적응형 임계값을 갖는 효율적인 타입-2 퍼지 가중 평균 필터를 제시합니다. 이 필터는 두 가지 주요 단계로 구성됩니다: 첫 번째 단계에서는 처리된 픽셀의 M-ALD를 유형-2 퍼지 식별자의 상한 및 하한 MF와 비교하여 적응형 임계값에 따라 이미지의 손상 정도를 경미, 중간, 심하게 손상된 것으로 분류합니다. 두 번째 단계에서는 필터 창에서 손상되지 않은 픽셀의 평균 및 분산과 함께 GMF를 사용하여 적절한 가중치를 계산하여 손상된 픽셀을 제거합니다. 시뮬레이션 결과는 노이즈 제거된 이미지가 다른 필터링 방법에 비해 이미지 특징, 즉 가장자리, 모서리 및 기타 선명한 구조를 보존한다는 것을 생생하게 보여줍니다. [abs|pdf]

[99/108] Efficient LLM inference solution on Intel GPU

Keywords: effective_device_memory, memory_effective_device, llms_intel
Abstract: 트랜스포머 기반의 대규모 언어 모델(LLM)은 여러 분야에서 널리 사용되고 있으며, 실제 애플리케이션에서도 LLM 추론의 효율성이 화두가 되고 있습니다. 하지만 일반적으로 LLM은 대규모 연산을 통해 모델 구조가 복잡하게 설계되고 자동 회귀 모드로 추론을 수행하기 때문에 높은 효율을 가진 시스템을 설계하는 것이 쉽지 않은 과제입니다.
본 논문에서는 지연 시간이 짧고 처리량이 높은 효율적인 LLM 추론 솔루션을 제안합니다. 먼저, 데이터 이동과 요소별 연산을 융합하여 LLM 디코더 계층을 단순화함으로써 메모리 액세스 빈도를 줄이고 시스템 지연 시간을 낮춥니다. 또한 효과적인 디바이스 메모리 관리를 위해 요청 및 응답 토큰의 키/값을 별도의 물리적 메모리에 보관하는 세그먼트 KV 캐시 정책을 제안하여 런타임 배치 크기를 확대하고 시스템 처리량을 개선합니다. 세그먼트 KV 캐시 솔루션에 기반한 퓨전 정책에 맞게 커스터마이징된 Scaled-Dot-Product-Attention 커널이 설계되었습니다. 유니티는 인텔 GPU에서 LLM 추론 솔루션을 구현하고 이를 공개적으로 게시합니다. 제안된 솔루션은 표준 허깅페이스 구현과 비교했을 때, 인텔 GPU에서 일부 인기 있는 LLM에 대해 최대 7배 낮은 토큰 지연 시간과 27배 높은 처리량을 달성합니다. [abs|pdf]

[100/108] From Good to Great: Improving Math Reasoning with Tool-Augmented Interleaf Prompting

Keywords: reasoning_tool_augmented, math_reasoning_tool, reasoning_tool
Abstract: 이 백서에서는 복잡한 수학적 추론 작업을 처리하는 데 있어 대규모 언어 모델(LLM)과 도구 증강 LLM의 성능을 조사합니다. LLM과 도구 증강 LLM의 강점을 결합한 프레임워크인 IMP-TIP: 도구 증강 인터리프 프롬프트를 통한 수학 추론 향상에 대해 소개합니다. IMP-TIP은 '좋은 것에서 위대한 것'이라는 개념을 따르며, 동일한 수학 문제에 대해 LLM과 툴-증강형 LLM 모두에서 여러 가지 잠재적 솔루션을 수집한 다음, 툴-증강형 인터리프 프롬프트를 통해 이러한 솔루션을 교차 확인한 후 가장 정확한 답을 선택하거나 다시 생성합니다. 이 프레임워크는 셀프 프롬프트와 툴 증강 인터리프 프롬프트(TIP)라는 두 가지 주요 측면을 통합합니다. 전자는 LLM이 도구 사용과 관련된 초기 프롬프트를 자율적으로 다듬고 개선할 수 있도록 하며, 후자는 문제를 동적으로 분석하고, 잠재적 해결책을 교차 확인하고, 이전의 추론 힌트를 인터리브 방식으로 수정하여 최종 답을 도출할 수 있도록 합니다. 실험 분석에 따르면 IMP-TIP은 수학 추론 과제에서 정확도와 추론의 다양성 측면에서 기존 LLM 및 도구 증강 LLM보다 향상된 수학적 역량을 발휘하는 것으로 나타났습니다. 예를 들어, IMP-TIP은 GSM8K-Hard에서 도구 증강 ChatGPT를 56.0%에서 65.2%로 향상시킬 수 있습니다. [abs|pdf]

[101/108] Classical Sorting Algorithms as a Model of Morphogenesis: self-sorting arrays reveal unexpected competencies in a minimal model of basal intelligence

Keywords: sort_reliably_robustly, sorting_algorithms, autonomous_elements_sort
Abstract: 새롭게 떠오르는 다양성 지능 분야는 다양한 구현에서 행동 역량의 공통점을 식별하고, 공식화하며, 이해하고자 합니다. 특히 흥미로운 것은 언뜻 보기에 그러한 역량을 구현하기에 충분히 복잡해 보이지 않는 단순한 시스템에서 기억력, 의사 결정 또는 문제 해결의 예상치 못한 예를 제공하는 시스템입니다. 우리는 이러한 기능에 대한 최소한의 요구 사항을 이해하고, 비전통적인 기판에서 기본적인 형태의 지능을 인식하고 예측하는 방법을 배우는 데 도움이 되는 도구를 개발하고자 합니다. 여기서는 수십 년 동안 연구되어 온 짧은 코드 조각인 고전적인 정렬 알고리즘의 동작에 새로운 분석을 적용합니다. 생물학적 형태 형성과 그 능력의 모델로서 이러한 정렬 알고리즘을 연구하기 위해, 우리는 하향식 제어(숫자 배열 내의 각 요소가 최소한의 권한을 행사하고 아래에서 위로 정렬 정책을 구현하는 방법)와 완전히 신뢰할 수 있는 하드웨어(일부 요소가 '손상'되어 알고리즘 실행에 실패하는 것을 허용하는 대신)라는 이전에는 보편적이었던 두 가지 가정을 깨뜨립니다. 우리는 정렬 활동을 문제 공간의 탐색으로 정량적으로 특성화하여 자율 요소 배열이 오류가 있을 때 기존 구현보다 더 안정적이고 강력하게 스스로 정렬한다는 것을 보여주었습니다. 또한 결함 주변을 탐색하기 위해 일시적으로 진행 속도를 줄일 수 있는 기능과 두 가지 알고리즘 중 하나를 따르는 키메라 배열의 요소 간에 예기치 않은 클러스터링 동작도 발견했습니다. 단순하고 친숙한 알고리즘에서 새로운 문제 해결 능력을 발견함으로써 다양성 지능 분야에 새로운 관점을 제시하고, 기본 메커니즘에 명시적으로 인코딩되지 않은 단순한 시스템에서 지능의 기본 형태가 어떻게 나타날 수 있는지를 보여줍니다. [abs|pdf]

[102/108] Dynamic Spiking Graph Neural Networks

Keywords: dynamic_spiking_models, spiking_neural_networks, spiking_models
Abstract: 그래프로 표현되는 비유클리드 데이터를 처리할 때 전력 소모가 적고 효율이 높기 때문에, 스파이크 신경망(SNN)과 그래프 신경망(GNN)의 통합이 점차 주목받고 있습니다. 그러나 동적 그래프 표현 학습은 높은 복잡성과 큰 메모리 오버헤드와 같은 공통적인 문제에 직면해 있습니다. 현재 연구에서는 효율적인 학습을 위해 순환신경망(RNN) 대신 합성곱신경망(SNN)을 사용하는 경우가 많은데, 이는 그래프 구조 정보를 간과하고 전파 과정에서 세부 정보가 손실될 수 있습니다. 또한 동적 스파`이크 모델을 최적화하려면 일반적으로 여러 시간 단계에 걸쳐 정보를 전파해야 하므로 메모리 요구량이 증가합니다. 이러한 문제를 해결하기 위해 Dynamic Spiking Graph Neural Networks이라는 프레임워크를 제시합니다. 정보 손실 문제를 완화하기 위해 Dy-SIGN는 정보 보상을 위해 초기 계층 정보를 마지막 계층으로 직접 전파합니다. 메모리 요구 사항을 수용하기 위해 순방향 계산의 정확한 반대에 의존하지 않는 평형 상태에 대한 암시적 미분을 적용합니다. 기존의 암시적 미분법은 일반적으로 정적 상황에서 사용되지만, Dy-SIGN는 이를 동적 그래프 설정으로 확장합니다. 세 가지 대규모 실제 동적 그래프 데이터 세트에 대한 광범위한 실험을 통해 계산 비용을 낮추면서 동적 노드 분류 작업에서 Dy-SIGN의 효과를 검증했습니다. [abs|pdf]

[103/108] Autoregressive fragment-based diffusion for pocket-aware ligand design

Keywords: conditioned_molecular_scaffolds, 3d_molecular_structures, generating_3d_molecular
Abstract: 이 연구에서는 표적 단백질 구조에 따라 조절된 3D 분자 구조를 생성하기 위한 조각 기반 자동 회귀 확산 모델인 AutoFragDiff를 소개합니다. 기하학적 벡터 퍼셉트론을 사용해 분자 스캐폴드 및 단백질 포켓에 조건이 지정된 새로운 분자 조각의 원자 유형과 공간 좌표를 예측합니다. 이러한 접근 방식은 단백질 표적에 대한 높은 예측 결합 친화도를 유지하면서 결과물인 3D 분자의 국부적 기하학적 구조를 개선합니다. 이 모델은 사용자가 제공한 시작 분자 스캐폴드에서 스캐폴드 확장을 수행할 수도 있습니다. [abs|pdf]

[104/108] DualTeacher: Bridging Coexistence of Unlabelled Classes for Semi-supervised Incremental Object Detection

Keywords: detection_classes_propose, detection_classes, incremental_object_detection
Abstract: 실제 애플리케이션에서 객체 감지기는 종종 새로운 클래스의 객체 인스턴스를 만나게 되며, 이를 효과적으로 수용해야 합니다. 이전 연구에서는 이 중요한 문제를 점진적 객체 탐지(IOD)로 공식화했는데, 이는 새로운 클래스의 객체 인스턴스가 점진적 데이터에 완전히 주석이 달렸다고 가정합니다. 그러나 감독 신호는 일반적으로 드물고 비용이 많이 들기 때문에 감독된 IOD는 구현하기에 실용적이지 않을 수 있습니다. 이 연구에서는 객체 감지기가 라벨이 지정된 몇 개의 데이터와 라벨이 지정되지 않은 대량의 데이터에서 새로운 클래스를 점진적으로 학습해야 하며, 이전 클래스를 치명적으로 잊어버리지 않는 반지도형 IOD(SSIOD)라는 보다 현실적인 설정을 고려합니다. 감독형 IOD에 일반적으로 사용되는 전략은 현재 모델(학생)이 이전 모델(교사)의 동작을 모방하도록 유도하는 것이지만, 이전 클래스와 새 클래스의 객체 인스턴스가 공존하고 레이블이 지정되지 않은 경우가 많고 교사는 그 중 일부만 인식하기 때문에 일반적으로 SSIOD에서 실패합니다. 관심 있는 클래스만 학습하면 다른 클래스를 감지하지 못하는 경향이 있다는 점에 착안하여, 기존 클래스와 새 클래스에 대해 각각 두 개의 교사 모델을 구성하고, 그 예측을 연결하여 학생을 지도함으로써 라벨링되지 않은 클래스의 공존을 해소할 것을 제안합니다. 이 접근 방식을 듀얼티처라고 하며, 리소스 오버헤드가 제한적이고 추가 하이퍼파라미터가 없는 SSIOD의 강력한 기준이 될 수 있습니다. 저희는 SSIOD에 대한 다양한 벤치마크를 구축하고 광범위한 실험을 수행하여 접근 방식의 우수성을 입증하고 있습니다(예: MS-COCO에서 최대 18.28 AP의 성능 우위). 코드 내용은 url에서 확인할 수 있습니다. [abs|pdf]

[105/108] Developing a Resource-Constraint EdgeAI model for Surface Defect Detection

Keywords: training_edge_device, trained_efficientnetv2b0, pre_trained_efficientnetv2b0
Abstract: 리소스 제약으로 인해 여러 EdgeAI 애플리케이션은 클라우드에서 모델을 학습하고 엣지 디바이스에 배포하는 머신 러닝 추론 접근 방식으로 제한되었습니다. 이로 인해 모델 구축을 위해 데이터를 오프사이트에 저장하는 것과 관련된 대역폭, 지연 시간, 개인정보 보호 등의 문제가 발생합니다. 엣지 디바이스에서 학습하면 저장 및 모델 개발을 위해 데이터를 다른 디바이스로 전송할 필요가 없으므로 이러한 문제를 극복할 수 있습니다. 또한 온디바이스 학습은 새로 획득한 데이터로 모델을 재학습하여 성능을 개선할 수 있으므로 데이터 변화에 대한 견고성을 제공합니다. 따라서 유니티는 리소스 제약이 있는 엣지 환경에서 온디바이스 트레이닝을 위해 Xception에서 수정한 경량 엣지AI 아키텍처를 제안합니다. PCB 결함 감지 작업에서 이 모델을 평가하고 기존의 경량 모델인 MobileNetV2, EfficientNetV2B0, MobileViT-XXS와 성능을 비교합니다. 실험 결과, 이 모델은 사전 학습 없이도 73.45%의 테스트 정확도를 기록하며 뛰어난 성능을 보였습니다. 이는 사전 학습을 하지 않은 MobileViT-XXS의 테스트 정확도(75.40%)와 비슷하며, 사전 학습을 하지 않은 다른 모델(MobileNetV2 - 50.05%, EfficientNetV2B0 - 54.30%)보다 훨씬 우수합니다. 사전 학습이 없는 우리 모델의 테스트 정확도는 사전 학습된 MobileNetV2 모델(75.45%)과 비슷하고 사전 학습된 EfficientNetV2B0 모델(58.10%)보다 우수합니다. 메모리 효율성 측면에서는 우리 모델이 EfficientNetV2B0 및 MobileViT-XXS보다 더 나은 성능을 보였습니다. 머신러닝 모델의 리소스 효율성은 매개변수 수에만 의존하는 것이 아니라 아키텍처 고려사항에 따라 달라진다는 사실을 발견했습니다. 우리의 방법은 상당한 성능을 유지하면서 리소스 제약이 있는 다른 애플리케이션에도 적용될 수 있습니다. [abs|pdf]

[106/108] Adaptive operator selection utilising generalised experience

Keywords: adaptive_selection_challenging, swarm_intelligence, evolutionary_swarm_intelligence
Abstract: 최적화 문제, 특히 조합 최적화 문제는 그 복잡성과 난이도 때문에 해결하기가 어렵습니다. 이러한 문제는 특히 바이너리 형식의 진화 및 군집 지능 알고리즘을 통해 성공적으로 해결되었습니다. 그러나 탐사 및 개발 활동(EvE) 간의 균형 문제로 인해 근사치가 저하될 수 있으며, 이는 여전히 주요 과제로 남아 있습니다. 적응형 연산자 선택 체계로 EvE를 관리하기 위해 여러 연산자를 상호 보완적으로 사용하는 것이 점점 더 대중화되고 있지만, 맞춤형 적응형 선택 체계는 여전히 연구에서 중요한 주제입니다. 최근 강화 학습(RL)이 매우 효과적인 적응형 선택 시스템을 맞춤 설정하고 구성하는 방법으로 제안되었습니다. 그러나 확장성 측면에서 문제를 해결하기란 여전히 어려운 과제입니다. 이 논문에서는 현재와 미래의 경험을 획득, 처리, 활용하기 위한 일반화된 프레임워크를 개발하는 데 도움이 되는 RL 기반의 새로운 접근법을 제안하고 평가합니다. 실험 결과는 제안된 접근 방식이 어느 정도 성공적임을 뒷받침합니다. [abs|pdf]

[107/108] Task tree retrieval from FOON using search algorithms

Keywords: task_universal_functional, task_tree_possible, task_tree
Abstract: 로봇은 작업을 자동화하고 사람의 노력을 줄이는 데 매우 유용할 수 있습니다. 하지만 로봇이 작업을 수행하는 방법을 알기 위해서는 로봇이 따라야 할 명확한 단계를 제공해야 합니다. 로봇에게 가능한 모든 작업에 대한 지침을 제공하는 것은 거의 불가능합니다. 따라서 우리는 범용 기능 객체 지향 네트워크(FOON)를 만들고 확장하여 기존의 많은 레시피 정보를 보유하고 있습니다[1]. 그러나 어떤 작업은 로봇이 수행하기에는 복잡하고, 마찬가지로 어떤 작업은 사람이 수행하기에는 복잡합니다. 따라서 로봇이 동작을 성공적으로 수행할 수 있는 가능성을 나타내기 위해 기능 단위에 가중치를 추가했습니다[2]. 주방 용품 세트와 목표 노드가 주어졌을 때, 유니버설 FOON을 사용하면 로봇은 필요한 용품이 주방에 있는지 판단하고, 있다면 필요한 주방 용품을 목표 노드로 변환하는 단계를 수행할 수 있어야 합니다. 이제 이 백서에서는 두 가지 알고리즘(IDS와 GBFS)을 사용하여 목표 노드와 주어진 주방 용품 세트에 대한 작업 트리(가능한 경우)를 검색합니다. 다음은 백서의 다른 부분입니다: 섹션 II FOON 생성에서는 FOON과 관련된 다양한 용어와 FOON의 시각화에 대해 논의합니다. 섹션 III 방법론에서는 IDS 및 GBFS 검색 알고리즘과 GBFS에서 구현되고 사용되는 두 가지 휴리스틱에 대해 설명합니다. 섹션 IV 실험/토론에서는 다양한 알고리즘의 성능을 비교합니다. 마지막 섹션 V에서는 인용된 논문의 참고 문헌을 명시합니다. [abs|pdf]

[108/108] Most discriminative stimuli for functional cell type identification

Keywords: functional_clusters_neurons, stimulus_optimization_cluster, clusters_neurons
Abstract: 세포 유형을 식별하고 그 기능적 특성을 이해하는 것은 지각과 인지의 근간이 되는 메커니즘을 밝히는 데 매우 중요합니다. 망막에서는 신중하게 선택된 자극을 통해 기능적 유형을 식별할 수 있지만, 이를 위해서는 전문적인 영역 지식이 필요하고 이전에 알려진 세포 유형에 편향된 절차가 필요합니다. 시각 피질에서는 어떤 기능 유형이 존재하고 어떻게 식별할 수 있는지는 아직 알려지지 않았습니다. 따라서 망막과 시각 피질의 기능적 세포 유형을 편향 없이 식별하려면 새로운 접근 방식이 필요합니다. 여기서는 심층 예측 모델을 사용하여 최적화 기반 클러스터링 접근법을 제안하여 가장 차별적인 자극(MDS)을 사용하여 뉴런의 기능적 클러스터를 얻습니다. 우리의 접근 방식은 기대 최대화 알고리즘과 유사한 클러스터 재할당과 자극 최적화를 번갈아 가며 사용합니다. 이 알고리즘은 마우스 망막, 마모셋 망막, 원숭이 시각 영역 V4에서 기능적 클러스터를 복구합니다. 이는 우리의 접근 방식이 종, 시각 시스템의 단계 및 기록 기술에 관계없이 차별적인 자극을 성공적으로 찾을 수 있음을 보여줍니다. 그 결과 가장 차별적인 자극을 찾아내면 복잡한 예측 모델을 훈련하거나 대규모 자연 장면 데이터 세트를 보여줄 필요 없이 기능적 세포 유형을 빠르게 즉석에서 할당할 수 있어, 이전에는 실험 시간으로 인해 제한되었던 실험을 진행할 수 있는 길을 열어줍니다. 결정적으로, MDS는 해석이 가능하기 때문에 특정 유형의 뉴런을 가장 명확하게 식별하는 독특한 자극 패턴을 시각화합니다. 코드 공개와 동시에 온라인에 공개할 예정입니다. [abs|pdf]