프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-08]

다각 2024. 1. 8. 12:06

[1/74] A Customizable Generator for Comic-Style Visual Narrative

Keywords: visual_narrative_generator, visual_narrative_authoring, narrative_generator
Abstract: 유니티는 만화의 개념적 원리를 시스템 레이어에 통합하여 만화 콘텐츠를 생성하는 이론에 기반한 시각적 내러티브 제너레이터를 선보입니다. 제너레이터는 패널 구성, 오브젝트 위치, 패널 전환, 내러티브 요소 등 여러 레이어에서 순차적인 의사결정을 통해 만화를 제작합니다. 각 레이어의 결정은 내러티브 목표에 따라 이루어지며 해당 매체의 각 레이어 관용구를 따릅니다. 콘의 내러티브 문법은 전체적인 스토리 아크를 제공합니다. 1/3의 법칙에서 영감을 얻은 사진 구도는 패널 구성을 제공하는 데 사용됩니다. 장면, 캐릭터, 시간적 변화 사이의 초점 이동을 기반으로 한 맥클라우드의 제안된 패널 전환은 전환 레이어에 인코딩됩니다. 마지막으로 동작 동사 온톨로지를 사용하여 동작 동사를 분석하여 공통 오버레이 기호(예: 느낌표)를 추가합니다. 다양한 설정을 통해 생성된 다양한 만화를 예제 출력물을 통해 시연합니다. 제너레이터와 관련 모듈은 시각적 내러티브 저작과 시각적 내러티브 이해의 계산 모델에 대한 추가 연구에 유용한 시스템이 될 수 있습니다. [abs|pdf]

[2/74] Generative Large Language Models are autonomous practitioners of evidence-based medicine

Keywords: evidence_based_medicine, clinicians_integration_artificial, clinical_evidence_patient
Abstract: 배경: 근거 기반 의학(EBM)은 현대 임상 진료의 기본으로, 임상의는 지속적으로 지식을 업데이트하고 최상의 임상 근거를 환자 치료에 적용해야 합니다. 의학 연구의 급속한 발전으로 인해 임상의의 정보 과부하로 인해 EBM의 실행은 어려움에 직면해 있습니다. 인공 지능(AI), 특히 생성형 대규모 언어 모델(LLM)의 통합은 이러한 복잡성을 관리할 수 있는 유망한 솔루션을 제공합니다.
연구 방법: 이 연구는 다양한 전문 분야에 걸친 실제 임상 사례를 큐레이션하여 분석을 위해 .json 파일로 변환하는 작업을 포함했습니다. ChatGPT 3.5 및 4, Gemini Pro와 같은 독점 모델과 LLaMA v2 및 Mixtral-8x7B와 같은 오픈 소스 모델을 포함한 LLM이 사용되었습니다. 이러한 모델에는 사례 파일에서 정보를 검색하고 임상의가 실제 진료 현장에서 수행하는 방식과 유사하게 임상적 결정을 내릴 수 있는 도구가 탑재되어 있었습니다. 모델 성능은 최종 답변의 정확성, 신중한 도구 사용, 가이드라인 준수, 환각에 대한 저항성을 기준으로 평가되었습니다.
결과: GPT-4는 임상 환경에서 자율적으로 작동할 수 있는 능력이 가장 뛰어났으며, 일반적으로 관련 조사를 주문하고 임상 지침을 준수하는 데 더 효과적이었습니다. 복잡한 가이드라인과 진단적 뉘앙스를 처리하는 모델 능력에 있어서는 한계가 관찰되었습니다. 검색 증강 세대는 환자와 의료 시스템에 보다 맞춤화된 추천을 제공했습니다.
결론: 의학박사는 근거 기반 의학의 자율적 실무자로서의 역할을 수행할 수 있습니다. 이들은 도구를 활용하는 능력을 활용하여 실제 의료 시스템의 인프라와 상호 작용하고 지침에 따라 환자 관리 업무를 수행할 수 있습니다. 신속한 엔지니어링은 이러한 잠재력을 더욱 향상시키고 임상의와 환자를 위한 의료 서비스를 혁신하는 데 도움이 될 수 있습니다. [abs|pdf]

[3/74] Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding

Keywords: machine_translation_tasks, risk_mbr_decoding, machine_translation_text
Abstract: 최소 베이즈-리스크(MBR) 디코딩은 광범위한 텍스트 생성 작업에서 빔 검색 디코딩의 강력한 대안이 될 수 있는 것으로 나타났습니다. 그러나 MBR은 MBR 목표를 계산하기 위한 추론에 엄청난 시간이 필요하기 때문에 응답 시간이 중요한 많은 상황에서는 이 방법을 사용할 수 없습니다. 최근 기계 번역 작업에서 추론 시간을 줄이기 위해 신뢰도 기반 가지치기(CBP)(Cheng and Vlachos, 2023)가 제안되었습니다. 이 방법은 계산량을 크게 줄이는 것으로 나타났지만, 개발 세트를 사용하여 하이퍼파라미터를 튜닝해야 효과를 볼 수 있습니다. 이를 위해 하이퍼파라미터가 필요 없는 방법인 근사 최소 베이즈-리스크(AMBR) 디코딩을 제안하여 MBR 디코딩을 대략적으로 실행합니다. AMBR은 샘플 기반 MBR 목표값을 계산할 때 발생하는 문제가 메도이드 식별 문제라는 점에 착안한 것입니다. AMBR은 메도이드 식별 문제에 대해 현재까지 가장 좋은 근사치 알고리즘인 상관 순차 반감(CSH) 알고리즘(Baharav and Tse, 2019)을 사용하여 샘플 기반 MBR 목표를 계산합니다. 기계 번역, 텍스트 요약, 이미지 캡션 작업에서 AMBR을 평가했습니다. 그 결과 AMBR은 주어진 계산 예산에 따라 오라클을 통해 하이퍼파라미터를 선택하는 CBP와 동등한 수준의 성과를 달성하는 것으로 나타났습니다. [abs|pdf]

[4/74] MAMI: Multi-Attentional Mutual-Information for Long Sequence Neuron Captioning

Keywords: sequence_neuron_captioning, neuron_captioning, neuron_captioning_work
Abstract: 뉴런 라벨링은 뉴런을 활성화하는 특정 패턴에 대한 특정 뉴런의 행동과 반응을 시각화하기 위한 접근 방식입니다. 뉴런 라벨링은 심층 신경망에서 특정 뉴런이 포착한 특징에 대한 정보를 추출하며, 그 중 하나는 인코더-디코더 이미지 캡션 접근 방식을 사용합니다. 인코더는 사전 학습된 CNN 기반 모델일 수 있고, 디코더는 텍스트 생성을 위한 RNN 기반 모델일 수 있습니다. 이전 연구인 MILAN(Mutual Information-guided Linguistic Annotation of Neuron)에서는 인코더에서 수정된 SAT(Show, Attend, Tell) 모델을 사용하고, 디코더에서 바흐다나우 주의가 추가된 LSTM을 사용하여 뉴런의 동작을 시각화하려고 시도했습니다. MILAN은 짧은 시퀀스 뉴런 캡쳐에서는 좋은 결과를 보이지만, 긴 시퀀스 뉴런 캡쳐에서는 좋은 결과를 보여주지 못하기 때문에 이번 연구에서는 여러 주의 메커니즘의 장점을 모두 결합하기 위해 여러 종류의 주의 메커니즘을 활용하고 여러 주의 결과를 하나로 합쳐서 MILAN의 성능을 더욱 향상시키고자 합니다. 복합 데이터 세트를 사용하여 제안한 모델에서 더 높은 BLEU와 F1-Score를 얻었으며, 각각 17.742와 0.4811을 달성했습니다. 모델이 정점에 수렴하는 어느 지점에서, 우리 모델은 21.2262의 BLEU와 0.4870의 BERTScore F1-Score를 얻었습니다. [abs|pdf]

[5/74] Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks

Keywords: instruction_tuning_sparse, tuning_sparse_models, opensource_sparse_models
Abstract: 대규모 언어 모델(LLM)은 일반적인 자연어 처리(NLP) 작업에서 상당한 숙련도를 보여 왔습니다. 성공적인 패러다임인 명령어 튜닝은 자연어 명령어를 따르고 다양한 작업에서 강력한 일반화 능력을 발휘하는 LLM의 능력을 향상시킵니다. 그러나 이러한 모델은 모델 용량의 제약으로 인해 여러 작업에서 성능 제한에 직면하는 경우가 많습니다. 명령어 튜닝 단계에서 이 용량을 확장하려면 상당한 어려움이 따릅니다. 이 문제를 해결하기 위해 유니티는 전문가 혼합(MoE) 아키텍처를 사용하여 고밀도 모델을 희소 모델로 전환하는 새로운 접근 방식인 파라미터 효율적 희소성 제작(PESC)을 도입했습니다. PESC는 어댑터를 희소 모델의 MoE 계층에 통합하여 계층 내의 개별 가중치를 변경하지 않고 전문가를 차별화합니다. 이 방법은 계산 비용과 GPU 메모리 요구 사항을 크게 줄여주며, 삽입된 어댑터를 통해 파라미터를 최소한으로 증가시켜 모델 용량을 확장할 수 있습니다. 유니티의 경험적 평가는 PESC 방법의 효과를 입증합니다. 인스트럭션 튜닝 시 PESC를 사용한 유니티의 스파스 모델인 카멜리대(Camelidae)는 다른 모든 오픈소스 스파스 모델보다 성능이 뛰어나며 GPT3.5에 비해 일반적인 기능도 우수합니다. [abs|pdf]

[6/74] Une ontologie pour les syst{è}mes multi-agents ambiants dans les villes intelligentes

Keywords: ontology_applied_smart, infrastructure_needs_semantically, users_ontology
Abstract: 현재 마을과 도시는 '스마트 시티'로 변모하기 위해 수많은 커넥티드 디바이스를 갖추고 있습니다. 이렇게 많은 커넥티드 오브젝트를 관리하기 위해 에이전트라고 하는 자율 소프트웨어 엔티티를 연결하여 이러한 디바이스와 협력하고 이를 통해 개인화된 서비스를 제공할 수 있습니다. 그러나 이러한 사물 인프라를 활용하기 위해서는 의미론적으로 구조화되어야 합니다. 이 글에서 제안하는 온톨로지는 이러한 객체 인프라, 멀티 에이전트 시스템의 조직과의 연결, 시스템 사용자에 따라 제공해야 할 서비스를 설명하는 OWL 형식의 온톨로지입니다. 이 온톨로지는 거동이 불편한 사람들을 위한 스마트 모빌리티에 적용되며, 다른 스마트 시티 축에도 적용될 수 있습니다. [abs|pdf]

[7/74] XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model

Keywords: agents_interact_testing, automation, dedicated_automating_user
Abstract: 지난 몇 년 동안 저희는 중국에서 가장 영향력 있는 모바일 결제 애플리케이션 중 하나인 WeChat Pay의 사용자 승인 테스트(UAT) 프로세스를 자동화하는 데 전념해 왔습니다. 이를 위해 XUAT라는 시스템을 개발했습니다. 하지만 현재 시스템에는 여전히 테스트 스크립트 생성이라는 인적 노동 집약적인 단계가 존재합니다. 따라서 본 백서에서는 현재 시스템의 자동화 수준, 특히 테스트 스크립트 생성 단계를 높이는 방법에 대해 집중적으로 살펴봅니다. 최근 주목할 만한 성공을 거둔 대규모 언어 모델(LLM)은 인간과 유사한 지능을 달성하는 데 상당한 잠재력을 보여주었으며, 인간과 유사한 의사 결정 능력을 얻기 위해 LLM을 자율 에이전트로 활용하는 연구 분야가 성장하고 있습니다. 이러한 연구 결과에서 영감을 받아 자동화된 UAT를 위한 LLM 기반 멀티에이전트 협업 시스템인 XUAT-Copilot을 제안합니다. 제안된 시스템은 주로 액션 계획, 상태 확인, 파라미터 선택을 각각 담당하는 세 개의 LLM 기반 에이전트와 상태 감지 및 케이스 재작성을 위한 두 개의 추가 모듈로 구성됩니다. 에이전트는 테스트 디바이스와 상호 작용하여 사람과 같은 의사 결정을 내리고 협업적인 방식으로 동작 명령을 생성합니다. 제안된 다중 에이전트 시스템은 실험 연구에서 인간 테스터에 가까운 효과를 달성했으며 단일 에이전트 아키텍처에 비해 Pass@1 정확도가 크게 향상되었습니다. 더 중요한 것은 제안된 시스템이 WeChat Pay 모바일 앱의 공식 테스트 환경에서 출시되어 일상적인 개발 작업에서 상당한 양의 인력을 절약할 수 있다는 것입니다. [abs|pdf]

[8/74] Verifying Relational Explanations: A Probabilistic Approach

Keywords: explanations_relational_data, generate_explanations_counterfactual, data_explanations_learn
Abstract: 관계형 데이터에 대한 설명은 설명 구조가 더 복잡하기 때문에 검증하기가 어렵습니다(예: 그래프). 해석 가능한 설명(예: 이미지, 텍스트 등으로 이루어진 예측에 대한 설명)을 검증하기 위해서는 많은 전문 지식이 필요하지 않기 때문에 일반적으로 사람을 대상으로 검증합니다. 그러나 관계형 설명의 품질을 검증하려면 전문 지식이 필요하고 확장하기가 어렵습니다. 그래프 신경망에서 가장 널리 사용되는 설명 방법 중 하나가 바로 GNNExplainer입니다. 이 백서에서는 GNNExplainer로 생성된 설명의 불확실성을 평가하는 접근법을 개발합니다. 구체적으로, 우리는 설명자에게 몇 가지 사실과 반대되는 예에 대한 설명을 생성하도록 요청합니다. 이러한 예는 원본 데이터의 관계형 구조에 대한 대칭 근사치로 생성됩니다. 이러한 설명으로부터 설명의 불확실성을 정량화하기 위한 요인 그래프 모델을 학습합니다. 여러 데이터 세트에 대한 우리의 결과는 우리의 접근 방식이 설명에 명시된 관계의 불확실성을 안정적으로 추정함으로써 GNNExplainer의 설명을 검증하는 데 도움이 될 수 있음을 보여줍니다. [abs|pdf]

[9/74] Training and Serving System of Foundation Models: A Comprehensive Survey

Keywords: foundation_model_systems, foundation_models, develop_foundation_model
Abstract: 파운데이션 모델(예: ChatGPT, DALL-E, PengCheng Mind, PanGu-Σ)은 자연어 처리 및 시각 인식과 같은 주요 기술 분야에서 탁월한 성능을 입증하며 인공 지능의 주류 트렌드로 자리 잡았습니다. 이로 인해 점점 더 많은 주요 기술 대기업들이 상당한 인적, 재정적 자원을 투입하여 기반 모델 시스템을 적극적으로 개발하고 있으며, 이러한 모델 파라미터의 지속적인 성장을 주도하고 있습니다. 그 결과, 이러한 모델을 학습하고 제공하는 데 상당한 컴퓨팅 성능, 메모리 소비, 대역폭 요구 등 상당한 문제가 발생하고 있습니다. 따라서 효율적인 학습 및 제공 전략을 채택하는 것이 특히 중요해졌습니다. 많은 연구자들이 효과적인 방법을 적극적으로 탐구하고 제안해 왔습니다. 따라서 시스템 개발자와 연구자에게는 이에 대한 종합적인 조사가 필수적입니다. 이 백서에서는 다양한 관점에서 기초 모델 교육 및 서비스에 사용되는 방법을 광범위하게 살펴봅니다. 또한 네트워크, 컴퓨팅, 스토리지와 같은 세부적인 측면을 포함하여 이러한 최첨단 방법을 상세하게 분류합니다. 또한 이 백서에서는 과제를 요약하고 향후 파운데이션 모델 시스템의 발전 방향에 대한 관점을 제시합니다. 종합적인 논의와 분석을 통해 향후 연구와 응용을 위한 탄탄한 이론적 기반과 실용적인 지침을 제공하여 기반 모델 시스템의 지속적인 혁신과 발전을 촉진하고자 합니다. [abs|pdf]

[10/74] Progress and Prospects in 3D Generative AI: A Technical Overview including 3D human

Keywords: generated_3d_human, 3d_character_motion, generated_3d
Abstract: AI가 생성하는 텍스트와 2D 이미지의 영역이 계속 확장되고 있는 가운데, 3D 생성도 점차 무시할 수 없는 트렌드로 부상하고 있습니다. 2023년 이후 3D 생성 영역에 대한 연구 논문이 풍부하게 발표되고 있습니다. 이러한 성장에는 3D 오브젝트 생성뿐만 아니라 3D 캐릭터 및 모션 생성의 급속한 발전도 포함됩니다. 이러한 발전에는 몇 가지 주요 요인이 있습니다. 안정적인 확산의 향상된 충실도와 멀티뷰 일관성을 보장하는 제어 방법, 그리고 SMPL-X와 같은 사실적인 인간 모델은 놀라운 일관성과 실제에 가까운 외관을 갖춘 3D 모델을 제작하는 데 시너지 효과를 발휘합니다. 신경망 기반 3D 저장 및 렌더링 모델(예: 신경 방사 필드(NeRF) 및 3D 가우시안 스플래팅(3DGS))의 발전은 신경 렌더링 모델의 효율성과 사실감을 가속화했습니다. 또한 대규모 언어 모델의 멀티모달 기능 덕분에 언어 입력을 사람의 동작 출력으로 전환할 수 있게 되었습니다. 이 백서에서는 2023년 하반기에 주로 발표된 관련 논문을 종합적으로 개관하고 요약하는 것을 목표로 합니다. 먼저 AI가 생성한 3D 객체 모델에 대해 논의하고, 이어서 생성된 3D 인간 모델, 마지막으로 생성된 3D 인간 모션에 대해 논의한 후 결론적인 요약과 미래 비전으로 마무리할 것입니다. [abs|pdf]

[11/74] Quantitative Technology Forecasting: a Review of Trend Extrapolation Methods

Keywords: technology_forecasting_uses, quantitative_technology_forecasting, models_technology_forecasting
Abstract: 정량적 기술 예측은 정량적 방법을 사용하여 기술 변화를 이해하고 예측하는 것입니다. 이는 다양한 기법을 포괄하는 광범위한 분야이며 광범위한 기술에 적용되어 왔습니다. 이 분야에서 널리 사용되는 접근 방식은 추세 추론입니다. 지금까지 발표된 논문에 따르면, 정량적 추세 추정 기법에 대한 실증적 증거를 체계적으로 검토하려는 시도는 거의 또는 전혀 없었습니다. 이 연구는 정량적 추세 추정 기법의 적용을 다루는 기술 예측 문헌을 체계적으로 검토하여 이러한 격차를 해소하고자 합니다. 이 연구의 목적과 관련된 25개의 연구를 확인하고 연구에 사용된 기법을 여러 범주로 분류한 결과, 지난 10년간 성장 곡선과 시계열 기법이 여전히 인기가 있는 것으로 나타났으며, 최근에는 머신러닝 기반 하이브리드 모델과 같은 새로운 기법이 등장하고 있는 것으로 나타났습니다. 하이브리드 모델이 기존 방법보다 우월한지 판단하기 위해서는 더 많은 노력과 증거가 필요하지만, 기술 예측에 하이브리드 모델을 개발하고 적용하는 추세는 점점 더 늘어날 것으로 예상됩니다. [abs|pdf]

[12/74] On the Prospects of Incorporating Large Language Models (LLMs) in Automated Planning and Scheduling (APS)

Keywords: automated_planning, intelligent_planning, planning_methods_synthesizing
Abstract: 자동화된 계획 및 스케줄링은 인공 지능(AI)에서 LLM에 대한 언급이 인기를 얻고 있는 성장하는 분야 중 하나입니다. 이 백서에서는 126편의 논문을 종합적으로 검토한 결과를 바탕으로 계획 문제의 다양한 측면을 해결하는 데 있어 LLM의 고유한 적용 사례를 언어 번역, 계획 생성, 모델 구축, 다중 에이전트 계획, 대화형 계획, 휴리스틱 최적화, 도구 통합, 두뇌에서 영감을 받은 계획 등 8가지 범주로 분류하여 살펴봅니다. 각 범주에 대해 고려해야 할 문제와 기존 격차를 명확히 설명합니다. 검토를 통해 얻은 중요한 인사이트는 LLM의 진정한 잠재력이 전통적인 기호적 계획과 통합될 때 발휘된다는 점이며, 이는 유망한 신경 기호적 접근 방식을 가리킵니다. 이 접근 방식은 LLM의 생성적 측면과 고전적 계획 방법의 정밀성을 효과적으로 결합합니다. 기존 문헌에서 얻은 인사이트를 종합하여 복잡한 계획 문제를 해결할 수 있는 통합의 잠재력을 강조합니다. 우리의 목표는 ICAPS 커뮤니티가 LLM과 심볼릭 플래너의 상호 보완적인 강점을 인식하고, 이러한 시너지 효과를 활용하여 더욱 발전된 지능형 계획 시스템을 개발하는 자동화된 계획의 방향을 옹호하도록 장려하는 것입니다. [abs|pdf]

[13/74] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Keywords: large_language_models, deepseek_chat_models, introduce_deepseek_llm
Abstract: 오픈 소스 대규모 언어 모델(LLM)의 급속한 발전은 정말 놀랍습니다. 그러나 이전 문헌에 기술된 스케일링 법칙은 다양한 결론을 제시하고 있어 LLM의 확장에 어두운 구름을 드리우고 있습니다. 이 글에서는 스케일링 법칙에 대한 연구를 자세히 살펴보고, 일반적으로 사용되는 두 가지 오픈소스 구성인 7B와 67B에서 대규모 모델의 확장을 용이하게 하는 유니티만의 독특한 연구 결과를 제시합니다. 확장 법칙에 따라 장기적인 관점에서 오픈소스 언어 모델을 발전시키는 데 전념하는 프로젝트인 DeepSeek LLM을 소개합니다. 사전 학습 단계를 지원하기 위해 현재 2조 개의 토큰으로 구성된 데이터 세트를 개발했으며 지속적으로 확장하고 있습니다. 또한, 딥서치 LLM 기본 모델에 대해 감독 미세 조정(SFT)과 직접 선호도 최적화(DPO)를 수행하여 딥서치 채팅 모델을 생성합니다. 평가 결과, 딥서치 LLM 67B는 다양한 벤치마크, 특히 코드, 수학, 추론 영역에서 LLaMA-2 70B를 능가하는 것으로 나타났습니다. 또한, 개방형 평가에서는 DeepSeek LLM 67B Chat이 GPT-3.5에 비해 우수한 성능을 발휘하는 것으로 나타났습니다. [abs|pdf]

[14/74] Graph2Tac: Learning Hierarchical Representations of Math Concepts in Theorem proving

Keywords: proofs_reference_ai, machine_learning_coq, coq_proof_assistant
Abstract: 수학과 수학의 응용 분야에는 수많은 개념이 존재합니다. 개념은 주제 영역에 따라 크게 다르며 각 수학 논문이나 응용 분야에서 새로운 개념이 도입됩니다. 공식적인 이론은 서로를 참조하는 정의, 정리, 증명의 계층 구조를 구축합니다. AI 에이전트가 새로운 정리를 증명할 때, 해당 정리와 관련된 대부분의 수학적 개념과 렘마는 학습 중에 본 적이 없을 수 있습니다. 특히 코크 증명 어시스턴트에는 다양한 코크 프로젝트 라이브러리가 있으며, 각 프로젝트에는 고유한 정의, 정리, 심지어 해당 정리를 증명하는 데 사용되는 맞춤형 전술 절차까지 포함되어 있습니다. 상담원은 이러한 새로운 정보를 즉시 지식 기반에 통합하는 것이 필수적입니다. 이러한 목표를 달성하기 위해 코크에서는 머신러닝을 위한 새로운 대규모 그래프 기반 데이터 세트를 활용하고 있습니다. 정의 간의 종속성 그래프를 유도하는 Coq 용어의 충실한 그래프 표현을 활용하여 현재 목표뿐만 아니라 현재 목표에 이르게 된 정의의 전체 계층 구조를 고려하는 새로운 그래프 신경망인 Graph2Tac(G2T)을 생성합니다. G2T는 사용자의 워크플로에 깊숙이 통합된 온라인 모델로, 새로운 Coq 프로젝트와 그 정의에 실시간으로 적응할 수 있습니다. 새로운 증명 스크립트를 실시간으로 학습하는 다른 온라인 모델과 잘 보완됩니다. 훈련 중에 보이지 않는 수학적 개념의 표현을 계산하도록 훈련된 새로운 정의 임베딩 작업은 신경망의 성능을 최첨단 K-최근접 이웃 예측기에 버금가도록 향상시킵니다. [abs|pdf]

[15/74] Unsupervised Federated Domain Adaptation for Segmentation of MRI Images

Keywords: domain_adaptation, federated_domain_adaptation, domain_adaptation_using
Abstract: 심층 신경망을 사용하여 자기공명영상(MRI) 이미지를 자동으로 의미론적으로 분할하면 다양한 임상 분야에서 치료법을 평가하고 계획하는 데 큰 도움이 됩니다. 그러나 이러한 모델을 훈련하려면 엔드투엔드 지도 학습 절차를 구현할 수 있는 풍부한 주석이 달린 데이터가 있어야 합니다. 충분한 데이터에 주석을 달더라도 MRI 이미지는 환자, MRI 스캐너 및 촬영 프로토콜의 차이와 같은 요인으로 인해 상당한 변동성을 보입니다. 이러한 가변성으로 인해 각 특정 애플리케이션 영역에 대해 신경망을 재훈련해야 하며, 결국 모든 새로운 영역에 대해 전문 영상의학 전문의가 수동으로 주석을 달아야 합니다. 지속적인 데이터 주석의 필요성을 완화하기 위해 여러 개의 주석이 달린 소스 도메인을 사용하여 비지도 연합 도메인 적응 방법을 개발했습니다. 이 접근 방식을 사용하면 주석이 달린 여러 소스 도메인에서 지식을 이전하여 주석이 없는 대상 도메인에서 효과적으로 사용할 수 있도록 모델을 조정할 수 있습니다. 우선, 딥 인코더의 출력으로 모델링된 잠재 임베딩 공간에서 목표 도메인 데이터가 각 소스 도메인과 유사한 표현을 공유하도록 하여 목표 도메인과 소스 도메인에 대한 분포의 쌍별 거리를 최소화합니다. 그런 다음 모든 도메인에서 얻은 지식을 활용하기 위해 앙상블 접근 방식을 사용합니다. 이 방법이 효과적이라는 것을 입증하기 위해 이론적 분석을 제공하고 MICCAI 2016 다중 사이트 데이터 세트에서 실험을 수행합니다. [abs|pdf]

[16/74] Analytically-Driven Resource Management for Cloud-Native Microservices

Keywords: cloud_native_microservices, ursa_explores_microservice, native_microservices_attracted
Abstract: 클라우드 네이티브 마이크로서비스를 위한 리소스 관리는 최근 많은 관심을 받고 있습니다. 이전 연구에 따르면 머신 러닝(ML) 기반 접근 방식이 SLA 유지 관리와 리소스 효율성 측면에서 오토스케일링과 같은 기존 기술보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 그러나 ML 기반 접근 방식은 긴 데이터 수집 프로세스와 제한된 확장성 등의 문제도 안고 있습니다. 이러한 문제를 해결할 수 있는 클라우드 네이티브 마이크로서비스를 위한 경량 리소스 관리 시스템인 Ursa를 소개합니다. Ursa는 엔드투엔드 SLA를 서비스별 SLA로 분해하는 분석 모델을 사용하고, 서비스별 SLA를 마이크로서비스 티어별 개별 리소스 할당에 매핑합니다. 탐색 프로세스의 속도를 높이고 장기간의 SLA 위반을 방지하기 위해 Ursa는 각 마이크로서비스를 개별적으로 탐색하고 지연 시간이 SLA를 초과하는 경우 탐색을 신속하게 중지합니다.
소셜 네트워크, 미디어 서비스, 비디오 처리 파이프라인을 포함한 대표적인 엔드투엔드 마이크로서비스 토폴로지 세트에서 각각 다른 SLA를 가진 여러 클래스와 요청 우선순위로 구성된 Ursa를 평가하고 두 가지 대표적인 ML 기반 시스템인 Sinan과 Firm과 비교했습니다. 이러한 ML 기반 접근 방식과 비교했을 때 Ursa는 상당한 이점을 제공합니다: 데이터 수집 프로세스가 128배 이상 단축되고, 컨트롤 플레인이 ML 기반 접근 방식보다 43배 빠릅니다. 동시에 Ursa는 리소스 효율성이나 SLA를 희생하지 않습니다. 온라인 배포 시 Ursa는 ML 기반 접근 방식에 비해 SLA 위반률을 9.0%에서 최대 49.9%까지 낮추고 CPU 할당을 최대 86.2%까지 줄입니다. [abs|pdf]

[17/74] H2G2-Net: A Hierarchical Heterogeneous Graph Generative Network Framework for Discovery of Multi-Modal Physiological Responses

Keywords: physiological_modalities_graph, graph_neural, existing_graph_neural
Abstract: 다중 모드 생리적 신호를 사용하여 인간의 인지 및 감정 상태를 발견하는 것은 다양한 연구 분야에서 주목을 받고 있습니다. 인체의 생리적 반응은 인간의 인지에 의해 영향을 받으며, 인지 상태를 분석하는 데 일반적으로 사용됩니다. 네트워크 과학의 관점에서 볼 때, 그래프 구조에서 이러한 이질적인 생리적 양상의 상호작용은 인지 상태를 예측하는 데 도움이 되는 통찰력 있는 정보를 제공할 수 있습니다. 그러나 이질적인 양식 간의 정확한 연결성을 도출할 수 있는 단서가 없으며 하위 양식의 계층적 구조가 존재합니다. 기존의 그래프 신경망은 미리 정의된 그래프 구조를 가진 비계층적 동질 그래프에서 학습하도록 설계되어 있어, 미리 정의된 그래프 구조가 없는 계층적 다중 모달 생리 데이터에서는 학습하지 못했습니다. 이를 위해 본 논문에서는 도메인 지식 없이도 그래프 구조를 자동으로 학습하는 계층적 이기종 그래프 생성 네트워크(H2G2-Net)와 계층적 이기종 그래프에 대한 강력한 표현을 엔드투엔드 방식으로 제안합니다. 멀티모달 생리적 신호로 구성된 CogPilot 데이터 세트에서 제안된 방법을 검증합니다. 광범위한 실험을 통해 제안된 방법이 최신 GNN보다 예측 정확도가 5%~20% 더 우수하다는 것을 입증했습니다. [abs|pdf]

[18/74] MsDC-DEQ-Net: Deep Equilibrium Model (DEQ) with Multi-scale Dilated Convolution for Image Compressive Sensing (CS)

Keywords: compressive_sensing_cs, enables_recovery_sparse, compressive_sensing
Abstract: 압축 센싱(CS)은 기존의 샘플링 방법보다 적은 수의 측정으로 희소 신호를 복구할 수 있는 기술입니다. CS 재구성의 계산적 문제를 해결하기 위해, 우리의 목표는 CS를 사용해 자연 이미지를 재구성하기 위한 해석 가능하고 간결한 신경망 모델을 개발하는 것입니다. 이를 위해 반복적 수축 임계값 알고리즘(ISTA)의 한 단계를 딥 네트워크 블록에 매핑하여 ISTA의 한 번의 반복을 나타냅니다. 학습 능력을 향상시키고 구조적 다양성을 통합하기 위해, 유니티는 집계된 잔여 변환(ResNeXt)과 스퀴즈 앤 여기(SE) 메커니즘을 ISTA 블록에 통합합니다. 이 블록은 편리한 샘플링과 초기 재구성을 위해 세미텐서곱 곱 네트워크(STP-Net)에 연결된 심층 평형 계층 역할을 합니다. 그 결과 생성된 모델인 MsDC-DEQ-Net은 최첨단 네트워크 기반 방식에 비해 경쟁력 있는 성능을 보여줍니다. 이 모델은 여러 번의 반복 대신 하나의 반복 블록만 사용하여 딥 언롤링 방식에 비해 스토리지 요구 사항을 크게 줄입니다. 딥 언롤링 모델과 달리 MsDC-DEQ-Net은 반복적으로 사용할 수 있어 계산 트레이드오프를 고려하면서 점진적으로 재구성 정확도를 향상시킬 수 있습니다. 또한 이 모델은 멀티스케일 확장 컨볼루션의 이점을 활용하여 성능을 더욱 향상시킵니다. [abs|pdf]

[19/74] Optimal Chaining of Vehicle Plans with Time Windows

Keywords: vehicle_routing_time, vehicle_routing, routing_time
Abstract: 시간 창이 있는 차량 라우팅 영역의 문제를 해결하기 위해서는 차량 계획을 더 긴 시간 범위에 걸친 시퀀스로 연결해야 하는 경우가 많습니다. 즉, 계획 연쇄를 수행해야 합니다. 최근 차량 규모 조정 문제를 해결하기 위해 네트워크 기반 솔루션이 제안되었습니다. 그러나 이 방법은 시간 범위가 있는 모든 차량 라우팅 문제의 필수 속성인 계획의 시간 유연성을 고려하지 않습니다. 대신 계획은 고정된 시간을 가지며 지연될 수 없습니다. 본 연구에서는 주어진 시간 윈도우에 따른 지연을 고려한 새로운 문제 공식과 이를 해결할 수 있는 방법을 제시합니다. 또한 이 방법이 최적임을 증명하고 그 복잡성을 분석합니다. 마지막으로 몇 가지 실용적인 응용 프로그램을 나열하고 그 중 하나인 정적 다이얼 어 라이드 문제를 해결하는 방법에 대한 데모를 수행합니다. 데모 결과, 상당수의 인스턴스에서 제안된 방법이 우리가 평가한 다른 두 가지 휴리스틱 기준 방법보다 더 나은 솔루션을 제공하면서도 계산 시간이 가장 많이 걸리지 않는 것으로 나타났습니다. [abs|pdf]

[20/74] AFSPP: Agent Framework for Shaping Preference and Personality with Large Language Models

Keywords: personality_experiments_afspp, preference_personality_afspp, preference_personality_formation
Abstract: 대규모 언어 모델(LLM)의 발전으로 인간 행동 에뮬레이션을 연구하는 새로운 패러다임이 도입되었습니다. 최근의 연구는 LLM 기반 에이전트를 사용하여 에이전트가 대규모 언어 모델의 필터링되지 않은 특성에 기반한 행동을 보이는 사회학적 연구 환경을 조성했습니다. 그러나 이러한 연구는 인간과 유사한 환경 내에서 반복적인 발달을 간과하고 있습니다. 인간의 선호도와 성격은 복잡하고 다양한 요인에 의해 형성되며 환경과 주관적인 영향의 결과로 지속적으로 변화할 수 있습니다. 이러한 점에 착안하여, 유니티는 소셜 네트워크와 주관적 의식이 LLM 기반 에이전트의 선호도와 성격 형성에 미치는 다각적인 영향을 탐구하는 에이전트 선호도 및 성격 형성을 위한 프레임워크(AFSPP)를 제안합니다. AFSPP를 통해 처음으로 인간 성격 실험에서 얻은 몇 가지 주요 결과를 성공적으로 재현했습니다. 그리고 다른 AFSPP 기반 실험 결과에 따르면 계획 수립, 감각적 지각, 주관적 정보가 포함된 소셜 네트워킹이 선호도 형성에 가장 뚜렷한 영향을 미치는 것으로 나타났습니다. AFSPP는 심리 실험의 효율성과 범위를 크게 향상시키는 동시에 바람직하지 않은 선호와 성격 발달을 방지하는 전략을 위한 신뢰할 수 있는 인공지능 연구에 귀중한 인사이트를 제공할 수 있습니다. [abs|pdf]

[21/74] Framework for Variable-lag Motif Following Relation Inference In Time Series using Matrix Profile analysis

Keywords: motifs_time_series, patterns_time_series, following_cryptocurrency_dataset
Abstract: 누가 누구를 팔로우하고 어떤 패턴을 따르는지를 파악하는 것은 집단 행동(예: 인간 집단, 물고기 떼, 주식 시장)을 이해하는 데 있어 매우 중요한 단계입니다. 시계열은 팔로잉 관계에 관한 인사이트를 얻는 데 사용할 수 있는 자료 중 하나입니다. 그러나 팔로잉 패턴이나 모티브의 개념과 시계열에서 이를 찾는 방법은 명확하지 않습니다. 본 연구에서는 두 시계열 간의 추종 모티프의 개념을 공식화하고 두 시계열 간의 추종 패턴을 추론할 수 있는 프레임워크를 제시합니다. 이 프레임워크는 시계열에서 모티프를 추출하는 효율적이고 확장 가능한 방법 중 하나인 매트릭스 프로파일 방법을 활용합니다. 제안한 프레임워크를 여러 기준선과 비교합니다. 이 프레임워크는 시뮬레이션 데이터 세트에서 기준선보다 더 나은 성능을 보였습니다. 음원 데이터 세트에서 프레임워크는 두 가수가 서로 따라 부르는 한 쌍의 시계열 내에서 다음과 같은 모티프를 검색할 수 있습니다. 암호화폐 데이터 세트에서 프레임워크는 두 개의 디지털 통화로부터 한 쌍의 시계열 내에서 다음과 같은 모티프를 포착할 수 있으며, 이는 한 통화의 가치가 다른 통화의 가치 패턴을 따르는 것을 의미합니다. 이 프레임워크는 모든 시계열 분야에서 시계열 간의 다음 패턴에 관한 인사이트를 얻기 위해 활용될 수 있습니다. [abs|pdf]

[22/74] Thousands of AI Authors on the Future of AI

Keywords: ai_progress_nature, ai_progress_better, ai_progress
Abstract: 최고 수준의 인공지능(AI) 학술지에 논문을 게재한 2,778명의 연구자들이 AI 발전 속도와 첨단 AI 시스템의 특성과 영향에 대해 예측한 사상 최대 규모의 설문조사 결과, 2028년까지 AI 시스템이 결제 처리 사이트를 처음부터 자율적으로 구축하고, 인기 뮤지션의 신곡과 구별할 수 없는 노래를 만들고, 대규모 언어 모델을 자율적으로 다운로드하고 미세 조정하는 등 여러 이정표를 달성할 확률이 최소 50%에 달할 것으로 예측되었습니다. 과학의 발전이 멈추지 않는다면 모든 가능한 작업에서 인간을 능가하는 기계가 등장할 가능성은 2027년에는 10%, 2047년에는 50%에 달할 것으로 예상됩니다. 후자의 추정치는 불과 1년 전에 실시한 유사한 설문조사에서 나온 결과보다 13년이나 앞당겨진 것입니다[Grace 외, 2022]. 그러나 모든 직업이 완전 자동화될 가능성은 2037년에는 10%, 늦어도 2116년에는 50%에 달할 것으로 예측되었습니다(2022년 조사에서는 2164%).
대부분의 응답자는 AI 발전의 장기적 가치에 대해 상당한 불확실성을 표명했습니다: 68.3%는 초인간적 AI가 가져올 좋은 결과가 나쁜 결과보다 많다고 생각했지만, 이들 순 낙관론자 중 48%는 인류 멸종과 같은 극도로 나쁜 결과가 발생할 가능성을 5% 이상, 순 비관론자 중 59%는 극도로 좋은 결과가 발생할 가능성을 5% 이상 제시했습니다. 응답자의 38%에서 51%는 인공지능의 발전이 인류 멸종과 같은 나쁜 결과를 초래할 가능성이 10% 이상이라고 답했습니다. 응답자의 절반 이상이 잘못된 정보, 권위주의적 통제, 불평등 등 6가지 AI 관련 시나리오에 대해 '상당한' 또는 '극단적인' 우려가 필요하다고 답했습니다. AI의 빠른 발전과 느린 발전 중 어느 쪽이 인류의 미래를 위해 더 나은지에 대해서는 의견이 분분했습니다. 그러나 AI 시스템의 잠재적 위험을 최소화하기 위한 연구에 더 많은 우선순위를 두어야 한다는 데는 폭넓은 동의가 있었습니다. [abs|pdf]

[23/74] Pheme: Efficient and Conversational Speech Generation

Keywords: speech_generation_tools, speech_generation_large, conversational_tts_models
Abstract: 최근 몇 년 동안 음성 생성은 괄목할 만한 발전을 거듭하여 이제는 실제 사람의 목소리와 거의 구별할 수 없는 원샷 생성 기능을 달성했습니다. 이러한 음성 생성의 발전을 대규모 언어 모델과 통합하면 다양한 애플리케이션에 혁신을 가져올 수 있습니다. 하지만 대화형 보조 시스템과 같은 특정 애플리케이션에는 실시간으로 효율적으로 작동하는 자연스러운 대화형 음성 생성 도구가 필요합니다. 계층적 신경망 오디오 코덱으로 구동되는 VALL-E 및 SoundStorm과 같은 최신 모델은 제대로 작동하려면 대규모 신경 구성 요소와 방대한 학습 데이터가 필요합니다. 이에 반해 MQTTS는 소규모의 실제 대화 음성 데이터를 활용하면서 보다 간결한 대화형 TTS 모델을 구축하는 것을 목표로 합니다. 하지만 자동 회귀적 특성으로 인해 추론 지연 시간이 길어 실시간 사용이 제한됩니다. 이 연구에서는 최신 TTS 모델의 강점을 살리면서 현재의 한계를 완화하기 위해 1) 작지만 고성능 모델을 제공하고, 2) 자연스러운 대화 음성을 병렬로 생성할 수 있으며, 4) 소규모 대화 데이터에서 효율적으로 학습할 수 있어 데이터 요구량을 10배 이상 줄이면서도 자동 회귀 TTS 모델의 품질에 맞먹는 Pheme 모델 시리즈를 소개합니다. 또한 간단한 교사-학생 증류를 통해 훨씬 더 큰 규모의 교사 모델에서 생성된 합성 음성에만 의존하여 사전 학습된 테마 체크포인트 위에 단일 화자 설정의 음성 품질을 크게 개선할 수 있음을 보여줍니다. 오디오 샘플과 사전 훈련된 모델은 온라인에서 사용할 수 있습니다. [abs|pdf]

[24/74] CrisisViT: A Robust Vision Transformer for Crisis Image Classification

Keywords: crisis_image_classification, crisis_image_dataset, image_classification_crisisvit
Abstract: 긴급 상황 발생 시 위기 대응 기관은 관련 서비스와 자원을 배치하기 위해 현장 상황을 신속하고 정확하게 평가해야 합니다. 그러나 현지 대응 서비스에서 직접 보고를 받을 때까지 피해 지역에 대한 데이터가 부족할 수 있기 때문에 당국은 제한된 정보를 바탕으로 결정을 내려야 하는 경우가 많습니다. 다행히도 고화질 카메라가 장착된 스마트폰이 널리 보급되면서 소셜 미디어를 통한 시민 저널리즘이 위기 대응 기관에 귀중한 정보원으로 활용되고 있습니다. 그러나 시민들이 게시하는 대량의 이미지를 분석하려면 일반적으로 가능한 것보다 더 많은 시간과 노력이 필요합니다. 이 문제를 해결하기 위해 이 백서에서는 자동 이미지 분류/태깅을 위한 최첨단 딥 뉴럴 모델, 특히 위기 이미지 분류를 위한 트랜스포머 기반 아키텍처(CrisisViT)를 적용할 것을 제안합니다. 새로운 Incidents1M 위기 이미지 데이터 세트를 활용하여 다양한 새로운 트랜스포머 기반 이미지 분류 모델을 개발합니다. 표준 위기 이미지 벤치마크 데이터 세트에 대한 실험을 통해 CrisisViT 모델이 비상 유형, 이미지 관련성, 인도주의적 범주, 피해 심각도 분류에서 이전 접근 방식보다 훨씬 뛰어난 성능을 보임을 입증했습니다. 또한, 새로운 Incidents1M 데이터 세트가 CrisisViT 모델을 더욱 보강하여 1.25%의 절대 정확도를 추가로 향상시킬 수 있음을 보여줍니다. [abs|pdf]

[25/74] Physics-Informed Neural Networks for High-Frequency and Multi-Scale Problems using Transfer Learning

Keywords: neural_networks_solving, physics_informed_neural, discovered_transfer_learning
Abstract: 물리학 기반 신경망(PINN)은 편미분 방정식 및 일반 미분 방정식(ODE/PDE)을 위한 데이터 기반 솔버입니다. 정방향 및 역방향 문제를 모두 해결할 수 있는 통합 프레임워크를 제공합니다. 그러나 목적 함수의 복잡성으로 인해 종종 훈련 실패로 이어집니다. 이 문제는 빈도가 높고 규모가 큰 문제를 해결할 때 특히 두드러집니다. 우리는 전이 학습을 사용하여 저빈도 문제부터 훈련을 시작하고 점차 고빈도 문제에 접근하여 PINN 훈련의 견고성과 수렴성을 높일 것을 제안했습니다. 두 가지 사례 연구를 통해 전이 학습이 네트워크 파라미터를 늘리지 않고도 저빈도 문제에서 고빈도 문제까지 근사치에 가까운 해답을 도출하도록 PINN을 효과적으로 훈련시킬 수 있음을 발견했습니다. 또한, 더 적은 데이터 포인트와 더 짧은 훈련 시간이 필요합니다. 최적화기 선택을 포함한 훈련 전략을 자세히 설명하고, 더 복잡한 문제를 해결하기 위해 신경망을 훈련하는 데 전이 학습을 사용하기 위한 가이드라인을 제안했습니다. [abs|pdf]

[26/74] PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering

Keywords: visual_question_answering, answers_generative_task, multimodal_large_language
Abstract: 다중 모드 대규모 언어 모델(MLLM)은 기존 대규모 언어 모델의 기능을 진화적으로 확장하여 순수 텍스트 기반 애플리케이션의 범위를 뛰어넘는 문제를 해결할 수 있게 해줍니다. 이는 이전에 이러한 언어 모델에 인코딩된 지식을 활용하여 멀티모달 컨텍스트에서 적용 가능성과 기능을 향상시킵니다. 최근 연구에서는 의료 시각적 질의응답(Med-VQA) 과제를 해결하기 위한 생성 작업으로 자유 형식 답변을 예측하기 위해 MLLM을 적용하는 방법을 조사했습니다. 이 백서에서는 Med-VQA 애플리케이션에 맞게 MLLM을 미세 조정하기 위한 효율적인 파라미터 프레임워크를 제안하고, 공개 벤치마크 데이터 세트에서 이를 경험적으로 검증합니다. 정확한 성능 측정을 위해 사람이 직접 평가한 결과, 우리 모델이 전반적으로 81.9%의 정확도를 달성하고, 폐쇄형 질문에서 26%의 절대 정확도로 GPT-4v 모델을 크게 앞서는 것으로 나타났습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[27/74] From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models

Keywords: versatile_conversational_agents, conversational_agents, conversational_agents_raise
Abstract: 이 백서에서는 GPT-4와 같은 대규모 언어 모델(LLM)을 대화형 에이전트에 통합하는 기능을 강화하는 고급 아키텍처인 RAISE(Reasoning and Acting through Scratchpad and Examples)를 소개합니다. ReAct 프레임워크의 개선 사항인 RAISE는 인간의 단기 및 장기 기억을 반영하는 이중 구성 요소 메모리 시스템을 통합하여 대화의 맥락과 연속성을 유지합니다. 이는 대화 선택, 장면 추출, CoT 완료, 장면 증강과 같은 단계를 포함한 포괄적인 에이전트 구축 시나리오를 수반하며, 이는 LLM 트레이닝 단계로 이어집니다. 이 접근 방식은 복잡한 다중 턴 대화에서 에이전트의 제어 가능성과 적응성을 향상시키는 것으로 보입니다. 부동산 판매 맥락에서의 예비 평가에 따르면 RAISE는 기존 에이전트에 비해 몇 가지 장점이 있으며, 이는 더 광범위한 적용 가능성을 시사합니다. 이 연구는 보다 컨텍스트를 인식하고 다재다능한 대화형 에이전트를 개발하기 위한 강력한 프레임워크를 제공함으로써 AI 분야에 기여하고 있습니다. [abs|pdf]

[28/74] Tackling Electrode Shift In Gesture Recognition with HD-EMG Electrode Subsets

Keywords: channel_surface_emg, semg_pattern_recognition, surface_emg
Abstract: 근전도 패턴 인식 알고리즘은 움직임 의도를 해독하기 위해 광범위하게 연구되어 왔지만, 변화하는 기록 조건에 취약하여 피험자 간, 심지어 세션 간에 성능이 현저히 떨어지는 것으로 알려져 있습니다. 고밀도 표면 근전도(HD-sEMG) 시스템이라고도 하는 다채널 표면 근전도(multi-channel surface EMG)는 추가 전극을 사용하여 수집한 정보로 성능을 개선하는 데 사용되어 왔습니다. 그러나 데이터 세트가 제한적이고 전극 배치와 같은 변동성의 원인을 해결하기 어렵기 때문에 견고성이 부족하다는 문제가 항상 존재합니다. 이 연구에서는 입력 채널 하위 집합에 대한 훈련과 다양한 전극 위치의 데이터로 훈련 분포를 보강하는 동시에 전극 이동을 목표로 삼고 입력 차원을 줄이는 방법을 제안합니다. 이 방법은 전극 이동에 대한 견고성을 높이고 피사체와 분류 알고리즘 전반에서 훨씬 더 높은 인터세션 성능을 제공합니다. [abs|pdf]

[29/74] Fairness-Aware Job Scheduling for Multi-Job Federated Learning

Keywords: fairness_aware_federated, federated_learning, federated_job_scheduling
Abstract: 연합 학습(FL)을 사용하면 여러 데이터 소유자(또는 FL 클라이언트)가 민감한 개인 데이터를 공개하지 않고도 머신러닝 모델을 공동으로 훈련할 수 있습니다. 기존의 FL 연구는 대부분 단일 FL 서버가 각 훈련 라운드에서 로컬 모델을 업데이트할 FL 클라이언트의 하위 집합을 선택하는 독점 시나리오에 초점을 맞추고 있습니다. 실제로는 여러 FL 서버가 동시에 동일한 풀에서 클라이언트를 선택하려고 시도할 수 있습니다. 이 백서에서는 이러한 격차를 해소하기 위해 최초의 공정성 인식 연합 작업 스케줄링(공정성 인식 연합 작업 스케줄링, FairFedJS) 접근 방식을 제안합니다. 이 접근법은 리아푸노프 최적화를 기반으로 현재 수요와 작업 대금 입찰을 함께 고려하여 수요가 많은 FL 클라이언트 데이터 세트를 이를 필요로 하는 FL 작업에 공정하게 할당함으로써 대기 시간이 길어지는 것을 방지합니다. 두 개의 데이터 세트에 대한 네 가지 최신 접근 방식과 FairFedJS를 비교하는 광범위한 실험을 통해 그 장점이 입증되었습니다. 스케줄링 공정성 및 수렴 시간 측면에서 각각 평균 31.9%와 1.0%씩 최상의 기준선을 능가하는 동시에 비슷한 수준의 테스트 정확도를 달성했습니다. [abs|pdf]

[30/74] Enhancing targeted transferability via feature space fine-tuning

Keywords: adversarial_examples_aes, adversarial_examples, adversarial
Abstract: 적대적 예시(AE)는 개인정보 보호와 강력한 신경망에 영감을 줄 수 있는 잠재력으로 인해 광범위하게 연구되어 왔습니다. 그러나 타겟팅된 AE를 알 수 없는 모델에 적용할 수 있게 만드는 것은 여전히 어려운 과제입니다. 이 백서에서는 기존의 단순 반복 공격으로 만들어진 AE에서 흔히 발생하는 과적합 딜레마를 완화하기 위해 특징 공간에서 미세 조정을 제안합니다. 구체적으로, 기준 공격에 의해 생성된 AE부터 시작하여 목표 클래스에 기여하는 특징을 장려하고 소스 모델의 중간 계층에서 원래 클래스에 기여하는 특징을 억제합니다. 광범위한 실험을 통해 몇 번의 미세 조정을 반복하는 것만으로도 표적 전이성 측면에서 기존 공격의 성능을 크게 향상시킬 수 있음을 입증했습니다. 또한 간단한 반복 공격이 추가 데이터로 표적별 분류기나 생성기를 학습시키는 리소스 집약적인 방법과 비교하여 비슷하거나 더 나은 이전 가능성을 얻을 수 있음을 확인했습니다. 코드는 다음 http URL에서 확인할 수 있습니다. [abs|pdf]

[31/74] Learning Image Demoireing from Unpaired Real Data

Keywords: synthesize_moire_images, data_moire_images, moire_free_images
Abstract: 이 논문은 이미지 데모어링 문제를 해결하는 데 초점을 맞춥니다. 페어링된 실제 데이터의 학습에 의존하는 기존의 많은 연구와 달리, 본 논문에서는 페어링되지 않은 실제 데이터, 즉 관련 없는 깨끗한 이미지와 연관된 무아레 이미지에서 데모어링 모델을 학습하고자 합니다. 언페어드 데모어링(UnDeM)이라고 하는 이 방법은 페어링되지 않은 데이터 세트에서 의사 무아레 이미지를 합성하여 데모어링 모델 학습을 위한 클린 이미지와 페어를 생성합니다. 이를 위해 실제 무아레 이미지를 패치로 나누고 무아레 복잡도에 따라 그룹화합니다. 새로운 무아레 생성 프레임워크를 도입하여 실제 무아레 패치와 유사한 다양한 무아레 특징을 가진 무아레 이미지와 실제 무아레가 없는 이미지와 유사한 디테일을 가진 무아레 이미지를 합성합니다. 또한, 적응형 노이즈 제거 방법을 도입하여 디모아링 모델의 학습에 악영향을 미치는 저품질의 유사 무아레 이미지를 제거합니다. 일반적으로 사용되는 FHDMi 및 UHDM 데이터 세트에 대해 광범위한 실험을 수행합니다. 그 결과, MBCNN 및 ESDNet-L과 같은 기존 디모이어링 모델을 사용할 때 UnDeM이 기존 방법보다 더 나은 성능을 발휘하는 것으로 나타났습니다. 코드: 이 https URL [abs|pdf]

[32/74] Complementary Information Mutual Learning for Multimodality Medical Image Segmentation

Keywords: multimodal_learning_segmentation, information_mutual_learning, multimodal_learning
Abstract: 의료 영상의 한계와 종양 신호의 다양성으로 인해 방사선 전문의는 종양 분할 및 진단을 위해 다중 모달 이미지를 활용해야 합니다. 이로 인해 세분화에서 멀티모달 학습이 개발되었습니다. 그러나 모달리티 간의 중복으로 인해 모달리티의 중요성을 잘못 판단하거나 특정 모달리티 정보를 무시하고 인지 부하를 증가시키는 등 기존의 감산 기반 공동 학습 방법에는 문제가 발생합니다. 이러한 까다로운 문제는 궁극적으로 세분화의 정확도를 떨어뜨리고 과적합의 위험을 증가시킵니다. 이 백서에서는 모달 간 중복 정보의 부정적인 영향을 수학적으로 모델링하고 해결할 수 있는 보완 정보 상호 학습(CIML) 프레임워크를 소개합니다. CIML은 덧셈의 개념을 채택하고 귀납적 편향 기반 작업 분해와 메시지 전달 기반 중복 필터링을 통해 모달 간 중복 정보를 제거합니다. CIML은 먼저 전문가의 사전 지식을 기반으로 멀티모달 세분화 작업을 여러 개의 하위 작업으로 분해하여 모달 간 정보 의존성을 최소화합니다. 또한 각 모달리티가 메시지 전달을 통해 다른 모달리티로부터 정보를 추가적으로 추출할 수 있는 체계를 도입합니다. 추출된 정보의 비중복을 달성하기 위해 중복 필터링은 변형 정보 병목 현상에서 영감을 얻은 보완 정보 학습으로 변환됩니다. 이 보완 정보 학습 절차는 변형 추론과 교차 모드 공간 주의로 효율적으로 해결할 수 있습니다. 검증 작업과 표준 벤치마크의 수치적 결과에 따르면 CIML은 모달리티 간 중복 정보를 효율적으로 제거하여 검증 정확도와 세분화 효과 측면에서 SOTA 방법보다 뛰어난 성능을 보입니다. [abs|pdf]

[33/74] Graph-level Protein Representation Learning by Structure Knowledge Refinement

Keywords: graph_contrastive_learning, learning_graph_level, learning_graph
Abstract: 이 논문은 전체 그래프 수준에서 비지도 방식으로 표현을 학습하는 데 중점을 둡니다. 그래프 수준의 표현을 학습하는 것은 분자 특성 예측, 단백질 구조 특징 추출, 소셜 네트워크 분석 등 다양한 실제 문제에서 중요한 역할을 합니다. 그래프 특징 추출을 용이하게 하기 위해 대조 학습을 활용하는 것이 주류 방법인데, 이를 그래프 대조 학습(GCL)이라고 합니다. GCL은 효과적이기는 하지만, 대비 학습에서 위음성 쌍의 효과와 같은 몇 가지 복잡한 문제가 있습니다. 게다가 GCL의 증강 전략은 다양한 그래프 데이터 세트에 대한 적응력이 약합니다. 이러한 문제에서 착안하여 데이터 구조를 사용하여 한 쌍이 양인지 음인지의 확률을 결정하는 구조 지식 정제(SKR)라는 새로운 프레임워크를 제안합니다. 한편, 원본 데이터의 의미적 의미를 자연스럽게 보존하고 SKR 프레임워크와 호환되는 증강 전략을 제안합니다. 또한 직관과 실험을 통해 SKR 프레임워크의 효과를 설명합니다. 그래프 수준 분류 작업에 대한 실험 결과는 SKR 프레임워크가 대부분의 최첨단 기준선보다 우수하다는 것을 보여줍니다. [abs|pdf]

[34/74] Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning

Keywords: alpha_factor_mining, mining_formulaic_alpha, efficiently_discover_alpha
Abstract: 알파 팩터 마이닝은 주식 시장에서 퀀트 트레이딩을 위한 특정 팩터 또는 지표(알파 팩터라고 함)를 발견하고 개발하는 과정을 말합니다. 방대한 검색 공간에서 알파 팩터를 효율적으로 발굴하기 위해 일반적으로 강화학습(RL)이 사용됩니다. 본 논문에서는 검색 공간을 확장하고 미리 학습된 공식 알파를 초기 시드 값으로 활용하여 시너지 효과를 내는 공식 알파를 생성함으로써 기존 알파 팩터 마이닝 접근법을 개선하는 방법을 제안합니다. 이 모델의 성능 평가 지표로 정보 계수(IC)와 순위 정보 계수(Rank IC)를 사용합니다. CSI300 시장 데이터를 사용하여 실제 투자 시뮬레이션을 수행한 결과, 기존 기법 대비 유의미한 성능 향상을 확인했습니다. [abs|pdf]

[35/74] German Text Embedding Clustering Benchmark

Keywords: german_text_embeddings, embeddings_improve_clustering, clustering_neural_text
Abstract: 이 작업에서는 다양한 도메인에서 독일어 텍스트 임베딩을 클러스터링하는 성능을 평가하는 벤치마크를 소개합니다. 이 벤치마크는 토픽 모델링과 같이 텍스트를 그룹화해야 하는 작업에서 클러스터링 신경 텍스트 임베딩의 사용이 증가하고 기존 벤치마크에서 독일어 리소스에 대한 필요성이 증가함에 따라 개발되었습니다. 다양한 클러스터링 알고리즘의 결과에 대해 평가된 사전 학습된 다양한 단일 언어 및 다국어 모델에 대한 초기 분석을 제공합니다. 그 결과 강력한 성능의 단일 언어 및 다국어 모델이 도출되었습니다. 임베딩의 크기를 줄이면 클러스터링을 더욱 개선할 수 있습니다. 또한 이러한 추가 학습의 이점을 추정하기 위해 독일어 BERT 모델에 대한 지속적인 사전 학습을 통해 실험을 수행했습니다. 실험 결과, 짧은 텍스트의 경우 상당한 성능 향상이 가능한 것으로 나타났습니다. 모든 코드와 데이터 세트는 공개적으로 사용 가능합니다. [abs|pdf]

[36/74] TripleSurv: Triplet Time-adaptive Coordinate Loss for Survival Analysis

Keywords: ranking_survival_time, survival_analysis_ranking, ranking_survival
Abstract: 생존 분석의 핵심 과제는 관심 있는 사건이 사망, 실패 또는 특정 사건의 발생일 수 있는 검열된 사건까지의 시간 데이터의 분포를 모델링하는 것입니다. 이전 연구에 따르면 생존 분석에 순위 및 최대 가능성 추정(MLE) 손실 함수가 널리 사용되는 것으로 나타났습니다. 그러나 순위 손실은 생존 시간의 순위에만 초점을 맞추고 정확한 생존 시간 값에 대한 샘플의 잠재적 효과를 고려하지 않습니다. 또한, 최소자승법(MLE)은 제한이 없고 이상값(예: 검열된 데이터)의 영향을 쉽게 받기 때문에 모델링 성능이 저하될 수 있습니다. 학습 과정의 복잡성을 처리하고 가치 있는 생존 시간 값을 활용하기 위해, 우리는 시간 적응형 좌표 손실 함수인 TripleSurv를 제안하여 샘플 쌍 간의 생존 시간 차이를 순위에 도입하여 적응 조정을 수행함으로써 모델이 쌍의 상대적 위험을 정량적으로 순위를 매기고 궁극적으로 예측의 정확성을 향상시킬 수 있도록 합니다. 가장 중요한 것은 TripleSurv가 쌍의 순위를 매겨 샘플 간의 상대적 위험을 정량화하는 데 능숙하며, 샘플 분포에 대한 모델의 견고성을 보정하기 위해 시간 간격을 절충안으로 고려한다는 점입니다. 세 가지 실제 생존 데이터 세트와 공개 합성 데이터 세트에 대해 TripleSurv를 평가했습니다. 그 결과, 우리의 방법은 최첨단 방법보다 성능이 뛰어나며 검열률이 다른 다양한 정교한 데이터 분포를 모델링할 때 우수한 모델 성능과 견고성을 보여줍니다. 저희의 코드는 수락 시 사용할 수 있습니다. [abs|pdf]

[37/74] Geometric-Facilitated Denoising Diffusion Model for 3D Molecule Generation

Keywords: molecule_generation_diffusion, molecule_conformations_diffusion, molecular_diffusion
Abstract: 노이즈 제거 확산 모델은 여러 연구 분야에서 큰 잠재력을 보여주었습니다. 기존의 디노이징 확산 기반 3D 분자 생성 방법은 두 가지 큰 문제에 직면해 있습니다. 분자의 대다수 무거운 원자는 단일 결합을 통해 여러 원자와 연결될 수 있기 때문에 분자 형상을 모델링하는 데 쌍별 거리만으로는 충분하지 않습니다. 따라서 복잡한 다원자간 관계를 포착하고 고품질의 특징을 학습할 수 있는 효과적인 신경망을 노이즈 제거 커널로 제안하는 것이 첫 번째 과제입니다. 그래프의 불연속적인 특성으로 인해 분자에 대한 주류 확산 기반 방법은 사전 정의된 규칙에 크게 의존하고 간접적인 방식으로 에지를 생성합니다. 두 번째 과제는 확산에 분자 생성을 적용하고 결합의 존재를 정확하게 예측하는 것입니다. 본 연구에서는 확산 과정에서 분자의 형태를 업데이트하는 반복적인 방식이 분자 역학과 일치한다고 보고, 기하학적 촉진 분자 확산(GFMDiff)이라는 새로운 분자 생성 방법을 도입했습니다. 첫 번째 과제로는 글로벌 공간 관계를 완전히 확장하고 특징과 형상을 정확하게 예측하는 데 기여하는 고품질 표현을 학습하기 위해 듀얼 트랙 트랜스포머 네트워크(DTN)를 도입합니다. 두 번째 과제는 에지를 잠재 공간에 직접 삽입하는 대신 훈련 기간 동안 결합 형성에 개입하는 기하학적 촉진 손실(GFLoss)을 설계하는 것입니다. 현재 벤치마크에 대한 종합적인 실험을 통해 GFMDiff의 우수성이 입증되었습니다. [abs|pdf]

[38/74] Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

Keywords: sdxl_models_crucial, diffusion_xl_sdxl, sdxl_models
Abstract: Stable Diffusion XL(SDXL)은 다양한 기능과 최고 수준의 이미지 품질로 최고의 오픈 소스 텍스트-이미지 변환 모델(T2I)로 자리 잡았습니다. 더 넓은 범위와 적용성을 위해서는 SDXL 모델의 계산 수요를 효율적으로 처리하는 것이 중요합니다. 이번 작업에서는 모델 크기를 줄이면서 생성 품질을 유지하는 데 중점을 두고 레이어 수준 손실을 사용하여 점진적으로 제거함으로써 각각 1.3억 개와 0.74억 개의 파라미터 UNet을 가진 두 가지 축소형 변형인 Segmind Stable Diffusion(SSD-1B)과 Segmind-Vega를 소개합니다. 이러한 모델 가중치는 이 https URL에서 공개됩니다. 유니티의 방법론은 SDXL의 U-Net 구조에서 잔여 네트워크와 트랜스포머 블록을 제거하여 파라미터와 지연 시간을 크게 줄입니다. 당사의 소형 모델은 이전된 지식을 활용하여 원본 SDXL을 효과적으로 에뮬레이션하여 수십억 개의 파라미터를 가진 대규모 SDXL과 비교하여 경쟁력 있는 결과를 달성합니다. 이 연구는 지식 증류와 레이어 수준 손실이 결합된 지식 증류의 효율성을 강조하여 모델 크기를 줄이면서도 SDXL의 고품질 생성 기능을 보존함으로써 리소스가 제한된 환경에서 보다 쉽게 배포할 수 있음을 보여줍니다. [abs|pdf]

[39/74] A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model

Keywords: combines_neural_beamforming, neural_beamforming, field_speech_recognition
Abstract: 원거리 음성 인식은 일반적으로 신호 처리 빔포밍을 사용하여 잡음과 간섭 문제를 해결하는 까다로운 작업입니다. 그러나 일반적으로 환경 가정에 크게 의존하기 때문에 성능이 제한적인 것으로 밝혀졌습니다. 본 논문에서는 신경 빔포밍과 트랜스포머 기반의 듣기, 말하기, 듣기(LAS) 음성 인식 시스템을 결합한 통합 다채널 원거리 음성 인식 시스템을 제안하고, 이를 통해 엔드투엔드 음성 인식 시스템을 음성 향상까지 포함하는 확장된 음성 인식 시스템을 제안합니다. 그런 다음 이러한 프레임워크는 최종 목표를 최적화하기 위해 공동으로 학습됩니다. 특히 신경 빔포밍을 형성하기 위해 인수분해 복소 선형 투영(fCLP)이 채택되었습니다. 그런 다음 룩 방향을 결합하는 여러 풀링 전략을 비교하여 최적의 접근 방식을 찾습니다. 또한 소스 방향에 대한 정보도 빔포밍에 통합되어 소스 방향의 유용성을 탐색하는데, 이는 특히 멀티 모달리티 시나리오에서 일반적으로 사용할 수 있는 선행 정보입니다. 마이크 어레이의 간격 분산에 대한 견고성을 평가하기 위해 다양한 마이크 어레이 지오메트리에 대한 실험을 수행합니다. 대규모 사내 데이터베이스를 사용하여 제안된 프레임워크의 효과를 평가한 결과, 제안된 방법은 강력한 기준선과 비교했을 때 19.26% 향상된 성능을 보였습니다. [abs|pdf]

[40/74] Zero-shot Microclimate Prediction with Deep Learning

Keywords: zero_shot_learning, climate_prediction, making_local_predictions
Abstract: 기상 관측소 데이터는 기후 예측을 위한 귀중한 자료이지만, 원격 위치에서는 그 신뢰성이 제한될 수 있습니다. 더 큰 문제는 지역 예측을 할 때 이전에 모니터링되지 않았던 새로운 위치에서는 접근이 불가능한 센서 데이터에 의존하는 경우가 많다는 점입니다. 이러한 문제에 대응하기 위해 저희는 모니터링되지 않는 새로운 위치에서 다양한 기후 측정값을 예측하도록 설계된 새로운 제로 샷 학습 접근법을 제안합니다. 이 방법은 다른 지리적 위치에서 추출한 지식을 활용하여 미기후 변수를 예측하는 기존의 일기예보 기법을 능가합니다. [abs|pdf]

[41/74] A backdoor attack against link prediction tasks with graph neural networks

Keywords: backdoor_attacks_gnns, training_graph_backdoor, backdoored_gnn_models
Abstract: 그래프 신경망(GNN)은 그래프 구조의 데이터를 처리할 수 있는 딥 러닝 모델의 일종으로, 다양한 실제 애플리케이션에서 상당한 성능을 입증했습니다. 최근 연구에 따르면 GNN 모델은 백도어 공격에 취약한 것으로 나타났습니다. 입력 데이터에 특정 패턴(예: 하위 그래프, 노드 등 백도어 트리거)이 나타나면 GNN 모델에 내장된 백도어가 활성화되어 입력 데이터를 공격자가 지정한 목표 클래스 레이블로 잘못 분류하는 반면, 입력 데이터에 백도어 트리거가 없으면 GNN 모델에 내장된 백도어가 활성화되지 않아 모델이 정상적으로 작동합니다. 백도어 공격은 매우 은밀하게 이루어지기 때문에 GNN 모델을 심각한 보안 위험에 노출시킵니다. 현재 GNN에 대한 백도어 공격 연구는 주로 그래프 분류, 노드 분류와 같은 작업에 집중되어 있으며 링크 예측 작업에 대한 백도어 공격은 거의 연구되지 않고 있습니다. 본 논문에서는 GNN을 기반으로 하는 링크 예측 작업에 대한 백도어 공격을 제안하고, 트리거가 나타나면 링크 관계가 없는 두 노드를 링크 관계가 있는 것으로 잘못 예측하는 백도어 GNN 모델에 이러한 보안 취약점이 존재함을 밝힙니다. 이 방법은 단일 노드를 트리거로 사용하여 학습 그래프에서 선택된 노드 쌍을 포이즌한 다음, 학습 과정을 통해 백도어를 GNN 모델에 삽입하는 방식입니다. 추론 단계에서 트리거 노드를 입력 데이터에서 연결되지 않은 노드 쌍의 두 끝 노드에 연결하기만 하면 GNN 모델의 백도어가 활성화되어 GNN 모델이 대상 노드 쌍에 대해 잘못된 연결 예측 결과를 생성할 수 있습니다. [abs|pdf]

[42/74] Nurse-in-the-Loop Artificial Intelligence for Precision Management of Type 2 Diabetes in a Clinical Trial Utilizing Transfer-Learned Predictive Digital Twin

Keywords: nurse_loop_predictive, online_nurse_loop, prediction_accuracy_patients
Abstract: 배경: 제2형 당뇨병(T2D)은 심각한 건강 합병증과 삶의 질에 부정적인 영향을 미칠 위험이 큰 만연한 만성 질환입니다. 개인의 특성과 라이프스타일이 치료 계획과 환자 결과에 미치는 영향을 고려할 때, 정밀하고 개인화된 관리 전략을 개발하는 것이 중요합니다. 인공지능(AI)은 다양한 데이터 소스의 패턴과 간호사의 전문성을 결합하여 최적의 치료를 달성하는 데 큰 가능성을 제공합니다. 방법: 이 연구는 T2D 환자(n = 20, 나이 = 57 +- 10)를 대상으로 6개월간 진행된 보조 연구입니다. 참가자들은 지난 3개월 동안 매일 AI가 생성한 개별화된 피드백을 받은 중재 그룹(AI, n=10) 또는 매일 피드백을 받지 않은 대조 그룹(비AI, n=10)에 무작위로 배정되었습니다. 이 연구에서는 예측적 디지털 트윈(PDT)을 활용하는 온라인 예측적 통제(ONLC) 모델을 개발했습니다. PDT는 전이 학습 기반 인공 신경망을 사용하여 개발되었습니다. 첫 3개월 동안 참가자의 자가 모니터링 데이터(체중, 음식 기록, 신체 활동, 포도당)를 바탕으로 PDT를 학습시키고, 온라인 제어 알고리즘에 입자 군집 최적화를 적용하여 향후 3개월 동안 환자의 포도당과 체중 수준을 유지하는 데 영향력 있는 행동 변화를 식별했습니다. ONLC는 개입 그룹에게 문자 메시지를 통해 개별화된 피드백과 권장 사항을 제공했습니다. PDT의 성과를 개선하기 위해 매주 재교육을 실시했습니다. 결과: 훈련된 ONLC 모델은 온라인에서 모델을 조정하는 동안 모든 환자에서 80% 이상의 예측 정확도를 달성했습니다. 개입 그룹의 참가자들은 일일 걸음 수와 총 칼로리 및 총 탄수화물 섭취량이 권장량에 따라 안정적이거나 개선되는 추세를 보였습니다. [abs|pdf]

[43/74] A Deep Q-Learning based Smart Scheduling of EVs for Demand Response in Smart Grids

Keywords: rewards_ev_scheduling, ev_scheduling_actions, ev_scheduling
Abstract: 경제 및 정책적 요인으로 인해 전기 자동차(EV)의 채택과 사용이 지속적으로 증가하고 있습니다. 그러나 전기차는 내연기관 차량에 대한 청정 대안임에도 불구하고 전력 수요 증가와 사용 시기로 인해 마이크로그리드 장비의 수명과 에너지 균형에 부정적인 영향을 미칩니다. 따라서 그리드 관리는 전기차의 스케줄링 유연성을 활용하여 수요 반응 프로그램에 적극적으로 참여함으로써 지역 네트워크 균형을 지원해야 합니다. 이 백서에서는 딥 큐 러닝을 활용하여 배전 시스템 운영자가 제공한 목표 에너지 프로필에 맞춰 마이크로그리드 내에서 전기차의 충전 및 방전 활동을 예약하는 모델 없는 솔루션을 제안합니다. 벨만 방정식을 적용하여 EV 스케줄링 작업에 대한 특정 보상을 기반으로 상태의 가치를 평가하고, 신경망을 사용하여 사용 가능한 작업의 Q값을 추정하고 엡실론-탐욕 알고리즘을 사용하여 목표 에너지 프로파일을 충족하기 위해 개발과 탐사의 균형을 맞췄습니다. 그 결과, 제안된 솔루션이 사람 계수 0.99로 목표 프로파일에 맞게 전기차 충전 및 방전 작업을 효과적으로 스케줄링하여 전기차 및 마이크로그리드 역학에 대한 지식 없이 데이터에만 의존하여 e-모빌리티 기능으로 인한 동성을 포함하는 상황을 효과적으로 처리할 수 있음을 보여주는 희망적인 결과를 얻었습니다. [abs|pdf]

[44/74] Adaptive Discounting of Training Time Attacks

Keywords: attacks_reinforcement_learning, attacks_reinforcement, insidious_attacks_reinforcement
Abstract: 강화 학습(RL) 솔루션에 대한 가장 교묘한 공격 중에는 학습된 행동에 허점과 백도어를 생성하는 훈련 시간 공격(TTA)이 있습니다. 단순한 중단에 국한되지 않고, 공격자가 학습 중인 RL 에이전트(피해자)에게 특정 목표 행동을 강요하는 건설적 TTA(C-TTA)도 등장했습니다. 그러나 최첨단 C-TTA도 환경 역학의 특정 특징이 아니라면 피해자가 자연스럽게 채택할 수 있는 표적 행동에 초점을 맞추고 있으며, C-TTA는 이를 악용합니다. 이 연구에서는 환경 역학뿐만 아니라 피해자의 목표에 대한 비최적성으로 인해 표적 행동이 채택될 수 없는 경우에도 C-TTA가 가능하다는 것을 보여줍니다. 이러한 맥락에서 효율적인 공격을 찾기 위해 저희는 이 강력한 버전의 C-TTA를 학습하는 DDPG 알고리즘의 특수한 버전인 감마DDPG를 개발했습니다. 감마DDPG는 피해자의 현재 행동에 따라 공격 정책 계획의 범위를 동적으로 변경합니다. 이를 통해 공격 타임라인 전체에 걸쳐 노력 분포를 개선하고 공격자가 피해자에 대해 가지고 있는 불확실성의 영향을 줄입니다. 이 방법의 특징을 입증하고 결과를 이전 연구와 더 잘 연관시키기 위해 최첨단 C-TTA의 3D 그리드 도메인을 빌려 실험을 진행했습니다. 코드는 '이 http URL'에서 확인할 수 있습니다. [abs|pdf]

[45/74] Simple Hierarchical Planning with Diffusion

Keywords: low_level_planner, offline_reinforcement_learning, level_planner
Abstract: 확산 기반 생성 방법은 오프라인 데이터 세트로 궤적을 모델링하는 데 효과적인 것으로 입증되었습니다. 하지만 종종 계산상의 문제에 직면하고 일반화할 때, 특히 장기적인 작업을 위한 시간적 추상화를 포착할 때 어려움을 겪을 수 있습니다. 이를 극복하기 위해 계층적 계획과 확산 기반 계획의 장점을 결합한 간단하고 빠르면서도 놀랍도록 효과적인 계획 방법인 계층적 확산기를 소개합니다. 이 모델은 상위 레벨에서 "점핑" 계획 전략을 채택하여 더 큰 수용 필드를 가지면서도 계산 비용은 낮출 수 있으며, 이는 확산 기반 계획 방법의 중요한 요소로, 경험적으로도 검증되었습니다. 또한, 점핑 하위 목표는 하위 계획자를 안내하여 미세 조정 단계를 용이하게 하고 접근 방식의 효율성을 더욱 향상시킵니다. 표준 오프라인 강화학습 벤치마크에 대한 실증적 평가를 수행하여 비계층적 디퓨저는 물론 다른 계층적 계획 방법과 비교하여 훈련 및 계획 속도 측면에서 우리 방법이 우수한 성능과 효율성을 보였음을 입증했습니다. 또한, 우리 모델의 일반화 능력, 특히 분산되지 않은 구성 작업에서 우리 방법이 일반화 능력을 향상시키는 방법에 대해 살펴봅니다. [abs|pdf]

[46/74] Characteristics and prevalence of fake social media profiles with AI-generated faces

Keywords: gan_generated_profiles, gan_generated_faces, gans_profile_pictures
Abstract: 최근 생성적 인공지능(AI)의 발전으로 인해 가짜 소셜 미디어 계정을 만들 수 있다는 우려가 제기되고 있지만, 이에 대한 실증적 증거는 부족합니다. 이 백서에서는 생성적 적대 신경망(GAN)이 프로필 사진으로 생성한 사람의 얼굴을 사용해 트위터(X) 계정을 체계적으로 분석한 결과를 제시합니다. 1,353개 계정에 대한 데이터 세트를 제시하고 이러한 계정이 사기, 스팸을 퍼뜨리고 조직적인 메시지를 증폭시키는 등 다양한 부정행위를 하는 데 사용되었음을 보여줍니다. GAN으로 생성된 얼굴의 특징인 일관된 눈의 위치를 활용하고 사람의 주석으로 보완하여 야생에서 GAN으로 생성된 프로필을 효과적으로 식별할 수 있는 방법을 고안했습니다. 이 방법을 활성 트위터 사용자의 무작위 표본에 적용한 결과, GAN 생성 얼굴을 사용한 프로필의 보급률의 하한선은 0.021%에서 0.044%로 추정되며, 이는 일일 활성 계정의 약 10,000개에 해당합니다. 이러한 결과는 다중 모드 생성 AI가 제기하는 새로운 위협을 강조합니다. 저희는 추가 조사를 용이하게 하기 위해 탐지 방법의 소스 코드와 수집한 데이터를 공개합니다. 또한, 소셜 미디어 사용자가 이러한 계정을 인식하는 데 도움이 되는 실용적인 휴리스틱을 제공합니다. [abs|pdf]

[47/74] Neural Causal Abstractions

Keywords: causal_abstractions_clustering, causal_abstractions, causal_abstractions_theory
Abstract: 원인과 결과의 관계로 세상을 이해하는 능력과 정보를 추상적인 개념으로 압축하는 능력은 인간 지능의 두 가지 특징입니다. 이 두 가지 주제는 인과 추상화 이론이라는 틀 안에서 문헌에서 함께 연구되어 왔습니다. 하지만 실제 메커니즘을 알 수 없고 데이터가 제한적인 실제 인과 추론 작업에서 추상화 이론을 가장 잘 활용하는 방법은 여전히 미해결 과제로 남아 있습니다. 이 논문에서는 변수와 그 도메인을 클러스터링하여 새로운 인과 추상화 제품군을 개발합니다. 이 접근 방식은 이전의 추상화 개념을 개선하고 일반화하여 펄의 인과 계층 구조에 의해 생성되는 개별 인과 분포를 더 잘 수용합니다. 우리는 이러한 추상화가 신경 인과 모델(신경 인과 모델)을 통해 실제 환경에서 학습이 가능하다는 것을 보여줌으로써 딥러닝 툴킷을 사용하여 다양한 수준의 세분화에서 식별, 추정, 샘플링과 같은 까다로운 인과 추론 작업을 해결할 수 있게 해줍니다. 마지막으로, 이러한 결과를 표현 학습과 통합하여 보다 유연한 추상화를 생성함으로써 실제 적용에 더 가까이 다가갈 수 있습니다. 실험을 통해 이론을 뒷받침하고 인과 관계 추론을 이미지 데이터와 관련된 고차원 환경으로 확장하는 방법을 설명합니다. [abs|pdf]

[48/74] Object-oriented backdoor attack against image captioning

Keywords: captioning_models_backdoor, attack_image_captioning, captioning_models_poisoning
Abstract: 이미지 분류 작업에 대한 백도어 공격은 널리 연구되고 성공 사례가 입증된 반면, 시각 언어 모델에 대한 백도어 공격에 대한 연구는 거의 없습니다. 이 백서에서는 학습 데이터를 오염시켜 이미지 캡션 모델을 대상으로 하는 백도어 공격을 살펴봅니다. 공격자가 학습 데이터 세트에 대한 전체 액세스 권한이 있고 모델 구성이나 학습 과정에 개입할 수 없다고 가정합니다. 구체적으로, 양성 훈련 샘플의 일부가 무작위로 선택되어 포이즈닝됩니다. 이후 이미지에서 캡션이 일반적으로 객체를 중심으로 펼쳐진다는 점을 고려해 현재 감지된 객체 영역의 스케일에 비례하는 수정 번호로 픽셀 값을 약간의 범위로 수정하는 객체 지향적 방법을 설계해 포이즌을 제작합니다. 독이 주입된 데이터로 학습한 후 공격받은 모델은 정상 이미지에서는 정상적으로 작동하지만, 독이 주입된 이미지에서는 주어진 이미지와 무관한 문장을 생성합니다. 이 공격은 정상 테스트 이미지에 대한 생성 성능을 저하시키지 않으면서 특정 테스트 이미지에 대한 모델 동작을 제어합니다. 이 방법을 통해 이미지 캡션 모델이 백도어 공격에 취약하다는 것을 증명했으며, 이 연구가 이미지 캡션 분야에서 백도어 공격 방어에 대한 경각심을 높일 수 있기를 바랍니다. [abs|pdf]

[49/74] Synthetic Information towards Maximum Posterior Ratio for deep learning on Imbalanced Data

Keywords: imbalanced_data_deep, synthetic_data_minority, class_imbalanced_data
Abstract: 이 연구에서는 계층 불균형 데이터가 딥러닝 모델에 미치는 영향을 살펴보고, 소수 계층에 대한 합성 데이터를 생성하여 데이터 균형을 맞추는 기법을 제안합니다. 무작위 기반 오버샘플링과 달리, 이 방법은 엔트로피가 높은 샘플을 식별하여 정보 영역의 균형을 맞추는 데 우선순위를 둡니다. 잘 배치된 합성 데이터를 생성하면 머신러닝 알고리즘의 정확도와 효율성이 향상되는 반면, 잘못 배치된 합성 데이터는 오분류율이 높아질 수 있습니다. 유니티는 클래스 후방 비율을 최적화하여 클래스의 정확한 영역에 합성 샘플을 생성할 확률을 극대화하는 알고리즘을 소개합니다. 또한 데이터 토폴로지를 유지하기 위해 각 소수 표본의 이웃 내에서 합성 데이터를 생성합니다. 41개의 데이터 세트에 대한 실험 결과는 딥러닝 모델을 향상시키는 데 있어 이 기술의 우수한 성능을 입증합니다. [abs|pdf]

[50/74] Identification of 4FGL uncertain sources at Higher Resolutions with Inverse Discrete Wavelet Transform

Keywords: telescopes_machine_learning, big_astronomical_data, astronomical_data
Abstract: 다가오는 천문 데이터 빅 데이터 시대에는 지상 및 우주 망원경에서 대상 천체를 찾아내는 것이 부담스러운 일입니다. 이 문제를 해결하기 위해 머신러닝(ML) 기법이 광범위하게 활용되고 있지만, 심층적인 데이터 분석을 통합하면 방대한 양의 천문 데이터를 다룰 때 대상 천체 식별의 효율성을 크게 높일 수 있습니다. 이 연구에서는 AGN 후보를 찾고 4FGL DR3의 불확실한 출처에서 BL Lac/FSRQ 후보를 식별하는 작업에 중점을 두었습니다. 우리는 4FGL DR3 카탈로그의 속성들 간의 상관관계를 연구하고 원본 데이터를 변환하는 새로운 방법인 FDIDWT를 제안했습니다. 변환된 데이터 세트는 프랙탈 차원(FD) 이론에 의한 상관관계 특징 추정과 역이산 웨이블릿 변환(IDWT)에 의한 다중 해상도 분석으로 저차원적이고 특징이 강조된 것이 특징입니다. FDIDWT 방법과 개선된 경량 MatchboxConv1D 모델을 결합하여 두 가지 임무를 달성했습니다. (1) 4FGL DR3 불확실한 출처에서 활성 은하핵(AGN)을 다른 은하핵(비-AGN)과 96의 정확도로 구별하는 것입니다.65%, 즉 미션 A; (2) 불확실한 유형의 블레이저 후보(BCU)를 BL 라세르태 천체(BL Lacs) 또는 평면 스펙트럼 전파 퀘이사(FSRQ)로 92.03%의 정확도로 분류하는 미션 B. 미션 A에서는 1354개의 AGN 후보가, 미션 B에서는 482개의 BL Lacs 후보와 128개의 FSRQ 후보가 발견되었다. 이 결과는 이전 작업의 결과와 98% 이상의 높은 일관성을 보여줍니다. 또한, 우리의 방법은 일반적인 방법보다 변수가 적고 상대적으로 희미한 광원을 찾을 수 있다는 장점이 있습니다. [abs|pdf]

[51/74] Characterizing Satellite Geometry via Accelerated 3D Gaussian Splatting

Keywords: orbit_based_3d, mapping_geometries_satellites, 3d_gaussian_splatting
Abstract: 우주선의 궤도 배치가 가속화되면서 궤도상 서비스(OOS), 우주선 검사, 능동적 잔해물 제거(ADR)에 대한 관심이 높아졌습니다. 이러한 임무는 비협조적이고 알려지지 않은 상주 우주 물체 근처에서 정밀한 랑데부 및 근접 작전을 수행해야 합니다. 유인 임무의 안전 문제와 지상 통제와의 지연 시간 때문에 완전한 자율성이 필요합니다. 이를 위해서는 표적의 지오메트리에 대한 강력한 특성화가 필요합니다. 이 글에서는 현재 우주 비행 하드웨어에서 사용할 수 있는 컴퓨팅 리소스로 실행할 수 있는 3D 가우시안 스플래팅을 기반으로 궤도에 있는 위성의 지오메트리를 매핑하는 접근 방식을 소개합니다. 여러 가지 현실적인 조명 및 모션 조건에서 HIL(하드웨어 인 더 루프) 위성 모형에 대한 모델 훈련 및 3D 렌더링 성능을 시연합니다. 유니티의 모델은 온보드에서 훈련하고 미지의 위성에 대한 고품질의 새로운 뷰를 이전의 NeRF 기반 알고리즘보다 거의 2배 더 빠르게 렌더링할 수 있는 것으로 나타났습니다. 이러한 온보드 기능은 자율 안내, 내비게이션, 제어 작업에 필요한 다운스트림 머신 인텔리전스 작업을 가능하게 하는 데 매우 중요합니다. [abs|pdf]

[52/74] Federated Learning for distribution skewed data using sample weights

Keywords: federated_learning_data, federated_learning_accuracy, improving_federated_learning
Abstract: 연합 학습에서 가장 어려운 문제 중 하나는 데이터가 독립적이고 동일하게 분산되어 있지 않은 경우가 많다는 점(비아이디)입니다. 클라이언트는 동일한 유형의 데이터를 제공하고 하나의 글로벌 배포에서 가져와야 합니다. 그러나 데이터는 서로 다른 리소스에서 서로 다른 방식으로 수집되는 경우가 많습니다. 따라서 클라이언트 간의 데이터 분포는 기본 글로벌 분포와 다를 수 있습니다. 이로 인해 가중치 편차 문제가 발생하고 연합 학습 성능이 저하됩니다. 이 작업은 클라이언트 간에 왜곡된 데이터 분포에 대한 연합 학습 성능을 개선하는 데 중점을 둡니다. 주요 아이디어는 샘플 가중치를 사용하여 클라이언트 분포를 글로벌 분포에 더 가깝게 조정하는 것입니다. 따라서 머신러닝 모델이 더 높은 정확도로 더 빠르게 수렴합니다. 우리는 경험적 위험 최소화의 기본 개념에서 출발하여 이론적으로 표본 가중치를 사용하여 분포의 왜곡을 조정하는 솔루션을 도출합니다. 표본 가중치를 결정하기 위해 신경망 기반 밀도 추정 모델인 MADE를 활용하여 밀도 정보를 암묵적으로 교환합니다. 그러면 원시 데이터를 노출하지 않고도 클라이언트 데이터 분포를 조정할 수 있습니다. 세 가지 실제 데이터 세트에 대한 실험 결과, 제안한 방법은 연합 학습 정확도를 향상시킬 뿐만 아니라 다른 실험 방법에 비해 통신 비용도 크게 절감하는 것으로 나타났습니다. [abs|pdf]

[53/74] t-DGR: A Trajectory-Based Deep Generative Replay Method for Continual Learning in Decision Making

Keywords: catastrophic_forgetting_leveraging, metric_continual_learning, catastrophic_forgetting
Abstract: 심층 생성 재생은 의사 결정 작업에서 지속적인 학습을 위한 유망한 접근 방식으로 부상했습니다. 이 접근 방식은 이전에 수행한 작업에서 생성된 궤적을 활용하여 현재 데이터 세트를 보강함으로써 치명적인 망각 문제를 해결합니다. 그러나 지속적인 학습을 위한 기존의 심층 생성 재생 방법은 자동 회귀 모델에 의존하기 때문에 생성된 궤적에 복합적인 오류가 발생할 수 있습니다. 이 논문에서는 궤적 시간 간격에 따라 조건이 지정된 작업 샘플을 생성하는 생성 모델을 사용하여 의사 결정 작업에서 연속 학습을 위한 간단하고 확장 가능하며 비자동 회귀적인 방법을 제안합니다. 연속 세계 벤치마크에서 이 방법을 평가한 결과, 우리의 접근 방식이 연속 학습 방법 중 평균 성공률 메트릭에서 최첨단 성능을 달성하는 것으로 나타났습니다. 코드는 이 https URL 에서 확인할 수 있습니다. [abs|pdf]

[54/74] Large Language Models for Social Networks: Applications, Challenges, and Solutions

Keywords: social_networks_content, networks_content_annotation, entertaining_notification_content
Abstract: 대규모 언어 모델(LLM)은 사람들이 콘텐츠를 생성하고, 탐색하고, 참여하는 방식을 변화시키고 있습니다. Lionbridge는 온라인 소셜 네트워크용 LLM 애플리케이션을 개발하는 방법을 연구합니다. 다른 영역에서 LLM이 성공을 거두었음에도 불구하고 소셜 네트워크용 LLM 기반 제품을 개발하는 것은 여러 가지 이유로 어렵고, 연구 커뮤니티에서도 상대적으로 덜 보고되어 왔습니다. 소셜 네트워크용 LLM 애플리케이션은 크게 세 가지로 분류할 수 있습니다. 첫 번째는 검색이나 질문과 답변과 같이 사용자가 새로운 지식과 정보를 찾고자 하는 지식 작업입니다. 두 번째는 재미있는 알림 콘텐츠 수신과 같이 사용자가 흥미로운 콘텐츠를 소비하고자 하는 엔터테인먼트 작업입니다. 세 번째는 콘텐츠 주석 및 LLM 모니터링과 같이 소셜 네트워크를 조정하고 운영하기 위해 수행해야 하는 기초 작업입니다. 각 작업에 대해 우리가 발견한 과제, 개발한 솔루션, 배운 교훈을 공유합니다. 우리가 알기로는 소셜 네트워크용 LLM 애플리케이션 개발에 관한 종합적인 논문은 이 책이 처음입니다. [abs|pdf]

[55/74] A Community Detection and Graph Neural Network Based Link Prediction Approach for Scientific Literature

Keywords: community_detection_gnns, link_prediction_scientific, integrates_community_detection
Abstract: 이 연구에서는 과학 문헌 네트워크의 링크 예측을 향상시키기 위해 커뮤니티 감지 알고리즘을 그래프 신경망(GNN) 모델과 통합하는 혁신적인 접근 방식을 소개합니다. 특히 루바인 커뮤니티 감지 알고리즘을 활용하여 이러한 네트워크 내의 잠재적인 커뮤니티 구조를 발견하고, 이를 GNN 아키텍처에 통합하여 잠재적인 링크를 예측하는 데 중점을 둡니다. 이 방법론은 복잡한 네트워크에서 커뮤니티 역학을 이해하는 것이 얼마나 중요한지 보여주며, 커뮤니티 감지와 GNN의 강점을 모두 활용하여 예측 정확도를 향상시킵니다. 과학적 협업과 인용을 나타내는 이분법 그래프에 대한 광범위한 실험을 통해, 우리의 접근 방식은 커뮤니티 감지와 GNN 간의 시너지를 강조할 뿐만 아니라 확장성 및 해상도 제한과 같은 링크 예측의 일반적인 문제도 해결합니다. 그 결과, 커뮤니티 수준의 정보를 통합하면 링크 예측 작업에서 GNN의 성능을 크게 향상시킬 수 있음을 시사합니다. 이 연구는 과학적 협업의 복잡한 패턴을 더 잘 이해하고 예측하기 위해 고급 머신 러닝 기법과 전통적인 네트워크 분석 방법을 통합하는 새로운 관점을 제공함으로써 진화하는 네트워크 과학 분야에 기여하고 있습니다. [abs|pdf]

[56/74] DISO: A Domain Ontology for Modeling Dislocations in Crystalline Materials

Keywords: introduces_dislocation_ontology, dislocation_ontology, dislocation_ontology_diso
Abstract: 금속과 반도체와 같은 결정질 재료에는 거의 항상 전위라는 특수한 결함 유형이 존재합니다. 이 결함은 강도, 파괴 인성 또는 연성과 같은 여러 가지 중요한 재료 특성을 결정적으로 결정합니다. 지난 몇 년 동안 실험적 특성화 기법과 시뮬레이션을 통해 다양한 길이 스케일에서 전위 거동을 이해하기 위해 많은 노력을 기울여 왔습니다. 이 백서에서는 결정질 재료의 선형 결함과 관련된 개념과 관계를 정의하는 전위 온톨로지(DISO)를 소개합니다. 우리는 전위 영역에서 가장 일반적인 개념을 정의하기 시작하고 이후 이를 전문화하는 하향식 접근 방식을 사용하여 DISO를 개발했습니다. DISO는 링크드 데이터 게시를 위한 W3C 모범 사례에 따라 영구 URL을 통해 게시됩니다. 탈구 역학 영역에서의 유용성을 설명하기 위해 DISO의 두 가지 잠재적 사용 사례를 제시합니다. 온톨로지에 대한 평가는 실제 도메인을 모델링하는 데 있어 온톨로지의 성공 여부와 온톨로지의 풍부함을 평가하는 두 가지 방향으로 수행됩니다. [abs|pdf]

[57/74] Comprehensive Exploration of Synthetic Data Generation: A Survey

Keywords: gans_primary, synthetic_data_emerges, generative_models
Abstract: 최근 몇 년 동안 다양한 영역에서 머신러닝(ML)의 인기가 급증하고 있습니다. 그러나 고가의 데이터 수집 비용과 개인정보 보호법으로 인한 학습 데이터의 부족으로 인해 발전이 저해되고 있습니다. 합성 데이터가 해결책으로 떠오르고 있지만, 공개된 모델이 너무 많고 개요 문헌이 제한되어 있어 의사 결정에 어려움을 겪고 있습니다. 이 연구는 지난 10년간 417개의 합성 데이터 생성(SDG) 모델을 조사하여 모델 유형, 기능 및 개선 사항에 대한 포괄적인 개요를 제공합니다. 공통 속성을 파악하여 분류 및 추세 분석으로 이어집니다. 조사 결과에 따르면 모델 성능과 복잡성이 증가했으며, 개인 정보 보호 데이터 생성을 제외하고는 신경망 기반 접근 방식이 우세한 것으로 나타났습니다. 컴퓨터 비전이 우세한 가운데 GAN이 주요 생성 모델로 사용되고 있으며 확산 모델, 트랜스포머, RNN이 경쟁하고 있습니다. 성능 평가의 시사점은 공통 지표와 데이터 세트의 부족으로 인해 비교가 어렵다는 점입니다. 또한 문헌에서 훈련 및 계산 비용을 간과하고 있다는 점도 향후 연구에서 주의가 필요합니다. 이 연구는 SDG 모델 선택을 위한 가이드 역할을 하며, 향후 연구해야 할 중요한 영역을 파악합니다. [abs|pdf]

[58/74] Image-based Deep Learning for Smart Digital Twins: a Review

Keywords: smart_digital_twins, digital_twins_sdts, digital_twins
Abstract: 지속적인 데이터 동화를 통해 복잡한 물리적 시스템의 동작을 가상으로 복제하고 예측하여 시스템의 동작을 제어함으로써 이러한 시스템의 성능을 최적화하는 데 스마트 디지털 트윈(SDT)이 점점 더 많이 사용되고 있습니다. 최근 딥러닝(DL) 모델은 특히 예측 유지보수, 이상 징후 감지, 최적화와 같은 작업에서 SDT의 기능을 크게 향상시켰습니다. 의료, 엔지니어링, 교육 등 여러 분야에서 이미지 데이터(이미지 기반 SDT)를 사용하여 시스템 동작을 관찰 및 학습하고 동작을 제어합니다. 이 백서에서는 물리적 시스템에서 이미지 데이터를 지속적으로 동화하여 이미지 기반 SDT를 개발하는 다양한 접근 방식과 관련 과제에 초점을 맞춥니다. 또한 데이터 수집, 처리, 해석 등 SDT를 위한 DL 모델을 설계하고 구현하는 데 수반되는 과제에 대해서도 설명합니다. 또한 강력한 SDT를 개발하기 위한 새로운 이미지 기반 DL 접근법을 개발하기 위한 향후 방향과 기회에 대한 인사이트도 제공합니다. 여기에는 데이터 증강을 위한 생성 모델 사용, 멀티모달 DL 모델 개발, 5G, 엣지 컴퓨팅, IoT를 비롯한 다른 기술과의 DL 통합 모색 등이 포함됩니다. 이 백서에서는 광범위한 영역에서 디지털 트윈 DT 패러다임의 광범위한 채택과 복잡한 시스템의 동작을 복제, 예측 및 최적화하는 SDT의 능력을 향상시키는 새로운 방법의 개발을 가능하게 하는 이미지 기반 SDT에 대해 설명합니다. [abs|pdf]

[59/74] Moving-Horizon Estimators for Hyperbolic and Parabolic PDEs in 1-D

Keywords: backstepping_observers_pde, observer_pde_explicitly, observers_pdes
Abstract: PDE에 대한 옵저버는 그 자체로 PDE입니다. 따라서 이러한 관측자를 사용하여 실시간 추정치를 생성하는 것은 계산적으로 부담이 됩니다. 유한 차원 및 ODE 시스템 모두에서 이동 지평선 추정기(MHE)는 출력이 상태 추정치이고 입력은 지평선 시작 시점의 초기 상태 추정치와 이동 시간 지평선 동안 측정된 출력 및 입력 신호가 되는 연산자입니다. 이 백서에서는 실시간으로 관측자 PDE의 수치 해를 구할 필요가 없는 PDE용 MHE를 소개합니다. 쌍곡선 및 포물선 PDE의 특정 클래스에 대해 이동 지평선 상태 추정치를 명시적으로 생성하는 PDE 백스텝 방법을 사용하여 이를 수행합니다. 정확히 말하자면, 상태 추정치를 명시적으로 생성하기 위해 풀기 어려운 관측자 PDE를 명시적으로 풀 수 있는 목표 관측자 PDE로 변환하는 백스텝 변환을 사용합니다. 우리가 제안하는 MHE는 새로운 관측기 설계가 아니라 기존의 백스텝 관측기를 임의의 길이의 이동 지평선 상에서 명시적으로 구현한 것일 뿐입니다. 우리의 PDE MHE는 MPC의 이중으로 발생하는 MHE의 최적성이 부족하지만, PDE의 경우에도 명시적으로 주어집니다. 이 논문에서는 쌍곡선 및 포물선 PDE에 대한 MHE에 대한 명시적인 공식과 이론적으로 보장된 MHE의 수렴을 보여주는 시뮬레이션 결과를 제공합니다. [abs|pdf]

[60/74] Gain Scheduling with a Neural Operator for a Transport PDE with Nonlinear Recirculation

Keywords: stabilization_hyperbolic_pdes, pde_gain_scheduling, pde_models_control
Abstract: PDE 모델을 안정화하기 위해 제어 법칙은 비선형 연산자가 PDE 기능 계수에서 매핑한 공간 의존적 기능 이득을 필요로 합니다. PDE가 비선형이고 "의사 계수" 함수가 상태에 따라 달라지는 경우, 이득 스케줄링(GS) 비선형 설계는 비선형 피드백 설계에 대한 가장 간단한 접근 방식입니다. GS 버전의 PDE 백스테핑은 상태의 각 값에서 PDE를 풀어서 얻은 이득을 사용합니다. 이러한 PDE 계산을 실시간으로 수행하려면 엄청난 시간이 소요될 수 있습니다. 최근에 도입된 신경 연산자(NO)는 PDE 해를 구하지 않고도 각 상태 값에 대해 실시간으로 빠르게 이득 함수를 생성하도록 훈련할 수 있습니다. 이 백서에서는 GS-PDE 백스텝을 위한 NO를 소개합니다. GS 컨트롤러는 상태 변화가 느리다는 전제하에 작동하며, 그 결과 ODE에 대해서도 국부적인 안정성만을 보장합니다. 우리는 "풀 커널" 접근 방식과 연산자 근사치를 얻기 위한 "이득 전용" 접근 방식을 모두 사용하여 비선형 재순환을 통해 쌍곡선 PDE의 국소 안정화를 확립합니다. 수치 시뮬레이션을 통해 안정화를 설명하고 기존 PDE 이득 스케줄링에 비해 속도가 3배 이상 빨라졌음을 보여줍니다. 수치 구현을 위한 코드(Github)가 공개되어 있어 직접 살펴볼 수 있습니다. [abs|pdf]

[61/74] Memory, Consciousness and Large Language Model

Keywords: theory_memory, theory_memory_identify, retrieval_emergent_abilities
Abstract: 인지 과학과 대규모 언어 모델(LLM)이 발전함에 따라 이 두 분야 간의 연관성이 점점 더 많이 밝혀지고 있습니다. 이러한 연관성을 바탕으로 LLM과 툴빙의 기억 이론 사이에 이중성이 존재한다는 가설을 제안합니다. 우리는 이러한 추측을 뒷받침하는 증거로 툴빙의 검색 시너지 효과 모델(SEM)과 LLM에서 관찰되는 새로운 능력 사이의 잠재적 일치를 확인합니다. 나아가 이러한 이중성을 바탕으로 의식을 일종의 출현 능력으로 간주할 수 있다고 추측합니다. 또한 다른 의식 이론이 우리의 연구와 어떻게 교차하는지 논의합니다. [abs|pdf]

[62/74] Interpretable Time Series Models for Wastewater Modeling in Combined Sewer Overflows

Keywords: pollution_sewer_systems, environmental_pollution_sewer, pollution_sewer
Abstract: 기후 변화는 우리 사회에 점점 더 복잡한 문제를 야기하고 있습니다. 홍수, 산불, 가뭄과 같은 극심한 기상 이변은 점점 더 빈번하고 자연적으로 발생하며 예측하거나 대응하기 어려워지고 있습니다. 이 연구에서는 특히 폭우로 인해 빗물 탱크에서 흘러넘친 하수가 지표수를 오염시키는 문제를 다룹니다. 우리는 해석 가능한 최신 시계열 모델이 이러한 임계 수위 지점을 예측하는 데 어느 정도 도움이 될 수 있는지 조사하여 초과분을 하수 네트워크 전체에 신속하게 재분배할 수 있도록 합니다. 연구 결과에 따르면 최신 시계열 모델은 하수도 시스템의 폐수 관리와 환경 오염 방지에 기여할 수 있습니다. 모든 코드와 실험은 저장소(https URL)에서 확인할 수 있습니다. [abs|pdf]

[63/74] Data-Centric Foundation Models in Computational Healthcare: A Survey

Keywords: inference_improving_healthcare, healthcare_ai, healthcare_ai_obtaining
Abstract: 새로운 AI 기술 제품군으로 파운데이션 모델(FM)이 등장하면서 컴퓨터 의료 분야에서 새로운 기회가 열렸습니다. 사전 학습 데이터와 사람의 지시에 따라 작동하는 이러한 모델의 대화형 특성은 더 나은 데이터 특성화, 품질 및 규모를 강조하는 데이터 중심 AI 패러다임에 불을 붙였습니다. 의료 AI 분야에서 고품질의 임상 데이터 기록을 확보하고 처리하는 것은 데이터의 양, 주석, 환자 개인정보 보호, 윤리 등 다양한 측면에서 오랫동안 해결해야 할 과제였습니다. 이 설문조사에서는 의료 서비스 워크플로우 개선을 위한 FM 시대의 다양한 데이터 중심 접근 방식(모델 사전 학습부터 추론까지)을 조사합니다. 또한 AI 보안, 평가 및 인간 가치와의 연계에 대한 주요 관점에 대해 논의합니다. 마지막으로, 진화하는 의료 및 의학 환경에서 환자 치료 결과와 임상 워크플로우의 성과를 향상시키기 위한 FM 기반 분석의 유망한 전망을 제시합니다. 의료 관련 기반 모델 및 데이터 세트의 최신 목록은 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[64/74] eCIL-MU: Embedding based Class Incremental Learning and Machine Unlearning

Keywords: class_incremental_learning, incremental_learning, incremental_learning_cil
Abstract: 시간이 지남에 따라 새로운 카테고리가 도입되거나 기존 카테고리를 재분류해야 할 수도 있습니다. 이러한 역동적인 환경에서 이전에 학습한 범주에 대한 정보를 보존하면서 새로운 범주에 대한 지식을 점진적으로 습득하기 위해 클래스 점진적 학습(CIL)이 사용됩니다. 또한 재분류에 적응하기 위해 모델에서 관련 카테고리의 영향을 제거해야 할 수도 있습니다. 따라서 CIL에서는 클래스 수준 머신러닝(MU)을 도입했습니다. 일반적으로 MU 방법은 시간이 많이 걸리는 경향이 있으며 잠재적으로 모델 성능에 해를 끼칠 수 있습니다. 지속적인 언러닝 요청은 치명적인 망각으로 이어질 수 있습니다. 이러한 문제를 해결하기 위해 유니티는 데이터를 벡터로 매핑한 다음 벡터 데이터베이스에 저장하는 임베딩 기법을 기반으로 하는 비파괴적 eCIL-MU 프레임워크를 제안합니다. 이 접근 방식은 가속화를 위해 CIL과 MU 작업 간의 중첩을 활용합니다. 실험을 통해 비학습 효과와 수 배(최대 278배)의 가속을 달성할 수 있음을 입증했습니다. [abs|pdf]

[65/74] A comprehensive survey of research towards AI-enabled unmanned aerial systems in pre-, active-, and post-wildfire management

Keywords: ai_wildfires_propelled, intelligence_ai_wildfires, ai_wildfires
Abstract: 산불은 전 세계적으로 가장 파괴적인 자연재해 중 하나로 부상했으며, 인명과 산림 야생동물 모두에게 치명적인 손실을 입히고 있습니다. 최근 무인항공기(UAV)와 딥러닝 모델의 통합에 힘입어 산불에 인공지능(AI)이 활용되면서 보다 효과적인 산불 관리를 구현하고 발전시킬 수 있는 전례 없는 모멘텀이 형성되고 있습니다. 기존 조사 논문 중 일부는 다양한 학습 기반 접근법을 탐구했지만, AI 지원 무인항공기 시스템의 적용과 그에 따른 다단계 산불 관리에 대한 영향을 강조하는 종합적인 검토는 현저히 부족합니다. 이 설문조사는 이러한 격차를 해소하기 위해 최근의 최첨단 기술을 체계적으로 검토하고, 산불 발생 전 단계부터 산불 활동 단계, 산불 발생 후 관리에 이르기까지 UAV 시스템과 AI 모델의 발전을 강조하는 것을 목표로 합니다. 이를 위해 산불 관리와 관련된 UAV의 발전, 기기 사양, 센서 기술에 특히 중점을 두고 기존 원격 감지 시스템에 대한 광범위한 분석을 제공합니다. 또한 연료 모니터링, 예방 전략, 대피 계획, 피해 평가 및 운영 전략을 포함한 화재 전 및 화재 후 관리 접근 방식을 검토합니다. 또한 산불 분류, 세분화, 탐지, 모니터링 작업을 위한 머신러닝(ML), 강화학습(RL), 딥러닝(DL) 알고리즘을 중심으로 산불 관리의 광범위한 컴퓨터 비전 기술을 검토하고 요약합니다. 궁극적으로는 최첨단 AI 기술과 UAV 기반 데이터의 통합을 통해 산불 모델링이 크게 발전하여 동적인 산불 행동을 이해할 수 있는 새로운 인사이트와 향상된 예측 기능을 제공한다는 점을 강조합니다. [abs|pdf]

[66/74] The Compute Divide in Machine Learning: A Threat to Academic Contribution and Scrutiny?

Keywords: academic_compute_access, academic_ai_labs, learning_research_compute
Abstract: 산업계와 학계의 AI 연구실은 컴퓨팅 리소스를 사용하는 정도에 있어 뚜렷한 차이가 있습니다. 유니티는 머신러닝 연구를 형성하는 데 있어 컴퓨팅 격차의 역할에 대한 데이터 기반 설문조사를 제공합니다. 컴퓨팅 격차는 컴퓨팅 집약적인 연구 주제, 특히 기초 모델에서 학계 전용 연구팀의 대표성 감소와 일치한다는 것을 보여줍니다. 우리는 학계가 관련 기술을 발전시키고, 비판적인 평가와 조사를 제공하며, 그러한 모델을 확산시키는 데 있어 더 적은 역할을 할 가능성이 높다고 주장합니다. 이러한 연구 초점의 변화와 동시에 학계 연구에서도 업계에서 개발된 오픈 소스, 사전 훈련된 모델을 수용하는 방향으로 눈에 띄게 변화하고 있습니다. 이러한 추세로 인해 발생하는 문제, 특히 영향력 있는 모델에 대한 면밀한 조사가 줄어드는 문제를 해결하기 위해 학문적 통찰력을 신중하게 확장하는 접근 방식을 권장합니다. 국가가 후원하는 컴퓨팅 인프라와 오픈 사이언스 이니셔티브를 결합하면 해석 가능성, 안전성, 보안에 대한 연구에 우선순위를 두어 학술적 컴퓨팅 액세스를 신중하게 강화할 수 있습니다. 구조화된 액세스 프로그램과 제3자 감사를 통해 업계 시스템에 대한 외부 평가를 측정할 수도 있습니다. [abs|pdf]

[67/74] FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and Multi-Clients

Keywords: diffusion_federated_learning, modal_remote_sensing, federated_learning
Abstract: 원격 감지 분야에서 영상 센서 기술이 급속도로 발전함에 따라 다중 모드 원격 감지 데이터 융합은 토지 피복 분류 작업의 중요한 연구 방향으로 부상했습니다. 확산 모델은 생성 모델과 이미지 분류 작업에서 큰 발전을 이루었지만, 기존 모델은 주로 단일 모달 및 단일 클라이언트 제어, 즉 단일 컴퓨팅 노드에서 단일 모달에 의해 확산 프로세스가 구동되는 방식에 초점을 맞추고 있습니다. 클라이언트의 이질적인 데이터를 안전하게 융합하기 위해서는 각 기지국 클라이언트에서 A 기관의 초분광 데이터와 B 기관의 라이다 데이터를 개별적으로 병합하는 등 분산 멀티 모달 제어가 필요합니다. 본 연구에서는 FedDiff라는 멀티모달 협업 확산 연합 학습 프레임워크를 제안합니다. 이 프레임워크는 두 가지 모달 데이터가 인코더의 별도 분기에 입력되는 이중 분기 확산 모델 특징 추출 설정을 구축합니다. 우리의 핵심 인사이트는 서로 다른 모달리티에 의해 구동되는 확산 모델이 양방향 연결을 구축할 수 있는 잠재적 노이즈 제거 단계라는 측면에서 본질적으로 상호 보완적이라는 것입니다. 여러 클라이언트 간의 프라이빗하고 효율적인 커뮤니케이션이라는 과제를 고려하여 연합 학습 커뮤니케이션 구조에 확산 모델을 내장하고 경량 커뮤니케이션 모듈을 도입했습니다. 정성적, 정량적 실험을 통해 이미지 품질과 조건부 일관성 측면에서 프레임워크의 우수성을 검증합니다. [abs|pdf]

[68/74] Automated Classification of Model Errors on ImageNet

Keywords: imagenet_dataset_driving, imagenet, proposed_imagenet
Abstract: 이미지넷 데이터 세트는 지난 10년 동안 컴퓨터 비전 연구를 주도해 왔지만, 상당한 라벨 노이즈와 모호성으로 인해 최고 정확도만으로는 더 큰 발전을 이루기에는 불충분했습니다. 이 문제를 해결하기 위해, 최첨단 모델이 이미 95% 이상의 정확도를 달성하고 있으며 나머지 오류가 지속되는 이유를 조사하는 데 초점을 맞추고 있음을 보여주는 새로운 라벨 세트와 평가 프로토콜이 ImageNet에 제안되었습니다.
이러한 방향의 최근 연구에서는 전문가 패널을 고용하여 선택한 두 모델에 대한 나머지 모든 분류 오류를 수동으로 분류했습니다. 그러나 이 프로세스는 시간이 많이 걸리고 불일치가 발생하기 쉬우며 숙련된 전문가가 필요하기 때문에 정기적인 모델 평가에는 적합하지 않아 그 효용성이 제한적입니다. 이러한 한계를 극복하기 위해 우리는 모델링 선택이 오류 분포에 미치는 영향을 연구하는 데 유용한 도구인 자동화된 오류 분류 프레임워크를 최초로 제안합니다. 우리는 이 프레임워크를 사용하여 900개가 넘는 모델의 오차 분포를 종합적으로 평가했습니다. 놀랍게도 모델 아키텍처, 규모, 사전 학습 코퍼스에 걸쳐 상위 1%의 정확도가 모든 오류 유형에 대한 강력한 예측 인자라는 사실을 발견했습니다. 특히, 상위 1%의 정확도로 심각한 오류의 비율이 크게 감소하는 것을 관찰할 수 있었는데, 이는 정확도가 모델의 실제 성능을 과소보고하지만 여전히 가치 있는 성능 지표임을 나타냅니다.
모든 코드는 다음 https URL에 공개되어 있습니다. [abs|pdf]

[69/74] Brain-Inspired Spiking Neural Networks for Industrial Fault Diagnosis: A Survey, Challenges, and Opportunities

Keywords: spiking_neural_network, spiking_neural, neural_network_snn
Abstract: 최근 수십 년 동안 산업 고장 진단(IFD)은 산업 장비의 건강 상태에 대한 중요한 정보를 감지하고 수집하여 고장 유형과 심각도를 쉽게 파악할 수 있는 중요한 분야로 부상했습니다. 정확하고 효과적인 고장 인식에 대한 추구는 안전 사고를 예방하고 인력에 대한 의존도를 낮추기 위해 장비 모니터링을 자동화하는 데 초점을 맞추면서 상당한 주목을 받고 있습니다. 인공 신경망(ANN)의 출현은 특히 빅 데이터의 맥락에서 지능형 IFD 알고리즘을 강화하는 데 중요한 역할을 했습니다. 이러한 발전에도 불구하고, 단순화된 생체 모방 신경망 모델인 ANN은 리소스 및 데이터 종속성, 제한된 인지 능력과 같은 내재적 한계를 드러냅니다. 이러한 한계를 해결하기 위해 뇌에서 영감을 얻은 컴퓨팅 원리를 기반으로 하는 3세대 스파이크 신경망(SNN)이 유망한 대안으로 떠오르고 있습니다. 생물학적 뉴런의 역동성과 스파이크 정보 인코딩이 특징인 SNN은 시공간적 특징을 표현하는 데 탁월한 잠재력을 보여줍니다. 그 결과, SNN 기반 IFD 모델 개발이 탄력을 받아 고무적인 성과를 보이고 있습니다. 그럼에도 불구하고 이 분야는 현재 상황과 과제, 향후 방향성을 설명할 수 있는 체계적인 연구가 부족한 실정입니다. 따라서 본 논문에서는 SNN 기반 모델의 이론적 발전 과정을 체계적으로 검토하여 SNN이란 무엇인가에 대한 답을 제시하고자 합니다. 이어서 기존의 SNN 기반 IFD 모델을 검토하고 분석하여 왜 SNN을 사용해야 하는지, 어떻게 사용해야 하는지에 대해 설명합니다. 무엇보다도 본 논문은 IFD에서 SNN의 과제, 솔루션, 기회에 대해 체계적으로 답변합니다. [abs|pdf]

[70/74] 5G Positioning Advancements with AI/ML

Keywords: direct_positioning_5g, positioning_5g_systems, positioning_5g
Abstract: 이 백서에서는 5G 시스템 내 AI/ML 기반 직접 포지셔닝에 대한 포괄적인 검토를 제공하며, 기존 방식이 종종 부족한 까다로운 시나리오와 조건에서의 잠재력에 초점을 맞춥니다. 기술 보고서 TR38.843의 인사이트를 바탕으로 직접 포지셔닝 프로세스와 관련된 측면에 초점을 맞춰 라이프사이클 관리(LCM)를 살펴봅니다. 다양한 까다로운 조건에서 직접 포지셔닝에 대한 보고서의 중요한 시뮬레이션 결과와 주요 관찰 사항을 강조합니다. 또한 측정 보고, 데이터 수집 및 모델 관리를 처리하는 엄선된 솔루션에 대해 논의하며 직접 포지셔닝을 발전시키는 데 있어 그 중요성을 강조합니다. [abs|pdf]

[71/74] UAV Trajectory Planning for AoI-Minimal Data Collection in UAV-Aided IoT Networks by Transformer

Keywords: uav_iot, algorithm_better_uav, uav_ground_iot
Abstract: 사물 인터넷(IoT) 네트워크에서 데이터 수집의 최신성을 유지하는 것이 점점 더 주목을 받고 있습니다. 본 논문에서는 정보 유효기간(AoI)을 고려하여 클러스터 기반 IoT 네트워크를 지원하는 데 사용되는 무인 항공기(UAV)의 궤적 계획 문제에 대해 살펴봅니다. 지상 IoT 네트워크에서 UAV가 수집한 데이터의 총 AoI를 최소화하기 위한 최적화 문제가 공식화됩니다. IoT 네트워크의 총 AoI는 UAV의 비행 시간과 호버링 포인트에서의 데이터 수집 시간에 따라 달라지므로, 호버링 포인트의 선택과 해당 포인트에 대한 방문 순서를 공동으로 최적화합니다. 최첨단 트랜스포머와 경로 탐색 알고리즘인 가중치 A를 활용하여 공식화된 문제를 해결하기 위한 머신러닝 알고리즘을 설계합니다. 전체 UAV-IoT 시스템은 제안된 알고리즘의 인코더 네트워크에 입력되고, 알고리즘의 디코더 네트워크는 방문 순서를 지상 클러스터로 출력합니다. 그런 다음 가중치 A를 사용하여 지상 IoT 네트워크에서 각 클러스터의 호버링 지점을 찾습니다. 시뮬레이션 결과, 제안한 알고리즘으로 학습된 모델은 모델을 재학습할 필요 없이 다양한 수의 지상 클러스터가 있는 IoT 네트워크에 대한 솔루션을 생성할 수 있는 우수한 일반화 능력을 가지고 있음을 보여줍니다. 또한 시뮬레이션 결과, 제안한 알고리즘은 다른 알고리즘과 비교했을 때 최소한의 총 AoI로 더 나은 UAV 궤적을 찾을 수 있음을 보여줍니다. [abs|pdf]

[72/74] Mapping of Land Use and Land Cover (LULC) using EuroSAT and Transfer Learning

Keywords: remote_sensing, remote_sensing_technologies, land_use_mapping
Abstract: 전 세계 인구가 계속 증가함에 따라 천연자원에 대한 수요도 증가하고 있습니다. 안타깝게도 인간 활동은 온실가스 배출의 23%를 차지합니다. 긍정적인 측면에서 원격 감지 기술은 환경을 관리하는 데 유용한 도구로 부상했습니다. 이러한 기술을 통해 토지 사용을 모니터링하고, 도시 지역을 계획하고, 농업, 기후 변화 완화, 재난 복구, 환경 모니터링과 같은 분야의 발전을 이끌 수 있습니다. 최근 AI, 컴퓨터 비전, 지구 관측 데이터의 발전으로 토지 이용 매핑의 정확도가 전례 없이 높아졌습니다. 전이 학습과 RGB 대역을 사용한 미세 조정을 통해 토지 이용 분석에서 99.19%의 놀라운 정확도를 달성했습니다. 이러한 결과는 보존 및 도시 계획 정책에 정보를 제공하는 데 사용될 수 있습니다. [abs|pdf]

[73/74] Neuronal Auditory Machine Intelligence (NEURO-AMI) In Perspective

Keywords: neuronal_auditory_machine, auditory_machine_intelligence, hungry_artificial_neural
Abstract: 최근 소프트 컴퓨팅의 발전은 인간의 뇌에서 일어나는 실제 피질 조직이나 프로세스에서 영감을 얻은 인공 신경 기계 학습 시스템의 공헌을 빼놓고는 설명할 수 없습니다. 이러한 신경 시스템의 보편적인 근사성은 광범위한 사용으로 이어졌고, 이 진화하는 기술의 새로운 발전은 소프트 컴퓨팅 분야에서 이러한 인공 지능(AI) 기술의 밝은 미래가 있음을 보여주었습니다. 실제로 인공 신경 시스템의 크고 매우 깊은 네트워크의 확산과 그에 따른 신경 기계 학습 알고리즘의 향상 및 개발은 Lecun, Bengio 및 Hinton의 잘 문서화된 연구 작업에서 볼 수 있듯이 현대 딥 러닝 분야의 발전에 크게 기여했습니다. 그러나 복잡성 감소 및 데이터 학습 크기 요구 사항과 더불어 최종 사용자의 경제성이라는 핵심 요건은 보다 비용 효율적이고 데이터 소모가 적은 인공 신경 시스템의 합성에 대한 필요성이 여전히 남아 있음을 의미합니다. 이 보고서에서는 현재 및 미래의 머신러닝 전문가와 데이터 과학자를 위한 기능 및 구조적 세부 사항, 올바른 적용 가능성에 대한 중요한 측면, 최근 적용 사용 사례, 향후 연구 방향을 자세히 설명하는 예측자로서 새로운 경쟁 생물학적 영감 지속 학습 신경 도구인 뉴로-청각 기계 지능(Neuro-AMI)에 대한 개요를 제시합니다. [abs|pdf]

[74/74] INVIGORATE: Interactive Visual Grounding and Grasping in Clutter

Keywords: object_detection_visual, natural_language_grasps, approach_object_grasping
Abstract: 이 백서에서는 자연어를 통해 인간과 상호작용하고 혼란 속에서 특정 물체를 파악하는 로봇 시스템인 인비저레이트(INVIGORATE)를 소개합니다. 이 물체들은 서로를 가리거나, 방해하거나, 심지어 겹쳐 있을 수도 있습니다. 인비저레이트는 (i) 입력된 언어 표현과 RGB 이미지에서 다른 가려진 물체들 사이에서 목표 물체를 추론하고, (ii) 이미지에서 물체 차단 관계(OBR)를 추론하며, (iii) 목표 물체를 명확히 파악하기 위한 질문을 하고 이를 성공적으로 파악하기 위한 다단계 계획을 합성하는 등 몇 가지 과제를 구현합니다. 유니티는 물체 감지, 시각적 근거, 질문 생성, OBR 감지 및 파악을 위해 별도의 신경망을 훈련합니다. 이 신경망은 훈련 데이터 세트에 따라 제한 없는 객체 범주와 언어 표현을 허용합니다. 그러나 시각적 인식의 오류와 인간 언어의 모호함은 불가피하며 로봇의 성능에 부정적인 영향을 미칩니다. 이러한 불확실성을 극복하기 위해 유니티는 학습된 신경망 모듈을 통합하는 부분 관측 가능한 마르코프 결정 프로세스(POMDP)를 구축합니다. 로봇은 대략적인 POMDP 계획을 통해 관찰 이력을 추적하고 모호성 질문을 던져 목표 물체를 식별하고 파악하는 거의 최적의 동작 순서를 달성합니다. 인비저레이트는 모델 기반 POMDP 계획과 데이터 기반 딥러닝의 장점을 결합한 솔루션입니다. Fetch 로봇에서 INVIGORATE를 사용한 예비 실험은 자연어 상호작용을 통해 혼란스러운 상황에서 물체를 파악하는 이 통합 접근 방식의 상당한 이점을 보여줍니다. 데모 동영상은 이 https URL에서 확인할 수 있습니다. [abs|pdf]