🍞 오늘의 AI 논문 [2024-02-05]

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-02-05]

다각 2024. 2. 21. 19:28

[1/99] Natural Counterfactuals With Necessary Backtracking

Keywords: refines_counterfactual_reasoning, generate_natural_counterfactuals, generating_counterfactuals_natural
Abstract: 사실과 반대되는 추론은 인간의 인지 능력에서 중추적인 역할을 하며, 특히 설명을 제공하고 의사 결정을 내리는 데 중요합니다. 유다 펄의 영향력 있는 접근 방식은 이론적으로는 우아하지만, 역설적 시나리오를 생성하려면 실제 시나리오와 너무 동떨어진 개입이 필요해 실현 불가능한 경우가 많습니다. 이에 따라 크리테오에서는 자연스러운 반대 시나리오의 프레임워크와 실제 세계의 데이터 분포와 관련하여 자연스러운 반대 시나리오를 생성하는 방법을 제안합니다. 이 방법론은 인과관계가 있는 선행 변수를 변경하여 현실적인 시나리오와의 편차를 최소화할 수 있도록 카운터팩츄얼 추론을 정교화합니다. 자연스러운 역추론을 생성하기 위해 자연스러움 기준을 통해 역추론의 범위를 허용하되 제어하는 혁신적인 최적화 프레임워크를 도입했습니다. 경험적 실험을 통해 이 방법의 효과가 입증되었습니다. [abs|pdf]

[2/99] Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning

Keywords: knowledge_augmentation_reasoning, augmentation_reasoning_framework, knowledge_augmentation
Abstract: 대규모 언어 모델과 같은 기초 모델(FM)은 다양한 작업에서 괄목할 만한 성능을 보여주며 AI 분야에 혁신을 가져왔습니다. 하지만 신뢰성과 유용성에 대해 더 높은 기준을 요구하는 많은 실제 시스템에서 폭넓게 채택되지 못하는 여러 가지 한계가 있습니다. FM은 자기 감독 방식으로 훈련 코퍼스를 재구성하기 위한 손실 함수를 사용하여 훈련되기 때문에 모델의 출력이 특정 작업에 대한 사용자의 선호도와 일치한다는 보장이 없습니다. 이 설문조사 논문에서는 특히 지식 증강과 추론을 통해 상담원이 FM과 상호 작용하고 일련의 작업에 적합하게 안내할 수 있는 다양한 모드를 캡슐화하는 개념적 프레임워크를 제안합니다. 이 프레임워크는 기본 FM 업데이트, FM 프롬프트 지원, FM 출력 평가와 같은 상담원 역할 범주를 명확히 설명합니다. 또한 여러 가지 최신 접근 방식을 상담원 상호 작용 프로토콜로 분류하여 다양한 상담원 역할의 성격과 관여 정도를 강조합니다. 제안된 프레임워크는 실제 AI 시스템에서 FM의 힘을 더욱 실현하기 위한 향후 방향에 대한 지침을 제공합니다. [abs|pdf]

[3/99] Developing and Evaluating a Design Method for Positive Artificial Intelligence

Keywords: ai_wellbeing, optimizing_implementing_wellbeing, ai_wellbeing_does
Abstract: 인공지능(AI)이 계속 발전함에 따라, 특히 AI 시스템이 삶의 다양한 측면에서 점점 더 보편화됨에 따라 긍정적인 사회적 영향을 보장하는 것이 중요해지고 있습니다. 그러나 '선한 AI'를 개발하려면 시스템을 복잡한 인간의 가치에 맞추는 데 상당한 어려움이 따릅니다. 현재로서는 이러한 과제를 해결할 수 있는 성숙한 방법이 부족합니다. 이 글에서는 이러한 격차를 해소하기 위한 포지티브 AI 설계 방법을 제시하고 평가합니다. 이 방법은 웰빙에 대한 열망을 구체적인 실천으로 전환하기 위한 인간 중심의 프로세스를 제공합니다. 먼저, 피드백 주기에 대한 지속적인 측정으로 뒷받침되는 웰빙의 맥락화, 운영화, 최적화, 구현이라는 이 방법의 네 가지 핵심 단계를 설명합니다. 그런 다음 초보 디자이너가 이 방법을 적용한 여러 사례 연구를 통해 효과 및 사용성과 관련된 장단점을 밝힙니다. 다음으로, 전문가 평가 연구를 통해 결과물의 품질을 평가하여 실현 가능성, 바람직성, 의도한 웰빙 혜택 달성의 타당성에 대해 중간 정도의 높은 평가를 내렸습니다. 이러한 연구를 통해 AI 설계를 개선하는 이 방법의 능력을 예비적으로 검증하는 한편, 복잡한 단계에 대한 지원 개발과 같이 개선이 필요한 부분을 드러낼 수 있었습니다. 예시 및 평가 휴리스틱과 같은 제안된 조정은 약점을 해결할 수 있습니다. 추가 연구를 통해 여러 프로젝트에 걸쳐 지속적으로 적용할 수 있는지 검토해야 합니다. 이러한 인간 중심의 접근 방식은 단순히 피해를 방지하는 것이 아니라 인류에게 적극적으로 혜택을 주는 '웰빙을 위한 AI'의 비전을 실현할 수 있는 가능성을 보여줍니다. [abs|pdf]

[4/99] Towards the new XAI: A Hypothesis-Driven Approach to Decision Support Using Evidence

Keywords: approach_ai_explanation, driven_approach_ai, ai_explanation_baseline
Abstract: AI를 이용한 인간의 의사 결정에 대한 이전 연구에서는 여러 가지 설명 가능한 AI(XAI) 접근 방식을 탐구했습니다. 최근 한 논문에서는 의사결정 지원 추천을 제공하지 않고도 가설을 지지하거나 반박하는 증거를 제공하는 평가적 AI라는 개념적 프레임워크를 통해 가설 중심의 XAI를 요구하는 패러다임 전환을 제안했습니다. 이 백서에서는 주어진 가설에 대한 긍정적 증거와 부정적 증거를 모두 생성하는 증거의 가중치(WoE) 프레임워크에 기반한 가설 기반 XAI에 대한 접근 방식을 설명하고 평가합니다. 인간 행동 실험을 통해 가설 중심 접근 방식이 추천 중심 접근 방식과 AI 설명만 제공하는 기준선에 비해 의사 결정의 정확성을 높이고 의존도를 낮추지만, 추천 중심 접근 방식에 비해 과소 의존도가 약간 증가한다는 것을 보여주었습니다. 또한 참가자들은 가설 기반 접근 방식을 두 가지 기준선과는 상당히 다른 방식으로 사용했음을 보여줍니다. [abs|pdf]

[5/99] Federated Unlearning: a Perspective of Stability and Fairness

Keywords: federated_unlearning, federated_unlearning_fu, consequences_federated_unlearning
Abstract: 이 백서에서는 데이터 이질성을 가진 연합 비학습(FU)의 다면적인 결과를 살펴봅니다. 검증, 글로벌 안정성, 로컬 공정성에 초점을 맞춰 FU 평가를 위한 주요 지표를 소개하고 내재된 트레이드 오프에 대해 조사합니다. 또한 최적화 프레임워크를 통해 데이터 이질성을 고려한 언러닝 프로세스를 공식화합니다. 우리의 주요 기여는 FU의 트레이드오프에 대한 포괄적인 이론적 분석에 있으며, 데이터 이질성이 FU에 미치는 영향에 대한 인사이트를 제공합니다. 이러한 인사이트를 활용하여 트레이드오프를 관리할 수 있는 FU 메커니즘을 제안함으로써 FU 메커니즘에 대한 추가 개발을 유도합니다. 이론적 분석을 통해 도출된 인사이트를 확인하여 FU 메커니즘이 트레이드 오프의 균형을 효과적으로 유지한다는 것을 실증적으로 검증합니다. [abs|pdf]

[6/99] PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models

Keywords: pokémon_battles_design, pokéllmon_llm_embodied, demonstrated_pokémon_battles
Abstract: 포켓몬 배틀에서 입증된 바와 같이, 전술 배틀 게임에서 인간과 동등한 성능을 발휘하는 최초의 LLM 구현 에이전트인 PokéLLMon을 소개합니다. PokéLLMon의 설계에는 (i) 전투에서 얻은 텍스트 기반 피드백을 즉시 활용하여 정책을 반복적으로 개선하는 상황 내 강화 학습, (ii) 환각에 대응하기 위해 외부 지식을 검색하고 에이전트가 적시에 적절하게 행동할 수 있도록 하는 지식 증강 생성, (iii) 에이전트가 강력한 상대와 마주했을 때 전투를 피하고자 하는 패닉 스위칭 현상을 완화하는 일관된 행동 생성 등 3가지 주요 전략이 통합되어 있습니다. 우리는 인간과의 온라인 배틀에서 래더 대회에서 49%의 승률과 초대 배틀에서 56%의 승률을 달성하여 PokéLLMon의 인간과 유사한 전투 전략과 적시 의사 결정을 보여 주었습니다. 구현 및 플레이 가능한 배틀 로그는 다음에서 확인할 수 있습니다. [abs|pdf]

[7/99] Real Sparks of Artificial Intelligence and the Importance of Inner Interpretability

Keywords: black_box_interpretability, methodology_blackbox_interpretability, blackbox_interpretability
Abstract: 이 백서에서는 Microsoft의 엔지니어들이 수행한 연구 중 GPT의 지능에 관한 가장 철저한 논문 중 하나를 살펴봅니다. 그들의 연구에는 많은 가치가 있지만, 저는 익숙한 철학적 이유로 그들의 방법론인 "블랙박스 해석 가능성"이 잘못되었다고 주장할 것입니다. 하지만 더 나은 방법이 있습니다. 모델과 모델이 구현하는 알고리즘을 이해하기 위해 모델의 내부 활성화와 가중치를 밝히는 것을 목표로 하는 '내적 해석가능성'(특히 기계적 해석가능성)이라는 흥미롭고 새롭게 떠오르는 분야가 있습니다. 제가 보기에 블랙박스 해석가능성에서 가장 중요한 실수는 지능과 이해에 있어 프로세스가 어떻게 수행되는지가 중요하다는 점을 인식하지 못하는 것입니다. 지능의 필요조건과 충분조건을 모두 갖춘 완전한 이야기를 가지고 있는 척할 수는 없지만, 내적 해석가능성은 지능에 필요한 것이 무엇인지에 대한 그럴듯한 철학적 견해와 잘 맞닿아 있다고 생각합니다. 따라서 결론은 겸손하지만, 제가 보기에 중요한 점은 연구를 올바른 방향으로 이끄는 방법을 찾는 것입니다. 논문의 마지막 부분에서는 몇 가지 철학적 개념을 사용하여 내적 해석가능성에 접근하는 방법을 더욱 구체화할 수 있는 방법을 보여줌으로써 이 논문이 철학자와 컴퓨터 과학자 간의 유익한 미래 양방향 교류를 이끌어내는 데 도움이 될 수 있도록 하겠습니다. [abs|pdf]

[8/99] L2G2G: a Scalable Local-to-Global Network Embedding with Graph Autoencoders

Keywords: graph_autoencoder_gae, graph_autoencoder, graph_representation_learning
Abstract: 실제 네트워크를 분석할 때 그래프 표현 학습은 널리 사용되는 도구입니다. 그래프 자동 인코더(GAE)와 같은 이러한 방법은 일반적으로 손실 함수를 최소화하여 얻은 임베딩이라고도 하는 저차원 표현에 의존하며, 이러한 임베딩은 노드 분류 및 에지 예측과 같은 다운스트림 작업을 위해 디코더와 함께 사용됩니다. GAE는 상당히 정확한 경향이 있지만 확장성 문제가 있습니다. 속도 향상을 위해 고유 벡터 동기화를 기반으로 그래프 패치 임베딩을 결합하는 로컬2글로벌 접근 방식이 빠르고 정확도가 우수한 것으로 나타났습니다. 여기서는 확장성을 희생하지 않으면서도 GAE 정확도를 향상시키는 로컬2글로벌 방식인 L2G2G를 제안합니다. 이러한 개선은 GAE를 훈련하는 동안 잠재 노드 표현을 동적으로 동기화함으로써 이루어집니다. 또한 디코더가 로컬 패치 손실만 계산하기 때문에 이점이 있습니다. 따라서 각 에포크에서 로컬 임베딩을 정렬하면 확장성을 유지하면서 단일 훈련 후 정렬보다 그래프에서 더 많은 정보를 활용할 수 있습니다. 우리는 합성 벤치마크와 실제 사례를 통해 L2G2G가 표준 로컬2글로벌 접근 방식보다 더 높은 정확도를 달성하고 대규모 데이터 세트에서 효율적으로 확장된다는 것을 입증했습니다. 규모가 크고 밀집된 네트워크의 경우, 느리지만 더 정확하다고 가정되는 GAE보다 성능이 더 뛰어나다는 사실도 확인했습니다. [abs|pdf]

[9/99] Nomic Embed: Training a Reproducible Long Context Text Embedder

Keywords: openai_text_embedding, nomic_embed_text, text_embedding_model
Abstract: 이 기술 보고서에서는 짧은 컨텍스트 및 긴 컨텍스트 작업에서 OpenAI Ada-002와 OpenAI text-embedding-3-small을 모두 능가하는 최초의 완전 재현 가능한 오픈 소스, 오픈 가중치, 오픈 데이터, 8192 컨텍스트 길이 영어 텍스트 임베딩 모델인 nomic-embed-text-v1의 훈련에 대해 설명합니다. 훈련 코드와 모델 가중치는 Apache 2 라이선스에 따라 공개됩니다. 다른 오픈 소스 모델과 달리, 2억 3,500만 개의 큐레이팅된 텍스트 쌍이 포함된 훈련 데이터 로더를 공개하여 nomic-embed-text-v1을 완전히 복제할 수 있습니다. 다음 https URL에서 모델을 복제하는 코드와 데이터를 찾을 수 있습니다 [abs|pdf]

[10/99] BAT: Learning to Reason about Spatial Sounds with Large Language Models

Keywords: spatial_sound_reasoning, wild_spatial_sounds, spatial_sounds
Abstract: 공간 소리 추론은 소리를 기반으로 주변 환경을 탐색하고 해석할 수 있게 해주는 인간의 기본적인 능력입니다. 이 백서에서는 바 이노럴 음향 장면 분석 모델의 공간 소리 인식 능력과 대규모 언어 모델(LLM)의 자연어 추론 능력을 결합하여 이 타고난 능력을 재현하는 BAT를 소개합니다. 자연 상태의 공간음에 대한 기존 데이터 세트의 부족을 해결하기 위해 AudioSet과 SoundSpaces 2.0을 사용하여 바 이노럴 오디오 데이터 세트를 합성했습니다. 다음으로, 공간 사운드 기반 질문-답변 데이터 세트인 SpatialSoundQA를 개발하여 공간 사운드 인식 및 추론의 다양한 측면에서 BAT를 훈련하는 다양한 QA 작업을 제공했습니다. BAT의 음향 프론트엔드 인코더는 공간 오디오 스펙트로그램 트랜스포머(Spatial-AST)라는 새로운 공간 오디오 인코더로 사운드 이벤트 감지, 공간 로컬라이제이션, 거리 추정에 걸쳐 강력한 성능을 발휘합니다. Spatial-AST를 LLaMA-2 7B 모델과 통합함으로써 BAT는 표준 사운드 이벤트 로컬라이제이션 및 탐지(SELD) 작업을 뛰어넘어 모델이 환경 내 사운드 간의 관계를 추론할 수 있도록 지원합니다. 유니티의 실험은 공간 사운드 인식과 추론 모두에서 BAT의 뛰어난 성능을 입증하며, 복잡한 공간 오디오 환경을 탐색하고 해석하는 데 있어 LLM의 엄청난 잠재력을 보여줍니다. [abs|pdf]

[11/99] TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution

Keywords: agent_safety, llm_agent_safety, agent_safety_identifying
Abstract: LLM 기반 에이전트의 등장은 상당한 주목을 받고 있지만, 그 신뢰성은 아직 충분히 연구되지 않은 영역으로 남아 있습니다. 에이전트는 물리적 환경과 직접 상호작용할 수 있기 때문에 신뢰성과 안전성이 매우 중요합니다. 이 백서에서는 LLM 기반 에이전트의 신뢰성의 안전성 차원을 개선하기 위한 초기 연구로 에이전트 구성 기반 에이전트 프레임워크인 TrustAgent를 소개합니다. 이 프레임워크는 계획 생성 전 모델에 안전 지식을 주입하는 계획 전 전략, 계획 생성 중 안전성을 강화하는 계획 중 전략, 계획 생성 후 점검을 통해 안전성을 확보하는 계획 후 전략의 세 가지 전략으로 구성됩니다. 실험 분석을 통해 이러한 접근 방식이 잠재적 위험을 식별하고 예방함으로써 LLM 에이전트의 안전성을 효과적으로 높일 수 있는 방법을 보여줍니다. 또한 안전성과 유용성 사이의 복잡한 관계, 모델의 추론 능력과 안전 에이전트로서의 효능 사이의 관계를 탐구합니다. 이 백서는 LLM 기반 에이전트의 성능을 향상시킬 뿐만 아니라 인간 중심 환경에 책임감 있게 통합하기 위해 안전 인식과 신뢰성을 설계 및 배포에 통합하는 것이 필수적임을 강조합니다. 데이터와 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[12/99] Generative AI for Education (GAIED): Advances, Opportunities, and Challenges

Keywords: gaied_workshop, organized_gaied_workshop, gaied_workshop_community
Abstract: 이 설문조사 기사는 저자들이 NeurIPS 2023 컨퍼런스에서 주최한 GAIED('가이드'로 발음) 워크숍에서 발전한 것입니다. 유니티는 연구자, 교육자, 실무자가 모여 교육 향상을 위한 제너레이티브 AI의 잠재력을 탐구하기 위한 커뮤니티 구축 노력의 일환으로 GAIED 워크숍을 기획했습니다. 이 글에서는 워크숍 활동에 대한 개요를 제공하고 GAIED 분야의 몇 가지 향후 연구 방향을 소개합니다. [abs|pdf]

[13/99] Boximator: Generating Rich and Controllable Motions for Video Synthesis

Keywords: challenge_video_synthesis, video_synthesis, motion_control_boximator
Abstract: 풍부하고 제어 가능한 모션을 생성하는 것은 비디오 합성의 핵심 과제입니다. 유니티는 세밀한 모션 제어를 위한 새로운 접근 방식인 Boximator를 제안합니다. 박시메이터는 하드 박스와 소프트 박스라는 두 가지 제약 유형을 도입했습니다. 사용자는 하드 박스를 사용하여 조건부 프레임에서 오브젝트를 선택한 다음 두 가지 유형의 박스를 사용하여 향후 프레임에서 오브젝트의 위치, 모양 또는 모션 경로를 대략적으로 또는 엄격하게 정의할 수 있습니다. Boximator는 기존 비디오 확산 모델의 플러그인 역할을 합니다. 이 훈련 프로세스는 원래의 가중치를 동결하고 제어 모듈만 훈련함으로써 기본 모델의 지식을 보존합니다. 훈련 문제를 해결하기 위해 유니티는 박스-객체 상관관계 학습을 크게 간소화하는 새로운 자체 추적 기술을 도입했습니다. 경험적으로 Boximator는 두 가지 기본 모델에서 개선된 최첨단 비디오 품질(FVD) 점수를 달성하고 박스 제약 조건을 통합한 후 더욱 향상되었습니다. 강력한 모션 제어 기능은 바운딩 박스 정렬 메트릭의 대폭적인 증가로 입증되었습니다. 사용자 평가에서도 사용자들은 기본 모델보다 박시메이터의 생성 결과를 더 선호하는 것으로 나타났습니다. [abs|pdf]

[14/99] Privacy-Preserving Distributed Learning for Residential Short-Term Load Forecasting

Keywords: security_federated_learning, federated_learning, attack_techniques_deep
Abstract: 전력 시스템 분야에서 부하 예측 애플리케이션에 대한 주거용 사용자의 참여가 증가함에 따라 데이터 프라이버시에 대한 우려가 커지고 있습니다. 특히 부하 데이터는 주거용 사용자의 일상이 의도치 않게 노출되어 재산 보안에 위험을 초래할 수 있습니다. 원시 데이터를 교환하지 않고도 모델 학습을 가능하게 하여 사용자 개인정보를 보호하기 위해 연합 학습(FL)이 사용되어 왔지만, 이러한 FL 모델은 그라데이션 딥 누수 및 포이즈닝 공격과 같은 새로운 공격 기법에 취약한 것으로 나타났습니다. 이에 대응하기 위해 처음에는 다자간 계산 암호화 기법을 활용하여 그라디언트 유출의 위험을 완화하는 보안 집계(SecAgg) 알고리즘을 사용했습니다. 그러나 SecAgg를 도입하려면 다자간 계산 프로토콜을 실행하기 위한 추가 서브센터 서버를 구축해야 하므로, 특히 하나 이상의 서브센터를 사용할 수 없는 시나리오에서 계산 복잡성이 증가하고 시스템 견고성이 저하될 수 있습니다. 이러한 문제를 해결하기 위해 엄격한 이론적 분석을 통해 그 수렴성을 입증한 마르코비안 스위칭 기반의 분산 훈련 프레임워크를 소개합니다. 분산 마르코비안 스위칭(DMS) 토폴로지는 포이즈닝 공격에 대해서도 강력한 견고성을 보여줍니다. 실제 전력 시스템 부하 데이터를 사용한 사례 연구를 통해 제안된 알고리즘의 효율성을 검증했습니다. 이 알고리즘은 통신 복잡성을 크게 최소화할 뿐만 아니라 기존 FL 방식과 비슷한 수준의 정확도를 유지하여 부하 예측 알고리즘의 확장성을 향상시킵니다. [abs|pdf]

[15/99] Closing the Gap in Human Behavior Analysis: A Pipeline for Synthesizing Trimodal Data

Keywords: thermal_depth_backgrounds, depth_backgrounds_sourced, thermal_depth_human
Abstract: 퍼베이시브 머신 러닝, 특히 인간 행동 분석(HBA)에서 RGB는 접근성과 풍부한 정보로 인해 주요 모달리티로 사용되어 왔습니다. 그러나 이러한 장점과 함께 조명 조건에 대한 민감성, 개인정보 보호 문제 등의 문제도 있습니다. 이러한 취약점을 극복할 수 있는 한 가지 방법은 다른 모달리티를 사용하는 것입니다. 예를 들어 열화상은 사람의 형태를 강조하는 데 특히 효과적이며, 심도는 중요한 컨텍스트 레이어를 추가합니다. 이러한 장점에도 불구하고, 이러한 모달리티를 통합한 HBA 전용 데이터 세트는 몇 개 밖에 존재하지 않습니다. 이러한 부족함을 해결하기 위해 유니티의 연구에서는 RGB, 열화상, 심도 등 인간 중심의 삼원색 데이터 세트를 생성하는 새로운 생성 기법을 도입했습니다. 이 기술은 RGB 이미지에서 파생된 사람 분할 마스크와 자동으로 소싱된 열화상 및 심도 배경을 활용합니다. 이 두 가지 요소를 사용하여 조건부 이미지 간 변환을 통해 기존 RGB 데이터에서 깊이와 열에 대응하는 데이터를 합성합니다. 이 접근 방식을 사용하면 데이터가 제한적이거나 조명이 좋지 않은 환경 또는 개인정보 보호에 민감한 지역에서 모델을 학습시키는 데 활용할 수 있는 삼중 데이터를 생성할 수 있습니다. [abs|pdf]

[16/99] Homogenization Effects of Large Language Models on Human Creative Ideation

Keywords: user_creativity_hypothesized, support_user_creativity, user_creativity
Abstract: 대규모 언어 모델(LLM)은 이제 사용자가 새로운 아이디어를 떠올리는 데 도움을 주기 위한 창의성 지원 도구(CST)를 비롯하여 다양한 맥락에서 사용되고 있습니다. 하지만 LLM이 실제로 사용자의 창의성을 지원할까요? 저희는 LLM을 CST로 사용하면 사용자들이 더 창의적으로 느끼고, 각 사용자가 제안하는 아이디어의 범위가 넓어질 뿐만 아니라 다른 사용자들이 제안하는 아이디어가 동질화될 수 있다는 가설을 세웠습니다. 36명이 참여한 사용자 비교 연구를 실시한 결과, 동질화 가설에 따라 서로 다른 사용자들이 대체 CST를 사용할 때보다 ChatGPT를 사용할 때 의미적으로 덜 뚜렷한 아이디어를 생성하는 경향이 있다는 것을 발견했습니다. 또한, ChatGPT 사용자는 더 많은 수의 더 자세한 아이디어를 생성했지만, 생성한 아이디어에 대한 책임감은 덜 느꼈습니다. 이러한 연구 결과가 사용자, 디자이너, LLM 기반 CST 개발자에게 주는 잠재적 시사점에 대해 논의합니다. [abs|pdf]

[17/99] An Empirical Analysis of Diversity in Argument Summarization

Keywords: diversity_opinions_annotators, popular_argument_summarization, argument_summarization_approaches
Abstract: 높은 수준의 주장을 제시하는 것은 온라인 사회적 토론에 대한 참여를 촉진하는 데 매우 중요한 작업입니다. 현재의 주장 요약 접근 방식은 다양한 관점을 수용하는 데 중요한 다양성 포착이라는 중요한 측면을 놓치고 있습니다. 다양성의 세 가지 측면, 즉 의견, 주석자, 출처를 소개합니다. 핵심 요점 분석이라는 널리 사용되는 주장 요약 작업에 대한 접근 방식을 평가하여 이러한 접근 방식이 (1) 소수의 사람들이 공유하는 주장을 표현하고, (2) 다양한 출처의 데이터를 다루며, (3) 사람이 제공한 주석의 주관성을 조정하는 데 어떻게 어려움을 겪는지 보여 줍니다. 범용 LLM과 전용 KPA 모델 모두 이러한 문제점을 가지고 있지만 상호 보완적인 강점을 가지고 있다는 사실을 발견했습니다. 또한 훈련 데이터의 다양화가 일반화를 개선할 수 있음을 관찰했습니다. 논증 요약의 다양성을 해결하려면 주관성을 처리하기 위한 여러 가지 전략이 필요합니다. [abs|pdf]

[18/99] K-Level Reasoning with Large Language Models

Keywords: dynamic_reasoning_capabilities, dynamic_reasoning_markedly, explore_dynamic_reasoning
Abstract: 대규모 언어 모델(LLM)은 복잡한 추론 작업에서 그 능력을 입증했지만, 비즈니스 전략이나 주식 시장 분석과 같은 동적이고 상호 작용적이며 경쟁적인 시나리오에서의 성능은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해소하기 위해 빠르게 진화하는 환경에서 의사결정을 내리는 데 있어 LLM의 동적 추론 능력을 공식적으로 탐구합니다. 실제 동적 의사결정의 복잡성을 반영하는 두 가지 게임 이론 기반 파일럿 과제를 소개합니다. 이러한 과제는 잘 정의되어 있어 LLM의 동적 추론 능력을 명확하고 통제 가능하며 정확하게 평가할 수 있습니다. 광범위한 실험을 통해 기존 추론 방식이 기존 연구에서 다루지 않았던 핵심 개념인 K레벨 사고가 필요한 동적 환경에서 흔들리는 경향이 있음을 발견했습니다. 이 문제를 해결하기 위해 저희는 "K-레벨 추론"이라는 새로운 추론 접근법을 제안합니다. 이 접근 방식은 경쟁자의 관점을 채택하여 이용 가능한 과거 정보를 기반으로 재귀적으로 K레벨 사고를 사용함으로써 경쟁자의 후속 움직임에 대한 예측 정확도를 크게 향상시키고 보다 전략적인 의사결정을 내릴 수 있도록 정보를 제공합니다. 이 연구는 동적 추론의 평가를 위한 강력한 정량적 기준을 설정할 뿐만 아니라 동적 맥락에서 LLM의 숙련도를 현저하게 향상시킵니다. [abs|pdf]

[19/99] Enhancing Stochastic Gradient Descent: A Unified Framework and Novel Acceleration Methods for Faster Convergence

Keywords: convergence_speed_generalization, improved_convergence_speed, stochastic_optimization_sgdm
Abstract: SGD를 기반으로 SGDm, AdaGrad, Adam 등과 같이 확률적 최적화에서 수렴 속도와 일반화를 개선한 알고리즘이 많이 제안되었습니다. 그러나 비볼록 조건에서의 수렴 분석은 어려운 문제입니다. 이 연구에서는 이 문제를 해결하기 위한 통합 프레임워크를 제안합니다. 모든 일차 방법의 경우, 업데이트된 방향 $g_t$를 확률론적 하위 경사 $\nabla f_t(x_t)$와 추가 가속 항 $\frac{2|\langle v_t$의 합으로 해석합니다, \nabla f_t(x_t) \rangle|}{|v_t|_2^2} v_t$이므로, $\langle v_t, \nabla f_t(x_t) \rangle$을 분석하여 수렴을 논의할 수 있습니다. 프레임워크를 통해 두 가지 플러그 앤 플레이 가속 방법을 발견했습니다: \텍스트비프{거부 가속}과 텍스트비프{랜덤 벡터 가속}, 이 두 가지 방법이 수렴율의 향상으로 직접 이어질 수 있음을 이론적으로 증명했습니다. [abs|pdf]

[20/99] Multi-level protein pre-training with Vabs-Net

Keywords: learning_protein_representation, trained_protein_models, learning_protein
Abstract: 최근 몇 년 동안 3D 구조 기반 사전 훈련된 단백질 모델 개발이 급증하면서 다양한 다운스트림 작업에서 사전 훈련된 단백질 언어 모델에 비해 상당한 발전을 이루었습니다. 그러나 기존의 대부분의 구조 기반 사전 학습 모델은 주로 잔기 수준, 즉 알파 탄소 원자에 초점을 맞추고 측쇄 원자와 같은 다른 원자는 무시합니다. 사이드 체인 원자는 분자 도킹과 같은 수많은 후속 작업에서 중요할 수 있기 때문에 잔기와 원자 수준 모두에서 단백질을 모델링하는 것이 중요하다고 주장합니다. 그럼에도 불구하고, 우리는 사전 훈련 중에 잔기와 원자 정보를 순진하게 결합하는 것이 일반적으로 실패한다는 것을 발견했습니다. 주요 원인은 입력에 원자 구조가 포함됨으로써 발생하는 정보 유출로 인해 잔기 수준의 사전 훈련 작업이 사소해지고 표현력이 부족한 잔기 표현이 발생하기 때문인 것으로 밝혀졌습니다. 이 문제를 해결하기 위해 3D 단백질 사슬에 대한 스팬 마스크 사전 훈련 전략을 도입하여 잔기와 원자 모두에 대한 의미 있는 표현을 학습합니다. 이를 통해 다양한 다운스트림 작업에 적합한 단백질 표현을 학습할 수 있는 간단하면서도 효과적인 접근 방식을 제공합니다. 결합 부위 예측 및 기능 예측 작업에 대한 광범위한 실험 결과는 우리가 제안한 사전 훈련 접근 방식이 다른 방법보다 훨씬 뛰어난 성능을 발휘한다는 것을 보여줍니다. 코드는 공개될 예정입니다. [abs|pdf]

[21/99] Self-Attention through Kernel-Eigen Pair Sparse Variational Gaussian Processes

Keywords: asymmetry_attention_kernels, attention_kernels, inference_attention_kernel
Abstract: 트랜스포머의 뛰어난 성능은 예측 정확도를 크게 향상시키지만, 과신한 예측이 나올 수 있고 보정된 불확실성 추정이 필요할 수 있으며, 이는 일반적으로 가우스 프로세스(GP)를 통해 해결할 수 있습니다. 기존 연구들은 주의집중 커널에 대칭적인 커널을 가진 GP를 변형 추론에 적용하지만, 주의집중 커널이 본질적으로 비대칭적이라는 사실을 간과하고 있습니다. 또한 대규모 데이터의 경우 GP 후행 도출의 복잡성이 여전히 높습니다. 이 연구에서는 커널 SVD(KSVD)를 통해 주의 커널의 비대칭성을 해결하고 복잡성을 줄인 불확실성 인식 자기 주의 구축을 위한 커널 고유 쌍 희소 변형 가우시안 프로세스(KEP-SVGP)를 제안합니다. KEP-SVGP를 통해 i) 주의 커널에 대한 KSVD의 두 개의 특이 벡터 세트에 의해 유도된 SVGP 쌍이 비대칭성을 완전히 특성화하고, ii) KSVD의 작은 인접 고유 함수 세트만을 사용하여 특이값을 포함하는 대각 행렬의 역전을 기반으로 SVGP 후행의 도출이 가능하여 시간 복잡성 감소에 기여하며, iii) 이 목표를 위해 변형 파라미터를 최적화할 수 있도록 증거 하한을 도출합니다. 실험을 통해 분포 내, 분포 이동, 분포 외 벤치마크에서 뛰어난 성능과 효율성을 검증했습니다. [abs|pdf]

[22/99] Brain-Like Replay Naturally Emerges in Reinforcement Learning Agents

Keywords: emergent_replay_hippocampus, replay_hippocampus, replay_hippocampus_results
Abstract: 뇌 영역, 특히 해마와 신피질에서 널리 관찰되는 신경 활동 패턴인 리플레이가 인공 에이전트에서도 나타날 수 있을까요? 그렇다면 리플레이가 작업에 기여할 수 있을까요? 이 연구에서는 복잡한 가정에 크게 의존하지 않고 해마와 전전두엽 피질, 그리고 이들의 상호 소통과 감각 피질 입력을 모방한 순환 신경망 기반 강화 학습 모델을 사용하여 과제에 최적화된 패러다임에서 자연스럽게 나타나는 재생을 발견합니다. 에피소드 기억과 인지 지도, 환경 관찰에서 비롯되는 해마에서 발생하는 재생은 동물 실험 데이터와 매우 유사하며 높은 과제 수행 능력을 효과적으로 나타내는 지표로 사용됩니다. 또한 이 모델은 인간의 실험 데이터와 일치하는 로컬 및 비로컬 리플레이를 성공적으로 재현합니다. 이 연구는 리플레이의 메커니즘을 이해하는 새로운 길을 제시합니다. [abs|pdf]

[23/99] Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach

Keywords: knowledge_based_causal, statistical_causal_discovery, causal_discovery
Abstract: 실제 통계적 인과관계 발견(SCD)에서 도메인 전문 지식을 알고리즘에 제약 조건으로 포함시키는 것은 배경 지식을 체계적으로 획득하는 데 어려움이 있음에도 불구하고 일관되고 의미 있는 인과관계 모델을 생성하는 데 중요한 것으로 널리 받아들여지고 있습니다. 이러한 문제를 극복하기 위해 본 논문에서는 대규모 언어 모델(LLM)을 사용한 인과 추론 방법과 지식 기반 인과 추론(KBCI)을 LLM을 위한 '통계적 인과 프롬프트(SCP)'와 SCD를 위한 사전 지식 보강을 통해 합성하는 새로운 인과 추론 방법론을 제안합니다. 실험 결과, GPT-4는 LLM-KBCI의 출력과 LLM-KBCI의 사전 지식이 적용된 SCD 결과가 지상 진실에 가까워질 수 있으며, GPT-4가 SCP를 거치면 SCD 결과가 더욱 향상될 수 있다는 사실이 밝혀졌습니다. 또한, LLM이 데이터 세트에 대한 정보를 포함하지 않더라도 LLM의 배경 지식으로 SCD를 개선할 수 있다는 사실도 밝혀졌습니다. 따라서 제안된 접근 방식은 데이터 세트 편향 및 한계와 같은 문제를 해결할 수 있으며, 다양한 과학 영역에서 데이터 기반 인과 추론을 개선할 수 있는 LLM의 잠재력을 보여줍니다. [abs|pdf]

[24/99] Guidance Graph Optimization for Lifelong Multi-Agent Path Finding

Keywords: optimized_guidance_graphs, guidance_graphs_large, guidance_graph_optimization
Abstract: 유니티는 가이드를 사용하여 평생 다중 에이전트 경로 탐색(MAPF)의 처리량을 개선하는 방법을 연구합니다. 이전 연구에 따르면 고속도로와 같은 안내를 통합하면 MAPF 알고리즘을 가속화할 수 있지만, 이로 인해 솔루션 품질과 상충되는 경우가 많습니다. 또한, 좋은 안내를 자동으로 생성하는 방법은 거의 연구되지 않은 상태로 남아 있으며, 현재의 방법은 수동으로 설계된 방법을 능가하지 못합니다. 이 연구에서는 평생 MAPF를 위한 안내의 다양한 표현으로 안내 그래프를 소개하고, 에지 가중치를 최적화하는 작업으로 안내 그래프 최적화(GGO)의 틀을 잡습니다. 임의의 평생 MAPF 알고리즘과 지도에 대한 안내를 자동으로 생성하기 위해 두 가지 GGO 알고리즘을 제시합니다. 첫 번째 방법은 블랙박스 최적화 알고리즘인 CMA-ES를 사용하여 GGO를 직접 해결합니다. 두 번째 방법인 PIU는 안내를 생성할 수 있는 업데이트 모델을 최적화하여 최적화된 안내 그래프를 유사한 레이아웃을 가진 더 큰 맵으로 전송할 수 있음을 보여줍니다. 경험적으로, (1) 4개의 벤치마크 맵에서 세 가지 대표적인 평생 MAPF 알고리즘의 처리량을 개선하고, (2) 업데이트 모델이 최대 $93 \times 91$ 크기의 맵과 최대 3000명의 에이전트에 대한 안내 그래프를 생성할 수 있음을 보여줍니다. [abs|pdf]

[25/99] Mission Critical -- Satellite Data is a Distinct Modality in Machine Learning

Keywords: machine_learning_satellite, learning_satellite_data, argues_satellite_data
Abstract: 위성 데이터는 머신러닝에 지각변동을 일으킬 수 있는 잠재력을 가지고 있으며, 기존 데이터 양식에 맞게 설계된 기존 관행을 다시 생각하게 합니다. 위성 데이터를 위한 머신러닝(SatML)이 실제 세계에 미치는 영향이 주목받으면서 이 분야는 기로에 서 있습니다. 부적합한 접근법을 계속 적용하거나, 위성 데이터의 고유한 특성과 과제를 중심으로 새로운 연구 의제를 시작할 수 있습니다. 이 포지션 페이퍼는 위성 데이터가 머신러닝 연구를 위한 고유한 양식을 구성하며, 이론, 방법, 배포 전반에 걸쳐 SatML 연구의 품질과 영향력을 발전시키기 위해서는 위성 데이터를 그렇게 인식해야 한다고 주장합니다. 이 백서에서는 SatML을 단순히 흥미로운 애플리케이션 영역에서 머신러닝과 사회의 큰 과제를 해결하는 데 도움이 되는 전문 연구 분야로 전환하기 위한 중요한 논의 질문과 실행 가능한 제안을 간략하게 설명합니다. [abs|pdf]

[26/99] Few-Shot Learning on Graphs: from Meta-learning to Pre-training and Prompting

Keywords: graph_representation_learning, learning_graphs_task, shot_learning_graphs
Abstract: 그래프 중심 작업에서 중요한 단계인 그래프 표현 학습은 상당한 발전을 이루었습니다. 이전의 기술은 종종 충분한 레이블이 지정된 데이터의 가용성에 따라 성능이 크게 좌우되는 엔드투엔드 환경에서 작동했습니다. 이러한 제약으로 인해 각 작업에 대해 몇 개의 작업별 레이블만 사용할 수 있는 그래프에 대한 소수 샷 학습이 등장하게 되었습니다. 이 분야의 방대한 문헌을 바탕으로 본 조사에서는 최근의 발전 상황을 종합하고, 비교 인사이트를 제공하며, 향후 방향을 파악하고자 합니다. 기존 연구를 메타러닝 접근법, 사전 훈련 접근법, 하이브리드 접근법의 세 가지 주요 유형으로 체계적으로 분류하고, 각 유형별로 세분화하여 독자의 방법 선택 과정에 도움을 주고자 했습니다. 각 카테고리 내에서 이러한 방법 간의 관계를 분석하고 각 방법의 강점과 한계를 비교합니다. 마지막으로, 이 분야의 지속적인 혁신을 촉진하기 위해 그래프를 통해 소량 학습의 향후 방향에 대해 간략하게 설명합니다. [abs|pdf]

[27/99] From Words to Molecules: A Survey of Large Language Models in Chemistry

Keywords: categorize_chemical, integration_chemical_knowledge, categorize_chemical_llms
Abstract: 최근 몇 년 동안 대규모 언어 모델(LLM)은 자연어 처리(NLP)와 다양한 학제 간 영역에서 상당한 성공을 거두었습니다. 그러나 화학에 LLM을 적용하는 것은 전문적인 도메인 지식이 필요한 복잡한 작업입니다. 이 백서에서는 LLM을 화학 분야에 통합하는 데 사용되는 미묘한 방법론을 철저히 탐구하여 이 학제 간 접점에서의 복잡성과 혁신에 대해 자세히 살펴봅니다. 구체적으로 분석은 다양한 표현 및 토큰화 방법을 통해 분자 정보가 LLM에 어떻게 공급되는지 살펴보는 것으로 시작됩니다. 그런 다음 입력 데이터의 영역과 양식에 따라 화학적 LLM을 세 가지 그룹으로 분류하고, LLM에 대한 이러한 입력을 통합하는 접근 방식에 대해 논의합니다. 또한, 이 백서에서는 화학적 LLM에 대한 적응과 함께 사전 학습 목표에 대해 살펴봅니다. 그 후, 화학 작업에 적용하기 위한 새로운 패러다임을 포함하여 화학에서 LLM의 다양한 응용 분야를 살펴봅니다. 마지막으로 화학 지식과의 통합, 지속적 학습의 발전, 모델 해석 가능성 개선 등 유망한 연구 방향을 파악하여 이 분야의 획기적인 발전을 위한 토대를 마련합니다. [abs|pdf]

[28/99] Sequence Shortening for Context-Aware Machine Translation

Keywords: aware_machine_translation, machine_translation, improve_translations_sentences
Abstract: 문맥 인식 기계 번역은 주변 문장을 문맥으로 통합하여 문장의 번역을 개선하는 것을 목표로 합니다. 이를 위해 단일 인코더(연결 기반)와 다중 인코더 모델이라는 두 가지 주요 아키텍처가 적용되어 왔습니다. 이 연구에서는 소스 문장의 잠재적 표현이 캐시되어 다음 단계에서 컨텍스트로 재사용되는 다중 인코더 아키텍처의 특수한 경우, 대조 데이터 세트(모델이 제공된 문장 중 올바른 번역의 순위를 매겨야 하는 경우)에서 단일 및 다중 인코더 접근 방식에 비해 더 높은 정확도와 비슷한 BLEU 및 COMET 점수를 얻을 수 있음을 보여줍니다. 또한 캐시된 표현에 시퀀스 단축을 적용하는 방법을 조사합니다. 세 가지 풀링 기반 단축 기법을 테스트하고 네트워크가 토큰을 그룹화하는 방법을 학습하거나 컨텍스트로 캐시할 토큰을 선택하는 두 가지 새로운 방법, 즉 잠재적 그룹화와 잠재적 선택 방법을 소개합니다. 실험 결과, 이 두 가지 방법은 다른 테스트 방법과 대조적인 데이터 세트에서 경쟁력 있는 BLEU 및 COMET 점수와 정확도를 달성하는 동시에 잠재적으로 해석 가능성을 높이고 컨텍스트 크기가 증가함에 따라 메모리 요구 사항의 증가를 줄일 수 있음을 보여줍니다. [abs|pdf]

[29/99] SMLP: Symbolic Machine Learning Prover

Keywords: machine_learning_prover, symbolic_machine_learning, learning_prover_smlp
Abstract: 심볼릭 머신러닝 증명자(SMLP)는 여러 입력 벡터에서 시스템을 시뮬레이션하거나 실행하여 얻은 데이터 샘플을 기반으로 시스템을 탐색하기 위한 도구이자 라이브러리입니다. SMLP는 그레이박스 접근 방식을 통해 이 데이터를 기반으로 시스템을 탐색하는 것을 목표로 합니다: 통계적 데이터 탐색 방법과 시스템 응답과의 긴밀한 피드백 루프에서 머신러닝 모델을 구축 및 탐색하고, 확률론적 방법과 공식적 방법을 결합하여 이러한 모델을 탐색하는 방법을 결합한 것입니다. SMLP는 아날로그 수준에서 하드웨어 설계를 분석하고 최적화하기 위해 인텔에서 산업 환경에 적용되었습니다. SMLP는 범용 도구이며 머신러닝 모델로 샘플링 및 모델링할 수 있는 시스템에 적용할 수 있습니다. [abs|pdf]

[30/99] XAI for Skin Cancer Detection with Prototypes and Non-Expert Supervision

Keywords: melanoma_using_interpretable, skin_cancer_detection, cancer_detection_dermoscopy
Abstract: 더모스코피 영상 분석을 통한 피부암 발견은 매우 중요한 작업입니다. 그러나 이를 위해 사용되는 기존 모델들은 블랙박스의 특성상 해석 가능성과 신뢰성이 부족하여 의사들의 우려를 낳고 있습니다. 이 논문에서는 해석 가능한 원형 부분 모델을 사용하여 흑색종 진단을 위한 새로운 접근 방식을 제안합니다. 우리는 다음을 통합하여 비전문가 피드백에 기반한 가이드 감독을 도입합니다: 1) 세분화 네트워크를 사용하여 자동으로 얻은 바이너리 마스크, 2) 사용자가 수정한 프로토타입. 이 두 가지 정보 경로는 학습된 프로토타입이 피부 병변의 경계를 벗어난 혼동 요인을 배제하고 병변 내 관련 영역과 일치하도록 하는 것을 목표로 합니다. 실험 결과에 따르면 이 접근 방식은 전문가의 감독 없이도 해석할 수 없는 모델에 비해 우수한 성능과 일반화를 달성할 수 있습니다. [abs|pdf]

[31/99] Climbing the Ladder of Interpretability with Counterfactual Concept Bottleneck Models

Keywords: explanations_task_predictions, counterfactual_concept_bottleneck, predictions_interpretable_counterfactuals
Abstract: 현재의 딥러닝 모델은 주어진 분류 작업을 해결하기 위해 클래스 레이블을 예측하고("What?"), 작업 예측을 설명하고("Why?"), 다른 예측 결과를 가져올 수 있는 대체 시나리오를 상상하는("What if?") 세 가지 근본적인 질문을 동시에 해결하도록 설계되어 있지 않습니다. 이러한 질문에 답할 수 없다는 것은 신뢰할 수 있는 AI 에이전트를 배포하고, 인간의 신뢰를 보정하고, 인간과 기계의 상호 작용을 심화시키는 데 있어 중요한 격차를 나타냅니다. 이러한 격차를 해소하기 위해 유니티는 사후 검색을 실행할 필요 없이 위의 쿼리를 한 번에 효율적으로 처리하도록 설계된 모델 클래스인 카운터팩츄얼 개념 병목 모델(CF-CBM)을 도입했습니다. 연구 결과에 따르면 CF-CBM은 정확한 예측("What?"), 작업 예측에 대한 간단한 설명("Why?"), 해석 가능한 반대 사실("What if?")을 생성하는 것으로 나타났습니다. CF-CBM은 또한 다음에 대해 가장 가능성이 높은 반대 사실을 샘플링하거나 추정할 수 있습니다: (i) 개념 개입이 과제에 미치는 영향을 설명하고, (ii) 사용자에게 원하는 클래스 레이블을 얻는 방법을 보여주며, (iii) '과제 중심' 개입을 통해 개념 개입을 제안할 수 있습니다. [abs|pdf]

[32/99] Zero-Shot Machine Unlearning at Scale via Lipschitz Regularization

Keywords: results_forgetting_preserving, forgetting_preserving, forgetting_necessary_data
Abstract: AI 및 데이터 규정을 준수하기 위해 학습된 머신러닝 모델에서 개인 정보 또는 저작권이 있는 정보를 삭제해야 하는 필요성이 점점 더 중요해지고 있습니다. 언러닝의 핵심 과제는 모델 성능을 유지하면서 필요한 데이터를 적시에 잊어버리는 것입니다. 이 연구에서는 학습된 모델과 잊혀질 데이터만 주어졌을 때 언러닝 알고리즘이 데이터를 제거할 수 있어야 하는 제로샷 언러닝 시나리오를 다룹니다. 이러한 정의에 따르면 기존의 최첨단 방법으로는 불충분합니다. 본 논문에서는 립시츠 연속성의 개념을 바탕으로 잊혀진 샘플의 출력에 대해 해당 샘플의 섭동에 대해 평활화를 유도하는 방법을 제시합니다. 이러한 평활화가 일반적인 모델 성능을 유지하면서 망각을 성공적으로 유도한다는 것을 보여줍니다. 다양한 최신 벤치마크에 대한 광범위한 경험적 평가를 수행하여 제로 샷 언러닝의 엄격한 제약 조건 하에서 우리의 방법이 최첨단 성능을 달성한다는 것을 확인합니다. [abs|pdf]

[33/99] A Probabilistic Model to explain Self-Supervised Representation Learning

Keywords: discriminative_self_supervised, self_supervised_learning, learns_representations_leveraging
Abstract: 자기 지도 학습(SSL)은 의미적으로 관련된 샘플(예: 다양한 데이터 증강 또는 양식)을 분류하는 것과 같은 보조적인 비지도 작업을 활용하여 표현을 학습합니다. SSL에 대한 여러 접근 방식 중 SimCLR, CLIP, VicREG와 같은 대조적 방법은 지도 학습에 가까운 다운스트림 성능을 달성하는 학습 표현으로 주목을 받고 있습니다. 하지만 이러한 방법의 메커니즘에 대한 이론적 이해는 부족합니다. 우리는 데이터에 대한 생성적 잠재 변수 모델을 제안하고 대조적 방법을 포함한 여러 차별적 자기 지도 알고리즘 제품군이 대략적으로 표현에 대한 잠재 구조를 유도하여 통합된 이론적 프레임워크를 제공한다는 것을 보여줍니다. 또한 상호 정보에 대한 링크와 투영 헤드의 사용을 정당화합니다. SimVE와 같이 모델을 생성적으로 피팅하면 일반적인 벤치마크(예: FashionMNIST, CIFAR10, CelebA)에서 이전 VAE 방법보다 성능이 향상되고, 내용 분류에서 판별 방법과의 격차가 좁혀지며, 분석 결과 스타일 정보가 필요한 경우 그보다 성능이 뛰어나 작업과 무관한 표현을 향해 한 걸음 더 나아갈 수 있게 됩니다. [abs|pdf]

[34/99] LoTR: Low Tensor Rank Weight Adaptation

Keywords: language_models_llms, low_rank_tensor, large_language_models
Abstract: 이 백서에서는 트랜스포머 아키텍처에 기반한 대규모 언어 모델(LLM)의 저순위 적응(LoRA)에 대한 아이디어를 일반화하고 확장합니다. LLM을 미세 조정하는 데 널리 사용되는 LoRA와 유사한 방법은 그라데이션 업데이트의 행렬 인수분해에 기반합니다. 여기서는 텐서 분해의 형태로 매개변수에 대한 그라데이션 업데이트를 나타내는 새로운 접근 방식인 LoTR을 소개합니다. 각 레이어의 저순위 어댑터는 세 개의 행렬의 곱으로 구성되며, 텐서 구조는 이 곱의 왼쪽과 오른쪽 승수를 레이어 간에 공유함으로써 발생합니다. 저랭크 텐서 표현으로 일련의 레이어를 동시에 압축하면 특히 딥 모델의 경우 LoTR이 LoRA보다 훨씬 더 우수한 파라미터 효율성을 아카이브할 수 있습니다. 또한 코어 텐서는 원래의 가중치 차원에 의존하지 않고 임의로 작게 만들 수 있으므로 매우 저렴하고 빠르게 다운스트림 미세 조정을 할 수 있습니다. [abs|pdf]

[35/99] FindingEmo: An Image Dataset for Emotion Recognition in the Wild

Keywords: emotion_label_annotations, emotion_recognition, annotations_25k_images
Abstract: 감정 인식에 특화된 25,000개의 이미지에 대한 주석을 포함하는 새로운 이미지 데이터 세트인 FindingEmo를 소개합니다. 기존 데이터 세트와 달리, 이 데이터 세트는 다양한 자연적, 사회적 환경에서 여러 사람을 묘사하는 복잡한 장면에 초점을 맞추고 이미지 전체에 주석을 달아 기존의 얼굴이나 한 개인에 대한 초점을 넘어서는 것입니다. 주석이 달린 차원에는 원자가, 각성 및 감정 레이블이 포함되며, Prolific을 사용하여 주석을 수집합니다. 주석과 함께 원본 이미지를 가리키는 URL 목록과 모든 관련 소스 코드도 함께 공개합니다. [abs|pdf]

[36/99] Efficient compilation of expressive problem space specifications to neural network solvers

Keywords: neural_network_solvers, neural_network_verification, network_solvers
Abstract: 최근 연구에서는 신경망 검증에 임베딩 갭이 존재한다고 설명했습니다. 이 간극의 한쪽에는 해석 가능한 문제 공간의 관점에서 도메인 전문가가 작성한 네트워크의 동작에 대한 높은 수준의 사양이 있습니다. 다른 한쪽에는 신경망 솔버에 적합한 형태로 해석 불가능한 임베딩 공간에서 표현된 논리적으로 동등한 만족도 쿼리 집합이 있습니다. 이 논문에서는 전자를 후자로 컴파일하는 알고리즘을 설명합니다. 우리는 표준 SMT 솔버가 아닌 신경망 솔버를 대상으로 할 때 발생하는 복잡성을 탐구하고 극복합니다. [abs|pdf]

[37/99] Describing Images $Fast and Slow$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes

Keywords: pretrained_vision_encoders, encoded_pretrained_vision, pretrained_vision
Abstract: 이미지의 속성과 이미지를 설명하는 사람의 행동 사이에는 복잡한 관계가 있습니다. 이러한 행동은 눈동자 움직임과 같은 인간의 신호와 인간이 이미지를 설명하기 시작할 때 나타나는 다양한 변형을 보여줍니다. 이러한 시각 언어적 변화 신호의 가치에도 불구하고 현재 사전 학습된 모델의 훈련에서는 이러한 신호가 사실상 무시되고 있어 추가 연구가 필요합니다. 동시에 수집된 시선추적 데이터와 네덜란드어 이미지 설명 말뭉치를 사용하여 시각 언어적 신호의 변화의 본질을 탐구하고 서로 상관관계가 있음을 발견했습니다. 이 결과를 바탕으로 우리는 변화가 부분적으로 이미지의 속성에서 비롯된다는 가설을 세우고, 사전 학습된 비전 인코더로 인코딩된 이미지 표현이 이러한 변화를 포착할 수 있는지 살펴봅니다. 연구 결과에 따르면 사전 학습된 모델은 약하거나 중간 정도의 수준으로 이러한 변화를 포착하는 것으로 나타났는데, 이는 모델이 인간에게 자극을 복잡하게 만드는 요소와 인간의 출력에 변화를 일으키는 요소에 대한 편견이 부족하다는 것을 시사합니다. [abs|pdf]

[38/99] Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models

Keywords: question_answering, performance_natural_language, semantics_questions_performance
Abstract: 자연어 처리(NLP) 분야에서 대규모 언어 모델(LLM)은 자연어 생성 작업의 성능을 현저히 향상시키며 패러다임의 변화를 촉발시켰습니다. 이러한 발전에도 불구하고 LLM에 대한 종합적인 평가는 커뮤니티에서 피할 수 없는 과제로 남아 있습니다. 최근 자연어 생성 머신러닝의 벤치마크로 객관식 질의응답(MCQA)을 활용하는 것이 상당한 주목을 받고 있습니다. 이 연구는 LLM의 평가 방법으로서 MCQA의 합리성을 조사합니다. LLM이 질문의 의미를 진정으로 이해한다면, 동일한 질문에서 파생된 다양한 구성에 걸쳐 일관된 성능을 보여야 합니다. 이러한 기대와는 달리, 우리의 경험적 연구 결과는 LLM 응답의 일관성에 현저한 차이가 있음을 시사하며, 이를 LLM의 REVAS(REsponse VAriability Syndrome)로 정의합니다. 이는 현재의 MCQA 기반 벤치마크가 LLM의 진정한 역량을 적절히 포착하지 못할 수 있음을 나타내며, 이는 LLM의 성능을 평가할 때 보다 강력한 평가 메커니즘이 필요하다는 것을 강조합니다. [abs|pdf]

[39/99] CORE: Mitigating Catastrophic Forgetting in Continual Learning through Cognitive Replay

Keywords: forgetting_continuous_learning, mitigate_catastrophic_forgetting, cognitive_replay_core
Abstract: 이 논문에서는 기존 지식을 보존하고 새로운 정보를 흡수하는 모델의 능력을 강조하는 지속적 학습(CL)에서 치명적인 망각을 크게 완화할 수 있는 새로운 관점을 소개합니다. 현재의 리플레이 기반 방법은 모든 작업과 데이터 샘플을 동일하게 취급하므로 리플레이 버퍼의 잠재력을 충분히 활용하지 못합니다. 이에 대응하기 위해 유니티는 인간의 인지적 검토 프로세스에서 영감을 얻은 코그니티브 리플레이(CORE)를 제안합니다. CORE에는 두 가지 핵심 전략이 포함되어 있습니다: 적응형 수량 할당과 품질 중심의 데이터 선택입니다. 전자는 망각률에 따라 각 작업에 대한 리플레이 버퍼 할당을 적응형으로 조정하고, 후자는 버퍼 내에 각 작업의 특성을 가장 잘 나타내는 대표 데이터를 포함하도록 보장합니다. 이러한 접근 방식은 분할-CIFAR10에서 평균 37.95%의 정확도를 달성하여 최상의 기준 방법을 6.52% 능가합니다. 또한, 가장 성능이 좋지 않은 작업의 정확도를 최고 기준선 대비 6.30%까지 크게 향상시킵니다. [abs|pdf]

[40/99] Skip \N: A simple method to reduce hallucination in Large Vision-Language Models

Keywords: hallucinatory_descriptions_increasing, hallucinatory_descriptions_subsequent, semantic_shift_bias
Abstract: 최근 대규모 시각-언어 모델(LVLM)의 발전은 인간의 언어로 시각 정보를 이해하는 데 있어 인상적인 능력을 보여주었습니다. 이러한 발전에도 불구하고 LVLM은 시각 정보에 존재하지 않는 물체에 대한 텍스트 설명을 생성하는 등 복합 환각과 관련된 문제에 여전히 직면해 있습니다. 그러나 복합 환각의 근본적인 원인은 아직 제대로 밝혀지지 않았습니다. 이 논문에서는 LVLM에 내재된 편향이 환각의 핵심 요인일 수 있다는 새로운 관점을 제안합니다. 구체적으로, 우리는 훈련 데이터에서 '\n' 앞뒤의 내용이 자주 의미적으로 크게 변화하는 단락 나누기('\n')와 관련된 의미 변화 편향을 체계적으로 식별합니다. 이 패턴을 통해 모델은 '\n' 뒤의 콘텐츠가 환각적 설명이 적은 앞의 콘텐츠와 분명히 다를 것이라고 추론하여 '\n' 뒤에 환각적 설명이 나올 확률을 높입니다. 이 가설은 공개적으로 이용 가능한 여러 LVLM에서 검증되었습니다. 또한, 생성된 설명에 의도적으로 '\n'을 삽입하면 더 많은 환각을 유발할 수 있다는 사실도 확인했습니다. 텍스트백슬래시 n'의 출력을 건너뛰는 간단한 방법으로 LVLM의 환각을 효과적으로 완화할 수 있는 방법을 제안합니다. [abs|pdf]

[41/99] Simulator-Free Visual Domain Randomization via Video Games

Keywords: games_domain_randomization, fps_games_trained, unseen_fps_games
Abstract: 도메인 무작위화는 유사한 콘텐츠를 보여주는 시각적으로 구분된 도메인 간에 비전 모델의 이전 가능성을 개선하는 데 효과적인 컴퓨터 비전 기법입니다. 그러나 기존의 접근 방식은 복잡하고 전문화된 시뮬레이션 엔진을 조정하는 데 광범위하게 의존하기 때문에 구축이 어렵고 결과적으로 실현 가능성 및 확장성에 영향을 미칩니다. 이 백서에서는 시뮬레이션 엔진에 액세스하지 않고도 도메인 무작위화를 위해 기존의 수많은 상용 비디오 게임을 고유하게 활용하는 비디오 이해 프레임워크인 BehAVE를 소개합니다. BehAVE에서는 (1) 비디오 게임 고유의 풍부한 시각적 다양성이 무작위화의 원천이 되고, (2) 행동에 대한 텍스트 설명을 통해 의미론적으로 표현되는 플레이어 행동이 유사한 콘텐츠를 가진 비디오의 배열을 안내합니다. 다양한 비디오 및 텍스트 기반 모델에서 1인칭 슈팅 게임(FPS) 장르의 25개 게임에 대해 BehAVE를 테스트한 결과, 도메인 무작위화에 대한 강력한 성능을 확인할 수 있었습니다. BehAVE는 플레이어의 행동 패턴을 성공적으로 정렬하고, 하나의 FPS 게임으로 훈련했을 때 보이지 않는 여러 FPS 게임으로 제로 샷을 전송할 수 있습니다. 좀 더 까다로운 환경에서 BehAVE는 다른 장르의 게임(Minecraft)으로 훈련한 경우에도 기초 모델의 미지의 FPS 게임에 대한 제로 샷 전이율을 최대 22%까지 향상시킬 수 있습니다. 코드와 데이터 세트는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[42/99] Supervised Algorithmic Fairness in Distribution Shifts: A Survey

Keywords: supervised_fairness_aware, supervised_fairness, fairness_aware_machine
Abstract: 분포 변화에 따른 지도형 공정성 인식 머신러닝은 데이터 분포가 소스 도메인에서 대상 도메인으로 변경될 때 공평하고 편향되지 않은 예측을 유지해야 하는 문제를 해결하는 새로운 분야입니다. 실제 애플리케이션에서 머신러닝 모델은 특정 데이터 세트에 대해 학습되지만 시간이 지남에 따라 다양한 요인으로 인해 데이터 분포가 바뀔 수 있는 환경에 배포되는 경우가 많습니다. 이러한 변화는 불공정한 예측으로 이어질 수 있으며, 인종이나 성별과 같이 민감한 속성을 가진 특정 그룹에 불균형적으로 영향을 미칠 수 있습니다. 이 설문조사에서는 다양한 유형의 분포 변화에 대한 요약을 제공하고, 이러한 변화에 기반한 기존 방법을 종합적으로 조사하여 문헌에서 일반적으로 사용되는 6가지 접근법을 강조합니다. 또한, 이 설문조사에서는 실증 연구를 위해 공개적으로 사용 가능한 데이터 세트와 평가 지표를 나열합니다. 또한 관련 연구 분야와의 상호 연관성을 살펴보고, 주요 과제를 논의하며, 향후 연구의 잠재적 방향을 파악합니다. [abs|pdf]

[43/99] KTO: Model Alignment as Prospect Theoretic Optimization

Keywords: kahneman_tversky_optimization, prospect_theory, model_human_utility
Abstract: 카네만과 트베르스키의 전망이론에 따르면 인간은 편향적이지만 잘 정의된 방식으로 무작위 변수를 인식하는데, 예를 들어 인간은 손실 회피적인 것으로 잘 알려져 있습니다. 우리는 LLM을 인간의 피드백에 맞추기 위한 목표가 이러한 편향성을 암묵적으로 많이 포함하고 있으며, 교차 엔트로피 최소화에 대한 이러한 목표(예: DPO)의 성공은 부분적으로 이러한 목표가 인간 인식 손실 함수(HALO)에 기인할 수 있음을 보여줍니다. 그러나 이 방법들이 인간에게 귀속시키는 효용 함수는 전망 이론 문헌에 나오는 것과는 여전히 다릅니다. 저희는 인간 효용에 대한 카네만-트베르스키 모델을 사용하여 현재의 방법처럼 선호도의 로그 가능성을 최대화하는 대신 세대의 효용을 직접적으로 최대화하는 HALO를 제안합니다. 이 접근 방식을 카네만-베르스키 최적화(KTO)라고 부르며, 10억에서 300억 규모에서 선호도 기반 방법의 성능과 일치하거나 이를 능가합니다. 결정적으로, KTO는 선호도가 필요하지 않으며, 주어진 입력에 대해 출력이 바람직한지 바람직하지 않은지에 대한 이진 신호만 있으면 됩니다. 따라서 선호도 데이터가 부족하고 비용이 많이 드는 현실 세계에서 훨씬 쉽게 사용할 수 있습니다. [abs|pdf]

[44/99] Learning Semantic Information from Raw Audio Signal Using Both Contextual and Phonetic Representations

Keywords: semantics_raw_audio, speech_command_dataset, resource_speech_benchmark
Abstract: 우리는 문맥 정보와 음성 정보를 각각 인코딩하는 두 가지 유형의 표현을 사용하여 원시 오디오 신호에서 의미를 학습하는 프레임워크를 제안합니다. 특히 시간 해상도가 다른 두 가지 유형의 표현을 캡처하는 음성-단위 처리 파이프라인을 소개합니다. 언어 모델의 경우, 두 가지 유형의 표현을 모두 통합하기 위해 듀얼 채널 아키텍처를 채택합니다. 또한 모델이 의미를 효과적으로 학습하도록 하는 새로운 학습 목표인 마스크된 문맥 재구성 및 마스크된 문맥 예측을 제시합니다. 제로 리소스 음성 벤치마크 2021 및 유창한 음성 명령 데이터 세트의 sSIMI 메트릭에 대한 실험에 따르면 프레임워크는 한 가지 유형의 표현으로만 훈련된 모델보다 의미를 더 잘 학습하는 것으로 나타났습니다. [abs|pdf]

[45/99] ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast

Keywords: extreme_weather_prediction, predicting_extreme_weather, extreme_weather_forecast
Abstract: 머신러닝(ML)에 기반한 데이터 기반 일기 예보는 빠르게 발전하여 전 세계 중기 예보에서 기존의 물리학 기반 동적 모델에 비해 우수한 성능을 입증했습니다. 하지만 대부분의 ML 모델은 극한값 예측과 밀접한 관련이 있는 극한 날씨를 정확하게 예측하는 데 어려움을 겪고 있습니다. 수학적 분석을 통해 평균제곱오차(MSE)와 같은 대칭적 손실을 사용하면 편향된 예측과 극한값의 과소평가로 이어진다는 사실을 증명했습니다. 이 문제를 해결하기 위해 비대칭 최적화를 수행하고 극한값을 강조하여 정확한 극한 기상 예보를 얻을 수 있는 새로운 손실 함수인 Exloss를 소개합니다. 또한, 픽셀 값의 분산을 증가시키고 예보의 견고성을 향상시키는 훈련이 필요 없는 극값 향상 전략인 ExEnsemble을 도입합니다. 고급 글로벌 일기 예보 모델과 결합하여 광범위한 실험을 통해 당사의 솔루션이 최고의 중기 예보 모델에 필적하는 전반적인 예보 정확도를 유지하면서 극한 날씨 예측에서 최첨단 성능을 달성할 수 있음을 보여주었습니다. [abs|pdf]

[46/99] The Human and the Mechanical: logos, truthfulness, and ChatGPT

Keywords: beliefs_mechanical_minds, veridicality_judgments, veridicality_judgments_formed
Abstract: 이 논문은 '기계적인 마음'에 대해 이야기하는 것이 과연 적절한지, 그리고 ChatGPT 모델이 실제로 그것을 실현한 것으로 생각할 수 있는지에 대한 의문을 제기합니다. 우리 논문은 현재의 논쟁에 의미론적 논증을 추가합니다. 인간의 주장 행위는 진실성 판단의 형성을 필요로 합니다. 조동사를 사용한 주장 수정(존은 집에 있어야 한다)과 주관적 요소의 사용(존은 분명히 집에 있다)은 화자가 자신의 판단을 조작하고 있으며, 협력적인 맥락에서 자신의 인식 상태를 수신자에게 투명하게 알리려는 의도를 가지고 있음을 나타냅니다. 진실성 판단은 두 가지 요소를 기반으로 형성됩니다: (i) 현실과 관련된 증거(외생적 증거)와 (ii) 선호도 및 개인적 신념과 같은 내생적 증거. '기계적인 마음'에는 이 두 가지 요소가 부족합니다: (i) 현실과 관련이 없고 (ii) 내생적 증거가 없습니다. 따라서 세상에 대한 믿음과 진실성 판단을 형성하는 능력이 전혀 없습니다. 그들은 판단을 모방할 수 있을 뿐, 그 결과물은 판단의 토대가 되는 근거에 근거하지 않습니다. [abs|pdf]

[47/99] TEDDY: Trimming Edges with Degree-based Discrimination strategY

Keywords: graph_neural, graph_neural_networks, networks_gnns
Abstract: 그래프 신경망(GNN)에 대한 복권 가설에 대한 선구적인 연구가 Chen 등(2021)에서 제안된 이후, 그래프 복권(GLT)을 찾는 연구는 GNN 커뮤니티의 중추적인 관심사 중 하나가 되었으며, 연구자들은 기존의 고밀도 네트워크와 비슷한 성능을 달성하면서 더 희박한 GLT를 발견하도록 영감을 불어넣었습니다. 이와 동시에 그래프 구조는 최근의 여러 연구를 통해 밝혀진 바에 따르면 GNN 훈련 역학에서 중요한 요소로 상당한 주목을 받고 있습니다. 그럼에도 불구하고 일반적으로 GLT에 대한 최근의 연구는 그래프 구조에 내재된 경로를 충분히 활용하지 못하고 반복적인 방식으로 티켓을 식별하여 시간이 많이 걸리고 비효율적입니다. 이러한 한계를 해결하기 위해 에지-도 정보를 통합하여 구조적 정보를 활용하는 원샷 에지 스파스화 프레임워크인 TEDDY를 도입했습니다. 가장자리 희소화 후에는 $\ell_0$ 공에 간단한 경사 하강을 투영하여 훈련 중에 매개변수 희소도를 높이도록 유도합니다. 그래프 구조와 모델 매개변수 모두에 대한 목표 희소성 수준을 고려할 때, TEDDY는 단일 훈련 내에서 효율적이고 신속하게 GLT를 실현할 수 있습니다. 놀랍게도, 실험 결과는 노드 특징을 고려하지 않고 그래프 구조만을 활용하는 원샷 스파스화를 수행할 때에도 일반화에서 기존의 반복적 접근 방식을 크게 능가한다는 것을 보여줍니다. [abs|pdf]

[48/99] Position Aware 60 GHz mmWave Beamforming for V2V Communications Utilizing Deep Learning

Keywords: loss_millimeter_wave, beamforming_mmwave, mmwave_communications
Abstract: 빔포밍 기술은 대형 안테나 어레이를 채택하고 좁은 빔을 구성하여 만족스러운 수신 전력을 얻기 위해 밀리미터파(mmWave) 통신의 심각한 경로 손실을 보정하는 데 필수적인 요소로 간주됩니다. 그러나 주로 채널 상태 정보에 의존하는 기존의 빔 선택 접근 방식으로 효율적인 링크 구성을 위해 좁은 빔에서 정확한 빔 정렬을 수행하려면 일반적으로 상당한 지연 시간과 컴퓨팅 오버헤드가 발생하며, 이는 매우 동적인 시나리오와 같은 차량 간(V2V) 통신에서는 종종 실현 불가능합니다. 반면, 차량 위치 정보와 같은 대역 외 컨텍스트 정보를 활용하면 이러한 오버헤드를 줄일 수 있는 잠재적인 대안이 될 수 있습니다. 이러한 맥락에서 본 논문에서는 차량 위치 정보를 활용하여 충분한 밀리미터파 수신 파워를 가진 최적의 빔을 예측함으로써 최상의 V2V 가시거리 링크를 사전에 확보할 수 있는 딥러닝 기반 솔루션을 제시합니다. 실제 측정된 밀리미터파 감지 및 통신 데이터 세트에 대해 제안된 솔루션을 실험적으로 평가한 결과, 이 솔루션이 평균적으로 링크 상태의 수신 전력의 최대 84.58%를 달성할 수 있는 것으로 나타나 60GHz 지원 V2V 통신에서 밀리미터파 빔포밍을 위한 유망한 솔루션임을 확인할 수 있었습니다. [abs|pdf]

[49/99] Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D Diffusion?

Keywords: shape_generation_images, image_shape_generation, shape_generation
Abstract: 최근 딥 생성 모델의 발전, 특히 CLIP(대조 언어 이미지 사전 훈련)을 노이즈 제거 확산 확률 모델(DDPM)에 적용하면서 텍스트에서 이미지로 생성하는 데 있어 놀라운 효과가 입증되었습니다. CLIP의 잘 구조화된 임베딩 공간은 DDPM을 통해 이미지에서 도형 생성으로 확장되어 주목할 만한 성과를 거두었습니다. 이러한 성공에도 불구하고 몇 가지 근본적인 의문이 생깁니다: CLIP이 이미지에서 형상을 생성할 때 최상의 결과를 보장할 수 있을까요? 컨디셔닝을 활용하여 생성 프로세스에 명시적인 3D 지식을 도입하고 더 나은 품질을 얻을 수 있을까요? 이 연구에서는 2D 이미지에 기반한 3D 형상 합성을 향상시키기 위해 고안된 CISP(대비 이미지 형상 사전 훈련)를 소개합니다. CISP는 공유 임베딩 공간에서 2D 이미지를 3D 모양과 정렬하여 CLIP 프레임워크를 강화하는 것을 목표로 하며, 특히 CLIP의 텍스트 이미지 초점이 간과할 수 있는 3D 특성을 포착합니다. 크리테오의 종합적인 분석은 생성 품질, 다양성, 생성된 도형과 컨디셔닝 이미지의 일관성에 초점을 맞춰 CLIP 안내 모델에 대한 CISP의 안내 성능을 평가합니다. 그 결과, 생성 품질과 다양성에서 CLIP을 따라잡으면서도 입력 이미지와의 일관성을 크게 개선하여 3D 지식을 생성 모델에 통합하는 것의 가치를 강조하는 것으로 나타났습니다. 이러한 연구 결과는 멀티모달 시스템과 3D 표현을 통합하여 3D 시각 콘텐츠 합성을 발전시킬 수 있는 유망한 방향을 제시합니다. [abs|pdf]

[50/99] Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser Web Tracker Classification in an Imbalanced Setting

Keywords: detecting_web_trackers, classifiers_web_tracker, web_tracker_detection
Abstract: 월드와이드웹의 연결성은 HTTP 프로토콜에 크게 기인하며, HTTP 메시지는 웹 보안 및 개인정보 보호, 특히 웹 추적과 관련된 분야에 유용한 정보를 제공하는 헤더 필드를 제공합니다. 웹 트래커를 식별하기 위해 HTTP/S 요청 메시지를 사용하는 기존 연구에도 불구하고, HTTP/S 응답 헤더는 종종 간과되고 있습니다. 이 연구는 HTTP/S 응답 헤더를 사용하여 웹 트래커 탐지를 위한 효과적인 머신 러닝 분류기를 설계하기 위해 노력합니다. 트래픽 모니터링 브라우저 확장 프로그램인 T.EX를 통해 얻은 Chrome, Firefox, Brave 브라우저의 데이터가 데이터 세트의 역할을 합니다. 11개의 감독 모델을 Chrome 데이터에 대해 학습시키고 모든 브라우저에서 테스트했습니다. 그 결과, 크롬과 파이어폭스의 경우 높은 정확도, F1 점수, 정밀도, 재검색률, 최소 로그 손실 오류를 보였지만, 브레이브의 경우 데이터 분포와 기능 세트가 다르기 때문에 성능이 기대 이하로 떨어졌습니다. 이 연구는 이러한 분류기가 Chrome과 Firefox에서 웹 트래커를 탐지하는 데 유용하다는 것을 시사합니다. 그러나 실제 애플리케이션 테스트는 아직 진행 중이며, 향후 연구에서 트래커 유형과 더 광범위한 라벨 소스를 구분하는 방법을 연구할 수 있습니다. [abs|pdf]

[51/99] PRIME: Protect Your Videos From Malicious Editing

Keywords: protecting_photos_generative, protecting_videos_images, protecting_videos
Abstract: 생성 모델의 발전으로 생성된 콘텐츠의 품질이 계속 향상되고 있습니다. 최근에는 오픈 소스 모델을 통해 몇 가지 간단한 프롬프트만으로 사진과 동영상을 놀라울 정도로 쉽게 조작하고 편집할 수 있게 되었습니다. 이러한 최첨단 기술이 인기를 얻으면서 개인의 프라이버시 및 초상권에 대한 우려도 커지고 있습니다. 악의적인 사용자가 이러한 도구를 기만적이거나 불법적인 목적으로 악용할 수 있기 때문입니다. 기존에는 생성 모델로부터 사진을 보호하는 데 초점을 맞춘 연구도 있었지만, 효율성과 효과 측면에서 동영상과 이미지를 보호하는 데는 여전히 차이가 있습니다. 따라서 저희는 시간 비용을 대폭 절감하고 보호 성능을 향상시키는 보호 방법인 PRIME을 소개합니다. 또한, 제안한 보호 방법을 평가하기 위해 객관적인 지표와 사람의 주관적인 지표를 모두 고려했습니다. 평가 결과, PRIME은 기존 최첨단 방법의 8.3%의 GPU 시간만 소요되며, 사람의 평가와 객관적인 지표 모두에서 더 나은 보호 결과를 달성하는 것으로 나타났습니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[52/99] Flexible Variational Information Bottleneck: Achieving Diverse Compression with a Single Training

Keywords: variational_information_bottleneck, information_bottleneck, information_bottleneck_vib
Abstract: 정보 병목(IB)은 소스 무작위 변수에서 목표 무작위 변수와 관련된 정보를 추출할 수 있도록 하는 널리 사용되는 프레임워크입니다. 목적 함수에서 IB는 라그랑주 승수 $\beta$를 통해 데이터 압축과 예측력 사이의 균형을 제어합니다. 기존에는 IB가 학습할 트레이드 오프를 찾기 위해 여러 번의 훈련 주기를 통해 $\beta$를 탐색해야 했기 때문에 계산 비용이 많이 들었습니다. 이 연구에서는 한 번의 계산 효율적 훈련으로 $\beta$의 모든 값에 대해 최적의 모델을 얻을 수 있는 분류 작업을 위한 혁신적인 프레임워크인 유연한 변형 정보 병목(FVIB)을 소개합니다. 우리는 이론적으로 합리적인 $\beta$의 모든 값에 대해 FVIB가 기존 IB 방법인 변형 정보 병목(VIB)에 대한 목적 함수의 근사치를 동시에 최대화할 수 있음을 입증합니다. 그런 다음 FVIB가 VIB만큼 효과적으로 VIB 목표를 학습할 수 있음을 실증적으로 보여줍니다. 또한, 캘리브레이션 성능 측면에서도 FVIB는 $\beta$의 지속적인 최적화를 가능하게 함으로써 다른 IB 및 캘리브레이션 방법보다 뛰어난 성능을 보입니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[53/99] STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition

Keywords: adversarial_attacks_audio, audio_domain_adversarial, generated_adversarial_examples
Abstract: 음성에는 사람의 감정에 대한 풍부한 정보가 포함되어 있으며, 음성 감정 인식(SER)은 인간과 컴퓨터의 상호 작용 분야에서 중요한 주제입니다. SER 모델의 견고성은 특히 개인 의료와 같이 개인정보 보호에 민감하고 신뢰성이 요구되는 영역에서 매우 중요합니다. 최근 오디오 영역의 딥 뉴럴 네트워크가 공격에 취약하다는 사실이 알려지면서 이에 대한 연구가 활발히 진행되고 있습니다. 그러나 오디오 영역의 적대적 공격에 대한 기존 연구는 주로 반복적인 그라데이션 기반 기법에 의존하는데, 이는 시간이 많이 걸리고 특정 위협 모델에 과적합하기 쉽습니다. 또한, 은닉성을 향상시킬 수 있는 스파스 섭동의 탐색은 오디오 영역에서 여전히 제한적입니다. 이러한 문제를 해결하기 위해 저희는 SER 모델을 효율적으로 엔드투엔드 방식으로 기만하기 위해 희소하고 전송 가능한 적대적 예제를 생성하는 제너레이터 기반 공격 방법을 제안합니다. 이 방법은 널리 사용되는 두 가지 SER 데이터 세트인 데이터베이스 오브 디스커버리 오브 무드 인 스피치(DEMoS)와 인터랙티브 감성 디아딕 모션 캡처(IEMOCAP)에 대해 평가하고 효율적인 방식으로 성공적인 스파스 적대적 예시를 생성하는 능력을 입증합니다. 또한, 생성된 적대적 예제는 모델에 구애받지 않는 전이성을 보여주기 때문에 고급 피해자 모델에 대한 효과적인 적대적 공격이 가능합니다. [abs|pdf]

[54/99] AI Code Generators for Security: Friend or Foe?

Keywords: ai_code_generators, code_generators_security, code_generators
Abstract: 최근 인공지능(AI) 코드 생성기의 발전으로 인해 악의적인 공격자에 의한 오용 등 소프트웨어 보안 연구에 새로운 기회가 열리고 있습니다. 보안을 위한 AI 코드 생성기의 사용 사례를 검토하고 평가 벤치마크를 소개합니다. [abs|pdf]

[55/99] Location Agnostic Adaptive Rain Precipitation Prediction using Deep Learning

Keywords: predicting_precipitation, rain_precipitation_prediction, network_predicting_precipitation
Abstract: 강수량 예측은 지역마다 다른 날씨와 기상학적 특징에 따라 달라지기 때문에 까다로운 작업입니다. 따라서 한 위치에서 잘 작동하는 예측 모델이 다른 위치에서는 분포 변화로 인해 제대로 작동하지 않을 수 있습니다. 또한 지구 온난화로 인해 기상 패턴이 해마다 매우 빠르게 변화하고 있기 때문에 같은 위치에서도 시간이 지남에 따라 모델이 비효율적일 가능성이 있습니다. 저희는 앞서 언급한 문제에 대한 해결책을 제시하기 위해 적응형 딥러닝 기반 프레임워크를 제안했습니다. 우리의 방법은 적응을 거치지 않은 방법이 실패하는 모든 위치에 대한 강수량 예측 모델을 일반화할 수 있습니다. 파리, 로스앤젤레스, 도쿄의 강수량 예측을 위해 심층 신경망을 사용한 결과 적응 후 각각 43.51%, 5.09%, 38.62%의 개선 효과를 보였습니다. [abs|pdf]

[56/99] Efficient Causal Graph Discovery Using Large Language Models

Keywords: causal_graph_discovery, discovering_causal_relationships, larger_causal_graphs
Abstract: 저희는 완전한 인과관계 그래프 검색을 위해 LLM을 활용하는 새로운 프레임워크를 제안합니다. 이전의 LLM 기반 방법들은 쌍으로 쿼리하는 방식을 사용했지만, 이 방식은 쿼리 횟수가 이차적으로 필요해 대규모 인과 그래프에서는 금방 비실용적이 됩니다. 이와는 대조적으로, 제안된 프레임워크는 선형적인 수의 쿼리만 사용할 수 있는 넓이 우선 검색(BFS) 접근법을 사용합니다. 또한 제안된 방법은 관측 데이터를 사용할 수 있는 경우 쉽게 통합하여 성능을 향상시킬 수 있음을 보여줍니다. 제안된 프레임워크는 시간과 데이터 효율성이 높을 뿐 아니라 다양한 크기의 실제 인과 그래프에서 최첨단 결과를 얻을 수 있습니다. 이 결과는 인과 관계를 발견하는 데 있어 제안된 방법의 효과와 효율성을 입증하며, 다양한 영역의 인과 그래프 발견 작업에 광범위하게 적용될 수 있는 잠재력을 보여줍니다. [abs|pdf]

[57/99] A Survey on Self-Supervised Learning for Non-Sequential Tabular Data

Keywords: supervised_learning_ssl, learning_ssl_incorporated, tabular_data_ssl4ns
Abstract: 자기 지도 학습(SSL)은 다양한 영역의 많은 최신 모델에 통합되어 있으며, SSL은 레이블이 없는 데이터 세트를 기반으로 구실 작업을 정의하여 문맥에 맞는 강력한 표현을 학습합니다. 최근 SSL은 설명적 표현을 학습하기 위한 명시적 관계가 없어 더욱 까다로운 표 형식 데이터 영역에서 표현 학습 기능을 탐색하는 새로운 트렌드가 되고 있습니다. 본고에서는 비순차 표 형식 데이터(SSL4NS-TD)에 대한 SSL의 최근 진행 상황과 과제를 체계적으로 검토하고 정리하는 것을 목표로 합니다. 먼저 NS-TD에 대한 공식적인 정의를 제시하고 관련 연구와의 상관관계를 명확히 합니다. 그런 다음 이러한 접근 방식을 예측 학습, 대조 학습, 하이브리드 학습의 세 가지 그룹으로 분류하고 각 방향의 대표적인 방법의 동기와 강점을 살펴봅니다. 또한 자동 데이터 엔지니어링, 테이블 간 전이성, 도메인 지식 통합 등 SSL4NS-TD의 적용 이슈를 제시합니다. 또한 NS-TD 애플리케이션을 위한 기존 벤치마크와 데이터 세트를 자세히 설명하여 기존 표 형식 모델의 성능에 대해 논의합니다. 마지막으로 SSL4NS-TD의 과제에 대해 논의하고 향후 연구 방향을 제시합니다. 이 연구가 표 형식 도메인에 대한 SSL 진입 장벽을 낮추고 암시적 표 형식 데이터의 기반을 개선하기 위한 더 많은 연구를 장려하는 데 도움이 될 것으로 기대합니다. [abs|pdf]

[58/99] Few-Shot Class-Incremental Learning with Prior Knowledge

Keywords: catastrophic_forgetting_overfitting, class_incremental_learning, catastrophic_forgetting
Abstract: 단발성 수업-증분 학습(FSCIL)에서 발생하는 치명적인 망각과 과적합 문제를 해결하기 위해 이전 연구에서는 주로 증분 단계에서 오래된 지식의 기억을 보존하는 데 집중해 왔습니다. 이러한 연구에서는 점진적 학습의 효과를 형성하는 데 있어 사전 학습된 모델의 역할이 과소평가되는 경우가 많습니다. 따라서 사전 훈련된 모델의 일반화 능력을 향상시키기 위해 라벨이 없는 몇 가지 증분 클래스 데이터에서 거의 무료에 가까운 사전 지식을 도입하여 사전 지식을 이용한 학습(LwPK)을 제안합니다. 레이블이 지정되지 않은 증분 클래스 샘플을 클러스터링하여 의사 레이블을 생성한 다음, 레이블이 지정된 기본 클래스 샘플과 함께 공동으로 훈련하여 이전 및 새 클래스 데이터에 대한 임베딩 공간을 효과적으로 할당합니다. 실험 결과에 따르면 LwPK는 경험적 위험 최소화 및 클래스 거리 측정에 기반한 이론적 분석을 통해 치명적인 망각에 대한 모델 복원력을 효과적으로 향상시키며, 작동 원리를 확증합니다. LwPK의 소스 코드는 다음 링크에서 공개적으로 확인할 수 있습니다. [abs|pdf]

[59/99] Conditional Normalizing Flows for Active Learning of Coarse-Grained Molecular Representations

Keywords: molecular_dynamics_simulations, learn_boltzmann, efficient_sampling_boltzmann
Abstract: 분자 시스템의 볼츠만 분포를 효율적으로 샘플링하는 것은 오랜 과제였습니다. 최근에는 긴 분자 역학 시뮬레이션을 생성하는 대신 흐름 정규화와 같은 생성적 머신 러닝 방법을 사용해 샘플 없이 볼츠만 분포를 직접 학습하고 있습니다. 그러나 이 접근법은 모드 붕괴에 취약하기 때문에 전체 구성 공간을 탐색하지 못하는 경우가 많습니다. 이 연구에서는 문제를 세분화된 자유도와 거친 자유도의 두 가지 수준으로 분리하여 이 문제를 해결합니다. 세분화된 공간에 조건부 정규화 흐름을 적용하면 두 수준 사이의 확률적 연결이 생성됩니다. 구성 공간을 탐색하기 위해 능동적 학습을 통해 흐름을 업데이트하고 필요한 경우에만 모든 원자의 위치 에너지 평가를 수행할 수 있는 세분화된 시뮬레이션을 사용합니다. 알라닌 디펩타이드를 예로 들어, 현재 최신 머신 러닝 접근법의 4.5배에 달하는 속도에 비해 우리의 방법은 약 15.9~216.2배의 분자 역학 시뮬레이션 속도를 얻을 수 있음을 보여줍니다. [abs|pdf]

[60/99] Faster Inference of Integer SWIN Transformer by Removing the GELU Activation

Keywords: gpu_improve_inference, quantized_swin_transformer, relu_quantize
Abstract: SWIN 트랜스포머는 이미지 분류 작업에서 최첨단 정확도를 자랑하는 대표적인 비전 트랜스포머 모델입니다. 이러한 성공에도 불구하고, 독특한 아키텍처로 인해 유사한 심층 신경망에 비해 추론 속도가 느립니다. 모델의 정수 양자화는 추론 지연 시간을 개선하는 데 사용되는 방법 중 하나입니다. 하지만 최신 기술로는 모델을 완전히 양자화할 수 없었습니다. 이 연구에서는 스윈 트랜스포머의 GELU 활성화와 관련된 부동소수점 연산을 제거하여 최신 방법의 추론 지연 시간을 개선했습니다. 이전 연구에서는 정수가 아닌 연산을 선형 근사 함수로 대체할 것을 제안했지만, 저희는 GELU를 ReLU 활성화로 대체할 것을 제안합니다. 이전 방법에 비해 ReLU의 장점은 메모리와 계산 복잡도가 낮다는 것입니다. 우리는 반복적 지식 증류를 사용하여 GELU를 ReLU로 대체함으로써 손실되는 정확도를 보완합니다. GELU가 없는 SWIN 트랜스포머를 정량화하여 RTX 4090 NVIDIA GPU에서 이미지넷 평가 데이터 세트에서 정확도 하락을 $0.5%$ 미만으로 유지하면서 정량화된 SWIN 트랜스포머의 추론 지연 시간을 최소 $11%$까지 개선할 수 있음을 보여주었습니다. [abs|pdf]

[61/99] A Comprehensive Survey on 3D Content Generation

Keywords: 3d_content_generation, based_3d_generative, 3d_generative_methods
Abstract: 최근 몇 년 동안 텍스트, 이미지, 비디오, 오디오, 3D 등 다양한 입력 방식을 통해 인공지능으로 생성된 콘텐츠(AIGC)가 괄목할 만한 발전을 이루었습니다. 3D는 실제 3D 환경에 가장 가까운 시각적 방식이며 방대한 지식을 담고 있습니다. 3D 콘텐츠 제작은 학문적, 실용적 가치를 보여주는 동시에 엄청난 기술적 과제를 제시하기도 합니다. 이 리뷰는 급성장하는 3D 콘텐츠 생성 분야의 발전을 통합하는 것을 목표로 합니다. 특히 기존의 접근 방식을 세 가지 유형으로 분류하는 새로운 분류법을 제안합니다: 3D 네이티브 생성 방법, 2D 선행 기반 3D 생성 방법, 하이브리드 3D 생성 방법. 이 조사는 주요 기법을 아우르는 약 60편의 논문을 대상으로 합니다. 또한 현재 3D 콘텐츠 생성 기술의 한계에 대해 논의하고, 미해결 과제와 향후 유망한 연구 방향에 대해 짚어봅니다. 이번 설문조사와 함께 3D 콘텐츠 생성 연구에 대한 리소스를 제공하는 프로젝트 웹사이트를 개설했습니다. 프로젝트 페이지는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[62/99] 2AFC Prompting of Large Multimodal Models for Image Quality Assessment

Keywords: lmms_visual_quality, visual_quality_assessment, visual_quality
Abstract: 대규모 멀티모달 모델(LMM)의 높은 수준의 시각적 이해와 추론 능력을 향상시키기 위한 연구는 많이 진행되어 왔지만, 시각적 품질 평가(IQA) 능력은 상대적으로 덜 연구되어 왔습니다. 여기서는 시각적 품질에 대한 인간의 의견을 수집하는 가장 신뢰할 수 있는 방법으로 널리 알려진 두 가지 대안 강제 선택~(2AFC) 프롬프트를 사용하여 이 목표를 향한 초기 단계를 수행합니다. 그 결과, 특정 LMM에 의해 추정된 각 이미지의 글로벌 품질 점수는 최대 후행 추정치를 사용하여 효율적으로 집계할 수 있습니다. 한편, 일관성, 정확성, 상관관계라는 세 가지 평가 기준을 도입하여 5가지 LMM의 IQA 기능에 대한 포괄적인 정량화와 심층적인 인사이트를 제공합니다. 광범위한 실험 결과, 기존 LMM은 거친 수준의 품질 비교에서는 뛰어난 IQA 능력을 보이지만 세분화된 품질 판별에서는 개선의 여지가 있는 것으로 나타났습니다. 제안된 데이터 세트는 향후 LMM을 기반으로 한 IQA 모델 개발의 방향을 제시합니다. 코드는 다음 https URL에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[63/99] ReEvo: Large Language Models as Hyper-Heuristics with Reflective Evolution

Keywords: language_hyper_heuristics, heuristic_generation, heuristics_generated
Abstract: NP-하드 조합 최적화 문제(COP)가 어디에나 존재하기 때문에 도메인 전문가들은 시행착오를 겪으며 휴리스틱 설계 프로세스에 참여하게 됩니다. 설계 자동화를 위한 오랜 노력은 대규모 언어 모델(LLM)의 등장으로 새로운 동력을 얻었습니다. 이 백서에서는 최소한의 수동 개입과 개방형 휴리스틱 공간을 특징으로 하며 휴리스틱 생성을 위해 LLM을 활용하는 하이퍼 휴리스틱의 새로운 변형인 언어 하이퍼 휴리스틱(LHH)을 소개합니다. LHH를 강화하기 위해 확장 가능한 LLM 추론, 인터넷 규모의 도메인 지식, 강력한 진화적 검색으로 인간의 능력을 훨씬 능가하는 동시에 인간 전문가의 반사적 설계 접근법을 모방하는 일반 검색 프레임워크인 반사적 진화(ReEvo)를 선보입니다. 12가지 COP 설정에 대한 평가 결과, 1) 진화를 위한 언어적 반영은 더 부드러운 적합성 환경, 블랙박스 COP 설정의 명시적 추론, 더 나은 검색 결과로 이어지며, 2) ReEvo가 몇 분 만에 생성한 휴리스틱은 최첨단 인간 설계 및 신경 솔버를 능가할 수 있고, 3) LHH는 블랙박스 COP로 도전받는 경우에도 효율적인 알고리즘 설계 자동화가 가능하여 복잡하고 새로운 실제 애플리케이션에서의 가능성을 입증했습니다. 이 https URL에서 코드를 확인할 수 있습니다. [abs|pdf]

[64/99] Learning Network Representations with Disentangled Graph Auto-Encoder

Keywords: disentangled_graph_representations, graph_auto_encoder, graph_representations_variational
Abstract: (변형) 그래프 자동 인코더는 그래프 구조 데이터의 표현을 학습하는 데 광범위하게 사용됩니다. 그러나 실제 그래프의 형성은 잠재적 요인의 영향을 받는 복잡하고 이질적인 과정입니다. 기존 인코더는 근본적으로 전체론적이어서 잠재적 요인의 얽힘을 무시합니다. 이로 인해 그래프 분석 작업의 효율성이 떨어질 뿐만 아니라 표현을 이해하고 설명하기가 더 어려워집니다. (변형) 그래프 자동 인코더로 얽힘이 없는 그래프 표현을 학습하는 것은 상당한 도전 과제이며, 기존 문헌에서 거의 다루어지지 않았습니다. 이 글에서는 생성 모델을 활용하여 엉킨 그래프 표현을 학습하는 접근 방식인 엉킨 그래프 자동 인코더(DGA)와 엉킨 변형 그래프 자동 인코더(DVGA)에 대해 소개합니다. 구체적으로, 먼저 다중 채널 메시지 전달 레이어가 있는 얽힘 해제 그래프 컨볼루션 네트워크를 설계하여 각각의 얽힘 해제 잠재 요소와 관련된 정보를 취합하는 인코더로 사용합니다. 그 후, 각 채널에 컴포넌트별 흐름을 적용하여 얽힘이 풀린 변형 그래프 자동 인코더의 표현력을 향상시킵니다. 또한, 얽힘이 풀린 표현의 특성을 고려하여 요인별 디코더를 설계합니다. 표현 간의 독립성을 더욱 향상시키기 위해 다양한 잠재 요인에 대한 매핑 채널에 독립성 제약 조건을 도입합니다. 합성 데이터 세트와 실제 데이터 세트에 대한 경험적 실험을 통해 여러 최신 기준선에 비해 제안한 방법이 우수함을 보여줍니다. [abs|pdf]

[65/99] Root Cause Analysis In Microservice Using Neural Granger Causal Discovery

Keywords: granger_causal_discovery, neural_granger_causal, causal_discovery
Abstract: 최근 몇 년 동안 마이크로서비스는 확장성, 유지보수, 유연성으로 인해 IT 운영에서 널리 채택되고 있습니다. 그러나 사이트 안정성 엔지니어(SRE)가 시스템 오작동에 직면했을 때 마이크로서비스의 복잡한 관계로 인해 근본 원인을 정확히 파악하는 것이 어려워졌습니다. 이전 연구에서는 인과 관계를 설정하고 인과 그래프에서 근본 원인을 도출하기 위해 구조화된 학습 방법(예: PC-알고리즘)을 사용했습니다. 하지만 시계열 데이터의 시간적 순서를 무시하고 시간적 관계에 내재된 풍부한 정보를 활용하지 못했습니다. 예를 들어, CPU 사용률이 갑자기 급증하는 경우 다른 마이크로서비스의 지연 시간이 증가할 수 있습니다. 그러나 이 시나리오에서는 CPU 사용률의 이상 징후가 지연 시간 증가가 동시에 발생하지 않고 그 전에 발생합니다. 결과적으로 PC 알고리즘은 이러한 특성을 포착하지 못합니다. 이러한 문제를 해결하기 위해 유니티는 대조 학습을 통한 신경 그랜저 인과관계 발견을 사용하는 근본 원인 분석을 위한 새로운 접근 방식인 RUN을 제안합니다. RUN은 시계열의 컨텍스트 정보를 통합하여 백본 인코더를 향상시키고, 시계열 예측 모델을 활용하여 신경 그랜저 인과관계 발견을 수행합니다. 또한, RUN은 페이저랭크와 개인화 벡터를 통합하여 상위 k개의 근본 원인을 효율적으로 추천합니다. 합성 및 실제 마이크로서비스 기반 데이터 세트에 대한 광범위한 실험을 통해 RUN이 최첨단 근본 원인 분석 방법보다 현저히 뛰어난 성능을 발휘한다는 것을 입증했습니다. 또한 마이크로서비스 기반 애플리케이션에서 RUN의 실용성과 효율성을 보여주기 위해 양말 가게 사례에 대한 분석 시나리오를 제공합니다. 코드는 다음 https URL에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[66/99] DeepAAT: Deep Automated Aerial Triangulation for Fast UAV-based Mapping

Keywords: uav_imagery_deepaat, image_poses_deepaat, poses_deepaat
Abstract: 이미지 포즈를 복원하고 동시에 드문드문한 점을 재구성하는 것을 목표로 하는 자동 항공 삼각측량(AAT)은 지구 관측에서 중추적인 역할을 합니다. 사진측량 분야에서 수십 년에 걸쳐 축적된 풍부한 연구 유산을 바탕으로 AAT는 대규모 무인 항공기(UAV) 기반 매핑에 널리 적용되는 기본 프로세스로 발전했습니다. 이러한 발전에도 불구하고 기존의 AAT 방법은 여전히 낮은 효율성과 제한된 견고성과 같은 문제에 직면해 있습니다. 이 백서에서는 UAV 이미지의 AAT를 위해 특별히 설계된 딥러닝 네트워크인 DeepAAT를 소개합니다. DeepAAT는 이미지의 공간적 특성과 스펙트럼 특성을 모두 고려하여 잘못된 매칭 쌍을 해결하고 이미지 포즈를 정확하게 예측하는 기능을 향상시킵니다. DeepAAT는 철저한 장면 커버리지와 정밀도를 보장하여 AAT의 효율성을 크게 향상시킵니다. 처리 속도는 비슷한 수준의 재구성 정확도를 유지하면서 증분 AAT 방식보다 수백 배, 전역 AAT 방식보다 수십 배 빠릅니다. 또한 DeepAAT의 장면 클러스터링 및 병합 전략은 제한된 컴퓨팅 리소스에서도 대규모 UAV 이미지에 대한 신속한 로컬라이제이션 및 포즈 결정을 용이하게 합니다. 실험 결과는 기존 AAT 방식에 비해 DeepAAT가 크게 개선되었음을 보여주며, UAV 기반 3D 재구성 작업의 효율성과 정확성에 대한 잠재력을 강조합니다. 사진측량 학회에 도움이 될 수 있도록 DeepAAT의 코드는 다음 https URL에서 공개될 예정입니다. [abs|pdf]

[67/99] Double-Dip: Thwarting Label-Only Membership Inference Attacks with Transfer Learning and Randomization

Keywords: dnns_privacy_attacks, vulnerability_overfitted_dnns, overfitted_dnns_privacy
Abstract: 전이 학습(TL)은 훈련 샘플이 부족할 때 DNN 모델 성능을 향상시키는 것으로 입증되었습니다. 하지만 개인정보 보호 공격에 대한 과적합 DNN의 취약성을 줄이기 위한 솔루션으로서 TL의 적합성은 아직 밝혀지지 않았습니다. 멤버십 추론 공격(MIA)이라고 하는 프라이버시 공격의 한 종류는 주어진 샘플이 학습 데이터 세트에 속하는지(멤버), 아니면 비회원인지(비회원)를 판단하는 것을 목표로 합니다. 분류 정확도를 떨어뜨리지 않으면서도 과적합 DNN에 대한 MIA를 막기 위해 TL(1단계)과 무작위 추출(2단계)을 결합하여 사용하는 체계적인 실증 연구인 Double-Dip을 소개합니다. 이 연구에서는 소스 모델과 타겟 모델 간의 공유 특징 공간과 파라미터 값, 고정 레이어 수, 사전 학습된 모델의 복잡성 등의 역할을 조사합니다. (i) (CIFAR-10, ImageNet), (ii) (GTSRB, ImageNet), (iii) (CelebA, VGGFace2)의 세 가지 (타겟, 소스) 데이터 세트에서 더블딥을 평가합니다. 공개적으로 사용 가능한 4개의 사전 훈련된 DNN, 즉 (a) VGG-19, (b) ResNet-18, (c) Swin-T, (d) FaceNet을 고려합니다. 실험 결과, 1단계는 공격자의 성공률을 낮추는 동시에 화이트박스 또는 블랙박스 DNN 모델 접근 권한을 가진 공격자가 SOTA 라벨 전용 MIA를 수행하려고 할 때 비회원에 대한 분류 정확도를 크게 높이는 것으로 나타났습니다. 2단계 이후에는 공격자가 라벨 전용 MIA를 수행할 때 성공률이 50% 가까이 감소하여 무작위 추측에 가까워지고 Double-Dip의 효과가 입증되었습니다. 또한 Double-Dip의 2단계는 정규화 및 차등 프라이버시 기반 방식보다 낮은 ASR과 높은 분류 정확도를 달성합니다. [abs|pdf]

[68/99] Near-Optimal Reinforcement Learning with Self-Play under Adaptivity Constraints

Keywords: multi_agent_reinforcement, extend_learning_bandit, sum_markov_games
Abstract: 새로운 정책을 배포하는 데 비용이 많이 들고 정책 업데이트 횟수를 최소화해야 하는 실제 애플리케이션에서 영감을 받은 새로운 문제인 적응성 제약이 있는 다중 에이전트 강화 학습(MARL) 문제를 연구합니다. 2인 제로섬 마르코프 게임의 경우, 일괄 복잡도는 $O(H+\log\log K)$에 불과하지만 $\widetilde{O}(\sqrt{H^3 S^2 ABK})$의 후회를 달성하는 (정책) 제거 기반 알고리즘을 설계합니다. 위에서 $S$는 상태의 수, $A,B$는 각각 두 플레이어의 행동 수, $H$는 호라이즌, $K$는 에피소드 수를 나타냅니다. 또한 $\widetilde{O}(\sqrt{K})$ 후회 한계를 갖는 모든 알고리즘에 대해 일괄 복잡성 하한 $\Omega(\frac{H}{\log_{A}K}+\log\log K)$를 증명하고, 이는 대수 계수까지 우리의 상한과 일치합니다. 그 부산물로, 우리의 기술은 거의 최적의 배치 복잡도 내에서 산적 게임과 보상 없는 MARL을 학습하는 데 자연스럽게 확장됩니다. 저희가 아는 한, 이는 낮은 적응성을 가진 MARL을 이해하기 위한 첫 번째 결과입니다. [abs|pdf]

[69/99] Simulation of Graph Algorithms with Looped Transformers

Keywords: simulate_algorithms_graphs, simulate_algorithms_graph, networks_simulate_algorithms
Abstract: 신경망을 이용한 그래프 알고리즘의 실행은 최근 경험적 진전의 가능성으로 인해 큰 관심을 끌고 있습니다. 이는 신경망이 어떻게 관계형 데이터로 추론 단계를 복제할 수 있는지에 대한 이해의 동기를 부여합니다. 이 연구에서는 이론적 관점에서 그래프에서 알고리즘을 시뮬레이션하는 트랜스포머 네트워크의 능력을 연구합니다. 우리가 활용하는 아키텍처는 그래프와 상호 작용하는 추가 주의 헤드를 가진 루프형 트랜스포머입니다. 우리는 이 아키텍처가 Dijkstra의 최단 경로 알고리즘, 폭과 깊이 우선 검색, 코사라주의 강력하게 연결된 구성 요소 알고리즘과 같은 알고리즘을 시뮬레이션할 수 있음을 구조를 통해 증명합니다. 네트워크의 폭은 입력 그래프의 크기에 따라 증가하지 않으며, 이는 네트워크가 모든 그래프에 대해 위의 알고리즘을 시뮬레이션할 수 있음을 의미합니다. 이러한 특성에도 불구하고 유한한 정밀도로 인해 솔루션의 시뮬레이션에 한계가 있음을 보여줍니다. 마지막으로, 추가 주의 헤드를 활용했을 때 폭이 일정한 튜링 완전성 결과를 보여줍니다. [abs|pdf]

[70/99] Compositional Generative Modeling: A Single Model is Not All You Need

Keywords: generative_models_tasks, construct_large_generative, generative_models_trained
Abstract: 방대한 양의 데이터로 학습된 대규모 모놀리식 생성 모델은 AI 연구에서 점점 더 지배적인 접근 방식이 되어가고 있습니다. 이 백서에서는 대신 작은 생성 모델을 함께 구성하여 대규모 생성 시스템을 구축해야 한다고 주장합니다. 이러한 구성적 생성 접근 방식을 통해 데이터 분포를 보다 효율적인 방식으로 학습하고, 훈련 시점에 보이지 않는 데이터 분포의 일부로 일반화할 수 있는 방법을 보여줍니다. 또한 이를 통해 훈련 시에는 전혀 볼 수 없었던 작업을 위한 새로운 생성 모델을 프로그래밍하고 구축할 수 있는 방법을 보여줍니다. 마지막으로, 많은 경우 데이터에서 별도의 구성 요소를 발견할 수 있음을 보여줍니다. [abs|pdf]

[71/99] Trustworthy Distributed AI Systems: Robustness, Privacy, and Governance

Keywords: trustworthy_distributed_ai, protection_distributed_learning, distributed_ai_robustness
Abstract: 새롭게 부상하는 분산형 AI 시스템은 빅데이터 컴퓨팅과 데이터 처리 능력에 혁신을 일으키며 경제적, 사회적 영향력을 확대하고 있습니다. 그러나 최근 연구에 따르면 AI 시스템의 보안, 개인정보 보호, 공정성 문제로 인한 새로운 공격 표면과 위험이 확인되었습니다. 본 백서에서는 분산 학습에서 견고성 보장, 프라이버시 보호, 공정성 인식을 통해 신뢰할 수 있는 분산 AI를 위한 대표적인 기법, 알고리즘, 이론적 토대를 검토합니다. 먼저 분산 학습을 위한 대안 아키텍처에 대한 간략한 개요를 제공하고, 분산 학습에서 AI 알고리즘의 보안, 프라이버시, 공정성에 대한 내재적 취약점을 논의하며, 특정 아키텍처와 관계없이 분산 학습에서 이러한 문제가 발생하는 이유를 분석합니다. 그런 다음 (1) 추론 시 회피 공격과 불규칙한 쿼리에 대한 견고성, 훈련 시 포이즌 공격, 비잔틴 공격, 불규칙한 데이터 배포에 대한 견고성, (2) 배포 시 분산 학습 및 모델 추론 시 개인정보 보호, (3) 데이터와 모델 모두에 대한 AI 공정성 및 거버넌스를 포함하여 신뢰할 수 있는 분산형 AI를 위한 고유한 대응책 분류법을 제공합니다. 마지막으로 신뢰할 수 있는 AI 정책 가이드라인의 필요성, AI 책임과 효용의 공동 설계, 인센티브와 규정 준수 등 신뢰할 수 있는 분산형 AI를 위한 미해결 과제와 향후 연구 방향에 대한 논의로 마무리합니다. [abs|pdf]

[72/99] How many views does your deep neural network use for prediction?

Keywords: generalization_ability_deep, generalization_ability_dnns, deep_neural
Abstract: 심층 신경망(DNN)의 일반화 능력은 수많은 이론적, 경험적 분석에도 불구하고 아직 완전히 이해되지 않았습니다. 최근 Allen-Zhu & Li(2023)는 DNN의 일반화 능력을 설명하기 위해 멀티뷰 개념을 도입했지만, 주로 앙상블 또는 증류 모델을 대상으로 하며, 특정 입력의 예측에 사용되는 멀티뷰를 추정하는 방법은 논의되지 않았습니다. 본 논문에서는 멀티뷰와 유사하지만 실제 이미지에 대해 효율적으로 계산할 수 있는 최소 충분 뷰(MSV)를 제안합니다. MSV는 입력에 대한 모델의 예측을 보존하는 최소한의 고유한 특징 집합으로, 각 특징 집합은 입력에 대한 모델의 예측을 보존합니다. 컨볼루션 모델과 트랜스포머 모델을 포함한 여러 모델에서 MSV의 수와 예측 정확도 사이에 명확한 관계가 있음을 실증적으로 보여주며, 이는 (비앙상블 또는 비증류) DNN의 일반화 능력을 이해하는 데 멀티뷰와 같은 관점도 중요하다는 것을 시사합니다. [abs|pdf]

[73/99] Recent Advances in Predictive Modeling with Electronic Health Records

Keywords: predictive_modeling_healthcare, predictive_deep_models, ehr_data_predictive
Abstract: 전자 의료 기록(EHR) 시스템의 발전으로 방대한 양의 디지털화된 환자 데이터를 수집할 수 있게 되었습니다. 하지만 예측 모델링에 EHR 데이터를 활용하는 데는 고유한 특성으로 인해 몇 가지 어려움이 있습니다. 머신러닝 기술이 발전함에 따라 딥러닝은 의료를 비롯한 다양한 분야에서 그 우수성을 입증하고 있습니다. 이번 설문조사에서는 EHR 데이터를 활용한 딥러닝 기반 예측 모델의 최근 발전상을 체계적으로 살펴봅니다. 구체적으로 EHR 데이터의 배경을 소개하고 예측 모델링 작업에 대한 수학적 정의를 제공하는 것으로 시작합니다. 그런 다음 다양한 관점에서 예측 딥러닝 모델을 분류하고 요약합니다. 또한 의료 분야의 예측 모델링과 관련된 벤치마크와 툴킷을 제시합니다. 마지막으로 미해결 과제에 대해 논의하고 향후 유망한 연구 방향을 제안하는 것으로 이번 조사를 마무리합니다. [abs|pdf]

[74/99] Evaluation Methodology for Large Language Models for Multilingual Document Question and Answer

Keywords: large_language_models, large_language, multilingual_capability_models
Abstract: 대규모 언어 모델(LLM)이 널리 채택됨에 따라 이 백서에서는 이러한 모델의 다국어 기능을 조사합니다. 예비 결과에 따르면 모국어 문맥과 질문 및 답변을 리소스가 많은 언어로 번역할 때 가장 좋은 결과를 얻을 수 있었습니다. [abs|pdf]

[75/99] Plan-Grounded Large Language Models for Dual Goal Conversational Settings

Keywords: initiative_conversational_setting, mixed_initiative_conversational, plan_dialogue_initiative
Abstract: 사용자의 지시를 따르도록 대규모 언어 모델(LLM)을 훈련시키면 LLM이 인간과 유창하게 대화할 수 있는 충분한 능력을 갖추게 되는 것으로 나타났습니다. 그러나 지시어가 대화의 양방향으로 흐르는, 즉 LLM과 사용자가 서로에게 지시어를 제공하는 혼합 이니셔티브 환경에서 LLM이 어떻게 계획에 기반한 대화를 이끌 수 있는지는 완전히 명확하지 않습니다. 이 백서에서는 LLM이 임의의 계획에 기반하여 대화를 진행할 뿐만 아니라 절차적 계획과 사용자 지침을 모두 만족시키려는 이중 목표의 혼합 이니셔티브 대화 환경을 다룹니다. 그런 다음 LLM은 계획을 통해 사용자를 안내하는 동시에 새로운 상황에 적응하고, 질문에 답하고, 필요할 때 안전 가드레일을 활성화할 책임이 있습니다. 절차적 계획에 기반한 대화, 대화 주도권, 시스템 행동에 대한 가드레일을 적용하는 동시에 예상치 못한 사용자 행동에 대한 LLM의 대응을 개선할 수 있는 새로운 LLM을 제안합니다. 통제된 환경과 실제 사용자를 대상으로 한 실험 결과, 가장 성능이 좋은 모델인 PlanLLM은 강력한 기준선 대비 2.1배의 개선 효과를 달성한 것으로 나타났습니다. 또한, 실험 결과 보이지 않는 영역에 대한 일반화도 잘 이루어졌습니다. [abs|pdf]

[76/99] Repeat After Me: Transformers are Better than State Space Models at Copying

Keywords: language_models_transformer, large_language_models, pretrained_large_language
Abstract: 트랜스포머는 시퀀스 모델링의 지배적인 아키텍처이지만, 시퀀스 길이에 의존하지 않는 고정 크기의 잠복 상태를 사용하는 모델에 대한 관심이 높아지고 있으며, 이를 "일반화된 상태 공간 모델"(GSSM)이라고 부릅니다. 이 백서에서는 추론 시간 효율성 측면에서는 GSSM이 유망하지만, 입력 컨텍스트에서 복사가 필요한 작업에서는 트랜스포머 모델에 비해 한계가 있음을 보여줍니다. 간단한 문자열 복사 작업에 대한 이론적 분석부터 시작하여 2계층 변환기가 기하급수적 길이의 문자열을 복사할 수 있는 반면, GSSM은 고정 크기 잠복 상태에 의해 근본적으로 제한된다는 것을 증명합니다. 경험적으로, 컨텍스트 복사가 필요한 합성 작업에서 효율성과 일반화 측면에서 트랜스포머가 GSSM을 능가하는 것으로 나타났습니다. 마지막으로, 사전 학습된 대규모 언어 모델을 평가한 결과 트랜스포머 모델이 문맥에서 정보를 복사하고 검색할 때 상태 공간 모델보다 훨씬 뛰어난 성능을 보인다는 사실을 발견했습니다. 이러한 결과를 종합해 보면 실제 관심 있는 작업에서 트랜스포머와 GSSM 사이에 근본적인 차이가 있음을 알 수 있습니다. [abs|pdf]

[77/99] Executable Code Actions Elicit Better LLM Agents

Keywords: codeact_integrated_python, python_interpreter_codeact, interpreter_codeact
Abstract: 도구 호출 및 로봇 제어와 같은 광범위한 작업을 수행할 수 있는 대규모 언어 모델(LLM) 에이전트는 실제 문제를 해결하는 데 큰 잠재력을 보여줍니다. LLM 에이전트는 일반적으로 사전 정의된 형식의 JSON 또는 텍스트를 생성하여 작업을 생성하라는 메시지를 표시하는데, 이는 일반적으로 제한된 작업 공간(예: 사전 정의된 도구의 범위)과 제한된 유연성(예: 여러 도구를 구성할 수 없음)으로 인해 제한을 받습니다. 이 연구에서는 실행 가능한 Python 코드를 사용하여 LLM 에이전트의 작업을 통합된 작업 공간(CodeAct)으로 통합할 것을 제안합니다. Python 인터프리터와 통합된 CodeAct는 코드 액션을 실행하고, 다중 턴 상호작용을 통해 이전 액션을 동적으로 수정하거나 새로운 관찰에 따라 새로운 액션을 생성할 수 있습니다. API-Bank의 17개 LLM과 새롭게 선별된 벤치마크에 대한 광범위한 분석에 따르면 CodeAct는 널리 사용되는 대안보다 성능이 뛰어납니다(성공률이 최대 20% 더 높음). CodeAct의 고무적인 성과는 해석 가능한 코드를 실행하여 환경과 상호 작용하고 자연어를 사용하여 사용자와 협업하는 오픈 소스 LLM 에이전트를 구축하는 데 동기를 부여했습니다. 이를 위해 CodeAct를 사용하여 7천 개의 멀티턴 인터랙션으로 구성된 명령어 튜닝 데이터 세트 CodeActInstruct를 수집합니다. 이를 기존 데이터와 함께 사용하여 에이전트 중심 작업에서 일반적인 기능을 손상시키지 않고 모델을 개선할 수 있음을 보여줍니다. Llama2 및 Mistral에서 미세 조정된 CodeActAgent는 Python 인터프리터와 통합되어 있으며 기존 라이브러리를 사용하여 정교한 작업(예: 모델 트레이닝)을 수행하고 자율적으로 셀프 디버그할 수 있도록 고유하게 맞춤화되었습니다. [abs|pdf]

[78/99] Quantifying analogy of concepts via ologs and wiring diagrams

Keywords: notion_wiring_diagrams, ontology_logs_ologs, theory_ontology_logs
Abstract: 이 글에서는 스피박과 켄트가 만든 온톨로지 로그(olog) 이론을 바탕으로 배선도 개념을 정의합니다. 이 글에서 와이어링 다이어그램은 유한 방향의 레이블이 지정된 그래프입니다. 레이블은 올로그의 유형에 해당하며, 자율 시스템에서 센서의 판독값으로 해석할 수도 있습니다. 따라서 배선도는 자율 시스템이 추상적인 개념을 형성하기 위한 프레임워크로 사용할 수 있습니다. 스켈레톤 배선도의 기본이 되는 그래프가 하나의 카테고리를 형성한다는 것을 보여줍니다. 이를 통해 그래프 이론과 범주 이론의 기술을 사용하여 스켈레톤 배선도를 비교하고 조작할 수 있습니다. 또한 그래프 편집 거리에 대한 일반적인 정의를 배선도의 경우로 확장하여 배선도에서만 사용할 수 있는 연산을 사용하여 모든 골격 배선도 집합에 대한 메트릭을 도출합니다. 마지막으로 배선도로 표현되는 두 개념 사이의 거리를 계산하는 확장된 예제를 제시하고, 프레임워크를 모든 애플리케이션 도메인에 적용하는 방법을 설명합니다. [abs|pdf]

[79/99] HR-MultiWOZ: A Task Oriented Dialogue (TOD) Dataset for HR LLM Agent

Keywords: conversation_dataset_hr, conversation_datasets, sourced_conversation_dataset
Abstract: 최근 대규모 언어 모델(LLM)의 발전으로 여러 영역에서 자연어 처리(NLP) 작업이 재편되고 있습니다. 인사(HR) 분야에서의 사용은 아직 확장될 여지가 있으며 시간이 많이 소요되는 여러 업무에 유용하게 사용될 수 있습니다. 휴가 신청, 의료 보험 청구, 액세스 요청과 같은 예는 주목할 만하지만, 이러한 사례가 유일한 사례는 결코 아닙니다. 하지만 앞서 언급한 개발 사례들은 고품질의 훈련 데이터 세트를 구축해야 하는 중요한 과제와 씨름해야 합니다. 한편으로, 대부분의 대화 데이터 세트는 직원이 아닌 고객을 위한 문제를 해결하고 있습니다. 반면에 HR과의 대화를 수집하면 개인정보 보호 문제가 발생할 수 있습니다. 이러한 문제를 해결하기 위해 10개의 HR 도메인에 걸쳐 550개의 대화로 구성된 완전 레이블이 지정된 데이터 세트인 HR-Multiwoz를 도입하여 LLM 에이전트를 평가합니다. 이 작업은 다음과 같은 기여를 합니다. (1) NLP 연구를 위한 HR 도메인 최초의 라벨이 지정된 오픈소스 대화 데이터 세트입니다. (2) 데이터 분석 및 인적 평가와 함께 데이터 생성 절차에 대한 상세한 레시피를 제공합니다. 데이터 생성 파이프라인은 이전이 가능하며 다른 도메인의 라벨링된 대화 데이터 생성에 쉽게 적용할 수 있습니다. (3) 제안된 데이터 수집 파이프라인은 대부분 주석 작업을 위해 사람의 개입을 최소화하는 LLM을 기반으로 하므로 시간과 비용이 효율적입니다. [abs|pdf]

[80/99] AI-generated faces free from racial and gender stereotypes

Keywords: facial_diversity_genders, diffusion_races_genders, facial_diversity
Abstract: 스테이블 디퓨전과 같은 텍스트-이미지 생성 AI 모델은 전 세계 수백만 명이 매일 사용하고 있습니다. 그러나 이러한 모델이 인종과 성별에 대한 고정관념을 증폭시킨다는 우려를 제기하는 사람들이 많습니다. 이러한 현상을 연구하기 위해 유니티는 특정 얼굴 이미지의 인종, 성별, 연령대를 예측하는 분류기를 개발했으며, 이 분류기가 최첨단 성능을 달성한다는 것을 보여주었습니다. 이 분류기를 사용하여 6개 인종, 2개 성별, 5개 연령대, 32개 직업, 8개 속성에 대한 안정적 확산의 편향을 정량화합니다. 그런 다음 최첨단 대안보다 성능이 뛰어난 새로운 디베이싱 솔루션을 제안합니다. 또한, 안정적 확산이 같은 인종의 개인을 서로 비슷하게 묘사하는 정도를 조사합니다. 이 분석에 따르면 대부분의 중동 남성이 어두운 피부에 수염을 기르고 전통 머리 장식을 착용하는 것으로 묘사되는 등 높은 수준의 고정관념이 존재하는 것으로 나타났습니다. 저희는 성별과 인종에 따른 얼굴의 다양성을 높이는 새로운 솔루션을 제안함으로써 이러한 한계를 해결합니다. 저희의 솔루션은 오픈 소스로 공개되어 있습니다. [abs|pdf]

[81/99] An Information-Theoretic Approach to Analyze NLP Classification Tasks

Keywords: choice_reading_comprehension, questions_assessment, tasks_natural_language
Abstract: 출력에 대한 입력의 중요성을 이해하는 것은 많은 작업에서 유용합니다. 이 연구는 텍스트 분류 작업에서 입력의 영향을 분석하기 위한 정보 이론적 프레임워크를 제공합니다. 자연어 처리(NLP) 작업은 단일 요소 입력 또는 여러 요소 입력을 받아 출력 변수를 예측하는데, 여기서 요소는 텍스트 블록입니다. 각 텍스트 요소에는 연관된 의미론적 의미와 언어적 실현이라는 두 가지 구성 요소가 있습니다. 이 프레임워크를 보여주기 위해 객관식 독해(MCRC)와 감성 분류(SC)가 선택되었습니다. MCRC의 경우, 문맥이 출력에 미치는 영향이 질문이 미치는 영향에 비해 더 까다로운 데이터 세트에서 감소하는 것으로 나타났습니다. 특히, 더 어려운 컨텍스트일수록 질문의 복잡성이 더 다양하게 변할 수 있습니다. 따라서 시험 제작자는 평가를 위한 객관식 문제를 설계할 때 문맥의 선택을 신중하게 고려해야 합니다. SC의 경우, 정서를 결정할 때 입력 텍스트의 의미론적 의미가 언어적 실현보다 우세한 것으로 나타났습니다(고려된 모든 데이터 세트에서 80% 이상). 이 프레임워크는 다음 https URL에서 사용할 수 있습니다 [abs|pdf]

[82/99] Recurrent Transformers with Dynamic Halt

Keywords: transformers_recurrent, augmenting_transformers_recurrent, transformers_recurrent_mechanism
Abstract: 이 논문에서는 반복 메커니즘으로 트랜스포머를 보강하는 두 가지 주요 접근 방식, 즉 (1) 유니버설 트랜스포머와 유사한 깊이별 반복을 통합하는 접근 방식과 (2) 시간적 잠재 병목 현상과 같은 청크별 시간적 반복을 통합하는 접근 방식의 귀납적 편향에 대해 연구합니다. 또한 위의 방법을 확장하고 결합하는 새로운 방법을 제안하고 조사합니다. 예를 들어 유니버설 트랜스포머의 글로벌 평균 기반 동적 중단 메커니즘과 유니버설 트랜스포머의 요소로 시간적 잠재 병목 현상을 보강하는 방법을 제안합니다. 장거리 아레나(LRA), 플립플롭 언어 모델링, 리스트옵스, 논리적 추론과 같은 여러 진단 작업에서 모델을 비교하고 귀납적 편향성을 조사합니다. [abs|pdf]

[83/99] SPARQL Generation with Entity Pre-trained GPT for KG Question Answering

Keywords: entity_linking_challenge, entity_linking_natural, linking_natural_language
Abstract: 지식 그래프의 인기는 지난 몇 년 동안 빠르게 성장해 왔습니다. 사람들은 인터넷의 수많은 온라인 데이터베이스를 통해 모든 지식을 쿼리할 수 있습니다. 하지만 프로그래머가 아닌 사용자도 알고 싶은 정보에 접근할 수 있다면 큰 성과가 될 것입니다. 자연어 처리 도구를 사용하여 이 과제를 해결하기 위해 많은 노력을 기울여 왔으며, 많은 도전을 통해 창의성을 장려해 왔습니다. 우리의 접근 방식은 자연어 질문에서 올바른 엔티티 연결을 가정하고 이를 통해 SPARQL 쿼리를 생성하도록 GPT 모델을 훈련하는 데 중점을 두었습니다. 우리는 작업의 어떤 속성이 몇 번 또는 제로 샷으로 풀기 가장 어려운지를 분리하고 성능을 향상시키기 위해 모든 엔티티에 대한 사전 학습(CWA)을 제안했습니다. 3샷 테스트에서 62.703%의 정확한 SPARQL 일치 정확도, 엔티티 연결 과제에서 F1 0.809, 질문 답변 과제에서 F1 0.009를 달성했습니다. [abs|pdf]

[84/99] Credal Learning Theory

Keywords: credal_theory_learning, finite_sample_training, probabilities_credal_sets
Abstract: 통계적 학습 이론은 머신러닝의 기초로, 미지의 확률 분포에서 나온다고 가정한 (단일) 훈련 세트에서 학습한 모델의 위험에 대한 이론적 한계를 제공합니다. 그러나 실제 배포에서는 데이터 분포가 달라질 수 있으며, 실제로도 종종 도메인 적응/일반화 문제가 발생합니다. 이 백서에서는 데이터 생성 분포의 가변성을 모델링하기 위해 볼록한 확률 집합(크레달 집합)을 사용하는 '크레달' 학습 이론의 토대를 마련합니다. 이러한 크레달 집합은 유한한 훈련 집합의 표본으로부터 추론할 수 있다고 주장합니다. 유한 가설 공간(실현 가능성 여부에 관계없이)과 무한 모델 공간의 경우에 대한 경계가 도출되며, 이는 고전적인 결과를 직접 일반화합니다. [abs|pdf]

[85/99] NCoder -- A Quantum Field Theory approach to encoding data

Keywords: ai_inspired_quantum, theory_qft_ncoder, inspired_quantum_field
Abstract: 이 백서에서는 양자장 이론(QFT)에서 영감을 얻은 해석 가능한 AI에 대한 새로운 접근 방식인 NCoder를 소개합니다. NCoder는 수정된 자동 인코더 신경망으로, 잠재 계층이 $n$-포인트 상관 함수의 하위 집합으로 규정되어 있습니다. 이미지를 격자장 이론에서 끌어온 것으로 간주하는 이 아키텍처는 파인만 다이어그램을 사용하여 이론의 효과적인 작용을 확장된 순서대로 섭동적으로 구성하는 작업을 모방합니다. 또는 NCoder는 고차원 데이터를 먼저 몇 가지 저차원 요약 통계(여기서는 $n$-포인트 상관관계 함수)로 요약하고, 이 통계로부터 데이터 생성 분포를 추론하여 후속 표본 외 데이터를 생성하는 통계적 추론 절차를 시뮬레이션하는 것으로 간주할 수도 있습니다. 이러한 방식으로 NCoder는 섭동 재노멀화 가능성과 모델의 충분성 사이의 흥미로운 대응 관계를 제시합니다. 우리는 NCoder를 MNIST 이미지 생성에 적용하여 그 효율성을 입증하고, 생성된 이미지가 이미지 분포의 처음 세 개의 $n$-포인트 함수에서 얻은 정보만으로 정확하게 분류될 수 있음을 발견합니다. [abs|pdf]

[86/99] MUSTAN: Multi-scale Temporal Context as Attention for Robust Video Foreground Segmentation

Keywords: video_foreground_segmentation, foreground_segmentation, foreground_segmentation_vfs
Abstract: 비디오 전경 분할(VFS)은 배경에서 움직이는 물체를 분할하는 것을 목표로 하는 중요한 컴퓨터 비전 작업입니다. 현재 대부분의 방법은 이미지 기반, 즉 모션 단서를 무시하고 공간 단서에만 의존합니다. 따라서 학습 데이터를 과적합하는 경향이 있으며 도메인 외(OOD) 분포에 대한 일반화가 잘 이루어지지 않습니다. 이러한 문제를 해결하기 위해 기존 연구에서는 광학적 흐름, 배경 감산 마스크 등 여러 가지 단서를 활용했습니다. 그러나 광학적 흐름과 같은 주석이 있는 비디오 데이터는 어려운 작업입니다. 본 논문에서는 비디오 데이터의 시간적 정보와 공간적 단서를 활용하여 OOD 성능을 개선합니다. 그러나 비디오 데이터의 시간적 정보를 해석 가능한 방식으로 모델링하는 방식에 따라 눈에 띄는 차이가 발생한다는 점이 문제입니다. 따라서 유니티는 비디오의 시간적 컨텍스트를 VFS 개발에 통합하는 전략을 고안했습니다. 이러한 접근 방식은 딥러닝 아키텍처인 MUSTAN1과 MUSTAN2를 탄생시켰으며, 이는 멀티스케일 시간적 컨텍스트에 대한 관심, 즉 모델이 VFS에 도움이 되는 더 나은 표현을 학습할 수 있도록 지원하는 아이디어를 기반으로 합니다. 또한, 새로운 비디오 데이터 세트, 즉 VFS용 실내 감시 데이터 세트(ISD)를 소개합니다. 이 데이터세트에는 전경 바이너리 마스크, 뎁스 맵, 인스턴스 시맨틱 주석 등 프레임 수준에서 여러 가지 주석이 있습니다. 따라서 ISD는 다른 컴퓨터 비전 작업에 도움이 될 수 있습니다. 유니티는 아키텍처의 효율성을 검증하고 성능을 기준선과 비교합니다. 우리는 제안된 방법이 OOD에서 벤치마크 방법보다 훨씬 뛰어난 성능을 발휘한다는 것을 입증합니다. 또한 ISD로 인해 OOD 데이터의 특정 비디오 카테고리에서 MUSTAN2의 성능이 크게 향상되었습니다. [abs|pdf]

[87/99] Institutional Platform for Secure Self-Service Large Language Model Exploration

Keywords: tenant_aware_computational, training_secure_inference, secure_inference_text
Abstract: 이 백서에서는 켄터키대학교 응용 AI 센터에서 개발한 사용자 친화적인 플랫폼을 소개합니다. 이 플랫폼은 대규모 맞춤형 언어 모델(LLM)에 대한 접근성을 높이기 위해 설계되었습니다. 이 시스템은 멀티-LoRA 추론의 최근 발전을 활용하여 다양한 사용자와 프로젝트를 위한 맞춤형 어댑터를 효율적으로 수용합니다. 이 백서에서는 데이터 세트 큐레이션, 모델 훈련, 보안 추론, 텍스트 기반 특징 추출을 포함하는 시스템의 아키텍처와 주요 기능에 대해 간략하게 설명합니다.
에이전트 기반 방법을 사용하여 테넌트 인식 컴퓨팅 네트워크를 구축하여 고립된 리소스 섬을 통합된 시스템으로 안전하게 활용하는 방법을 설명합니다. 이 플랫폼은 프로세스 및 데이터 격리, 종단 간 암호화, 역할 기반 리소스 인증에 중점을 두고 안전한 LLM 서비스를 제공하기 위해 노력합니다. 이러한 노력은 과학적 발견을 지원하는 최첨단 AI 모델과 기술에 대한 액세스를 간소화한다는 중요한 목표에 부합합니다. [abs|pdf]

[88/99] Can we Constrain Concept Bottleneck Models to Learn Semantically Meaningful Input Features?

Keywords: grained_concept_annotations, concept_representations_semantic, labelling_concept_representations
Abstract: 개념 병목 모델(CBM)은 사람이 정의한 개념 집합을 먼저 예측한 후 이 개념을 사용해 다운스트림 작업의 출력을 예측하기 때문에 본질적으로 해석 가능한 것으로 간주됩니다. 내재적 해석 가능성을 완전히 실현하고 모델의 출력에 대한 신뢰를 보장하려면 의미론적으로 매핑된 입력 피처를 기반으로 개념을 예측해야 합니다. 예를 들어, 이미지에서 부러진 뼈를 나타내는 픽셀이 골절 예측에 사용될 것으로 기대할 수 있습니다. 그러나 현재 문헌에 따르면 개념 예측은 종종 관련 없는 입력 특징에 매핑되기 때문에 실제로는 그렇지 않습니다. 이러한 현상은 개념 주석이 부정확하거나 입력 특징이 개념과 어떻게 관련되어야 하는지 불분명할 때 발생한다는 가설을 세우고 있습니다. 일반적으로 데이터 세트 라벨링이 CBM의 개념 표현에 미치는 영향은 아직 연구되지 않은 분야입니다. 따라서 이 백서에서는 세분화된 개념 주석이 있는 데이터 세트에서 CBM이 개념을 학습하는 방법을 살펴봅니다. 두 개념이 항상 함께 나타나는 것과 같이 문제가 되는 개념 상관관계를 제거하여 입력 특징에 대한 의미 매핑을 통해 CBM이 개념 표현을 학습할 수 있음을 보여줍니다. 평가를 지원하기 위해 카드 놀이 영역에 기반한 새로운 합성 이미지 데이터 세트를 소개하며, 이는 향후 CBM 연구의 벤치마크가 될 것으로 기대합니다. 검증을 위해 실제 흉부 엑스레이 데이터 세트에 대한 경험적 증거를 제공하여 실제 애플리케이션에서 의미론적으로 의미 있는 개념을 학습할 수 있음을 입증합니다. [abs|pdf]

[89/99] Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning

Keywords: bias_ai_models, addressing_biases_ai, unbiased_datasets_training
Abstract: AI 모델의 편향성을 해결하는 것은 공정하고 정확한 예측을 보장하는 데 매우 중요합니다. 그러나 학습을 위해 편향되지 않은 대규모 데이터 세트를 확보하는 것은 어려운 일입니다. 이 백서에서는 작은 데이터 세트와 편향 가능성이 있는 사전 학습된 모델만으로 AI 모델의 편향을 제거하기 위해 여러 가지 방법을 사용하는 포괄적인 접근 방식을 제안합니다. 데이터 분할, 로컬 트레이닝, 정규화된 미세 조정을 통해 사전 학습된 모델의 역편향으로 여러 모델을 트레이닝하여 잠재적으로 역편향된 모델을 확보합니다. 그런 다음 모든 모델에 앙상블 학습을 적용하여 편향되지 않은 예측에 도달합니다. 앙상블 모델의 추론 시간을 더욱 가속화하기 위해 지식 증류로 솔루션을 마무리하여 편향되지 않은 단일 신경망을 생성합니다. 이러한 접근법의 효과는 CIFAR10 및 HAM10000 데이터 세트에 대한 실험을 통해 입증되었으며, 유망한 결과를 보여주었습니다. 이 연구는 제한된 데이터 가용성 속에서도 보다 편향되지 않고 신뢰할 수 있는 AI 모델을 만들기 위한 지속적인 노력에 기여하고 있습니다. [abs|pdf]

[90/99] Graph Domain Adaptation: Challenges, Progress and Prospects

Keywords: graph_domain_adaptation, transfer_learning_graphs, graphs_adapts_knowledge
Abstract: 그래프 표현 학습은 실제 애플리케이션에서 종종 레이블 희소성 문제로 어려움을 겪기 때문에, 연구자들은 그래프 간 효과적인 지식 전달 패러다임으로 그래프 도메인 적응(GDA)을 제안했습니다. 특히, 특정 작업이 있는 목표 그래프에서 모델 성능을 향상시키기 위해 GDA는 여러 작업 관련 그래프를 소스 그래프로 도입하고 소스 그래프에서 학습한 지식을 목표 그래프에 적용합니다. GDA는 그래프 표현 학습과 도메인 적응의 장점을 결합한 것으로, 그래프 전이 학습의 유망한 방향으로 떠오르며 최근 많은 연구자들의 관심을 받고 있습니다. 본 논문에서는 GDA에 대한 연구를 종합적으로 개관하고 최근의 연구 성과를 자세히 살펴봅니다. 구체적으로 연구 현황과 과제를 개괄하고, 분류법을 제안하며, 대표작의 세부 내용을 소개하고 전망을 논의합니다. 우리가 아는 한 이 논문은 그래프 도메인 적응에 대한 최초의 조사입니다. 자세한 논문 목록은 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[91/99] Weakly Supervised Learners for Correction of AI Errors with Provable Performance Guarantees

Keywords: weakly_supervised_ai, ai_error_correctors, introducing_weakly_supervised
Abstract: 저희는 선험적 성능을 보장하는 약한 감독형 AI 오류 교정기를 도입하여 AI 오류를 처리하는 새로운 방법론을 제시합니다. 이러한 AI 교정기는 이전에 구축된 일부 기본 분류기의 결정을 승인하거나 거부함으로써 그 결정을 조정하는 역할을 하는 보조 맵입니다. 결정 거부는 결정에 대한 기권을 제안하는 신호로 사용될 수 있습니다. 이 작업의 핵심적인 기술적 초점은 잘못된 결정의 확률에 대한 한계를 통해 이러한 새로운 AI 교정기에 성능을 보장하는 것입니다. 이러한 한계는 분포에 구애받지 않으며 데이터 차원에 대한 가정에 의존하지 않습니다. 경험적 사례는 이 프레임워크가 훈련 데이터가 부족한 까다로운 실제 작업에서 이미지 분류기의 성능을 개선하는 데 어떻게 적용될 수 있는지 보여줍니다. [abs|pdf]

[92/99] Privacy and Security Implications of Cloud-Based AI Services : A Survey

Keywords: secure_robust_ml, privacy_security_landscape, categorize_quantify_privacy
Abstract: 이 백서에서는 오늘날 클라우드 생태계의 개인정보 보호 및 보안 환경을 자세히 살펴보고 머신러닝 모델이 초래하는 위험을 해결하는 데 있어 격차가 존재한다는 사실을 확인합니다. 머신러닝 알고리즘이 계속 진화하고 다양한 영역에서 애플리케이션을 찾으면서 개인정보 보호 및 보안 위험을 분류하고 정량화해야 할 필요성이 점점 더 중요해지고 있습니다. 서비스형 AI(AIaaS)라는 새로운 트렌드에 따라 머신러닝 AI 모델(또는 ML 모델)은 모델 공급업체가 클라우드에 배포하고 모델 소비자가 사용합니다. 먼저 AIaaS 환경을 조사하여 ML 모델, 특히 심층신경망이 초래하는 다양한 종류의 책임을 문서화한 다음, ML 모델의 제작자와 소비자가 노출된 위험과 현재까지 알려진 방어 수단을 총체적으로 조사하여 이러한 격차를 해소하기 위한 분류법을 소개합니다. 이러한 구조화된 접근 방식은 ML 모델 제공업체가 강력한 솔루션을 개발하는 데 도움이 될 것입니다. 마찬가지로, ML 모델 소비자도 이러한 솔루션을 평가하고 해당 서비스 참여의 의미를 이해하는 데 유용할 것입니다. 제안된 분류법은 안전하고 강력한 프라이빗 머신러닝 솔루션의 기본 토대를 제공하여 보다 투명하고 탄력적인 AI 시스템을 위한 길을 열어줍니다. [abs|pdf]

[93/99] MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts

Keywords: features_learned_experts, expert_specialize_processing, expert_pick_features
Abstract: 모델의 성능을 향상시킬 수 있는 전문가 혼합 모델(MoE)의 적용이 인기를 얻고 있습니다. MoE 구조에서 게이트 레이어는 입력 기능을 구별하고 다른 전문가에게 라우팅하는 데 중요한 역할을 합니다. 이를 통해 각 전문가가 해당 하위 작업을 전문적으로 처리할 수 있습니다. 그러나 게이트의 라우팅 메커니즘은 개별 MoE의 전문가가 할당된 하위 작업을 학습할 때 더 많은 샘플을 사용하지 못하여 일반화 능력을 향상시키는 데 한계가 있는 좁은 시야를 갖게 됩니다. 이를 효과적으로 해결하기 위해 전문가들 간에 적당한 수준의 상호 증류를 적용하여 각 전문가가 다른 전문가가 학습한 더 많은 특징을 포착하고 원래 할당된 하위 과제에 대해 더 정확한 인식을 얻을 수 있도록 하는 혼합 전문가(Mixture-of-Distilled-Expert, MoDE)라는 방법을 제안합니다. 표 형식, NLP, CV 데이터 세트를 포함한 다양한 실험을 통해 MoDE의 효과, 보편성, 견고성을 입증합니다. 또한 '전문가 프로빙'을 혁신적으로 구축하는 병행 연구를 통해 MoDE가 작동하는 이유를 실험적으로 증명합니다. 즉, 적당한 지식 추출이 각 개별 전문가의 할당된 과제에 대한 테스트 수행 능력을 향상시켜 MoE의 전반적인 성능 향상으로 이어질 수 있다는 것입니다. [abs|pdf]

[94/99] EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

Keywords: audio_generation_scalable, audio_generation_domain, audio_generation
Abstract: 대규모 모델의 등장은 머신러닝의 새로운 시대를 열었으며, 방대한 데이터 세트를 활용하여 복잡한 패턴을 캡처하고 합성함으로써 소규모 모델의 성능을 크게 뛰어넘었습니다. 이러한 발전에도 불구하고, 특히 오디오 생성 영역에서 확장에 대한 탐구는 여전히 제한적이며, 이전의 노력은 하이파이(HiFi) 44.1kHz 영역으로 확장되지 않았고 고주파 영역에서 스펙트럼 불연속성과 흐릿함, 그리고 도메인 외부 데이터에 대한 견고성 부족으로 어려움을 겪었습니다. 이러한 한계로 인해 음악 및 노래 생성을 비롯한 다양한 사용 사례에 모델을 적용하는 데 제약이 있습니다. 확장 가능한 생성적 적대적 네트워크(EVA-GAN)를 통해 향상된 다양한 오디오 생성 기능을 도입한 유니티의 연구는 스펙트럼 및 고주파 재구성, 도메인 외 데이터 성능의 견고성 측면에서 이전보다 크게 개선되어 36,000시간 분량의 44.1kHz 오디오, 상황 인식 모듈, 휴먼 인 더 루프 아티팩트 측정 툴킷의 광범위한 데이터 세트를 사용하여 하이파이 오디오를 생성하고 모델을 약 2억 개의 파라미터로 확장할 수 있게 해줍니다. 유니티의 작업 데모는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[95/99] Large Language Models in Cybersecurity: State-of-the-Art

Keywords: llm_driven_cybersecurity, driven_cybersecurity, defensive_adversarial_applications
Abstract: 대규모 언어 모델(LLM)의 등장은 인공지능에 대한 우리의 이해를 혁신적으로 변화시켜 인공지능에 더 가까이 다가갈 수 있게 해 주었습니다. 도입 이후 연구자들은 다양한 분야에서 LLM의 응용을 적극적으로 탐구하여 역량을 크게 향상시켰습니다. 전통적으로 데이터 기반 솔루션에 대한 저항이 강하고 머신러닝 수용이 더딘 사이버 보안이 대표적인 분야로 꼽힙니다. 이 연구는 기존 문헌을 검토하여 사이버 보안 영역에서 LLM의 방어적 및 공격적 애플리케이션에 대한 철저한 특성 분석을 제공합니다. 또한 현재 상황을 조사하고 분류할 뿐만 아니라 중요한 연구 격차도 파악합니다. 공격용과 방어용 애플리케이션을 모두 평가함으로써 LLM 기반 사이버 보안과 관련된 잠재적 위험과 기회에 대한 총체적인 이해를 제공하는 것을 목표로 합니다. [abs|pdf]

[96/99] Security and Privacy Challenges of Large Language Models: A Survey

Keywords: security_privacy_challenges, privacy_challenges_llms, privacy_attacks_llms
Abstract: 대규모 언어 모델(LLM)은 텍스트 생성 및 요약, 언어 번역, 질의응답 등 여러 분야에서 탁월한 기능을 발휘하며 기여해 왔습니다. 오늘날 LLM은 복잡한 언어 패턴을 분석하고 문맥에 따라 적절하고 연관성 있는 응답을 제공하는 기능을 통해 컴퓨터 언어 처리 작업에서 매우 인기 있는 도구로 자리 잡고 있습니다. 이러한 모델은 상당한 이점을 제공하지만 탈옥 공격, 데이터 중독 공격, 개인 식별 정보(PII) 유출 공격과 같은 보안 및 개인 정보 보호 공격에 취약하기도 합니다. 이 설문조사에서는 교통, 교육, 의료 등 다양한 영역에서 애플리케이션 기반 위험과 함께 학습 데이터와 사용자 모두에 대한 LLM의 보안 및 개인정보 보호 문제를 면밀히 검토합니다. LLM 취약성의 정도를 평가하고, LLM에 대한 새로운 보안 및 개인정보 보호 공격을 조사하며, 잠재적인 방어 메커니즘을 검토합니다. 또한 이 조사에서는 이 분야의 기존 연구 격차를 개괄하고 향후 연구 방향을 강조합니다. [abs|pdf]

[97/99] On the Interplay of Artificial Intelligence and Space-Air-Ground Integrated Networks: A Survey

Keywords: terrestrial_networks_sagins, design_terrestrial_networks, aerial_networks
Abstract: 우주 및 공중 네트워크와 지상 무선 시스템을 통합하는 우주-공중-지상 통합 네트워크(SAGIN)는 새롭게 떠오르는 6세대(6G) 무선 네트워크의 중요한 원동력입니다. 다양한 애플리케이션과 서비스에 상당한 이점을 가져다줄 뿐만 아니라, 작은 마을이나 광산 현장과 같은 외딴 지역 또는 비행기나 해상과 같이 지상 인프라가 도달할 수 없는 지역까지 고속 광대역 커버리지를 확장할 수 있도록 설계되었습니다. 그러나 전력 및 스토리지 리소스의 제한과 지상파 네트워크 설계에 따른 기타 제약으로 인해 SAGIN은 구상된 요구 사항을 충족하도록 지능적으로 구성 및 제어되어야 합니다. 한편, 인공지능(AI)은 6G의 또 다른 중요한 원동력입니다. 방대한 양의 가용 데이터로 인해 현재와 미래의 무선 네트워크의 시급한 과제를 해결하는 데 AI가 활용되고 있습니다. AI를 추가하고 의사 결정 및 예측 절차를 용이하게 함으로써 SAGIN은 주변 환경에 효과적으로 적응하여 다양한 지표의 성능을 향상시킬 수 있습니다. 이 연구에서는 AI 지원 SAGIN에 대한 최신 연구에 대한 전체적인 개요를 제공함으로써 AI와 SAGIN의 상호 작용을 조사하고자 합니다. 특히, SAGIN에서 AI의 몇 가지 잠재적 응용 분야에 대한 포괄적인 개요를 제시합니다. 또한 AI 활용에 있어 미해결 과제를 다루고 AI 개발에 있어 SAGIN의 기여에 대해 자세히 설명합니다. 마지막으로 기존 연구의 한계점을 짚어보고 향후 연구 방향에 대해 개괄적으로 설명합니다. [abs|pdf]

[98/99] Building Blocks to Empower Cognitive Internet with Hybrid Edge Cloud

Keywords: iot_cognitive_internet, internet_cognitive_iot, cognitive_iot_cognitive
Abstract: 모바일 인터넷에서 '인지 인터넷'으로 전환하면서 우리가 기술 및 인텔리전스를 활용하는 방식에 큰 변화가 일어나고 있습니다. 인지 인터넷은 연결된 사물이 독립적으로 지식과 이해를 습득할 수 있는 인지 사물 인터넷(인지 IoT)을 뛰어넘는 개념입니다. 모바일 인터넷 및 인지 IoT와 달리 인지 인터넷은 네트워크 전반에 걸쳐 협업 인텔리전스를 통합하여 인지 IoT 영역과 시스템 전반의 협업 및 인간 지능을 결합합니다. 이러한 통합 인텔리전스는 의사 결정의 자율성을 유지하고 다양한 정체성을 수용하면서 다양한 영역에 걸쳐 디바이스, 서비스, 기업, 개인 간의 상호 작용을 촉진합니다.
이 백서에서는 '인지 인터넷' 패러다임의 기본 요소, 뚜렷한 특징, 이점 및 산업적 영향에 대해 자세히 살펴봅니다. 또한 이러한 변화를 실현하는 데 있어 적응형 AI 인프라와 하이브리드 엣지 클라우드(HEC) 플랫폼의 중요성을 강조합니다. 이러한 변화는 인지 서비스, 서비스형 지식(KaaS) 경제, 의사 결정의 자율성 강화, 지속 가능한 디지털 발전, 데이터 관리 및 처리 기술의 발전, 개인정보 보호에 대한 강조를 가져옵니다. 이 백서는 인지 인터넷을 위한 HEC의 혁신적 잠재력을 이해하고 활용하는 데 중요한 자료가 될 것입니다. 사례 연구, 미래지향적 관점, 실제 적용 사례를 통해 이 새로운 패러다임에 대한 포괄적인 인사이트를 제공합니다. [abs|pdf]

[99/99] dRG-MEC: Decentralized Reinforced Green Offloading for MEC-enabled Cloud Network

Keywords: mobile_edge_computing, edge_computing, edge_servers
Abstract: 멀티 액세스 모바일 엣지 컴퓨팅(MEC)은 계산이 까다로운 엄격한 애플리케이션을 위한 유망한 솔루션으로, 6G 네트워크 서비스 요건을 충족할 수 있습니다. 하지만 엣지 서버는 작업 처리 과정에서 높은 연산 비용이 발생합니다. 본 논문에서는 그린 환경을 구현하는 공동 연산 오프로딩을 통해 총 연산 및 통신 오버헤드를 최소화하여 최적의 자원 활용을 위한 기법을 제안합니다. 본 논문에서 제안한 최적화 문제는 NP-하드이므로, 차원 문제와 가치 함수의 과대 추정 문제를 제거하는 분산 강화 학습(dRL) 접근법을 제안했습니다. 이 기법은 기준 방식에 비해 총 시스템 비용을 37.03% 절감할 수 있습니다. [abs|pdf]

저작자표시 비영리 변경금지

'Paper Tale > Archive of arxiv' 카테고리의 다른 글

🍞 오늘의 AI 논문 [2024-02-12] (0)	2024.02.22
🍞 오늘의 AI 논문 [2024-02-07] (1)	2024.02.22
🍞 오늘의 AI 논문 [2024-02-02] (0)	2024.02.21
🍞 오늘의 AI 논문 [2024-02-01] (0)	2024.02.21
🍞 오늘의 AI 논문 [2024-01-31] (0)	2024.02.21

현재글🍞 오늘의 AI 논문 [2024-02-05]