프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-02-01]

다각 2024. 2. 21. 17:17

[1/76] SDRDPy: An application to graphically visualize the knowledge obtained with supervised descriptive rule algorithms

Keywords: descriptive_rule_discovery, rule_discovery, sdrdpy
Abstract: SDRDPy는 전문가가 모든 지도 설명 규칙 검색 알고리즘으로 추출한 지식을 직관적인 그래픽과 표로 표현할 수 있는 데스크톱 애플리케이션입니다. 이 애플리케이션은 알고리즘이 실행된 도구에 관계없이 데이터 세트의 관련 정보와 규칙, 데이터 및 각 규칙에 연결된 품질 측정값 간의 관계를 보여주는 데이터 분석을 제공할 수 있습니다. 모든 정보는 전문가 분석과 다양한 형식의 보고서 내보내기를 용이하게 하기 위해 사용자 친화적인 애플리케이션에 표시됩니다. [abs|pdf]

[2/76] SwarmBrain: Embodied agent for real-time strategy game StarCraft II via large language models

Keywords: war_tasks_starcraft, strategy_implementation_starcraft, zerg_intelligence
Abstract: 대규모 언어 모델(LLM)은 최근 다양한 탐색 작업에서 상당한 성과를 거두며 에이전트 기반 분야를 지배해 온 기존 강화 학습 기반 방법의 성능을 능가하는 성과를 보이고 있습니다. 본 백서의 목적은 스타크래프트 II 게임 환경 내에서 실시간 전략 전쟁 과제를 수행하는 데 있어 LLM의 효율성을 조사하는 것입니다. 본 논문에서는 스타크래프트 II 게임 환경에서 실시간 전략 구현을 위해 LLM을 활용하는 에이전트인 스웜브레인(SwarmBrain)을 소개합니다. 스웜브레인은 두 가지 핵심 구성 요소로 이루어져 있습니다: 1) 최첨단 LLM으로 구동되는 오버마인드 인텔리전스 매트릭스는 높은 수준의 관점에서 거시적 수준의 전략을 조율하도록 설계되었습니다. 이 매트릭스는 저그 지능 두뇌의 가장 중요한 의식을 모방하여 자원을 할당하고, 확장을 지시하고, 다각도의 공격을 조율하기 위한 전략적 예지력을 종합합니다. 2) 오버마인드 지능 매트릭스의 계산된 심의에 민첩하게 대응하는 군집 반사망. 군집 반사망은 LLM 추론에 내재된 지연 시간으로 인해 조건 반응 상태 기계 프레임워크를 사용하여 저그 유닛의 기본 기동에 대한 신속한 전술적 대응을 가능하게 합니다. 실험 설정에서 스웜브레인은 컴퓨터로 제어되는 테란 적과 대치하는 저그 종족을 통제합니다. 실험 결과는 스웜브레인이 경제력 증강, 영토 확장, 전술 수립을 수행할 수 있는 능력을 보여주며, 스웜브레인이 다양한 난이도로 설정된 컴퓨터 플레이어를 상대로 승리를 거둘 수 있다는 것을 보여줍니다. [abs|pdf]

[3/76] Aesthetic Preference Prediction in Interior Design: Fuzzy Approach

Keywords: predicting_aesthetic_preferences, preference_aesthetic_score, quantifying_predicting_aesthetic
Abstract: 인테리어 디자인은 보기 좋고 기분 좋은 공간을 만드는 것입니다. 그러나 미적 선호의 주관적인 특성은 인테리어 디자인을 시각적으로 매력적으로 만드는 요소를 정의하고 정량화하는 데 상당한 어려움을 줍니다. 본 논문에서는 인테리어 디자인에서 미적 선호도를 정량화하고 예측하는 새로운 방법론을 도입하여 이러한 격차를 해소합니다. 이 연구는 퍼지 로직과 이미지 처리 기술을 결합합니다. 우리는 소셜 미디어 플랫폼에서 색상 조화, 밝기, 복잡성과 같은 필수 시각적 속성에 초점을 맞춘 인테리어 디자인 이미지 데이터 세트를 수집했습니다. 이러한 특징들을 가중 평균을 사용하여 통합하여 일반적인 미적 점수를 계산합니다. 이러한 접근 방식은 전반적인 미적 선호도를 계산할 때 개인의 색상 선호도를 고려합니다. 먼저 빨간색, 갈색 등의 원색에 대한 사용자 평가를 수집하여 선호도를 파악합니다. 그런 다음 이미지의 상위 5개 주요 색상의 픽셀 수를 사용하여 색 구성표 선호도를 파악합니다. 그런 다음 색 구성표 선호도와 심미적 점수를 퍼지 추론 시스템에 입력으로 전달하여 전체 선호도 점수를 계산합니다. 이 점수는 색상 선택과 일반적인 미적 매력을 고려하여 특정 인테리어 디자인에 대한 사용자의 선호도를 종합적으로 측정한 것입니다. 방법론의 유효성을 검증하기 위해 2AFC(두 가지 대안 강제 선택) 방법을 사용하여 0.7의 주목할 만한 적중률을 달성했습니다. 이 연구는 디자이너와 전문가들이 특히 디지털 미디어에 크게 의존하는 세상에서 사람들의 인테리어 디자인 선호도를 더 잘 이해하고 충족시키는 데 도움이 될 수 있습니다. [abs|pdf]

[4/76] Learning to Stop Cut Generation for Efficient Mixed-Integer Linear Programming

Keywords: challenge_formulate_cuts, cuts_generation_stopping, integer_linear_programs
Abstract: 절단면(컷)은 이중 바운드를 크게 강화하고 풀이 성능을 향상시키기 때문에 혼합 정수 선형 프로그램(MILP)을 푸는 데 중요한 역할을 합니다. 컷의 핵심 문제는 언제 컷 생성을 중단해야 하는가 하는 점이며, 이는 MILP를 효율적으로 푸는 데 중요합니다. 그러나 많은 최신 MILP 솔버는 이 문제를 해결하기 위해 하드코딩된 휴리스틱을 사용하는데, 이는 특정 애플리케이션에서 MILP의 기본 패턴을 무시하는 경향이 있습니다. 이 문제를 해결하기 위해 우리는 컷 생성 중지 문제를 강화 학습 문제로 공식화하고 효과적인 중지 전략을 학습할 수 있는 새로운 하이브리드 그래프 표현 모델(HYGRO)을 제안합니다. HYGRO의 매력적인 특징은 MILP의 동적 및 정적 특징을 모두 효과적으로 포착하여 정지 전략에 대한 동적 의사결정이 가능하다는 점입니다. 우리가 아는 한, HYGRO는 컷 생성 중단 문제를 해결하는 최초의 데이터 기반 방법입니다. 실험 결과, HYGRO는 최신 솔버와 접근 방식을 통합함으로써 경쟁사 기준선에 비해 MILP 해결의 효율성을 크게 향상시켜 최대 31%까지 개선하는 것으로 나타났습니다. [abs|pdf]

[5/76] Linguistically Communicating Uncertainty in Patient-Facing Risk Prediction Models

Keywords: uncertainty_quantification_ai, quantification_ai_models, quantification_ai
Abstract: 이 백서는 의료 분야에서 환자를 대면하는 상황에 적용할 때 AI 모델의 불확실성 정량화와 관련된 고유한 문제를 다룹니다. 모델 개발자나 도메인 전문가를 위해 맞춤화된 기존의 설명 가능한 인공 지능(XAI) 방법과 달리 자연어로 의사 소통하고, 표현하고, 이해도를 평가하는 데는 추가적인 고려 사항이 필요합니다. Workday는 위험 예측의 맥락에서 자연어를 사용한 커뮤니케이션 모델 성능, 신뢰도, 추론 및 알려지지 않은 지식의 문제점을 파악합니다. 체외수정 결과 예측의 구체적인 적용에 초점을 맞춰 이러한 문제를 해결하기 위한 설계를 제안합니다. [abs|pdf]

[6/76] Difficulty Modelling in Mobile Puzzle Games: An Empirical Study on Different Methods to Combine Player Analytics and Simulated Data

Keywords: estimations_difficulty_scenarios, accurate_estimations_difficulty, estimation_difficulty_conditions
Abstract: 난이도는 플레이어 참여의 핵심 동인 중 하나이며, 디자이너가 플레이어 경험을 최적화하기 위해 가장 많이 조정하는 요소 중 하나이기 때문에 난이도 운영은 게임 개발 스튜디오에게 매우 중요한 과제입니다. 플레이어가 콘텐츠와 상호작용하여 수집한 데이터로 지표를 생성하는 것이 일반적인 방법이지만, 이는 콘텐츠가 출시된 후에야 추정할 수 있고 잠재적인 미래 플레이어의 특성을 고려하지 못합니다.
이 글에서는 이러한 조건에서 난이도를 추정하기 위한 여러 가지 잠재적 솔루션을 제시하고, 다양한 시나리오에서 어떤 방법과 어떤 유형의 데이터가 더 나은 성과를 내는지 파악하기 위한 비교 연구 결과를 소개합니다.
연구 결과, 코호트 통계와 시뮬레이션 데이터의 조합으로 훈련된 모델이 모든 시나리오에서 가장 정확한 난이도 추정치를 산출하는 것으로 나타났습니다. 또한 이러한 모델 중에서 인공 신경망이 가장 일관된 결과를 보여주었습니다. [abs|pdf]

[7/76] Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?

Keywords: word_problems_tests, biases_text_comprehension, children_solving
Abstract: 인지 모델로 대규모 언어 모델(LLM)을 사용하는 것에 대한 관심이 높아지고 있습니다. 이러한 목적을 달성하기 위해서는 어떤 인지적 특성이 LLM으로 잘 모델링되는지, 그렇지 않은지를 이해하는 것이 중요합니다. 이 연구에서는 산술 단어 문제를 풀 때 어린이들이 보이는 편향성과 관련하여 LLM의 편향성을 연구합니다. 학습 과학 문헌을 조사하여 문제 해결 과정을 텍스트 이해, 솔루션 계획, 솔루션 실행의 세 가지 단계로 나눌 수 있다고 가정합니다. 우리는 이 과정의 어느 부분이 현재의 최신 인공신경망으로 충실하게 모델링될 수 있는지 파악하기 위해 각 단계에 대한 테스트를 구성합니다. 우리는 문제 특징을 세밀하게 제어할 수 있는 신경 기호학적 방법을 사용하여 각 테스트에 대한 새로운 단어 문제 세트를 생성합니다. 그 결과, 명령어 튜닝이 있든 없든 LLM은 풀이 과정의 텍스트 이해와 풀이 계획 단계 모두에서 인간과 유사한 편향을 보이지만, 문제의 산술 표현에 의존하는 마지막 단계(풀이 실행)에서는 그렇지 않다는 증거를 발견했습니다. [abs|pdf]

[8/76] SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

Keywords: language_modeling_speechcomposer, modeling_speechcomposer_easily, language_model_speechcomposer
Abstract: 최근 언어 모델의 발전으로 여러 음성 관련 작업의 성능이 크게 향상되었습니다. 기존 음성 언어 모델은 일반적으로 작업별 프롬프트 토큰을 사용하여 다양한 음성 작업을 단일 모델로 통합합니다. 그러나 이러한 설계는 서로 다른 음성 작업 간의 본질적인 연결을 생략하여 잠재적으로 각 작업의 성능을 향상시킬 수 있습니다. 이 연구에서는 고정된 프롬프트 토큰 세트를 구성하여 일반적인 음성 작업을 통합할 수 있는 새로운 디코더 전용 음성 언어 모델인 SpeechComposer를 제안합니다. 음성 합성, 음성 인식, 음성 언어 모델링, 텍스트 언어 모델링의 네 가지 주요 작업을 기반으로 구축된 SpeechComposer는 음성 변환 및 음성 향상과 같이 잘 설계된 프롬프트 토큰의 구성을 통해 더 많은 음성 작업으로 쉽게 확장할 수 있습니다. 또한 프롬프트 토큰의 통합을 통해 다양한 음성 작업 간에 보다 구조화된 방식으로 지식을 공유할 수 있습니다. 실험 결과는 우리가 제안한 SpeechComposer가 기본 작업과 복합 작업의 성능을 모두 향상시킬 수 있음을 보여주며, 공유 프롬프트 토큰의 효과를 보여줍니다. 놀랍게도, 통합 디코더 전용 모델은 단일 작업을 위해 설계된 전문가 모델인 기준선과 비슷하거나 더 나은 성능을 달성했습니다. [abs|pdf]

[9/76] Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability

Keywords: motivation_reinforcement_learning, intrinsic_motivation_reinforcement, policy_trained_reinforcement
Abstract: 엔드투엔드 멀티태스크 대화 시스템은 일반적으로 대화 파이프라인을 위한 별도의 모듈로 설계됩니다. 이 중 정책 모듈은 사용자 입력에 대한 응답으로 수행할 작업을 결정하는 데 필수적입니다. 이 정책은 에이전트가 보상 신호의 형태로 피드백을 받는 환경을 활용하여 강화 학습 알고리즘에 의해 학습됩니다. 그러나 현재의 대화 시스템은 빈약하고 단순한 보상만을 제공합니다. 내재적 동기 강화 학습 알고리즘을 연구하는 것이 이 연구의 목표입니다. 이를 통해 에이전트에게 내재적 인센티브 시스템을 학습시킴으로써 학습을 빠르게 가속화하고 행동의 질을 판단하는 능력을 향상시킬 수 있습니다. 특히 무작위 네트워크 증류 및 호기심 기반 강화 학습 기법을 적용하여 상태 방문 빈도를 측정하고 발화 간의 의미적 유사성을 사용하여 탐구를 장려합니다. 이질적인 데이터 세트인 MultiWOZ에 대한 실험 결과에 따르면 내재적 동기 기반 토론 시스템이 외재적 인센티브에 의존하는 정책보다 더 나은 성과를 내는 것으로 나타났습니다. 예를 들어, 사용자-시스템 대화 간의 의미적 유사성을 사용하여 학습하는 무작위 네트워크 증류 방식을 채택하면 평균 73%라는 놀라운 성공률을 달성할 수 있습니다. 이는 평균 성공률이 60%에 불과한 기본 근사 정책 최적화(PPO)에 비해 크게 개선된 수치입니다. 또한 예약률 및 완료율과 같은 성과 지표도 기준치 대비 10% 상승한 것으로 나타났습니다. 또한, 이러한 내재적 인센티브 모델은 점점 더 많은 도메인에서 시스템의 정책 탄력성을 개선하는 데 도움이 됩니다. 이는 더 넓은 범위의 도메인을 포괄하는 설정으로 확장하는 데 유용할 수 있음을 의미합니다. [abs|pdf]

[10/76] Paramanu: A Family of Novel Efficient Indic Generative Foundation Language Models

Keywords: language_models_indian, large_language_models, models_indian_languages
Abstract: 인도어를 위한 새로운 언어 모델 제품군인 Gyan AI Paramanu('아톰')를 소개합니다. 10개 인도 언어(아삼어, 방글라, 힌디어, 콘카니, 마이틸리, 마라티어, 오디아, 산스크리트어, 타밀어, 텔루구어)를 5개 스크립트(방글라, 데바나가리, 오디아, 타밀어, 텔루구어)의 다양한 크기로 단일 GPU에서 처음부터 사전 학습한 자동 회귀 단일 언어, 이중 언어, 다국어 인도 언어 모델 모음입니다.모델은 단일 GPU에서 1024의 컨텍스트 크기로 사전 학습됩니다. 이 모델은 매우 효율적이고, 작고, 빠르고, 강력합니다. 또한, 보이지 않는 언어까지 토큰화할 수 있는 효율적인 최첨단 Indic 토큰화 도구도 개발했습니다. 다국어 mParamanu 모델에서 '다중 언어의 저주'를 피하기 위해 동일한 스크립트를 사용하여 유형별 그룹화를 통해 비교 가능한 말뭉치를 사전 학습했습니다. 방글라, 힌디어, 산스크리트어에 대한 문법, 일관성, 창의성, 사실성 메트릭에 대해 오픈 엔드 텍스트 생성을 위해 사전 학습된 모델을 사람이 직접 평가했습니다. 방글라, 힌디어, 산스크리트어 모델은 표준 7B LLM에 비해 크기가 66배에서 20배까지 작음에도 불구하고 GPT-3.5-Turbo(ChatGPT), Bloom 7B, LLaMa-2 7B, OPT 6.7B, GPT-J 6B, GPTNeo 1.3B, GPT2-XL 대규모 언어 모델(LLM)을 큰 차이로 앞섰습니다. 사전 학습된 모델에서 추론을 실행하려면 CPU만 있으면 충분하며 GPU는 필요하지 않습니다. 또한 사전 학습된 방글라데시, 힌디어, 마라티어, 타밀어, 텔루구어 모델을 각 언어의 23,000개 명령어에 대해 인스트럭션 튜닝했습니다. 사전 학습 및 인스트럭션 튜닝된 모델은 인도어용으로 개발된 가장 강력하고 효율적인 소형 생성 언어 모델이며, 다양한 결과를 통해 많은 양의 컴퓨팅 성능과 방대한 수의 파라미터 없이도 고품질의 생성 언어 모델이 가능하다는 결론을 도출했습니다. 이 https URL에서 모델을 공개할 계획입니다. [abs|pdf]

[11/76] Supporting Anticipatory Governance using LLMs: Evaluating and Aligning Large Language Models with the News Media to Anticipate the Negative Impacts of AI

Keywords: impacts_emerging_ai, impacts_identified_news, anticipate_ai_impacts
Abstract: 특히 개발 초기 단계에서는 새로운 AI 기술의 부정적인 영향을 예측하는 것이 어려운 일입니다. 이러한 예측에 대해 잘 연구되지 않은 접근 방식 중 하나는 이 프로세스를 개선하고 안내하기 위해 LLM을 사용하는 것입니다. 생성된 텍스트의 편향성을 설명하기 위한 LLM과 평가 지표의 발전에도 불구하고 이러한 모델이 예측 작업에서 얼마나 잘 수행되는지는 불분명합니다. 특히, AI의 영향을 예측하기 위해 LLM을 사용하면 이러한 모델이 생성할 수 있는 부정적인 영향의 범주와 품질에 대한 의문이 제기됩니다. 이 백서에서는 신기술에 대한 규범적 평가가 풍부한 다양한 데이터 소스인 뉴스 미디어를 활용하여 비교의 기준이 될 영향의 분류법을 공식화합니다. 전 세계 수백 개의 온라인 뉴스 도메인에 게시된 수천 개의 뉴스 기사를 컴퓨터로 분석하여 10가지 AI 영향 카테고리로 구성된 분류법을 개발합니다. 그런 다음 이 기준선의 샘플을 사용하여 명령어 기반(GPT-4 및 Mistral-7B-Instruct)과 미세 조정된 완성 모델(Mistral-7B 및 GPT-3)을 모두 평가합니다. 뉴스 미디어의 영향에 대해 미세 조정된 Mistral-7B를 사용하여 생성된 영향은 GPT-4와 같은 더 큰 규모의 모델을 사용하여 생성된 영향과 질적으로 동등한 경향이 있음을 발견했습니다. 또한 이러한 LLM은 뉴스 미디어에서 확인된 부정적 영향의 분류를 대부분 반영하는 영향을 생성하지만, 지침 기반 모델에서 생성된 영향은 미세 조정된 모델과 비교하여 특정 범주의 영향 생성에 차이가 있음을 발견했습니다. 이 연구는 영향 예측에 사용될 때 최첨단 LLM의 잠재적 편향성을 강조하고, 영향 예측 연습 시 뉴스 미디어에 반영된 영향과 같은 다양한 범위의 영향을 더 잘 반영하기 위해 소규모 LLM을 조정하는 것의 이점을 보여줍니다. [abs|pdf]

[12/76] Prompt-Driven LLM Safeguarding via Directed Representation Optimization

Keywords: crafted_safety_prompts, treats_safety_prompts, safety_prompt_optimization
Abstract: 안전 프롬프트를 사용하여 모델 입력을 준비하는 것은 대형 언어 모델(LLM)이 유해한 의도가 포함된 쿼리를 준수하지 못하도록 보호하는 일반적인 관행입니다. 그러나 안전 프롬프트의 작동 메커니즘은 아직 완전히 이해되지 않았으며, 이로 인해 LLM의 안전성을 개선하기 위해 자동으로 최적화할 수 있는 잠재력이 저해되고 있습니다. 이러한 문제에서 착안하여 저희는 모델 표현의 관점에서 안전 프롬프트의 영향을 조사했습니다. 그 결과, 모델 표현 공간에서 유해한 쿼리와 무해한 쿼리를 크게 구분할 수 있지만 안전 프롬프트에 의해 눈에 띄게 개선되지는 않는다는 사실을 발견했습니다. 대신, 쿼리의 표현은 서로 다른 안전 프롬프트에 의해 비슷한 방향으로 이동하며, 쿼리가 무해한 경우에도 모델이 거부(즉, 지원 제공을 거부)하는 경향이 더 커집니다. 이러한 연구 결과에 착안하여 자동 안전 프롬프트 최적화를 위한 DRO(지시 표현 최적화)라는 방법을 제안합니다. DRO는 안전 프롬프트를 연속적이고 학습 가능한 임베딩으로 취급하고 모델의 거부 확률이 증가하는 방향을 따라/반대로 유해/무해한 쿼리의 표현을 이동하는 방법을 학습합니다. DRO는 일반적인 모델 성능에 영향을 주지 않으면서도 사람이 만든 안전 프롬프트의 보호 성능을 현저히 개선하고 도메인 외부 벤치마크에서 평가한 강력한 기준선을 능가하는 성능을 보여줍니다. [abs|pdf]

[13/76] Shrub of a thousand faces: an individual segmentation from satellite images using deep learning

Keywords: sensed_rgb_imagery, segmentation_models_species, monitor_shrub_growth
Abstract: 주니페루스 커뮤니스와 같이 수명이 긴 관목의 분포와 크기 구조를 모니터링하면 기후 변화가 고산 및 고위도 생태계에 미치는 장기적인 영향을 추정하는 데 사용할 수 있습니다. 과거의 항공 초고해상도 이미지는 관목의 성장과 분포를 고정밀로 모니터링할 수 있는 회고적 도구를 제공합니다. 현재 딥러닝 모델은 정의된 모양을 가진 물체의 윤곽을 감지하고 묘사하는 데 있어 인상적인 결과를 제공합니다. 그러나 향나무와 같이 복잡한 성장 패턴을 나타내는 자연물을 감지하는 데 이러한 모델을 적용하는 것은 여전히 어려운 과제입니다.
이 연구에서는 원격으로 감지된 RGB 이미지를 마스크 R-CNN 기반 인스턴스 분할 모델과 함께 활용하여 스페인 시에라 네바다의 수목 위의 주니퍼러스 관목을 개별적으로 묘사하는 새로운 접근 방식을 제시합니다. 이 연구에서는 사진 해석(PI) 데이터와 현장 작업(FW) 데이터를 각각 사용하여 모델을 개발하고 외부에서 검증하는 새로운 데이터 구축 설계를 제안합니다. 또한, 지상 실측 영역에 대한 다중 교차점(MIoGTA)이라는 새로운 메트릭을 기반으로 한 새로운 관목 맞춤형 평가 알고리즘을 제안하여 모델 관목 묘사 성능을 평가하고 최적화합니다. 마지막으로 개발된 모델을 처음으로 배포하여 주니퍼러스 개체에 대한 벽 대 벽 지도를 생성합니다.
실험 결과는 기존 현장 조사 방법의 한계를 극복하는 데 있어 이중 데이터 구축 접근법의 효율성을 보여줍니다. 또한 복잡한 성장 패턴을 가진 종에 대한 인스턴스 세분화 모델을 평가할 때 데이터 주석의 불확실성에 대해 더 많은 복원력을 보이는 MIoGTA 메트릭의 견고성을 강조합니다. 또한, PI 관목과 FW 관목을 묘사할 때 ResNet101-C4 백본과 함께 마스크 R-CNN을 사용하면 각각 87,87%와 76.86%의 F1 점수를 달성할 수 있다는 것을 보여줍니다. [abs|pdf]

[14/76] Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

Keywords: grained_multimodal_dialogue, fine_grained_multimodal, grained_multimodal
Abstract: 텍스트와 이미지 양식을 통합하는 다중 모드 대규모 언어 모델(MLLM)의 인상적인 기능에도 불구하고 세부적인 시각적 요소를 정확하게 해석하는 데는 여전히 어려움이 있습니다. 이 백서에서는 세밀한 이미지 이해를 개선하고 반응의 환각을 줄이기 위해 최첨단(SOTA) 객체 감지 및 광학 문자 인식 모델로 MLLM을 향상시키는 실증적 연구를 소개합니다. 유니티의 연구는 임베딩 기반 탐지 정보 주입, 이러한 주입이 MLLM의 원래 능력에 미치는 영향, 탐지 모델의 상호 호환성을 조사합니다. LLaVA-1.5, DINO, PaddleOCRv2와 같은 모델을 대상으로 체계적인 실험을 수행하여 이러한 접근 방식이 특정 시각 작업에서 MLLM의 성능을 개선할 뿐만 아니라 원래의 강점도 유지한다는 사실을 밝혀냈습니다. 그 결과 향상된 MLLM은 10개 벤치마크 중 9개에서 SOTA 모델보다 성능이 뛰어나며, 정규화된 평균 점수에서 최대 12.99%의 향상을 달성하여 멀티모달 이해에 있어 괄목할 만한 발전을 이루었습니다. MLLM의 세분화된 멀티모달 대화 기능에 대한 추가 탐색을 촉진하기 위해 코드를 공개합니다. [abs|pdf]

[15/76] Circuit Partitioning for Multi-Core Quantum Architectures with Deep Reinforcement Learning

Keywords: quantum_computing_graph, quantum_computing, learning_techniques_quantum
Abstract: 양자 컴퓨팅은 양자역학의 고유한 특성을 활용하여 고전적으로 난해한 문제를 해결할 수 있는 엄청난 잠재력을 가지고 있습니다. 양자 아키텍처의 확장성은 여전히 중요한 과제로 남아 있습니다. 확장성 문제를 해결하기 위해 멀티코어 양자 아키텍처가 제안되고 있지만 하드웨어, 통신, 컴파일 등에서 새로운 과제가 제기되고 있습니다. 이러한 과제 중 하나는 양자 알고리즘을 양자 컴퓨터의 다양한 코어에 맞게 조정하는 것입니다. 이 논문은 심층 강화 학습을 이용한 회로 분할에 대한 새로운 접근 방식을 제시하여 양자 컴퓨팅과 그래프 분할의 발전에 기여합니다. 이 연구는 심층 강화 학습 기법을 양자 회로 매핑에 통합하는 첫 번째 단계로, 이러한 문제에 대한 새로운 패러다임의 해결책의 문을 열었습니다. [abs|pdf]

[16/76] Understanding polysemanticity in neural networks through coding theory

Keywords: neural_network_interpretability, interpretability_neural, network_interpretability_theoretical
Abstract: 많은 노력에도 불구하고 신경망의 해석 가능성은 여전히 달성하기 어려운 목표로 남아 있으며, 이전 연구에서는 대부분의 단일 뉴런이 네트워크 출력에 미치는 영향에 대한 간결한 설명을 제공하지 못했습니다. 이러한 한계는 대부분의 뉴런의 다의적 특성으로 인해 특정 뉴런이 서로 관련이 없는 여러 네트워크 상태에 관여하여 해당 뉴런의 해석을 복잡하게 만들기 때문입니다. 이 논문에서는 신경과학과 정보 이론에서 개발된 도구를 적용하여 네트워크 해석 가능성에 대한 새로운 실용적 접근 방식과 다의성 및 코드 밀도에 대한 이론적 통찰을 제안합니다. 활성화의 공분산 행렬의 아이젠스펙트럼을 검사하여 네트워크 코드의 중복 수준을 추론합니다. 또한, 무작위 투영을 통해 네트워크가 매끄러운 코드를 나타내는지 또는 차별화할 수 없는 코드를 나타내는지, 따라서 코드가 얼마나 해석 가능한지 알 수 있는 방법을 보여줍니다. 이와 동일한 프레임워크는 학습 성능에 대한 다의적 뉴런의 이점을 설명하고 Elhage 외(2022)의 최근 연구 결과에서 발견된 경향을 설명합니다. 이러한 접근 방식은 신경망의 해석 가능성 추구를 발전시켜 신경망의 기본 구조에 대한 인사이트를 제공하고 회로 수준의 해석 가능성에 대한 새로운 길을 제시합니다. [abs|pdf]

[17/76] MelNet: A Real-Time Deep Learning Algorithm for Object Detection

Keywords: melnet_object_detection, datasets_imagenet_coco, imagenet_coco
Abstract: 이 연구에서는 객체 감지를 위한 새로운 딥러닝 알고리즘인 MelNet을 소개했습니다. 멜넷은 물체 감지를 위해 KITTI 데이터 세트를 활용하여 학습을 진행했습니다. 300번의 학습을 거친 후, MelNet은 0.732의 mAP(평균 정밀도) 점수를 달성했습니다. 또한 세 가지 대체 모델인 YOLOv5, EfficientDet, Faster-RCNN-MobileNetv3를 KITTI 데이터 세트에 대해 훈련하고 객체 감지를 위해 MelNet과 나란히 배치했습니다.
이 결과는 특정 사례에서 전이 학습을 사용하는 것이 효과적이라는 것을 강조합니다. 특히, 유명 데이터 세트(예: ImageNet, COCO, Pascal VOC)로 훈련된 기존 모델이 더 우수한 결과를 도출했습니다. 또 다른 결과는 특정 시나리오에 맞는 새로운 모델을 만들어 특정 데이터 세트에 대해 훈련하는 것이 가능하다는 것을 보여줍니다. 이 조사에 따르면, 멜넷을 KITTI 데이터 세트에서만 훈련할 경우 150회 훈련 후에도 EfficientDet을 능가하는 것으로 나타났습니다. 결과적으로, 훈련 후 MelNet의 성능은 사전 훈련된 다른 모델의 성능과 거의 일치하는 것으로 나타났습니다. [abs|pdf]

[18/76] Attention Graph for Multi-Robot Social Navigation with Deep Reinforcement Learning

Keywords: multi_agent_deep, entities_pedestrians_agents, agent_deep_rl
Abstract: 보행자 사이에서 로봇의 탐색 전략을 학습하는 것은 도메인 기반 애플리케이션에 매우 중요합니다. 인식, 계획, 예측을 결합하면 로봇과 보행자 간의 상호 작용을 모델링할 수 있으며, 특히 심층 강화 학습(RL)을 기반으로 하는 최근의 접근 방식에서는 인상적인 결과를 얻을 수 있습니다. 그러나 이러한 연구는 다중 로봇 시나리오를 고려하지 않습니다. 이 백서에서는 RL을 사용하여 다중 에이전트의 사회적 인식 내비게이션 전략을 학습하는 새로운 방법인 MultiSoc을 소개합니다. 멀티 에이전트 심층 RL에 대한 최근 연구에서 영감을 얻은 이 방법은 엔티티(보행자 및 에이전트)의 위치와 시야를 결합하여 에이전트 상호 작용의 그래프 기반 표현을 활용합니다. 각 에이전트는 주의 메커니즘과 결합된 두 개의 그래프 신경망에 기반한 모델을 사용합니다. 먼저 에지 선택기가 스파스 그래프를 생성한 다음, 군중 코디네이터가 노드 주의를 적용하여 각 엔티티가 다른 엔티티에 미치는 영향을 나타내는 그래프를 생성합니다. 이를 모델 없는 RL 프레임워크에 통합하여 다중 에이전트 정책을 학습합니다. 시뮬레이션을 통해 접근 방식을 평가하고 다양한 조건(에이전트 수/보행자 수)에서 일련의 실험을 제공합니다. 실험 결과, 우리의 방법은 소셜 내비게이션 딥러닝의 단일 에이전트 기법보다 빠르게 학습하며, 이질적인 여러 사람이 있는 까다로운 군중 내비게이션에서 효율적인 멀티 에이전트 암묵적 조정을 가능하게 합니다. 또한 사용자 지정 가능한 메타 파라미터를 통합하여 내비게이션 전략에 고려할 이웃 밀도를 조정할 수 있습니다. [abs|pdf]

[19/76] ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields

Keywords: 3d_scene_editing, 3d_scenes, versatility_replaceanything3d
Abstract: 장면 내에서 특정 오브젝트를 교체할 수 있는 새로운 텍스트 가이드 3D 장면 편집 방법인 ReplaceAnything3D 모델(RAM3D)을 소개합니다. 장면의 멀티뷰 이미지, 교체할 오브젝트를 설명하는 텍스트 프롬프트, 새 오브젝트를 설명하는 텍스트 프롬프트가 주어지면 지우기 및 바꾸기 방식을 통해 여러 시점에 걸쳐 3D 일관성을 유지하면서 장면의 오브젝트를 새로 생성된 콘텐츠로 효과적으로 교체할 수 있습니다. 유니티는 다양한 사실적인 3D 씬에 ReplaceAnything3D를 적용하여 전체적인 무결성에 영향을 주지 않으면서도 씬의 나머지 부분과 잘 통합되는 수정된 전경 오브젝트의 결과를 보여줌으로써 ReplaceAnything3D의 다용도성을 입증합니다. [abs|pdf]

[20/76] Efficient Subseasonal Weather Forecast using Teleconnection-informed Transformers

Keywords: revolutionized_weather_forecasting, weather_forecasting_achieving, weather_forecasting
Abstract: 농업, 수자원 관리, 재난 조기 경보에 중추적인 역할을 하는 계절별 예측은 대기의 혼란스러운 특성으로 인해 어려움에 직면해 있습니다. 최근 머신러닝(ML)의 발전으로 수치 모델과 경쟁할 수 있는 예측 기술을 확보함으로써 일기 예보에 혁명이 일어났습니다. 하지만 이러한 기초 모델을 학습하는 데는 수천 개의 GPU가 필요하기 때문에 상당한 탄소 배출이 발생하고 광범위한 적용이 제한됩니다. 게다가 ML 모델은 물리적 일관성과 기상학적 의미가 결여된 매끄러운 결과를 생성하여 픽셀 단위의 오류 점수를 속이는 경향이 있습니다. 앞서 언급한 문제를 해결하기 위해 유니티는 텔레커넥션 정보 기반 트랜스포머를 제안합니다. 이 아키텍처는 사전 학습된 판구 모델을 활용하여 우수한 초기 가중치를 달성하고 원격 연결 정보에 기반한 시간 모듈을 통합하여 확장된 시간 범위에서 예측 가능성을 향상시킵니다. 놀랍게도 이 방법은 판구 모델의 매개변수 중 1.1%를 조정함으로써 2주 리드 타임에 4개의 지표면과 5개의 상층 대기 변수에 대한 예측력을 향상시킵니다. 또한, 원격 연결 필터링 기능은 출력의 공간적 세분성을 크게 개선하여 잠재적인 물리적 일관성을 나타냅니다. 이 연구는 미래의 기상 조건을 예측하는 데 있어 대기 및 해양 원격 연결의 중요성을 강조합니다. 또한 연구자들이 다양한 다운스트림 작업에서 기존 기초 모델을 활용할 수 있는 자원 효율적인 경로를 제시합니다. [abs|pdf]

[21/76] Making Sense of Knowledge Intensive Processes: an Oil & Gas Industry Scenario

Keywords: collective_experiences_sensemaking, sensemaking_collaborative, sensemaking_collaborative_decision
Abstract: 감각 형성은 사람들이 경험에 의미를 부여하는 지속적이고 지속적인 과정입니다. 이는 납치라고 알려진 개인적 과정일 수도 있고, 사람들이 집단적 경험에 의미를 부여하는 집단적 과정일 수도 있습니다. 집단의 감각 형성은 경험에 대한 각 개인의 납치 과정에 의해 영향을 받습니다. 모든 협업 프로세스는 결과를 보여주기 위해 어느 정도의 센스메이킹이 필요합니다. 지식 집약적 프로세스의 경우, 센스메이킹은 대부분의 작업과 관련된 핵심적인 요소입니다. 이 글에서는 석유 및 가스 산업의 지식 집약적 프로세스에서 수행된 현장 조사 결과를 소개합니다. 연구 결과에 따르면 다양한 유형의 지식이 결합되어 의사결정 과정의 결과(예: 결정, 추가 논의의 필요성 등)를 구성할 수 있음을 알 수 있었습니다. 이 백서에서는 협업적 의사결정 과정의 의사결정 결과를 구성하기 위해 결합할 수 있는 지식 유형의 초기 세트를 제시합니다. 또한, 인공 지능으로 구동되는 시스템을 사용하여 의사결정 과정을 지원하는 아이디어에 대해서도 논의합니다. [abs|pdf]

[22/76] Manipulating Predictions over Discrete Inputs in Machine Teaching

Keywords: machine_teaching_discrete, machine_teaching, manipulating_student_models
Abstract: 머신 러닝은 모델('학생'이라고 함)이 교사가 제시한 특정 목표를 달성할 수 있도록 최적의(일반적으로 최소한의) 데이터 세트를 생성하는 작업을 수반하는 경우가 많습니다. 연속형 영역에서는 머신러닝의 효과에 대한 연구가 풍부하지만, 불연속형 영역에서 머신러닝의 효과에 대한 연구는 상대적으로 제한적입니다. 본 논문에서는 이산 영역에서의 머신러닝, 특히 학습 데이터를 효율적으로 변경하여 교사의 목표에 따라 학생 모델의 예측을 조작하는 것에 초점을 맞춥니다. 우리는 이 작업을 조합 최적화 문제로 공식화하고 반복적 탐색 알고리즘을 제안하여 해결합니다. 우리의 알고리즘은 교사가 학생의 모델을 개선하기 위해 잘못된 예측을 수정하거나 악의적으로 모델을 조작하여 일부 특정 샘플을 자신의 개인적 이익에 부합하는 목표 클래스로 잘못 분류하려는 시나리오에서 상당한 수치적 장점을 보여줍니다. 실험 결과, 우리가 제안한 알고리즘은 모델의 예측을 효과적이고 효율적으로 조작하는 데 있어 기존의 기준선을 뛰어넘는 우수한 성능을 보여줬습니다. [abs|pdf]

[23/76] Explainable Benchmarking for Iterative Optimization Heuristics

Keywords: benchmarking_heuristic_algorithms, benchmarking_heuristic, iterative_optimization_heuristics
Abstract: 휴리스틱 알고리즘을 벤치마킹하는 것은 어떤 조건에서 어떤 종류의 문제에 대해 특정 알고리즘이 잘 작동하는지 이해하는 데 매우 중요합니다. 휴리스틱 최적화 알고리즘에 대한 대부분의 최신 연구에서는 매우 제한된 수의 시나리오, 알고리즘 구성 및 하이퍼파라미터 설정만 탐색하기 때문에 불완전하고 종종 편향된 인사이트와 결과를 도출합니다. 이 백서에서는 설명 가능한 벤치마킹이라는 새로운 접근 방식을 소개합니다. 다양한 최적화 알고리즘의 성능과 다양한 구성 요소 및 하이퍼파라미터의 영향을 분석하고 이해하기 위한 IOH-Xplainer 소프트웨어 프레임워크를 소개합니다. 이 프레임워크는 두 가지 모듈식 최적화 프레임워크의 맥락에서 소개합니다. 이 프레임워크를 통해 다양한 알고리즘 구성 요소와 구성의 영향을 조사하여 다양한 시나리오에서 성능에 대한 인사이트를 제공합니다. 반복적 최적화 휴리스틱의 동작과 효율성을 보다 투명하고 이해하기 쉬운 방식으로 평가하고 해석하는 체계적인 방법을 제공함으로써 벤치마킹과 알고리즘 설계를 개선할 수 있습니다. [abs|pdf]

[24/76] Global-Liar: Factuality of LLMs over Time and Geographic Regions

Keywords: global_liar_dataset, factual_accuracy_performance, evaluates_factual_accuracy
Abstract: 정보 검색을 위한 AI 기반 솔루션, 특히 GPT 시리즈와 같은 대규모 언어 모델(LLM)에 대한 의존도가 높아지면서 특히 온라인에서 잘못된 정보와 허위 정보가 만연하는 가운데 사실성과 공정성에 대한 중요성이 강조되고 있습니다. 이 연구는 GPT-3.5 및 GPT-4를 포함하여 널리 채택된 GPT 모델의 사실적 정확성, 안정성 및 편향성을 평가하여 AI를 매개로 한 정보 확산의 신뢰성과 무결성에 기여합니다.
지리적, 시간적 표현 측면에서 고유하게 균형 잡힌 데이터 세트인 'Global-Liar'를 도입하여 LLM 편향성을 보다 미묘하게 평가할 수 있게 되었습니다. 분석 결과, GPT 모델의 최신 버전이 항상 성능 향상으로 이어지지는 않는 것으로 나타났습니다. 특히, 3월에 출시된 GPT-4 버전은 이후 6월에 출시된 버전보다 사실 정확도가 더 높은 것으로 나타났습니다. 또한, 우려할 만한 편향성이 관찰되어 글로벌 사우스보다 글로벌 노스의 진술을 우선시하여 기존의 정보 불평등을 잠재적으로 악화시킬 수 있습니다. 아프리카와 중동과 같은 지역은 사실의 정확도가 훨씬 낮아 불리한 상황에 처해 있습니다. 시간 경과에 따른 성능 변동은 모델 업데이트가 모든 지역에 일관되게 동일한 혜택을 제공하지 않을 수 있음을 시사합니다.
또한 이 연구는 이진 의사 결정 강제, 모델 재실행 및 온도와 같은 다양한 LLM 구성 설정이 모델의 사실성에 미치는 영향에 대한 인사이트를 제공합니다. 이진(참/거짓) 선택으로 제한된 모델은 '불분명' 옵션을 허용하는 모델에 비해 사실성이 떨어지는 것으로 나타났습니다. 낮은 온도 설정에서의 단일 추론은 다양한 구성에서 다수결 투표의 신뢰도와 일치합니다. 이를 통해 얻은 인사이트는 문화적으로 다양하고 지리적으로 포괄적인 모델 교육 및 평가의 필요성을 강조합니다. 이러한 접근 방식은 기술의 글로벌 형평성을 달성하고 전 세계에 AI의 혜택을 공평하게 분배하는 데 핵심적인 역할을 합니다. [abs|pdf]

[25/76] A Cross-View Hierarchical Graph Learning Hypernetwork for Skill Demand-Supply Joint Prediction

Keywords: graph_learning_hypernetwork, jointly_predict_demand, demand_supply_prediction
Abstract: 기술과 산업 환경이 급변함에 따라 기술 요구사항이 역동적으로 변화하고 있으며, 직원과 고용주는 노동 시장에서 경쟁력을 유지하기 위해 이러한 변화를 예측하는 것이 매우 중요합니다. 이 분야의 기존 노력은 분야별 전문 지식에 의존하거나 기술 진화를 단순화된 시계열 예측 문제로 간주합니다. 그러나 이 두 가지 접근 방식은 서로 다른 기술 간의 정교한 관계와 기술 수요와 공급 변화 사이의 내적 연관성을 간과합니다. 이 논문에서는 공동 기술 수요-공급 예측을 위한 크로스뷰 계층 그래프 학습 하이퍼네트워크(CHGH) 프레임워크를 제안합니다. 구체적으로 CHGH는 i) 기술 수요와 공급의 상호 연결을 포착하는 크로스뷰 그래프 인코더, ii) 클러스터 관점에서 기술의 공진화를 모델링하는 계층적 그래프 인코더, iii) 과거 수요-공급 격차를 통합하여 수요-공급 변동을 공동으로 예측하는 조건부 하이퍼 디코더로 구성된 인코더-디코더 네트워크입니다. 세 가지 실제 데이터 세트에 대한 광범위한 실험을 통해 7가지 기준선과 비교하여 제안된 프레임워크의 우수성과 세 가지 모듈의 효과를 입증했습니다. [abs|pdf]

[26/76] Leveraging Swin Transformer for Local-to-Global Weakly Supervised Semantic Segmentation

Keywords: scene_layout_cnns, cnns_cams, networks_cnns_cams
Abstract: 최근 컴퓨터 비전 분야에서는 이미지 수준의 레이블을 감독으로 사용하는 약한 감독 의미 분할이 큰 주목을 받고 있습니다. 기존의 대부분의 방법은 클래스 활성화 맵(CAM)에서 의사 레이블을 생성하여 지도 학습을 촉진하는 데 중점을 둠으로써 이러한 레이블의 공간 정보 부족으로 인해 발생하는 문제를 해결해 왔습니다. 컨볼루션 신경망(CNN)의 국지적인 패턴 감지 때문에 CAM은 종종 물체의 가장 식별력이 높은 부분만 강조하기 때문에 전경의 물체와 배경을 정확하게 구별하기가 어렵습니다. 최근 연구에 따르면 비전 트랜스포머(ViT) 기능은 글로벌 뷰를 제공하기 때문에 CNN보다 장면 레이아웃을 캡처하는 데 더 효과적이라고 합니다. 그러나 계층적 ViT의 사용은 이 분야에서 광범위하게 탐구되지 않았습니다. 이 연구에서는 로컬 뷰와 글로벌 뷰를 통합하여 초기 시드 CAM의 정확도를 향상시키는 'SWTformer'를 제안함으로써 스윈 트랜스포머의 활용을 탐구합니다. SWTformer-V1은 패치 토큰만을 특징으로 사용하여 클래스 확률과 CAM을 생성합니다. SWTformer-V2는 다중 스케일 피처 융합 메커니즘을 통합하여 추가 정보를 추출하고 배경 인식 메커니즘을 활용하여 교차 객체 식별이 개선된 보다 정확한 로컬라이제이션 맵을 생성합니다. PascalVOC 2012 데이터 세트에 대한 실험 결과, SWTformer-V1은 0.98% 맵당 더 높은 로컬라이제이션 정확도를 달성하여 최첨단 모델보다 뛰어난 성능을 보였습니다. 또한 초기 로컬라이제이션 맵을 생성할 때 분류 네트워크에만 의존하는 다른 방법보다 평균 0.82% mIoU 더 높은 성능을 제공합니다. SWTformer-V2는 생성된 시드 CAM의 정확도를 5.32% mIoU까지 향상시켜 스윈 트랜스포머가 제공하는 로컬-글로벌 뷰의 효과를 더욱 입증합니다. [abs|pdf]

[27/76] Neural Machine Translation for Malayalam Paraphrase Generation

Keywords: generating_paraphrases_malayalam, paraphrases_malayalam_utilizing, paraphrases_malayalam
Abstract: 이 연구에서는 영어 의역에 사용할 수 있는 리소스와 사전 학습된 신경망 기계 번역(NMT) 모델을 활용하여 말라얄람어로 의역을 생성하는 네 가지 방법을 살펴봅니다. BLEU, METEOR, 코사인 유사도 등 자동화된 메트릭과 사람의 주석을 모두 사용하여 결과 의역을 평가합니다. 연구 결과에 따르면 자동화된 평가 척도는 사람의 판단과 일관되게 일치하지 않기 때문에 말라얄람어에 완전히 적합하지 않을 수 있습니다. 이러한 불일치는 특히 응집성이 높은 언어에 대한 보다 미묘한 의역 평가 접근법의 필요성을 강조합니다. [abs|pdf]

[28/76] Deterministic Computing Power Networking: Architecture, Technologies and Prospects

Keywords: power_networking_det, networking_det_cpn, computing_power_networking
Abstract: 계산 집약적이고 지연에 민감한 작업과 같은 새로운 인터넷 서비스가 개발됨에 따라 기존의 '최선의 노력' 네트워크 전송 모드가 큰 도전을 받고 있습니다. 네트워크 시스템은 서비스의 안전하고 효율적인 운영을 보장하기 위해 새로운 애플리케이션에 대한 종단 간 전송 결정성과 컴퓨팅 결정성을 제공하는 것이 시급히 요구됩니다. 컴퓨팅과 네트워킹의 융합 연구를 바탕으로 결정론적 컴퓨팅 파워 네트워킹(Det-CPN)이라는 새로운 네트워크 패러다임이 제안되었습니다. 이 글에서는 먼저 컴퓨팅 파워 네트워킹의 연구 성과를 소개합니다. 그런 다음 Det-CPN의 동기와 시나리오를 분석합니다. 그런 다음 Det-CPN의 시스템 아키텍처, 기술 역량, 워크플로우 및 주요 기술을 소개합니다. 마지막으로 Det-CPN의 과제와 향후 동향을 분석하고 논의합니다. [abs|pdf]

[29/76] SWEA: Changing Factual Knowledge in Large Language Models via Subject Word Embedding Altering

Keywords: editing_knowledge_inference, word_embedding_altering, editing_factual_knowledge
Abstract: 모델 편집은 최근 널리 주목받고 있습니다. 현재의 모델 편집 방법은 주로 모델 매개변수를 수정하거나 기존 모델에 추가 모듈을 추가하는 것입니다. 그러나 전자는 LLM에 돌이킬 수 없는 손상을 입히고, 후자는 추론 오버헤드가 추가로 발생하며 퍼지 벡터 매칭이 항상 신뢰할 수 있는 것은 아닙니다. 이러한 문제를 해결하기 위해 저희는 추론 단계에서 주제어의 표현을 수정하고 지식 편집이라는 목표를 달성하는 확장 가능한 주제어 임베딩 변경(SWEA) 프레임워크를 제안합니다. SWEA는 모델 외부에서 정확한 키 매칭을 사용하고 신뢰할 수 있는 주제어 임베딩 변경을 수행하여 추론 오버헤드를 증가시키지 않으면서도 모델의 원래 가중치를 보호합니다. 그런 다음, 먼저 편집 대상에 대한 임베딩 벡터를 최적화한 다음 지식 임베딩 차원(KED)을 억제하여 최종 융합 임베딩을 얻는 최적화 후 억제 융합 방법을 제안합니다. 따라서 본 논문에서는 사실적 지식을 LLM에서 편집하기 위한 SWEAOS 방법을 제안합니다. 우리는 COUNTERFACT와 zsRE 데이터 세트에서 SWEAOS의 최첨단 성능을 시연합니다. 지식 편집에서 SWEAOS의 추론 능력을 더욱 검증하기 위해 보다 복잡한 RIPPLEEDITS 벤치마크에서 평가합니다. 두 개의 하위 데이터 세트에 대한 결과는 SWEAOS가 최첨단 추론 능력을 보유하고 있음을 보여줍니다. [abs|pdf]

[30/76] Biospheric AI

Keywords: ai_ethics, ai_ethics_value, paradigm_ai_ethics
Abstract: AI 윤리 및 가치관 정립의 지배적인 패러다임은 지극히 인간 중심적입니다. 이러한 학문은 철저히 인간의 가치에 초점을 맞추기 때문에 통찰의 깊이와 폭이 제한됩니다. 최근에는 지각주의적 관점으로 확장하려는 시도가 시작되었습니다. 우리는 이 두 가지 관점 중 어느 것도 생물권의 실제 복잡성을 포착하고 AI가 생물권을 손상시키지 않도록 보장하기에 충분하지 않다고 주장합니다. 따라서 우리는 생태 중심적 관점을 가정하는 새로운 패러다임, 즉 생물권 AI를 제안합니다. 이러한 AI가 설계될 수 있는 가상의 방법에 대해 논의합니다. 또한 생물권적 관심사에 부합하는 최신 AI 모델의 연구 및 적용 방향을 제시합니다. 전반적으로 이 연구는 AI와 생물권 간의 상호 작용에 초점을 맞춘 포괄적인 연구 프로그램을 향한 첫 걸음을 내딛고자 합니다. [abs|pdf]

[31/76] Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning

Keywords: learning_crucial_time, time_series_learn, representations_downstream_forecasting
Abstract: 대조적 표현 학습은 데이터 노이즈와 불완전성, 감독 신호의 희소성 문제를 완화하기 때문에 시계열 분석에서 매우 중요합니다. 그러나 기존의 제약적 학습 프레임워크는 일반적으로 시간 내적 특징에 초점을 맞추기 때문에 시계열 데이터의 복잡한 특성을 충분히 활용하지 못합니다. 이 문제를 해결하기 위해 우리는 긴 시퀀스 시계열 예측을 위한 혁신적인 증류 강화 프레임워크인 DE-TSMCL을 제안합니다. 특히, 최적화된 하위 시퀀스를 얻기 위해 타임스탬프를 마스킹할지 여부를 적응적으로 학습하는 학습 가능한 데이터 증강 메커니즘을 설계합니다. 그런 다음, 라벨이 없는 시계열의 기본 구조 특징을 학습하기 위해 시계열의 샘플 간 및 시간 내 상관관계를 탐색하는 모멘텀 업데이트가 포함된 대조 학습 작업을 제안합니다. 한편, 보다 강력한 표현을 학습하고 대조 학습 프로세스를 촉진하기 위해 지도 학습 작업을 설계합니다. 마지막으로 위의 두 가지 작업을 공동으로 최적화합니다. 여러 작업에서 모델 손실을 개발함으로써 다운스트림 예측 작업을 위한 효과적인 표현을 학습할 수 있습니다. 최첨단 기술과 비교한 광범위한 실험을 통해 최대 27.3%까지 개선할 수 있는 DE-TSMCL의 효과가 잘 입증되었습니다. [abs|pdf]

[32/76] Graph Transformers without Positional Encodings

Keywords: graph_representation_learning, gnn_architectures_graph, passing_graph_neural
Abstract: 최근 그래프 표현 학습용 트랜스포머는 단독으로 또는 메시지 전달 그래프 신경망(MP-GNN)과 결합하여 다양한 데이터 세트에서 최첨단 성능을 달성하면서 점점 더 인기를 얻고 있습니다. 이러한 인상적인 결과를 얻기 위해서는 구조적 또는 위치 인코딩(PE)의 형태로 본질적으로 구조에 구애받지 않는 트랜스포머 아키텍처에 그래프 유도 편향성을 도입하는 것이 핵심입니다. 그러나 이러한 인코딩을 설계하는 것은 까다롭고 라플라시안 고유 벡터, 상대 랜덤워크 확률(RRWP), 공간 인코딩, 중심성 인코딩, 에지 인코딩 등 다양한 인코딩을 설계하려는 시도가 있었습니다. 이 연구에서는 주의 메커니즘 자체에 그래프 구조에 대한 정보가 포함되어 있다면 이러한 인코딩이 전혀 필요하지 않을 수 있다고 주장합니다. 우리는 그래프의 라플라시안 스펙트럼을 인식하는 새로운 스펙트럼 인식 주의 메커니즘을 사용하는 고유포머를 소개하고, 여러 표준 GNN 벤치마크 데이터 세트에서 SOTA MP-GNN 아키텍처 및 그래프 트랜스포머와 비슷한 성능을 달성하며, 심지어 일부 데이터 세트에서는 SOTA를 능가하는 성능을 보인다는 것을 실증적으로 보여 줍니다. 또한, 우리 아키텍처는 그래프 귀납적 편향이 내재되어 있기 때문에 에포크 수 측면에서 훨씬 더 빠르게 훈련할 수 있다는 사실도 발견했습니다. [abs|pdf]

[33/76] Double InfoGAN for Contrastive Analysis

Keywords: gan_separation, synthesis_gan_separation, gan_based_method
Abstract: 대조 분석(CA)은 배경 영역과 비교하여 대상 영역의 공통점과 차이점을 발견하는 작업입니다. 이는 의료 영상과 같은 많은 애플리케이션에서 큰 관심을 받고 있습니다. 현재 최신(SOTA) 방법은 VAE(CA-VAE)에 기반한 잠재 변수 모델입니다. 그러나 이 방법들은 모두 중요한 제약 조건을 무시하거나 근본적인 가정을 적용하지 않습니다. 이로 인해 특징적인 요인이 일반적인 요인으로 오인되거나 그 반대의 경우 차선의 솔루션이 도출될 수 있습니다. 또한, 생성된 이미지의 품질이 VAE에서 흔히 볼 수 있는 다소 낮은 품질로 인해 해석 가능성과 유용성이 떨어집니다. 여기서는 GAN의 고품질 합성과 InfoGAN의 분리 능력을 활용하는 최초의 GAN 기반 CA 방법인 Double InfoGAN을 제안합니다. 간단한 합성 예제부터 복잡한 의료 이미지까지 4개의 시각적 데이터 세트에 대한 실험 결과, 제안된 방법은 잠재적 분리와 이미지 품질 측면에서 SOTA CA-VAE보다 우수한 성능을 보였습니다. 데이터 세트와 코드는 온라인에서 확인할 수 있습니다. [abs|pdf]

[34/76] PF-GNN: Differentiable particle filtering based approximation of universal graph representations

Keywords: graph_neural_networks, passing_graph_neural, learns_richer_graph
Abstract: 메시지를 전달하는 그래프 신경망(GNN)은 그래프 동형성에 대한 1-WL 색상 개선 테스트에 의해 표현력이 제한되는 것으로 알려져 있습니다. 표현력이 더 뛰어난 다른 모델들은 계산 비용이 많이 들거나 그래프에서 구조적 특징을 추출하기 위한 전처리가 필요합니다. 이 연구에서는 인위적으로 비대칭을 도입하고 1-WL이 멈출 때 색상을 더욱 세분화하는 방법인 개별화 및 세분화(IR) 패러다임에서 작동하는 정확한 동형성 솔버 기법으로 학습 과정을 안내하여 GNN을 범용적으로 만들 것을 제안합니다. 동형 솔버는 잎이 그래프를 고유하게 식별하는 색상의 검색 트리를 생성합니다. 그러나 이 트리는 기하급수적으로 커지기 때문에 학습 관점에서 바람직하지 않은 수작업 가지치기 기술이 필요합니다. 우리는 확률론적 관점을 취하고 검색 트리의 뿌리에서 잎까지 여러 경로를 샘플링하여 색칠(즉, 임베딩)의 검색 트리를 근사화합니다. 보다 차별적인 표현을 학습하기 위해, 순차적 상태 추정을 위한 원칙적인 접근 방식인 입자 필터 업데이트를 통해 샘플링 프로세스를 안내합니다. 이 알고리즘은 엔드투엔드 차별화가 가능하고, 모든 GNN을 백본으로 적용할 수 있으며, 런타임의 선형적인 증가만으로 더 풍부한 그래프 표현을 학습할 수 있습니다. 실험 평가 결과, 이 접근 방식은 동형성 탐지를 위한 합성 벤치마크와 실제 데이터 세트 모두에서 주요 GNN 모델보다 일관되게 우수한 성능을 보였습니다. [abs|pdf]

[35/76] Haris: an Advanced Autonomous Mobile Robot for Smart Parking Assistance

Keywords: mapping_parking_area, mapping_parking, precise_mapping_parking
Abstract: 이 백서에서는 번호판 인식을 통해 혼잡한 주차장에서 차량의 위치를 추적하는 첨단 자율 이동 로봇 시스템인 Haris를 소개합니다. 이 시스템은 자율 주행과 주차 구역의 정밀한 매핑을 위해 동시 위치 파악 및 매핑(SLAM)을 사용하므로 GPS에 의존할 필요가 없습니다. 또한 이 시스템은 물체 감지를 위해 컴퓨터 비전 기술을 사용하는 정교한 프레임워크를 활용하고, 번호판 번호를 읽고 위치 데이터와 연결하기 위해 자동 번호판 인식(ALPR)을 사용합니다. 이 정보는 백엔드 서비스와 동기화되고 사용자 친화적인 모바일 앱을 통해 사용자가 액세스할 수 있어 차량 위치를 쉽게 파악하고 주차 시설 내 혼잡을 완화할 수 있습니다. 이 시스템은 스포츠 경기장과 같이 혼잡한 장소의 단기 대형 옥외 주차 공간 관리를 개선할 수 있는 잠재력을 가지고 있습니다. 이 로봇의 데모는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[36/76] Operator learning without the adjoint

Keywords: operator_learning_adjoint, operator_learning_recover, complexity_operator_learning
Abstract: 연산자 학습의 핵심에는 수수께끼가 있습니다. 어떻게 하면 인접자를 조사하지 않고도 데이터에서 자기접합 연산자가 아닌 연산자를 복구할 수 있을까요? 현재의 실용적인 접근 방식은 인접 연산자에 대한 액세스 없이 연산자의 순방향 동작에 의해 생성된 데이터만 사용하면서 연산자를 정확하게 복구할 수 있다고 제안합니다. 그러나 순진하게도 인접 연산자의 동작을 샘플링하는 것이 필수적인 것 같습니다. 이 논문에서는 이 수수께끼를 부분적으로 설명하기 위해 부접합을 쿼리하지 않고도 푸리에 기준으로 투영을 통해 비자기접합 무한차원 콤팩트 연산자 군을 근사화할 수 있음을 증명합니다. 그런 다음 이 결과를 타원 편미분 연산자의 그린 함수를 복구하는 데 적용하여 부속점이 없는 샘플 복잡도 한계를 도출합니다. 기존 이론은 연산자 학습에서 낮은 샘플 복잡도를 정당화하지만, 우리의 분석은 이론과 실제 사이의 간극을 좁히려는 최초의 무접점 분석입니다. [abs|pdf]

[37/76] Towards Physical Plausibility in Neuroevolution Systems

Keywords: power_consumption_training, minimizing_power_consumption, dnns_increasing_power
Abstract: 인공지능(AI) 모델, 특히 심층신경망(DNN)의 사용이 증가함에 따라 학습 및 추론 과정에서 전력 소비가 증가하여 환경 문제가 제기되고 있으며, 에너지 효율이 높은 알고리즘과 하드웨어 솔루션에 대한 필요성이 커지고 있습니다. 이 연구는 머신러닝(ML), 특히 추론 단계에서 증가하는 에너지 소비 문제를 해결합니다. 전력 사용량을 조금만 줄여도 에너지를 크게 절약할 수 있어 사용자, 기업, 환경에 모두 도움이 됩니다. 유니티의 접근 방식은 신경 진화 프레임워크를 사용해 인공 신경망(ANN) 모델의 정확도를 극대화하는 동시에 전력 소비를 최소화하는 데 중점을 둡니다. 이를 위해 적합성 함수에서 전력 소비를 고려합니다. 전력 효율이 높은 모듈이 선택될 확률이 높아지도록 계층의 모듈을 확률적으로 재도입하는 새로운 돌연변이 전략을 도입합니다. 단일 훈련 단계에서 두 개의 개별 모델을 훈련하면서 비슷한 정확도를 유지하면서 한 모델이 다른 모델보다 전력 효율을 높일 수 있는 새로운 기법을 소개합니다. 그 결과 예측 성능은 크게 저하되지 않으면서도 ANN 모델의 전력 소비를 최대 29.2%까지 줄일 수 있는 것으로 나타났습니다. [abs|pdf]

[38/76] Prediction of multitasking performance post-longitudinal tDCS via EEG-based functional connectivity and machine learning methods

Keywords: multitasking_task_eeg, longitudinal_brain_stimulation, task_eeg_acquisition
Abstract: 특히 종단적 개입 후 인지 능력의 변화를 예측하고 이해하는 것은 신경과학의 근본적인 목표입니다. 경두개 직류 자극(tDCS)과 같은 종단적 뇌 자극 기반 중재는 휴지기 막 전위의 단기적 변화를 유도하고 인지 과정에 영향을 미칩니다. 그러나 중재 후 이러한 인지 능력의 변화를 예측하는 연구는 거의 이루어지지 않았습니다. 이 연구에서는 다양한 뇌파 기반 기능적 연결성 분석과 머신러닝 알고리즘을 사용하여 복잡한 멀티태스킹 과제에서 인지 수행 능력의 변화를 예측함으로써 문헌의 이러한 격차를 해결하고자 합니다. 40명의 피험자를 실험 조건과 활성-대조 조건으로 나누어 실험을 진행했습니다. 실험 1일차에는 모든 피험자가 32채널 뇌파를 동시에 수집하는 멀티태스킹 과제를 수행했습니다. 2일차부터 7일차까지 실험 조건에 속한 피험자는 과제 훈련 중에 15분간 2mA의 양극 tDCS 자극을 받았습니다. 활성-통제 조건의 피험자는 과제 훈련 중에 15분 동안 가짜 자극을 받았습니다. 10일째 되는 날, 모든 피험자는 다시 멀티태스킹 과제를 수행하며 뇌파를 수집했습니다. 1일차와 10일차의 뇌파 데이터에서 소스 수준의 기능적 연결성 지표, 즉 위상 지연 지수 및 방향성 전달 함수를 추출했습니다. 인지 능력의 변화를 예측하기 위해 다양한 머신러닝 모델을 사용했습니다. 그 결과 다층 퍼셉트론과 지향성 전달 함수는 5.11%의 교차 검증 훈련 RMSE와 4.97%의 테스트 RMSE를 기록했습니다. 이 연구 결과가 tDCS 개입 후 동적이고 복잡한 작업에서 인지 수행을 정확하게 예측하기 위한 실시간 인지 상태 평가기 개발에 미치는 영향에 대해 논의합니다 [abs|pdf]

[39/76] Classification of executive functioning performance post-longitudinal tDCS using functional connectivity and machine learning methods

Keywords: classify_executive_functioning, classifying_executive_functioning, enhancing_executive_functioning
Abstract: 실행 기능은 인간이 목표 지향적인 방식으로 행동을 계획, 조직, 조절할 수 있게 해주는 인지적 과정입니다. 경두개 직류 자극(tDCS)과 같은 종단적 개입 후 실행 기능의 변화를 이해하고 분류하는 것은 문헌에서 탐구되지 않았습니다. 이 연구는 기능적 연결성과 머신러닝 알고리즘을 사용하여 tDCS 후 실행 기능의 성과를 분류합니다. 50명의 피험자를 실험군과 위약 대조군으로 나누었습니다. 피험자들이 1일차에 실행 기능 과제를 수행하는 동안 뇌파 데이터를 수집했습니다. 실험 그룹은 2일차부터 8일차까지 과제 훈련 중에 tDCS를 투여받았고, 대조 그룹은 가짜 tDCS를 투여받았습니다. 10일차에는 피험자들이 1일차에 지정된 과제를 반복했습니다. 뇌파 데이터에서 다양한 기능적 연결성 지표를 추출한 후 다양한 기계 학습 알고리즘을 사용하여 실행 기능 성능을 분류하는 데 사용했습니다. 그 결과 부분 지향적 일관성과 다층 퍼셉트론(재귀적 특징 제거와 함께)의 새로운 조합이 95.44%의 높은 분류 정확도를 달성한 것으로 나타났습니다. 이 연구 결과가 tDCS 투여 후 실행 기능 수행 능력을 평가하고 향상시키기 위한 실시간 뉴로피드백 시스템을 개발하는 데 시사하는 바에 대해 논의합니다. [abs|pdf]

[40/76] EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

Keywords: automated_audio_captioning, audio_captioning_enclap, audio_captioning
Abstract: 자동화된 오디오 캡션을 위한 새로운 프레임워크인 EnCLAP을 제안합니다. EnCLAP은 사전 학습된 언어 모델인 BART와 함께 두 가지 음향 표현 모델인 EnCodec과 CLAP을 사용합니다. 또한 사전 학습된 언어 모델의 음향 인식을 개선하는 마스크드 코덱 모델링이라는 새로운 학습 목표도 도입했습니다. 오디오캡스와 클로토에 대한 실험 결과는 이 모델이 기준 모델의 성능을 뛰어넘는다는 것을 보여줍니다. 소스 코드는 다음 https URL에서 확인할 수 있습니다. 온라인 데모는 다음 https URL 에서 확인할 수 있습니다. [abs|pdf]

[41/76] Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain

Keywords: responses_llm_embeddings, language_processing_brain, large_language_models
Abstract: 최근 인공 지능의 발전으로 인해 대규모 언어 모델(LLM)과 인간의 신경 처리, 특히 언어 이해력 사이의 유사점에 대한 관심이 촉발되었습니다. 이전 연구를 통해 LLM과 뇌의 표현 방식이 유사하다는 사실이 밝혀졌지만, 특히 진화하는 LLM의 맥락에서 이러한 융합을 일으키는 근본적인 계산 원리는 여전히 밝혀지지 않았습니다. 이 글에서는 유사한 매개변수 크기를 가진 다양한 고성능 LLM을 조사하여 두뇌의 언어 처리 메커니즘과 일치하는 데 기여하는 요인을 조사했습니다. 그 결과, LLM이 벤치마크 작업에서 더 높은 성능을 달성할수록 LLM 임베딩의 신경 반응을 예측할 때 더 높은 성능으로 측정할 수 있을 뿐만 아니라 계층적 특징 추출 경로가 동일한 인코딩을 수행하는 데 더 적은 수의 레이어를 사용하면서도 뇌와 더 가깝게 매핑된다는 사실을 발견했습니다. 또한 LLM의 특징 추출 경로를 서로 비교하고 고성능 모델이 유사한 계층적 처리 메커니즘으로 수렴하는 새로운 방식을 파악합니다. 마지막으로, 모델 성능과 두뇌 유사성을 개선하는 데 있어 문맥 정보의 중요성을 보여줍니다. 이번 연구 결과는 뇌와 LLM의 언어 처리의 융합적인 측면을 드러내며 인간의 인지 처리와 더욱 밀접하게 일치하는 모델을 개발하기 위한 새로운 방향을 제시합니다. [abs|pdf]

[42/76] Towards the implementation of Industry 4.0: A methodology-based approach oriented to the customer life cycle

Keywords: digital_manufacturing_achieve, manufacturing_enterprises, manufacturing_enterprises_smes
Abstract: 전 세계적으로 다양한 이니셔티브가 기계 중심의 제조업에서 디지털 제조업으로의 전환을 촉진하고 있습니다. 따라서 인더스트리 4.0 표준으로 성공적으로 전환하려면 제조 기업은 명확한 로드맵을 구현해야 합니다. 그러나 중소 제조 기업(중소기업)은 인더스트리 4.0을 구현하는 데 있어 많은 장벽과 어려움(경제적, 기술적, 문화적 등)에 직면해 있습니다. 중소기업이 참고할 수 있는 제품 및 공급망 라이프사이클 영역에서의 인더스트리 4.0 기술 통합에 대한 연구는 여러 편이 있지만, 고객 라이프사이클에 대해서는 그렇지 않습니다. 따라서 우리는 이러한 중소기업의 소프트웨어 엔지니어가 고객 라이프사이클의 맥락에서 인더스트리 4.0 기술을 통합하는 데 도움이 될 수 있는 두 가지 기고문을 제시합니다. 첫 번째는 인더스트리 4.0에 맞춰 고객이 기업과 상호 작용하는 방식과 고객이 기업과 상호 작용하는 경험을 변화시킬 수 있는 새로운 소프트웨어 서비스를 개발하는 소프트웨어 엔지니어에게 도움이 될 수 있는 방법론입니다. 이 방법론은 여러 단계로 나뉘며, 각 단계는 다시 활동으로 구성됩니다. 특히 새로운 서비스를 구현할 때 의미 설명과 3D 시각화를 통합하는 데 중점을 둡니다. 두 번째 기고문은 제안된 방법론을 사용하여 실제 제조 시나리오를 위해 개발된 시스템으로, 이러한 종류의 시스템이 고객 라이프사이클의 두 단계에서 중소기업에 제공할 수 있는 가능성을 관찰할 수 있습니다: 검색 및 쇼핑, 사용 및 서비스. [abs|pdf]

[43/76] An attempt to generate new bridge types from latent space of energy-based model

Keywords: based_model_bridge, model_bridge, generating_new_bridge
Abstract: 브리지형 혁신을 위해 에너지 기반 모델을 사용합니다. 손실 함수는 게임 이론으로 설명되며 논리가 명확하고 공식이 간단하고 명확합니다. 따라서 손실 함수를 설명하기 위해 최대 가능성 추정을 사용하지 않고 정규화된 분모를 풀기 위해 몬테카를로 방법을 사용할 필요가 없습니다. 다리형 모집단이 볼츠만 분포를 따른다고 가정하고 에너지 함수를 표현하기 위한 신경망을 구성합니다. 랑그뱅 역학 기술을 사용하여 에너지 값이 낮은 새로운 샘플을 생성하여 에너지에 기반한 교량형 생성 모델을 설정합니다. 대칭 구조의 3경간 교량, 아치교, 사장교, 현수교의 대칭 구조 이미지 데이터 세트에 에너지 함수를 학습시켜 실제 샘플과 가짜 샘플의 에너지 값을 정확하게 계산합니다. 에너지 함수는 경사 하강 알고리즘을 사용하여 잠재 공간에서 샘플링하여 샘플링 지점을 낮은 에너지 점수 샘플로 변환함으로써 데이터 세트와 다른 새로운 교량 유형을 생성합니다. 이러한 시도는 불안정하고 느린 학습으로 인해 새로운 브리지 유형이 생성될 가능성이 희박하고 생성된 이미지의 이미지 해상도가 낮습니다. [abs|pdf]

[44/76] ReSLLM: Large Language Models are Strong Resource Selectors for Federated Search

Keywords: resources_federated_search, independent_search_engines, federated_search_resource
Abstract: 여러 독립적인 검색 엔진의 결과를 통합하는 연합 검색은 챗봇과 같은 LLM 기반 애플리케이션을 지원하는 검색 증강 세대 파이프라인의 맥락에서 점점 더 중추적인 역할을 하게 될 것입니다. 이러한 시스템은 사용자 발화의 특성에 따라 전문 검색 엔진(예: PubMed)에서 일반 검색 엔진(예: Google)에 이르기까지 다양한 검색 엔진에 쿼리를 배포하는 경우가 많습니다. 연합 검색의 중요한 측면은 고품질의 신속한 응답을 보장하고 외부 검색 엔진 호출과 관련된 비용을 억제하기 위해 쿼리를 실행하기 전에 적절한 리소스를 선택하는 리소스 선택입니다. 하지만 현재 SOTA 리소스 선택 방법론은 주로 기능 기반 학습 접근 방식에 의존하고 있습니다. 이러한 방식은 각 리소스에 대한 학습 레이블을 생성하는 데 노동 집약적이고 비용이 많이 드는 경우가 많습니다. 이와는 대조적으로 LLM은 NLP 및 IR 작업에서 제로 샷 방법으로 강력한 효과를 입증했습니다. 우리는 연합 검색의 맥락에서 LLM이 광범위한 사전 정의된 레이블이나 특징 없이도 리소스의 관련성을 평가할 수 있다는 가설을 세웁니다. 이 백서에서는 ReSLLM을 제안합니다. ReSLLM은 연합 검색에서 제로 샷 설정으로 리소스 선택을 유도하기 위해 LLM을 활용합니다. 또한, 이전에 기록된 쿼리와 리소스의 스니펫의 관련성을 기성 LLM을 사용해 예측한 다음, 리소스 선택과 관련하여 ReSLLM을 미세 조정하는 데 사용하는 비지도 미세 조정 프로토콜인 SLAT(Synthetic Label Augmentation Tuning)를 고안했습니다. 경험적 평가와 분석을 통해 이러한 맥락에서 LLM의 효과에 영향을 미치는 요인을 자세히 살펴봅니다. 그 결과, 제로 샷 설정에서 경쟁 효과뿐만 아니라 SLAT 프로토콜을 사용하여 미세 조정할 때 큰 효과를 얻을 수 있는 등 리소스 선택에 있어 ReSLLM의 장점을 확인할 수 있었습니다. [abs|pdf]

[45/76] Navigating the OverKill in Large Language Models

Keywords: attention_harmful_words, language_models_meticulously, models_leading_attention
Abstract: 대규모 언어 모델은 도움이 되면서도 해가 되지 않도록 세심하게 조정됩니다. 그러나 최근의 연구에 따르면 모델이 정상적인 쿼리에 대한 답변을 거부할 수 있는 잠재적 과잉을 지적합니다. 이 백서에서는 모델이 쿼리의 안전성을 처리하고 결정하는 방법을 살펴봄으로써 과잉 처리의 요인을 조사합니다. 연구 결과, 모델 내에 지름길이 존재하여 '죽이다'와 같은 유해한 단어에 대한 과도한 주의를 유발하고, 안전을 강조하는 프롬프트가 오버킬을 악화시킨다는 사실이 밝혀졌습니다. 이러한 인사이트를 바탕으로 유니티는 이러한 현상을 완화하기 위해 학습이 필요 없고 모델에 구애받지 않는 전략인 자가 대조 디코딩(Self-CD)을 도입했습니다. 먼저 안전에 대한 강조가 포함되거나 생략된 시스템 프롬프트에 응답할 때 모델의 출력 분포의 차이를 증폭하여 이러한 과잉 주의를 추출합니다. 그런 다음 대조적 디코딩을 통해 모델의 과잉 주의를 경시하여 최종적인 다음 토큰 예측을 결정합니다. 경험적 결과에 따르면 이 방법은 안전에 거의 영향을 미치지 않으면서도 거부율을 평균 20% 감소시킨 것으로 나타났습니다. [abs|pdf]

[46/76] Generative AI to Generate Test Data Generators

Keywords: test_data_generators, test_data_generation, generate_useful_test
Abstract: 데이터 페이크 라이브러리의 수와 중요성에서 알 수 있듯이 가짜 데이터 생성은 최신 소프트웨어 테스트의 필수 요소입니다. 그러나 페이크 라이브러리 개발자는 다양한 자연어와 도메인에 대해 생성해야 하는 광범위한 데이터를 따라잡을 수 없습니다. 이 백서에서는 다양한 도메인에서 테스트 데이터를 생성하는 생성 AI의 능력을 평가합니다. 1) 원시 테스트 데이터 생성, 2) 유용한 테스트 데이터를 생성하는 특정 언어의 프로그램 합성, 3) 최첨단 페이커 라이브러리를 사용하는 프로그램 생성 등 다양한 수준의 통합성에서 테스트 데이터 생성 작업을 수행하는 대규모 언어 모델(LLM)을 위한 세 가지 유형의 프롬프트를 설계합니다. 저희는 11개 도메인에 대한 테스트 데이터를 생성하도록 LLM에 요청하여 접근 방식을 평가했습니다. 그 결과, LLM은 세 가지 통합성 수준 모두에서 광범위한 도메인에서 실제와 같은 테스트 데이터 생성기를 성공적으로 생성할 수 있는 것으로 나타났습니다. [abs|pdf]

[47/76] Unveiling the Power of Self-supervision for Multi-view Multi-human Association and Tracking

Keywords: self_supervised, self_supervised_learning, human_association_tracking
Abstract: 멀티뷰 멀티휴먼 연결 및 추적(MvMHAT)은 다중 인원 장면 비디오 감시에서 새롭지만 중요한 문제로, 각 뷰에서 시간 경과에 따른 사람 그룹을 추적하고 동시에 여러 뷰에서 동일한 사람을 식별하는 것을 목표로 하며, 이는 시간 경과에 따른 사람 추적만 고려하는 이전의 MOT 및 멀티 카메라 MOT 작업과는 다릅니다. 이러한 방식으로 MvMHAT용 비디오에는 더 복잡한 주석이 필요하며 자가 학습을 위해 더 많은 정보를 포함해야 합니다. 이 연구에서는 자기 지도 학습 인식 엔드투엔드 네트워크를 통해 이 문제를 해결합니다. 특히 반사성, 대칭성, 전이성의 세 가지 속성을 고려하여 공간적-시간적 자기 일관성의 근거를 활용할 것을 제안합니다. 자연적으로 존재하는 반사성 속성 외에도 대칭성과 전이성의 속성에 기반한 자기 지도 학습 손실을 설계하여 외모 특징 학습과 할당 행렬 최적화 모두에서 여러 사람을 시간 및 뷰에 걸쳐 연관시킬 수 있도록 합니다. 또한, 다양한 알고리즘의 네트워크 훈련과 테스트를 위한 두 개의 새로운 대규모 벤치마크를 구축하여 MvMHAT 연구를 촉진합니다. 제안된 벤치마크에 대한 광범위한 실험을 통해 이 방법의 효과를 검증합니다. 벤치마크와 코드를 대중에게 공개했습니다. [abs|pdf]

[48/76] Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data

Keywords: vision_language_models, large_vision_language, object_localization_counting
Abstract: 대규모 비전-언어 모델(VLM)은 자연어 명령어와 함께 시각적 입력을 포함하는 복잡한 작업에서 인상적인 성능을 보여주었습니다. 그러나 자연 이미지에 대한 기능이 VLM 학습 데이터에서 덜 일반적인 위성 및 항공 이미지인 지구 관측(EO) 데이터에 어느 정도까지 전달되는지는 아직 불분명합니다. 이 연구에서는 장면 이해, 로컬라이제이션 및 카운팅, 변화 감지 작업의 능력을 평가하여 VLM이 EO 데이터에 유용한 도구가 되기 위한 진척도를 측정할 수 있는 포괄적인 벤치마크를 제안합니다. 실제 애플리케이션에서 영감을 얻은 이 벤치마크에는 도시 모니터링, 재난 구호, 토지 사용 및 보존과 같은 시나리오가 포함되어 있습니다. We discover that, although state-of-the-art VLMs like GPT-4V possess extensive world knowledge that leads to strong performance on open-ended tasks like location understanding and image captioning, their poor spatial reasoning limits usefulness on object localization and counting tasks. 유니티의 벤치마크는 모델 평가를 쉽게 할 수 있도록 이 https URL과 Hugging Face에서 공개될 예정입니다. [abs|pdf]

[49/76] Local Feature Matching Using Deep Learning: A Survey

Keywords: local_feature_matching, feature_matching_diverse, feature_matching
Abstract: 로컬 피처 매칭은 이미지 검색, 3D 재구성, 객체 인식과 같은 영역을 아우르는 컴퓨터 비전 영역에서 광범위하게 활용되고 있습니다. 그러나 시점 및 조명 변화와 같은 요인으로 인해 매칭의 정확성과 견고성을 개선하는 데는 여전히 어려움이 있습니다. 최근 몇 년 동안 딥러닝 모델의 도입으로 로컬 피처 매칭 기술에 대한 광범위한 탐구가 시작되었습니다. 이러한 노력의 목적은 로컬 특징 일치 방법에 대한 포괄적인 개요를 제공하는 것입니다. 이러한 방법은 검출기의 존재 여부에 따라 두 가지 주요 부문으로 분류됩니다. 검출기 기반 범주에는 검출 후 설명, 공동 검출 및 설명, 설명 후 검출, 그래프 기반 기법이 포함된 모델이 포함됩니다. 이와는 대조적으로 검출기가 없는 카테고리에는 CNN 기반, 트랜스포머 기반, 패치 기반 방식이 포함됩니다. 이 연구는 방법론적 분석을 넘어 널리 사용되는 데이터 세트와 메트릭에 대한 평가를 통합하여 최첨단 기법의 정량적 비교를 용이하게 합니다. 또한 이 논문은 움직임으로부터의 구조, 원격 감지 이미지 등록, 의료 이미지 등록과 같은 다양한 영역에서 로컬 피처 매칭의 실제 적용 사례를 살펴봄으로써 다양한 분야에서 로컬 피처 매칭의 다목적성과 중요성을 강조합니다. 궁극적으로 이 분야에서 현재 직면한 과제를 개괄하고 향후 연구 방향을 제시함으로써 로컬 특징 매칭과 상호 연결된 영역에 종사하는 연구자들에게 참고 자료가 될 수 있도록 노력합니다. [abs|pdf]

[50/76] Propagation and Pitfalls: Reasoning-based Assessment of Knowledge Editing through Counterfactual Tasks

Keywords: editing_fact_recall, knowledge_editing_techniques, knowledge_editing_methods
Abstract: 현재의 지식 편집 방식은 상호 연결된 사실에 대한 업데이트를 효과적으로 전파하는 데 어려움을 겪고 있습니다. 이 연구에서는 정확한 추론을 위해 이러한 모델 내에서 업데이트된 지식을 적절히 전파하는 데 방해가 되는 장벽에 대해 살펴봅니다. 분석을 뒷받침하기 위해 현실 세계에서 흔히 볼 수 있는 6가지 추론 체계를 다루는 새로운 추론 기반 벤치마크인 ReCoE(추론 기반 사실 편집 데이터 세트)를 도입합니다. 입력 증강, 미세 조정, 위치 찾기 및 편집 등 기존의 지식 편집 기법을 철저히 분석합니다. 그 결과 모든 모델 편집 방법이 이 데이터 세트에서 특히 특정 추론 체계에서 현저히 낮은 성능을 보인다는 사실을 발견했습니다. 편집된 모델의 연쇄적 생성에 대한 분석을 통해 추론의 관점에서 기존 지식 편집 방법의 부적절성에 대한 주요 원인을 밝혀냈는데, 여기에는 사실에 입각한 편집, 사실 회상 능력, 생성의 일관성 등의 측면이 포함되어 있습니다. 이 벤치마크는 공개적으로 사용할 수 있도록 할 예정입니다. [abs|pdf]

[51/76] Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

Keywords: collision_free_locomotion, legged_robots_navigating, free_locomotion_quadrupedal
Abstract: 복잡한 환경을 탐색하는 다리가 달린 로봇은 효율적인 작업 수행을 위해 민첩성과 장애물이나 사람과의 충돌을 피할 수 있는 안전성을 동시에 갖춰야 합니다. 기존 연구는 안전을 보장하기 위해 보수적인 제어기(1.0m/s 미만)를 개발하거나 치명적인 충돌 가능성을 고려하지 않고 민첩성에만 초점을 맞췄습니다. 이 백서에서는 4족 보행 로봇의 민첩하고 충돌 없는 이동을 가능하게 하는 학습 기반 제어 프레임워크인 ABS(Agile But Safe)를 소개합니다. ABS에는 장애물 속에서도 민첩한 운동 기술을 실행하는 민첩성 정책과 장애를 방지하는 복구 정책이 포함되어 있으며, 이를 통해 고속 및 충돌 없는 탐색을 공동으로 달성할 수 있습니다. ABS의 정책 전환은 학습된 제어 이론적 도달 회피 가치 네트워크에 의해 관리되며, 이 네트워크는 복구 정책을 목적 함수로 안내하여 폐쇄 루프에서 로봇을 보호합니다. 훈련 과정에는 민첩성 정책, 도달 회피 가치 네트워크, 복구 정책, 예외 표현 네트워크의 학습이 모두 시뮬레이션으로 이루어집니다. 이렇게 학습된 모듈은 온보드 감지 및 계산을 통해 실제 환경에 직접 배치할 수 있으며, 정적 및 동적 장애물이 있는 제한된 실내외 공간에서 충돌 없이 고속으로 탐색할 수 있습니다. [abs|pdf]

[52/76] Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators

Keywords: forecasting_methods_extensive, series_forecasting_methods, forecasting_methods
Abstract: 최근 채널 독립적 방법은 다변량 시계열(MTS) 예측에서 최첨단 성능을 달성했습니다. 이러한 방법은 과적합 위험을 줄이기는 하지만, 정확한 예측을 위해 채널 의존성을 활용할 수 있는 잠재적 기회를 놓치고 있습니다. 우리는 변수 간에 국지적으로 고정된 선행-지연 관계가 존재한다고 주장합니다. 즉, 일부 후행 변수가 짧은 기간 내에 선행 지표를 따라갈 수 있다는 것입니다. 이러한 채널 의존성을 활용하면 선행지표가 후행 변수의 예측 난이도를 낮추는 데 사용할 수 있는 사전 정보를 제공하기 때문에 유용합니다. 본 논문에서는 먼저 각 시점의 선행지표와 선행단계를 효율적으로 추정하고, 후행변수가 선행지표의 선행정보를 적절히 활용할 수 있도록 하는 새로운 방법론인 LIFT를 제안합니다. LIFT는 임의의 시계열 예측 방법과 원활하게 협업할 수 있는 플러그인 형태로 작동합니다. 6개의 실제 데이터 세트에 대한 광범위한 실험 결과, LIFT는 최신 예측 방법의 평균 예측 성능을 5.5% 향상시키는 것으로 나타났습니다. [abs|pdf]

[53/76] Data-Effective Learning: A Comprehensive Medical Benchmark

Keywords: effective_learning_benchmark, medical_data_effective, data_effective_learning
Abstract: 데이터 효과적 학습은 데이터를 가장 영향력 있는 방식으로 사용하여 AI 모델을 학습시키는 것을 목표로 하며, 여기에는 데이터의 양보다는 질에 중점을 두어 학습에 사용되는 데이터가 높은 정보적 가치를 갖도록 하는 전략이 포함됩니다. 데이터 유효성 학습은 AI 학습을 가속화하고, 컴퓨팅 비용을 절감하며, 데이터 저장 공간을 절약하는 데 큰 역할을 하는데, 이는 최근 의료 데이터의 양이 많은 사람들의 예상을 뛰어넘는 수준으로 증가함에 따라 매우 중요해졌습니다. 하지만 표준과 종합적인 벤치마크가 부족해 의료 데이터의 효과적인 학습에 대한 연구는 제대로 이루어지지 않고 있습니다. 이러한 격차를 해소하기 위해 본 백서에서는 의료 분야의 데이터 효과적 학습을 평가하기 위한 포괄적인 벤치마크를 소개합니다. 이 벤치마크에는 31개 의료 센터의 수백만 개의 데이터 샘플이 포함된 데이터 세트(DataDEL), 비교를 위한 기준 방법(MedDEL), 데이터 효과 학습 성과를 객관적으로 측정하기 위한 새로운 평가 지표(NormDEL)가 포함되어 있습니다. 광범위한 실험 결과에 따르면 기준 MedDEL은 데이터의 5%만 가지고도 원래의 대규모 데이터 세트와 비슷한 성능을 달성할 수 있습니다. 이러한 개방형 데이터 효과 학습 벤치마크를 구축하는 것은 효율적인 데이터 사용을 촉진하고, 협업적 혁신을 촉진하며, 비용 효율적이고 확장 가능하며 영향력 있는 의료 솔루션의 개발을 촉진하기 때문에 의료 AI 연구 커뮤니티에 매우 중요합니다. 이 프로젝트는 다음 https URL에서 액세스할 수 있습니다. [abs|pdf]

[54/76] A PNP ion channel deep learning solver with local neural network and finite element input data

Keywords: deep_learning_solver, pnpic_deep_learning, neural_network_solvers
Abstract: 이 논문에서는 개선된 1차원 푸아송-네른스트-플랑크 이온 채널(PNPic) 모델을 풀기 위한 딥러닝 방법, 즉 PNPic 딥러닝 솔버를 제시합니다. 특히 새로운 로컬 신경망 체계와 효과적인 PNPic 유한 요소 솔버를 결합합니다. 신경망 체계의 입력 데이터는 유한 요소 솔버가 빠르게 생성할 수 있는 거친 그리드 솔루션의 작은 로컬 패치만 포함하기 때문에 PNPic 딥러닝 솔버는 기존의 글로벌 신경망 솔버보다 훨씬 빠르게 훈련할 수 있습니다. 적절하게 훈련된 후에는 저비용의 거친 격자 솔루션보다 훨씬 더 높은 정확도로 예측된 PNPic 솔루션을 출력할 수 있으며 매개변수, 이온 채널 하위 영역, 계면 및 경계 값 등에 대한 다양한 섭동 사례를 반영할 수 있습니다. 결과적으로 PNPic 딥러닝 솔버는 PNPic 모델 제품군에 대해 높은 정확도의 수치 솔루션을 생성할 수 있습니다. 초기 연구로 PNPic 모델의 파라미터를 각각 1개와 2개씩 교란하여 두 가지 유형의 수치 테스트를 수행했으며, 모델의 인터페이스 위치 몇 개를 훈련 샘플로 사용하여 테스트를 수행했습니다. 이러한 테스트는 PNPic 딥러닝 솔버가 매우 정확한 PNPic 수치 해를 생성할 수 있음을 보여줍니다. [abs|pdf]

[55/76] Arrows of Time for Large Language Models

Keywords: autoregressive_large_language, large_language_models, language_models
Abstract: 우리는 시간 방향성의 각도를 통해 자동 회귀 대규모 언어 모델에 의해 수행되는 확률론적 모델링을 연구합니다. 자연어 모델링 능력에서 이러한 모델이 보여주는 시간 비대칭성, 즉 다음 토큰을 예측할 때와 이전 토큰을 예측할 때의 평균 로그 복잡도의 차이를 경험적으로 발견했습니다. 이러한 차이는 다양한 양식(언어, 모델 크기, 학습 시간 등)에 걸쳐 미묘하면서도 매우 일관되게 나타납니다. 정보 이론적 관점에서 보면 이러한 차이가 없어야 하는데, 이론적으로 이는 놀라운 결과입니다. 우리는 희소성과 계산 복잡성을 고려할 때 이러한 비대칭성이 어떻게 나타날 수 있는지 설명할 수 있는 이론적 틀을 제공하고, 연구 결과가 열어준 여러 관점을 간략히 설명합니다. [abs|pdf]

[56/76] LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization

Keywords: learning_constrained_visuomotor, constrained_visuomotor_policy, imitation_learning_approaches
Abstract: 이 백서에서는 미분 가능한 궤적 최적화를 통해 제약된 시각 운동 정책을 학습하는 방법인 LeTO를 소개합니다. 이 접근 방식은 미분 가능한 최적화 계층을 신경망에 고유하게 통합합니다. 최적화 계층을 궤적 최적화 문제로 공식화하여 모델이 추가 모듈 없이 안전하고 제어된 방식으로 엔드 투 엔드 동작을 생성할 수 있도록 합니다. 이 방법을 사용하면 훈련 과정에서 제약 조건 정보를 도입할 수 있으므로 제약 조건 충족, 궤적 평활화, 데모 오류 최소화라는 훈련 목표의 균형을 맞출 수 있습니다. 이 '그레이 박스' 방식은 최적화 기반의 안전성 및 해석 가능성과 신경망의 강력한 표현 능력을 결합한 것입니다. 우리는 시뮬레이션과 실제 로봇에서 LeTO를 정량적으로 평가합니다. 시뮬레이션에서 LeTO는 최첨단 모방 학습 방법에 필적하는 성공률을 달성하지만, 생성된 궤적은 불확실성이 적고 품질이 높으며 더 부드럽습니다. 실제 실험에서는 제약 조건이 중요한 작업을 처리하기 위해 LeTO를 배포했습니다. 그 결과는 최첨단 모방 학습 접근법과 비교하여 LeTO의 효율성을 보여줍니다. 이 https URL에서 코드를 공개합니다. [abs|pdf]

[57/76] Detecting mental disorder on social media: a ChatGPT-augmented explainable approach

Keywords: interpretable_depression_detection, challenge_interpretable_depression, depression_detection
Abstract: 디지털 시대에 소셜 미디어에서 표현되는 우울증 증상의 확산으로 인해 심각한 우려가 제기되면서 이를 적시에 감지할 수 있는 고급 방법론이 필요해졌습니다. 이 백서에서는 대규모 언어 모델(LLM)과 설명 가능한 인공 지능(XAI) 및 ChatGPT와 같은 대화형 에이전트를 효과적으로 결합하는 새로운 방법론을 제안함으로써 해석 가능한 우울증 감지의 과제를 해결합니다. 이 방법론에서 설명은 BERT의 트위터 전용 변형인 BERTweet을 새로운 자체 설명 모델인 BERT-XDD에 통합하여 이루어지며, 이 모델은 마스크된 주의를 통해 분류와 설명을 모두 제공할 수 있습니다. 기술적 설명을 사람이 읽을 수 있는 해설로 변환하는 ChatGPT를 사용하여 해석 가능성을 더욱 향상시켰습니다. 해석 가능한 우울증 감지를 위한 효과적이고 모듈화된 접근 방식을 도입함으로써, 저희의 방법론은 자격을 갖춘 의료 전문가의 지도 아래 정신 건강 문제에 대한 조기 개입과 지원을 촉진하여 사회적으로 책임감 있는 디지털 플랫폼 개발에 기여할 수 있습니다. [abs|pdf]

[58/76] Synthetic Dialogue Dataset Generation using LLM Agents

Keywords: generation_sample_dialogues, generated_dialogues, summaries_generated_dialogues
Abstract: 선형 프로그래밍(LP) 문제는 실제 애플리케이션에 널리 퍼져 있습니다. 그러나 선형 프로그래밍은 겉보기에는 단순해 보이지만 교육을 받지 않은 사용자는 특정 문제의 선형 모델을 파악하기 어려울 수 있습니다. 우리는 후속 에이전트가 선형 모델을 생성하는 데 필요한 모든 정보를 도출하기 위해 사용자와 대화에 참여하는 목표 지향 대화형 에이전트의 생성을 구상하고 있습니다. 이 백서에서는 이러한 대화형 에이전트를 개발하고 훈련하는 데 사용할 수 있는 샘플 대화를 생성하는 접근 방식을 제시합니다. 프롬프트 엔지니어링을 사용하여 서로 '대화'하는 두 개의 에이전트를 개발합니다. 하나는 대화형 에이전트 역할을 하고 다른 하나는 사용자 역할을 합니다. 사용자만 사용할 수 있는 NL4Opt의 선형 문제에 대한 텍스트 설명 세트를 사용하여 에이전트와 사용자는 에이전트가 원래 문제 설명에서 모든 주요 정보를 검색할 때까지 대화에 참여합니다. 또한 대화에서 생성된 요약이 원래 문제 설명과 얼마나 잘 일치하는지 평가하여 대화에 대한 외재적 평가를 제안합니다. 저희는 사람의 평가 메트릭을 모방하기 위해 GPT-4를 사용하는 평가 접근법을 포함하여 사람 및 자동 평가를 수행합니다. 평가 결과는 전반적으로 양호한 대화 품질을 보여 주지만, GPT-4 평가 지표의 품질을 개선하기 위해서는 아직 연구가 더 필요합니다. 하위 집합의 사람 주석을 포함한 결과 대화는 연구 커뮤니티에서 사용할 수 있습니다. 대화 생성에 사용된 대화형 에이전트를 기준선으로 사용할 수 있습니다. [abs|pdf]

[59/76] A Preliminary Study on Using Large Language Models in Software Pentesting

Keywords: security_testing_built, automating_security_tasks, security_testing
Abstract: 대규모 언어 모델(LLM)은 보안관제센터(SOC)와 같은 보안 작업을 자동화하는 데 유망한 잠재력을 제공하는 것으로 인식되고 있습니다. 이러한 잠재력을 평가하기 위한 첫 번째 단계로, 소스 코드에서 소프트웨어 보안 취약점을 자동으로 식별하는 것이 주요 업무인 소프트웨어 펜테스팅에서 LLM의 활용을 조사합니다. 저희는 LLM 기반 AI 에이전트가 특정 보안 작업에 대해 시간이 지남에 따라 인간 작업자와 상호 작용하면서 개선될 수 있다는 가설을 세웠습니다. 이러한 개선은 첫 번째 단계로, 생성된 응답을 기반으로 LLM에 제공되는 프롬프트를 엔지니어링하여 모델이 더 정확한 결과를 제공하도록 관련 컨텍스트와 구조를 포함함으로써 이루어질 수 있습니다. 현재 작업에서 더 나은 결과를 도출하도록 설계된 프롬프트가 미래의 미지의 작업에서도 더 나은 결과를 도출할 수 있다면 이러한 엔지니어링 노력은 지속 가능해집니다. 이 가설을 검증하기 위해 다양한 유형의 취약점이 포함된 2,740개의 수작업 소스 코드 테스트 케이스가 포함된 OWASP 벤치마크 프로젝트 1.2를 활용합니다. 테스트 사례를 학습 데이터와 테스트 데이터로 나누어 학습 데이터(만)를 기반으로 프롬프트를 엔지니어링하고 테스트 데이터에 대한 최종 시스템을 평가합니다. 테스트 데이터에 대한 AI 에이전트의 성능을 프롬프트 엔지니어링이 없는 에이전트의 성능과 비교합니다. 또한 보안 테스트에 널리 사용되는 정적 코드 분석기인 SonarQube의 결과와 AI 에이전트의 결과를 비교합니다. Google의 Gemini-pro, OpenAI의 GPT-3.5-Turbo 및 GPT-4-Turbo(채팅 완료 및 어시스턴트 API 모두 포함) 등 다양한 상용 LLM을 사용하여 여러 버전의 AI 에이전트를 구축 및 테스트했습니다. 그 결과 LLM을 사용하는 것이 반복적인 사용과 신속한 엔지니어링을 통해 개선할 수 있는 소프트웨어 펜테스팅용 AI 에이전트를 구축할 수 있는 실용적인 접근 방식임을 알 수 있었습니다. [abs|pdf]

[60/76] Multiscale Parallel Tempering for Fast Sampling on Redistricting Plans

Keywords: redistricting_plans_ensembles, redistricting_plan_persuasive, redistricting_plans
Abstract: 선거구 재조정 계획을 심사할 때 설득력 있는 방법은 해당 계획을 중립적으로 도출된 선거구 재조정 계획의 앙상블과 비교하는 것입니다. 앙상블은 균형 잡힌 그래프 파티션에서 분포를 샘플링하는 알고리즘을 통해 생성됩니다. 앙상블과 특정 계획 간의 당파적 차이를 감사하려면, 당파적 차이가 인구 밀집도나 지역 사회 보존의 차이가 아니라 편견에서 비롯된 것이라는 결론을 내릴 수 있도록 비당파적 기준이 일치하는지 확인해야 합니다. 특정 샘플링 알고리즘을 사용하면 계획에 대한 정책 기반 확률 분포를 명시적으로 나타낼 수 있지만, 이러한 알고리즘은 몇 가지 특수한 측정값을 제외한 모든 그래프(예: 공간 재구획)에서 큰 그래프의 혼합 시간이 좋지 않은 것으로 나타났습니다. 이 연구에서는 각 스케일에서 로컬 이동을 하는 멀티스케일 병렬 템퍼링 접근법을 생성합니다. 로컬 이동을 통해 다양한 정책 기반 조치를 채택할 수 있습니다. 코네티컷 주에서 이 방법을 시험한 결과, 이전에는 이 정도 규모로 샘플링된 적이 없는 정책 기반 분포에서 빠른 혼합을 달성하는 데 성공했습니다. 우리의 알고리즘은 (i) 보다 원칙적이고 상황에 기반한 비교를 가능하게 하고, (ii) 정책이 선거구 재획정에 미칠 수 있는 전형적인 당파적 영향을 조사할 수 있는 훨씬 더 광범위한 종류의 측정으로 확장할 수 있는 가능성을 보여줍니다. [abs|pdf]

[61/76] Liquid Democracy for Low-Cost Ensemble Pruning

Keywords: classifiers_ensemble_delegation, ensemble_learning_delegative, learning_delegative_voting
Abstract: 우리는 앙상블 학습과 위임 투표 패러다임인 액체 민주주의 사이에 앙상블 훈련 비용을 줄이는 데 활용할 수 있는 강력한 연관성이 있다고 주장합니다. 우리는 유동적 민주주의에서 영감을 얻은 위임 메커니즘을 통해 앙상블에서 중복 분류자를 식별하고 제거하는 점진적 훈련 절차를 제시합니다. 분석과 광범위한 실험을 통해 이 프로세스가 전체 앙상블을 훈련할 때보다 훈련에 드는 계산 비용을 크게 줄여준다는 것을 보여줍니다. 기본 위임 메커니즘을 신중하게 선택하면 분류자 모집단의 가중치 중앙 집중화를 피할 수 있어 일부 부스팅 방법보다 정확도가 높아집니다. 또한, 이 연구는 계산적 사회적 선택 문헌의 프레임워크가 비전통적 영역의 문제에 어떻게 적용될 수 있는지를 보여주는 예시입니다. [abs|pdf]

[62/76] Explaining Predictive Uncertainty by Exposing Second-Order Effects

Keywords: explainable_ai, explainable_ai_brought, explaining_predictive_uncertainty
Abstract: 설명 가능한 AI는 복잡한 머신러닝 블랙박스에 투명성을 부여하여 특히 모델이 예측에 어떤 기능을 사용하는지 식별할 수 있게 해줍니다. 지금까지 예측 불확실성, 즉 모델이 '의심스러운' 이유를 설명하는 문제는 거의 연구되지 않았습니다. 우리의 조사에 따르면 예측 불확실성은 단일 기능 또는 제품 간의 상호 작용과 관련된 2차 효과에 의해 지배된다는 사실이 밝혀졌습니다. 우리는 이러한 2차 효과에 기반하여 예측 불확실성을 설명하는 새로운 방법을 제안합니다. 계산적으로 이 방법은 일차 설명의 집합에 대한 간단한 공분산 계산으로 축소됩니다. 이 방법은 일반적으로 적용 가능하며, 일반적인 어트리뷰션 기법(LRP, 그라디언트 x 입력 등)을 강력한 2차 불확실성 설명자로 전환할 수 있으며, 이를 우리는 CovLRP, CovGI 등으로 부릅니다. 이 방법이 생성하는 설명의 정확성은 체계적인 정량적 평가를 통해 입증되었으며, 이 방법의 전반적인 유용성은 두 가지 실제 쇼케이스를 통해 입증되었습니다. [abs|pdf]

[63/76] Can Large Language Models Replace Economic Choice Prediction Labs?

Keywords: human_choice_prediction, human_choice_data, based_persuasion_games
Abstract: 경제적 선택 예측은 매우 까다로운 작업이지만, 인간의 선택 데이터를 확보하기 어렵기 때문에 종종 제약을 받습니다. 실제로 실험 경제학 연구는 대부분 단순한 선택 설정에 초점을 맞추었습니다. 최근 인공지능 커뮤니티는 위에서 언급한 단순 선택 예측 환경에서 머신러닝이 인간을 대체할 수 있는지에 대한 연구와 불완전한 정보, 반복적인 플레이, 자연어 커뮤니케이션, 특히 언어 기반 설득 게임 등 보다 정교하지만 여전히 엄격한 실험 경제학 환경에서 머신러닝 렌즈를 통해 연구하는 두 가지 방식으로 이러한 노력에 기여해 왔습니다. 이를 통해 우리는 경제 환경을 완전히 시뮬레이션하고 효율적인 인간 선택 예측을 위한 데이터를 생성하는 데 LLM을 사용하여 정교한 경제학 실험 연구를 대체할 수 있을까요? 우리는 이 주제에 대한 연구를 개척하여 그 가능성을 입증했습니다. 특히 LLM으로 생성된 데이터로만 훈련된 모델이 언어 기반 설득 게임에서 인간의 행동을 효과적으로 예측할 수 있으며, 실제 인간 데이터로 훈련된 모델보다 더 나은 성과를 낼 수 있음을 보여줍니다. [abs|pdf]

[64/76] Integrating Generative AI in Hackathons: Opportunities, Challenges, and Educational Implications

Keywords: hackathons_educational_implications, hackathons_computer_science, hackathons_educational
Abstract: 해커톤과 소프트웨어 경진대회는 소프트웨어 업계에서 점점 더 중추적인 역할을 하고 있으며, 기업과 학생 모두에게 혁신과 기술 개발을 위한 중요한 촉매제 역할을 합니다. 이러한 플랫폼을 통해 기업은 아이디어를 신속하게 프로토타이핑할 수 있고, 학생은 풍부한 학습 경험을 통해 실무 능력을 향상시킬 수 있습니다. 수년에 걸쳐 해커톤은 단순한 경쟁 이벤트에서 이론적 지식과 실제 문제 해결을 융합하는 중요한 교육 도구로 발전해 왔습니다. 해커톤을 컴퓨터 과학 및 소프트웨어 엔지니어링 커리큘럼에 통합하는 것은 협업적 맥락에서 교육 역량을 조정하고, 산학협력을 통해 동료 간의 연결과 풍부한 학습을 촉진하는 것을 목표로 합니다. 그러나 해커톤에 인공지능(AI)과 머신러닝과 같은 첨단 기술이 도입되면서 해커톤의 구조와 결과가 혁신적으로 변하고 있습니다. 이러한 변화는 학습 경험 향상과 같은 기회와 윤리적 문제와 같은 도전 과제를 동시에 가져옵니다. 이 연구는 아이오와 대학교 2023 행사에 대한 사례 연구를 바탕으로 제너레이티브 AI가 학생들의 기술 선택에 미치는 영향을 조사하여 그 영향에 대해 살펴봅니다. 이 연구는 해커톤에서 AI의 역할과 교육적 의미에 대한 인사이트를 제공하고, 향후 이벤트에 이러한 기술을 통합하기 위한 로드맵을 제시하여 혁신과 윤리적, 교육적 고려사항이 균형을 이룰 수 있도록 보장합니다. [abs|pdf]

[65/76] Superiority of Multi-Head Attention in In-Context Linear Regression

Keywords: transformer_softmax_attention, softmax_attention, attention_transformer
Abstract: 본 논문에서는 선형 회귀 과제를 통한 맥락 내 학습에서 소프트맥스 주의력을 가진 트랜스포머의 성능에 대한 이론적 분석을 제시합니다. 기존 문헌은 주로 단일/멀티 헤드 주의력을 가진 트랜스포머의 융합에 초점을 맞추고 있지만, 본 연구는 이들의 성능을 비교하는 데 중점을 두고 있습니다. 우리는 정확한 이론적 분석을 통해 상당한 임베딩 차원을 가진 다중 헤드 주의가 단일 헤드 주의보다 성능이 더 우수하다는 것을 입증합니다. 문맥 내 예제 D의 수가 증가할 때 싱글/멀티 헤드 어텐션의 예측 손실은 O(1/D)이며, 멀티 헤드 어텐션의 예측 손실은 더 작은 곱셈 상수를 갖습니다. 가장 단순한 데이터 분포 설정 외에도 노이즈가 있는 레이블, 로컬 예제, 상관관계가 있는 특징, 사전 지식 등 더 많은 시나리오를 고려합니다. 일반적으로 단일 헤드 주의보다 다중 헤드 주의가 선호되는 것을 관찰했습니다. 연구 결과는 트랜스포머 아키텍처에서 다중 헤드 주의 설계의 효과를 검증합니다. [abs|pdf]

[66/76] Application of Neural Networks for the Reconstruction of Supernova Neutrino Energy Spectra Following Fast Neutrino Flavor Conversions

Keywords: neutrino_gas_predictions, predicting_number_neutrinos, neutrino_moments
Abstract: 중성미자는 핵 붕괴 초신성(CCSNe)과 중성자별 병합(NSM)과 같은 극도로 밀집된 천체물리학 환경에서 빠른 맛 전환(FFC)을 겪을 수 있습니다. 이 연구에서는 다중 에너지 중성미자 기체에서 FFC를 탐구하여 FFC 성장률이 진공 해밀턴의 성장률을 크게 초과할 때 모든 중성미자(에너지에 관계없이)가 에너지 통합 중성미자 스펙트럼에 의해 결정되는 공통 생존 확률을 공유한다는 것을 밝힙니다. 그런 다음 물리학 정보 신경망(PINN)을 사용하여 이러한 다중 에너지 중성미자 기체 내에서 FFC의 점근 결과를 예측합니다. 이러한 예측은 각 에너지 대역에 대한 중성미자 각도 분포의 처음 두 모멘트를 기반으로 하며, 이는 일반적으로 최첨단 CCSN 및 NSM 시뮬레이션에서 사용할 수 있습니다. 우리의 PINN은 전자 채널의 중성미자 수와 중성미자 모멘트의 상대적 절대 오차를 예측할 때 각각 $\lesssim6%$와 $\lesssim18%$의 낮은 오차를 달성합니다. [abs|pdf]

[67/76] Through-Wall Imaging based on WiFi Channel State Information

Keywords: synthesizing_images_wifi, images_wifi_channel, wifi_csi_images
Abstract: 이 연구는 벽을 통과하는 시나리오에서 WiFi 채널 상태 정보(CSI)의 이미지를 합성하는 중요한 접근 방식을 제시합니다. 비용 효율성, 조도 불변성, 벽을 투과하는 기능 등 WiFi의 강점을 활용하는 이 접근 방식은 카메라 없이도 실내 경계를 넘어 실내 환경을 시각적으로 모니터링할 수 있게 해줍니다. 더 일반적으로는 시각적 활동 인식과 같은 이미지 기반 다운스트림 작업을 수행할 수 있는 옵션을 잠금 해제하여 WiFi CSI의 해석 가능성을 향상시킵니다. WiFi CSI에서 이미지로의 이러한 크로스모달 변환을 달성하기 위해 문제 특성에 맞게 조정된 멀티모달 변형 자동 인코더(VAE)를 사용합니다. 아키텍처 구성에 대한 제거 연구와 재구성된 이미지의 정량적/정성적 평가를 통해 제안된 방법론을 광범위하게 평가합니다. 그 결과 우리 방법의 실행 가능성을 입증하고 실제 적용 가능성을 강조했습니다. [abs|pdf]

[68/76] Step-size Optimization for Continual Learning

Keywords: continual_learning_learner, continual_learning, meta_gradient_descent
Abstract: 지속적 학습에서 학습자는 평생 동안 데이터를 통해 계속 학습해야 합니다. 중요한 문제는 어떤 지식을 유지하고 어떤 지식을 버릴지 결정하는 것입니다. 신경망에서는 단계 크기 벡터를 사용하여 그라데이션 샘플이 네트워크 가중치를 변경하는 정도를 조절함으로써 이를 구현할 수 있습니다. RMSProp이나 Adam과 같은 일반적인 알고리즘은 이 단계 크기 벡터를 조정하기 위해 휴리스틱, 특히 정규화를 사용합니다. 이 논문에서는 이러한 휴리스틱이 단계 크기 벡터를 더 나은 단계 크기 벡터에서 멀어지게 하는 등 전체 목적 함수에 대한 적응의 영향을 무시한다는 것을 보여줍니다. 반면, 확률적 메타 경사 하강 알고리즘(IDBD, Sutton, 1992)은 전체 목적 함수에 대해 명시적으로 스텝 크기 벡터를 최적화합니다. 간단한 문제에서 IDBD는 단계 크기 벡터를 일관되게 개선할 수 있는 반면, RMSProp과 Adam은 그렇지 않다는 것을 보여줍니다. 두 접근법의 차이점과 각각의 한계를 설명합니다. 마지막으로 두 가지 접근법을 결합하는 것이 지속적 학습에서 신경망의 성능을 향상시킬 수 있는 유망한 미래 방향이 될 수 있음을 제안하며 글을 마무리합니다. [abs|pdf]

[69/76] Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks

Keywords: bert_bidirectional_encoder, models_bert_bidirectional, turkish_bert_model
Abstract: 딥 러닝 기반 언어 모델과 최근에는 트랜스포머 기반 언어 모델이 지난 몇 년 동안 자연어 처리 연구를 주도해 왔습니다. 정확하고 빠른 미세 조정 특성 덕분에 기존의 머신 러닝 기반 접근 방식을 능가하는 성능을 발휘하며 여러 까다로운 자연어 이해(NLU) 문제에 대한 최첨단 결과를 달성했습니다. 최근 연구에 따르면 트랜스포머의 양방향 인코더 표현인 BERT와 같은 트랜스포머 기반 모델은 많은 작업에서 인상적인 성과를 거둔 것으로 나타났습니다. 또한 이러한 아키텍처는 전이 학습 능력 덕분에 사전 구축된 모델을 이전하여 질문 답변과 같은 특정 NLU 작업에 맞게 미세 조정할 수 있습니다. 이 연구에서는 터키어에 대한 트랜스포머 기반 모델과 기준 벤치마크를 제공합니다. 기본 설정으로 훈련된 터키어 BERT 모델, 즉 BERTurk를 여러 다운스트림 작업에 맞게 성공적으로 미세 조정하고 터키어 벤치마크 데이터 세트로 평가했습니다. 그 결과 터키어로 된 명명된 개체 인식, 감정 분석, 질문 답변 및 텍스트 분류에서 기존의 다른 기준 접근법보다 훨씬 뛰어난 성능을 보였습니다. 재현성을 높이고 다른 터키 연구자 및 애플리케이션을 지원하기 위해 미세 조정된 이 네 가지 모델과 리소스를 공개적으로 공개했습니다. [abs|pdf]

[70/76] Customizing Language Model Responses with Contrastive In-Context Learning

Keywords: contrastive_examples_better, large_language_models, examples_better_intent
Abstract: 대규모 언어 모델(LLM)은 머신러닝 애플리케이션에서 점점 더 중요해지고 있습니다. 그러나 특히 다른 콘텐츠보다 선호도가 높은 콘텐츠를 생성하고자 하거나 설명하기 어려운 특정 스타일이나 어조로 LLM이 응답하도록 하려는 경우, 의도에 맞게 LLM을 조정하는 것이 어려울 수 있습니다. 이러한 문제를 해결하기 위해 대조적인 예를 사용하여 의도를 더 잘 설명하는 접근 방식을 제안합니다. 여기에는 진정한 의도를 설명하는 긍정적인 예시와 함께 LLM이 피해야 할 특성을 보여주는 부정적인 예시를 제공하는 것이 포함됩니다. 부정적인 예는 레이블이 지정된 데이터에서 검색하거나, 사람이 작성하거나, LLM 자체에서 생성할 수 있습니다. 답을 생성하기 전에 모델에 예시를 분석하여 피해야 할 것을 스스로 학습하도록 요청합니다. 이 추론 단계는 모델에 사용자의 요구 사항을 적절히 표현하고 더 나은 답변을 생성할 수 있도록 안내합니다. 이러한 접근 방식을 합성 데이터 세트와 StackExchange 및 Reddit을 포함한 실제 데이터 세트에서 테스트한 결과, 표준 단답형 프롬프트에 비해 성능이 크게 향상되는 것을 확인했습니다 [abs|pdf]

[71/76] Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

Keywords: existing_gram_models, large_language_models, modernizing_gram_models
Abstract: 신경 대규모 언어 모델(LLM)의 시대에도 $n$-그램 언어 모델이 여전히 유효할까요? 저희의 대답은 '그렇다'이며, 텍스트 분석과 신경망 LLM의 개선 모두에서 그 가치를 입증하고 있습니다. 하지만 이를 위해서는 두 가지 측면에서 $n$-그램 모델을 현대화해야 합니다. 첫째, 신경 LLM과 동일한 데이터 규모인 1조 4천억 개의 토큰으로 훈련해야 합니다. 이는 지금까지 구축된 $n$-그램 모델 중 가장 큰 규모입니다. 둘째, 기존 $n$-그램 모델은 작은 $n$을 사용하여 성능을 저해하지만, 저희는 백오프 기능이 있는 새로운 $\infty$-그램 LM을 도입하여 $n$을 임의로 크게 사용할 수 있도록 했습니다. $n$-그램 카운트 테이블을 미리 계산하는 대신(비용이 많이 들기 때문에), 접미사 배열로 구동되는 infini-gram이라는 엔진을 개발하여 밀리초 수준의 지연 시간으로 $\infty$-그램(및 임의의 n-그램)의 확률을 계산할 수 있습니다. 인피니그램 프레임워크와 인피니그램 엔진을 통해 사람이 작성한 텍스트와 기계가 생성한 텍스트에 대한 새롭고 흥미로운 분석을 수행할 수 있습니다. 인피니그램 LM은 다음 토큰 예측 정확도가 상당히 높고(47%), 신경 LLM을 보완하여 언어 모델링의 복잡성을 크게 줄일 수 있다는 사실을 발견했습니다. 또한 기계 생성 텍스트를 분석할 때 접미사 길이와 관련하여 기계-$\infty$-그램 합의 수준에서 불규칙성을 관찰할 수 있는데, 이는 신경 LLM 사전 학습과 트랜스포머의 위치 임베딩에 결함이 있음을 나타냅니다. 대규모 텍스트 코퍼스로부터 검색된 축어체 정보를 가장 잘 활용하는 방법에 대한 더 많은 연구가 이루어지기를 바라며 인피니그램 엔진을 오픈소스로 공개합니다. [abs|pdf]

[72/76] Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter

Keywords: arabic_tweet_act, arabic_bert_models, tweet_act_dataset
Abstract: 말하기 행위는 대화 내에서 누군가에게 묻거나, 추천하거나, 인사하거나, 감사하거나, 생각을 표현하거나, 제안하는 등의 발화를 할 때 화자가 취하는 행동입니다. 발화 행위를 이해하면 화자나 작성자의 말 뒤에 숨겨진 의도된 의미와 행동을 해석하는 데 도움이 됩니다. 이 논문에서는 트랜스포머 딥러닝 신경망을 기반으로 한 트위터 방언 아랍어 발화 행위 분류 방법을 제안합니다. 트위터를 비롯한 소셜 미디어는 일상 생활에 점점 더 많이 통합되고 있습니다. 그 결과, 트위터는 사용자의 견해와 태도를 대변하는 중요한 정보원으로 진화했습니다. 본 연구에서는 방언 아랍어 음성 행위 분류에서 다양한 BERT 모델의 장점을 통합하기 위해 BERT 기반 가중 앙상블 학습 접근법을 제안했습니다. 제안한 모델을 아랍어 BERT 모델 및 시퀀스 기반 모델의 여러 변형 모델과 비교했습니다. 6개의 발화 행위 카테고리를 기반으로 기존의 대규모 아랍어 감성 분석 데이터셋(ASAD)의 하위 집합에 주석을 달아 방언 아랍어 트윗 행위 데이터셋을 개발했습니다. 또한 이전에 개발된 아랍어 트윗 행위 데이터셋(ArSAS)에 대해 모델을 평가했습니다. 화행 문제에서 흔히 관찰되는 클래스 불균형 문제를 극복하기 위해 동일한 비율의 화행 카테고리를 생성하기 위해 트랜스포머 기반 데이터 증강 모델을 구현했습니다. 그 결과, 매크로 평균 F1 점수와 정확도가 각각 0.73과 0.84인 araBERTv2-Twitter 모델이 가장 우수한 BERT 모델인 것으로 나타났습니다. 데이터 세트에서 평균 F1 점수와 정확도가 각각 0.74와 0.85인 BERT 기반 앙상블 방법을 사용하면 성능이 향상되었습니다. [abs|pdf]

[73/76] Timeseries Suppliers Allocation Risk Optimization via Deep Black Litterman Model

Keywords: supplier_relationship_network, improving_supplier_ranking, supplier_ranking
Abstract: 시간적, 공간적 역학에 초점을 맞춰 공급업체 선택과 주문 배정을 최적화하기 위해 BL 모델과 관점 매트릭스를 도입합니다. 시공간 그래프 신경망을 사용하는 공급업체 관계 네트워크를 개발하여 복잡한 공급업체 상호의존성에 대한 이해를 높입니다. 또한 마스크드 랭킹 메커니즘을 통해 0순위 시나리오에서 신뢰성 문제를 해결하여 공급업체 랭킹의 효율성을 개선합니다. 우리 모델은 두 가지 데이터 세트에서 기존 모델에 비해 우수한 결과를 보여줍니다. 실제 데이터 세트를 사용한 평가는 특히 고해상도 시나리오에서 정확한 예측과 정확한 신뢰 구간을 제공하는 DBLM의 우수성을 강조합니다. [abs|pdf]

[74/76] YTCommentQA: Video Question Answerability in Instructional Videos

Keywords: video_question_answering, question_answering_video, answering_video_qa
Abstract: 교육용 동영상은 다양한 작업에 대한 자세한 방법 가이드를 제공하며, 시청자는 종종 콘텐츠와 관련하여 질문을 합니다. 이러한 질문에 대한 답변은 콘텐츠를 이해하는 데 필수적이지만 즉각적인 답변을 받기는 어렵습니다. 비디오 질문 답변(비디오 QA) 작업을 위해 수많은 계산 모델이 개발되었지만, 이러한 모델은 주로 비디오 콘텐츠를 기반으로 생성된 질문에 대해 학습되어 콘텐츠 내에서 답변을 생성하는 것을 목표로 합니다. 그러나 실제 상황에서는 사용자가 동영상의 정보적 경계를 넘어서는 질문을 제기할 수 있으며, 이에 따라 동영상이 답변을 제공할 수 있는지 판단해야 할 필요성이 강조됩니다. 시각적 정보와 언어적 정보가 서로 얽혀 있는 비디오의 멀티모달 특성으로 인해 비디오 콘텐츠로 질문에 대한 답을 찾을 수 있는지 여부를 판단하는 것은 어려운 일입니다. 이러한 격차를 해소하기 위해 YouTube에서 자연적으로 생성된 질문을 답변 가능 여부와 답변에 필요한 양식(시각적, 스크립트 또는 둘 다)에 따라 분류한 YTCommentQA 데이터 세트를 제공합니다. 답변 가능성 분류 작업 실험은 YTCommentQA의 복잡성을 보여주고 동영상 추론에서 시각적 정보와 스크립트 정보의 결합된 역할을 이해해야 할 필요성을 강조합니다. 데이터 세트는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[75/76] A Latent Space Metric for Enhancing Prediction Confidence in Earth Observation Data

Keywords: ai_model_predictions, learning_model_predictions, model_predictions_specifically
Abstract: 이 연구는 머신러닝 모델 예측, 특히 지구 관측(EO) 데이터를 활용한 회귀 작업에서 모기 개체 수(MA) 추정에 중점을 두고 신뢰도를 추정하는 새로운 접근법을 제시합니다. 유니티는 변형 자동 인코더 아키텍처를 활용하여 EO 데이터 세트의 잠재 공간 표현을 통해 신뢰도 지표를 도출합니다. 이 방법론은 잠재적 표현의 유클리드 거리와 개별 MA 예측의 절대 오차(AE) 사이의 상관관계를 파악하는 데 핵심적인 역할을 합니다. 이 연구는 이탈리아 베네토 지역과 독일 라인강 상류 계곡의 EO 데이터 세트에 초점을 맞춰 모기 개체수의 영향을 크게 받는 지역을 대상으로 합니다. 주요 발견 사항은 MA 예측의 평균 지수(AE)와 제안된 신뢰도 지표 사이에 0.46의 주목할 만한 상관관계가 있다는 것입니다. 이 상관관계는 EO 데이터 분석과 모기 개체 수 연구 모두에서 신뢰도를 정량화하고 AI 모델 예측의 신뢰도를 향상시킬 수 있는 강력하고 새로운 지표를 의미합니다. [abs|pdf]

[76/76] Decentralized Federated Learning: A Survey on Security and Privacy

Keywords: decentralized_federated_learning, adversaries_decentralized_federated, federated_learning
Abstract: 연합 학습은 프라이버시 보호 기능 등의 장점으로 인해 최근 몇 년 동안 빠르게 발전하며 인기를 얻고 있습니다. 하지만 이 아키텍처에서 모델 업데이트와 그라데이션의 교환은 네트워크의 악의적인 사용자에게 새로운 공격 표면을 제공하여 모델 성능과 사용자 및 데이터 프라이버시를 위태롭게 할 수 있습니다. 이러한 이유로 분산형 연합 학습의 주요 동기 중 하나는 네트워크에서 서버를 제거하고 블록체인과 같은 기술을 통해 이를 보완함으로써 서버 관련 위협을 제거하려는 것입니다. 그러나 이러한 장점은 새로운 개인 정보 보호 위협으로 시스템에 도전하는 대가를 치르게 됩니다. 따라서 이 새로운 패러다임에 대한 철저한 보안 분석이 필요합니다. 이 설문조사에서는 탈중앙화 연합 학습에서 발생할 수 있는 위협과 공격자의 변형을 연구하고 잠재적인 방어 메커니즘을 개괄적으로 살펴봅니다. 탈중앙화 연합 학습의 신뢰성과 검증 가능성도 이 연구에서 고려됩니다. [abs|pdf]