프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-01]

다각 2024. 1. 2. 08:47

[1/51] LARP: Language-Agent Role Play for Open-World Games

Keywords: language_agent_role, language_agent, games_introduce_language
Abstract: 언어 에이전트는 정해진 환경과 짧은 시간 내에 인상적인 문제 해결 능력을 보여 왔습니다. 하지만 오픈월드 시뮬레이션의 복잡성이 날로 증가함에 따라 복잡한 환경에 유연하게 적응하고 일관된 행동을 보장하기 위해 장기적인 기억을 일관되게 유지할 수 있는 에이전트가 절실히 요구되고 있습니다. 유니티는 언어 에이전트와 오픈월드 게임 간의 격차를 해소하기 위해 메모리 처리와 의사 결정 지원을 아우르는 인지 아키텍처, 피드백 기반의 학습 가능한 액션 공간을 갖춘 환경 상호작용 모듈, 다양한 인격의 조율을 촉진하는 포스트 프로세싱 방법을 포함하는 롤플레잉용 언어 에이전트(LARP)를 도입했습니다. LARP 프레임워크는 고유한 배경과 성격으로 사전 정의된 사용자와 에이전트 간의 상호작용을 개선하여 궁극적으로 오픈월드 환경에서 게임 경험을 향상시킵니다. 또한 엔터테인먼트, 교육, 다양한 시뮬레이션 시나리오 등 다양한 영역에서 언어 모델을 다양하게 활용할 수 있다는 점을 강조합니다. 프로젝트 페이지는 다음 https URL에서 공개됩니다. [abs|pdf]

[2/51] Research on the Laws of Multimodal Perception and Cognition from a Cross-cultural Perspective -- Taking Overseas Chinese Gardens as an Example

Keywords: aesthetic_cognition_chat, sentimental_image_based, images_social_media
Abstract: 이 연구는 화교 정원의 공간 경험 디자인에 중점을 두고 멀티모달 데이터 분석에서 지각과 인지적 상호작용의 복잡한 관계를 탐구하는 것을 목표로 합니다. 소셜 미디어의 평가 콘텐츠와 이미지는 개인의 관심사와 감정 반응을 반영하여 감성 및 이미지 기반 인지 정보를 모두 포함하는 인지 연구를 위한 풍부한 데이터베이스를 제공할 수 있다는 사실이 밝혀졌습니다. 본 연구에서는 딥러닝 기법을 활용하여 소셜 미디어의 텍스트 및 시각 데이터를 분석함으로써 화교 정원의 맥락에서 사람들의 인식과 감성 인지 사이의 관계를 밝힙니다. 또한 이 연구에서는 AI 에이전트와 함께 다중 에이전트 시스템(MAS)을 도입했습니다. 각 에이전트는 웹 검색과 결합된 채팅 장면 시뮬레이션을 통해 미적 인지 법칙을 탐구합니다. 이 연구는 인식을 감정 점수로 변환하는 기존의 접근 방식을 넘어 텍스트를 직접 분석하고 의견 데이터를 더 깊이 파고든다는 점에서 연구 방법론의 확장을 가능하게 합니다. 이 연구는 다양한 문화적 맥락에서 미적 경험과 그것이 건축과 조경 디자인에 미치는 영향을 이해하는 새로운 관점을 제공하며, 이는 문화 커뮤니케이션과 미적 이해 분야에 필수적인 기여를 할 것입니다. [abs|pdf]

[3/51] Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs

Keywords: alignment_training_proposed, finetuning_alignment_learning, alignment_training
Abstract: CoT(Chain-of-Thought)는 언어 추론 문제를 해결하는 방법입니다. 최근 LLM의 CoT 성능을 향상시키기 위한 많은 연구들이 등장하고 있습니다. 본 연구에서는 미세 조정 및 정렬 학습을 위한 llama2-13B PLM 기반의 LLM인 Olapa-MCoT도 제안했습니다. 정렬 학습에서는 SimRRHF 알고리즘과 부정확 데이터 재학습을 제안하고 주로 Olapa-MCoT의 중국어 수학적 추론 능력을 최적화하는 데 중점을 두었습니다. 실험 결과 중국어 수학적 추론의 정확도가 최대 50%로, llama2-13B에 비해 36% 상승하는 등 유의미한 결과를 얻었습니다. 또한 영어 추론 능력의 정확도도 4% 가까이 향상되었습니다. [abs|pdf]

[4/51] Culturally-Attuned Moral Machines: Implicit Learning of Human Value Systems by AI through Inverse Reinforcement Learning

Keywords: value_ai_culturally, cultural_codes_ai, ai_culturally
Abstract: 인간 문화마다 도덕에 대한 정의가 다르고 사회적 규범이 다르기 때문에 인공지능(AI)을 위한 보편적인 도덕 규범을 만드는 것은 어렵거나 불가능할 수도 있습니다. 따라서 특정 문화권에서 자란 아이가 그 문화의 특정한 가치와 규범을 배우는 것처럼, 특정 인간 공동체에서 활동하는 AI 에이전트는 그 공동체의 도덕적, 윤리적, 문화적 규범을 습득해야 한다고 주장합니다. AI 시스템이 인간의 관찰과 상호작용을 통해 이러한 규범을 습득하는 방법은 아직 미해결 과제로 남아 있습니다. 여기서는 AI 에이전트가 문화적으로 조율된 가치 체계를 암묵적으로 습득하는 방법으로 역강화학습(IRL)을 사용할 것을 제안합니다. 실시간 의사결정이 필요한 온라인 가상 세계에서 다양한 문화 집단의 행동을 관찰하여 AI 에이전트가 IRL을 사용하여 에이전트의 도덕적 가치에 영향을 미치는 다양한 보상 함수를 학습하는 실험 패러다임을 통해 우리의 접근 방식을 테스트합니다. 우리는 특정 문화 집단의 평균 행동을 학습한 AI 에이전트가 해당 집단의 행동을 반영하는 이타적 특성을 획득할 수 있으며, 이렇게 학습한 가치 체계는 이타적 판단이 필요한 새로운 시나리오로 일반화될 수 있음을 보여줍니다. 이번 연구 결과는 AI 에이전트가 인간을 관찰하고 상호작용하면서 그들의 가치와 규범을 지속적으로 학습하여 그들이 활동하는 문화에 적응할 수 있는 능력을 잠재적으로 부여받을 수 있다는 것을 보여주는 최초의 사례입니다. [abs|pdf]

[5/51] SMoT: Think in State Machine

Keywords: reasoning_paths_humans, efficient_reasoning_paths, alternative_reasoning_paths
Abstract: 현재 언어 모델 추론을 위한 프롬프트 방식은 주로 언어 모델(LLM)의 자율적인 추론 경로 탐색에 의존하기 때문에 잘못된 경로를 만나면 불가피하게 되돌아가는 작업에 직면하게 됩니다. 그 다음에는 대체 추론 경로를 찾아야 합니다. 그러나 인간은 문제에서 최적의 해결책을 추상화하는 데 능숙하기 때문에 유사한 문제 해결을 위한 신속하고 정확한 추론이 가능합니다. 이러한 점에 착안하여, 우리는 LLM 내에서 문제 해결 능력을 향상시키기 위해 전문 지식을 활용할 수 있는 잠재력을 탐구합니다. 미리 정의된 상태 머신을 사용하여 LLM에 효율적인 추론 경로를 제공함으로써 무익한 탐색을 없애는 새로운 패러다임인 상태 머신(State Machine of Thought, SMoT)을 소개합니다. 또한 에이전트에게 서로 다른 목표를 할당하는 다중 에이전트 메커니즘을 제안하여 SMoT 추론의 정확성을 향상시킵니다. 배열 추론 작업을 통해 도출된 실험 결과에 따르면 SMoT는 최첨단 기준선의 성능을 뛰어넘는 95%라는 놀라운 정확도를 실현합니다. [abs|pdf]

[6/51] Jatmo: Prompt Injection Defense by Task-Specific Finetuning

Keywords: language_models_llms, resilient_prompt_injections, models_resilient_prompt
Abstract: 대규모 언어 모델(LLM)은 명령어 추종 기능으로 인해 사용자와 개발자가 다양한 작업에 LLM을 활용할 수 있다는 점에서 연구계의 주목을 받고 있습니다. 그러나 LLM은 프롬프트 인젝션 공격에 취약합니다. 프롬프트 인젝션 공격은 모델의 명령어 추종 기능을 탈취하여 프롬프트에 대한 응답을 원치 않는 악의적인 응답으로 변경하는 공격 유형입니다. 이 글에서는 프롬프트 인젝션 공격에 탄력적으로 대응하는 작업별 모델을 생성하는 방법인 Jatmo를 소개합니다. 자트모는 명령어 튜닝을 거친 후에만 명령어를 따를 수 있다는 점을 활용합니다. 교사 인스트럭션 튜닝 모델을 활용하여 작업별 데이터 세트를 생성한 다음, 기본 모델(즉, 인스트럭션 튜닝을 거치지 않은 모델)을 미세 조정하는 데 사용합니다. Jatmo는 과제 프롬프트와 과제에 대한 입력 데이터 세트만 있으면 교사 모델을 사용하여 출력을 생성합니다. 기존 데이터 세트가 없는 상황의 경우, Jatmo는 하나의 예제만 사용하거나 경우에 따라서는 전혀 사용하지 않고 완전한 합성 데이터 세트를 생성할 수 있습니다. 6가지 작업에 대한 실험 결과, Jatmo 모델은 특정 작업에 대해 표준 LLM과 동일한 품질의 결과물을 제공하면서도 즉각적인 주입에 탄력적으로 대응할 수 있는 것으로 나타났습니다. 가장 좋은 공격의 성공률은 0.5% 미만인 반면, GPT-3.5-Turbo의 성공률은 90%가 넘었습니다. Jatmo는 다음 https URL에서 다운로드할 수 있습니다. [abs|pdf]

[7/51] Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Keywords: commonsense_reasoning_capabilities, commonsense_reasoning_datasets, commonsense_reasoning_tasks
Abstract: OpenAI의 GPT-4V(ision)와 같은 다중모달 대규모 언어 모델(MLLM)에 대한 관심이 급증하면서 학계와 산업계 모두에 큰 영향을 미치고 있습니다. 이러한 모델은 고급 시각적 이해 기능으로 대규모 언어 모델(LLM)을 향상시켜 다양한 멀티모달 작업에 쉽게 적용할 수 있도록 지원합니다. 최근 Google은 멀티모달 통합을 위해 특별히 설계된 최첨단 MLLM인 Gemini를 출시했습니다. 이러한 발전에도 불구하고 예비 벤치마크에 따르면 제미니는 상식적인 추론 작업에서 GPT 모델보다 뒤처지는 것으로 나타났습니다. 그러나 이 평가는 제한된 데이터 세트(예: HellaSWAG)를 기반으로 한 것으로, Gemini의 진정한 상식적 추론 잠재력을 완전히 포착하지는 못합니다. 이러한 격차를 해소하기 위해 본 연구에서는 여러 양식에 걸쳐 상식적인 지식을 통합해야 하는 복잡한 추론 과제에서 제미니의 성능을 철저히 평가했습니다. 일반적인 작업부터 도메인별 작업에 이르기까지 12개의 상식적인 추론 데이터 세트를 종합적으로 분석합니다. 여기에는 언어에만 초점을 맞춘 11개의 데이터 세트와 멀티모달 요소를 통합한 데이터 세트가 포함됩니다. 4개의 LLM과 2개의 MLLM에 대한 실험을 통해 Gemini의 경쟁력 있는 상식적 추론 능력을 입증했습니다. 또한, 상식적인 문제를 해결하는 데 있어 현재의 LLM과 MLLM이 직면한 공통적인 문제를 파악하여 이러한 모델의 상식적인 추론 능력을 향상시키기 위한 추가적인 발전의 필요성을 강조합니다. [abs|pdf]

[8/51] Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation

Keywords: multimodal_pre_trained, visual_grounding, model_visual_grounding
Abstract: 시각적 근거는 이미지의 특정 영역에 대한 시각적 정보를 해당 자연어 표현과 일치시키는 것을 목표로 합니다. 현재의 시각적 근거 방식은 사전 학습된 시각 및 언어 백본을 개별적으로 활용하여 시각적 특징과 언어적 특징을 얻습니다. 이 두 가지 유형의 특징은 정교하게 설계된 네트워크를 통해 융합되지만, 특징의 이질성으로 인해 멀티모달 추론에 적용할 수 없습니다. 이 문제는 현재의 시각적 접지 방법에서 사용되는 단일 모드 사전 훈련 백본 사이의 도메인 격차에서 발생하며, 이는 기존의 엔드투엔드 훈련 방법으로는 거의 극복할 수 없습니다. 이러한 문제를 완화하기 위해 시각적 접지 작업을 안내하기 위해 멀티모달 사전 훈련 모델을 추출하는 시각적 접지를 위한 사전 훈련 모델 강화(EpmVG) 프레임워크를 제안합니다. EpmVG는 사전 학습된 모델에 이미지와 텍스트의 일관성 정보를 효과적으로 도입하여 백본 네트워크에 존재하는 도메인 갭을 줄여 시각적 접지 작업에서 모델의 성능을 향상시킬 수 있는 새로운 교차 모드 증류 메커니즘을 기반으로 합니다. 기존에 사용되던 5개의 데이터 세트에 대해 광범위한 실험을 수행했으며, 그 결과 우리의 방법이 최첨단 방법보다 더 나은 성능을 달성한다는 것을 입증했습니다. [abs|pdf]

[9/51] XAI for In-hospital Mortality Prediction via Multimodal ICU Data

Keywords: multimodal_mortality_predictor, hospital_mortality_multimodal, predicting_hospital_mortality
Abstract: 중환자실(ICU) 환자의 병원 내 사망률을 예측하는 것은 최종 임상 결과의 핵심입니다. AI는 뛰어난 정확도를 보였지만 설명력이 부족하다는 단점이 있습니다. 이 문제를 해결하기 위해 이 백서에서는 설명 가능한 다중 모드 사망률 예측기(eXplainable Multimodal Mortality Predictor, X-MMP)를 제안하며, 이는 다중 모드 ICU 데이터를 통해 병원 내 사망률을 예측하는 효율적이고 설명 가능한 AI 솔루션입니다. 유니티는 임상 데이터에서 이질적인 입력을 받아 의사 결정을 내릴 수 있는 멀티모달 학습을 프레임워크에 적용합니다. 또한 LRP 방법을 트랜스포머에 적절히 확장한 설명 가능한 방법, 즉 레이어 와이즈 전파를 도입하여 멀티모달 입력에 대한 설명을 생성하고 예측에 기인하는 두드러진 특징을 드러냅니다. 또한 임상 결과에 대한 각 모달리티의 기여도를 시각화하여 임상의가 의사 결정의 근거를 이해하는 데 도움을 줄 수 있습니다. 유니티는 MIMIC-III 및 MIMIC-III 파형 데이터베이스 일치 하위 집합을 기반으로 멀티모달 데이터 세트를 구축합니다. 벤치마크 데이터 세트에 대한 포괄적인 실험을 통해 우리가 제안한 프레임워크가 경쟁력 있는 예측 정확도로 합리적인 해석을 달성할 수 있음을 보여줍니다. 특히, 우리의 프레임워크는 다른 임상 작업으로 쉽게 이전할 수 있어 의료 연구에서 중요한 요인을 쉽게 발견할 수 있습니다. [abs|pdf]

[10/51] Adaptive Control Strategy for Quadruped Robots in Actuator Degradation Scenarios

Keywords: actuator_degradation_adaptation, quadruped_robots_strong, robots_strong_adaptability
Abstract: 4족 보행 로봇은 극한 환경에 대한 적응력이 뛰어나지만 고장이 발생할 수도 있습니다. 이러한 결함이 발생하면 로봇을 수리한 후 작업을 재개해야 하므로 로봇의 실용성이 떨어집니다. 이러한 결함 중 가장 널리 알려진 문제 중 하나는 장치 노후화 또는 예기치 않은 작동 이벤트와 같은 요인으로 인한 액추에이터 성능 저하입니다. 기존에는 이 문제를 해결하기 위해 복잡한 내결함성 설계에 크게 의존해 왔는데, 이는 개발자에게 심층적인 도메인 전문성을 요구하고 일반화 가능성이 부족합니다. 학습 기반 접근 방식은 이러한 한계를 완화하는 효과적인 방법을 제공하지만, 이러한 방법을 실제 4족 보행 로봇에 효과적으로 배포하는 데는 연구 격차가 존재합니다. 이 백서에서는 이러한 연구 격차를 해소하기 위해 강화 학습에 기반을 둔 선구적인 교사-학생 프레임워크인 액추에이터 성능 저하 적응 트랜스포머(ADAPT)를 소개합니다. 이 프레임워크는 통합된 제어 전략을 생성하여 로봇이 갑작스러운 관절 액추에이터 오류에도 불구하고 내부 센서에만 의존하여 동작을 유지하고 작업을 수행할 수 있도록 합니다. 유니티 A1 플랫폼에 대한 경험적 평가는 실제 4족 보행 로봇에 대한 Adapt의 배포 가능성과 효과를 검증하고, 유니티 접근 방식의 견고성과 실용성을 확인했습니다. [abs|pdf]

[11/51] Unified Task and Motion Planning using Object-centric Abstractions of Motion Constraints

Keywords: task_motion_planning, constraints_task_planning, motion_planning
Abstract: 작업 및 동작 계획(TAMP)에서는 작업 계획 방법에서 사용하는 추상적 설명의 모호성과 과소 결정으로 인해 작업을 성공적으로 실행하는 데 필요한 물리적 제약을 특성화하기 어렵습니다. 일반적인 접근 방식은 작업 계획 수준에서 이러한 제약을 간과하고 실현 가능한 솔루션을 찾을 때까지 실현 불가능한 작업을 여러 번 호출하고, 계획을 수정하고, 다시 계획하는 고가의 하위 기호 기하학적 추론 기법을 구현하는 것입니다. 저희는 작업과 동작 계획을 단일 휴리스틱 검색으로 통합하는 대안적인 TAMP 접근 방식을 제안합니다. 이 접근 방식은 모션 제약 조건의 객체 중심 추상화를 기반으로 하며, 이를 통해 기성 AI 휴리스틱 검색의 계산 효율성을 활용하여 물리적으로 실현 가능한 계획을 도출할 수 있습니다. 이러한 계획은 집중적인 하위 기호 기하학적 추론 없이도 작업 실행을 위한 객체 및 모션 파라미터로 직접 변환할 수 있습니다. [abs|pdf]

[12/51] The Tyranny of Possibilities in the Design of Task-Oriented LLM Systems: A Scoping Survey

Keywords: task_oriented_llm, llm_exploring_design, design_space_task
Abstract: 이 범위 조사에서는 작업 지향 LLM 시스템의 설계 공간에 대한 현재의 이해에 초점을 맞추고, 사용 가능한 설계 매개변수 간의 정의와 관계를 자세히 설명합니다. 이 백서는 최소한의 작업 지향 LLM 시스템을 정의하는 것으로 시작하여 복잡한 소프트웨어 개발 작업에서 다양한 LLM 시스템 구성(단일 LLM, 단일 LLM 기반 에이전트, 다중 LLM 기반 에이전트 시스템 포함)의 성능을 고려한 사고 실험을 통해 이러한 시스템의 설계 공간을 탐색하고 결과를 가설화합니다. 결과의 패턴에 대해 논의하고 이를 세 가지 추측으로 공식화합니다. 이러한 추측은 부분적으로 잘못된 가정에 근거한 것일 수도 있지만, 향후 연구를 위한 출발점을 제공합니다. 그런 다음 이 논문에서는 몇 가지 설계 매개변수를 조사하여 LLM 증강, 프롬프트 기법, 불확실성 추정에 대한 연구를 다루고 정리하며 그 중요성을 논의합니다. 이 논문은 이러한 분야의 연구를 평가할 때 계산 및 에너지 효율성에 대한 관심이 부족하다고 지적합니다. 설문조사 결과는 선형 및 비선형 컨텍스트 개념을 개발하기 위한 기초를 제공하며, 이를 통해 프롬프트 기법을 다중 에이전트 시스템으로 볼 수 있는 렌즈를 제공하여 에이전트 중심의 프롬프트 기법 투영을 가능하게 하는 데 정의하고 사용합니다. 이 백서에서는 이 렌즈가 LLM 프롬프트와 LLM 기반 멀티에이전트 시스템 간의 연구 교차 수분과 기존 프롬프트 기법을 기반으로 한 합성 훈련 데이터 생성에 미치는 영향에 대해 논의합니다. 이번 설문조사에서는 향후 연구 방향을 제시하는 데 도움이 될 수 있는 7가지 추측을 제시합니다. [abs|pdf]

[13/51] A Tool for the Procedural Generation of Shaders using Interactive Evolutionary Algorithms

Keywords: evolutionary_computation_shader, evolution_shader, shader_editors_interactive
Abstract: 유니티는 비디오 게임 개발에 널리 사용되는 상용 툴인 Unity 에디터와 통합된 인터랙티브 진화 알고리즘을 사용하여 셰이더의 디자인 공간을 탐색할 수 있는 툴을 소개합니다. 이 프레임워크는 최신 셰이더 에디터의 기본 그래프 기반 표현과 인터랙티브 진화 알고리즘을 활용하여 디자이너가 기존 셰이더에서 시작하여 여러 가지 시각적 옵션을 탐색할 수 있도록 합니다. 유니티 프레임워크는 현재 셰이더의 그래프 표현을 셰이더 컬렉션의 진화를 위한 염색체로 인코딩합니다. 이 프레임워크는 일련의 휴리스틱과 함께 그래프 기반 재조합 및 돌연변이를 적용하여 실현 가능한 셰이더를 생성합니다. 이 프레임워크는 Unity 에디터의 확장 기능이므로 진화 연산(및 셰이더 프로그래밍)에 대한 지식이 거의 없는 디자이너도 게임 씬 작업에 사용되는 것과 동일한 시각적 인터페이스를 사용하여 기본 진화 엔진과 상호 작용할 수 있습니다. [abs|pdf]

[14/51] Interpretable and Explainable Machine Learning Methods for Predictive Process Monitoring: A Systematic Literature Review

Keywords: predictive_process_mining, predictive_process_analytics, interpretability_predictive_process
Abstract: 이 백서에서는 예측 프로세스 마이닝의 맥락에서 머신러닝(ML) 모델의 설명 가능성과 해석 가능성에 대한 체계적인 문헌고찰(SLR)을 PRISMA 프레임워크를 사용하여 제시합니다. 인공 지능(AI)과 ML 시스템이 급속도로 발전함에 따라 이러한 기술의 '블랙박스' 특성을 이해하는 것이 점점 더 중요해지고 있습니다. 이 백서에서는 특히 프로세스 마이닝 영역에 초점을 맞춰 복잡한 비즈니스 프로세스 데이터로 학습된 ML 모델을 해석하는 데 따르는 어려움을 자세히 살펴봅니다. 본질적으로 해석 가능한 모델과 사후 설명 기술이 필요한 모델을 구분하여 현재 방법론과 다양한 애플리케이션 영역에서의 적용 사례에 대한 포괄적인 개요를 제공합니다. 이 연구는 엄격한 서지 분석을 통해 예측 프로세스 마이닝의 설명 가능성과 해석 가능성의 현황을 상세히 종합하여 주요 트렌드, 과제, 향후 방향을 파악합니다. 이 연구 결과는 연구자와 실무자가 예측 프로세스 분석을 위해 보다 신뢰할 수 있고 투명하며 효과적인 지능형 시스템을 개발하고 구현하는 방법에 대해 더 깊이 이해할 수 있도록 하는 것을 목표로 합니다. [abs|pdf]

[15/51] Action-Item-Driven Summarization of Long Meeting Transcripts

Keywords: meeting_summaries_driven, generation_meeting_summaries, automatically_generate_summary
Abstract: 온라인 회의의 보급률이 높아지면서 특정 회의의 요약을 자동으로 생성할 수 있는 모델의 실용성이 크게 향상되었습니다. 이 백서에서는 회의 요약 생성을 자동화하는 새롭고 효과적인 접근 방식을 소개합니다. 이 문제에 대한 현재의 접근 방식은 회의를 단순히 긴 대화로 간주하여 일반적이고 기본적인 요약을 생성합니다. 하지만 저희의 새로운 알고리즘은 회의 기록에 포함된 작업 항목에 따라 추상적인 회의 요약을 생성할 수 있습니다. 이는 요약을 재귀적으로 생성하고 회의의 각 섹션에 대해 작업 항목 추출 알고리즘을 병렬로 적용함으로써 이루어집니다. 그런 다음 이러한 모든 섹션별 요약을 결합하고 요약하여 일관성 있는 액션 항목 중심의 요약을 생성합니다. 또한 이 백서에서는 알고리즘의 시간 효율성을 개선하고 대규모 언어 모델(LLM)이 장기 종속성을 잊어버리는 문제를 해결하기 위해 긴 녹취록을 주제 기반 섹션으로 나누는 세 가지 새로운 방법을 소개합니다. 당사의 파이프라인은 AMI 말뭉치 전체에서 64.98의 BERTS 점수를 달성했으며, 이는 미세 조정된 BART(양방향 및 자동 회귀 트랜스포머) 모델이 생성한 현재 최신 결과보다 약 4.98% 향상된 수치입니다. [abs|pdf]

[16/51] Informative Rays Selection for Few-Shot Neural Radiance Fields

Keywords: learned_volumetric_representation, regularizing_learned_volumetric, learned_volumetric
Abstract: 신경 방사 필드(NeRF)는 최근 이미지 기반 3D 재구성을 위한 강력한 방법으로 부상했지만, 장면당 최적화에 시간이 오래 걸리기 때문에 특히 리소스가 제한된 환경에서는 실제 사용이 제한됩니다. 기존 접근 방식은 입력 뷰의 수를 줄이고 복잡한 손실 또는 다른 모달리티의 추가 입력을 통해 학습된 체적 표현을 정규화함으로써 이 문제를 해결합니다. 이 백서에서는 주요 정보 광선에 집중하여 적은 수의 샷 시나리오에서 NeRF를 훈련하는 간단하면서도 효과적인 방법인 KeyNeRF를 소개합니다. 이러한 광선은 먼저 카메라 수준에서 장면 커버리지를 보장하면서 기준선 다양성을 촉진하는 뷰 선택 알고리즘에 의해 선택된 다음, 픽셀 수준에서 로컬 이미지 엔트로피에 기반한 확률 분포에서 샘플링하여 선택됩니다. 이러한 접근 방식은 기존 NeRF 코드베이스의 변경을 최소화하면서 최첨단 방법과 비교했을 때 우수한 성능을 발휘합니다. [abs|pdf]

[17/51] Building Efficient Universal Classifiers with Natural Language Inference

Keywords: generative_large_language, universality_text_generation, large_language_models
Abstract: 생성형 대규모 언어 모델(LLM)은 텍스트 생성의 보편성 덕분에 소수의 샷 및 제로 샷 학습을 위한 주류 선택이 되었습니다. 하지만 많은 사용자는 분류 작업만 자동화하고자 할 때 생성형 LLM의 광범위한 기능이 필요하지 않습니다. 더 작은 BERT와 같은 모델도 보편적인 작업을 학습할 수 있기 때문에 미세 조정 없이 모든 텍스트 분류 작업을 수행하거나(제로샷 분류), 몇 개의 예제만으로 새로운 작업을 학습할 수 있으며(소수샷), 제너레이티브 LLM보다 훨씬 더 효율적입니다. 이 백서에서는 (1) 자연어 추론(NLI)을 제너레이티브 LLM의 명령어 미세 조정과 유사한 원리를 따르는 범용 분류 작업으로 사용하는 방법을 설명하고, (2) 범용 분류기를 구축하기 위해 재사용 가능한 Jupyter 노트북과 함께 단계별 가이드를 제공하며, (3) 389개의 다양한 클래스로 구성된 33개의 데이터세트에서 학습된 범용 분류기의 결과물을 공유합니다. 우리가 공유하는 코드의 일부는 2023년 12월 현재 Hugging Face Hub를 통해 5,500만 회 이상 다운로드된 구형 제로샷 분류기를 훈련하는 데 사용되었습니다. 새로운 분류기는 제로샷 성능을 9.4% 향상시켰습니다. [abs|pdf]

[18/51] Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception

Keywords: dimension_knowledge_quantity, dimension_knowledge, reasoning_tasks_compared
Abstract: 양은 개체의 크기 속성을 특징짓는 텍스트의 독특하고 중요한 구성 요소로, 자연어 이해, 특히 추론 과제에 정확한 관점을 제공합니다. 최근 몇 년 동안 대규모 언어 모델(LLM)을 기반으로 한 추론 과제에 대한 연구가 활발히 진행되고 있지만, 그 중 대부분은 수치에만 초점을 맞추고 단위가 있는 양의 차원 개념은 그 중요성에도 불구하고 소홀히 다루고 있습니다. 우리는 차원 개념이 양을 정확하게 이해하는 데 필수적이며, LLM이 정량적 추론을 수행하는 데 매우 중요하다고 주장합니다. 그러나 차원에 대한 지식과 수량 관련 벤치마크가 부족하여 LLM의 성능이 저조한 실정입니다. 따라서 본 논문에서는 차원 인식을 기반으로 언어 모델의 정량적 추론 능력을 향상시킬 수 있는 프레임워크를 제시합니다. 먼저 이 분야의 지식 격차를 해소하기 위해 차원 단위 지식 베이스(DimUnitKB)를 구축합니다. 그리고 LLM의 차원 인식 능력을 조사하고 향상시키기 위해 세 가지 범주의 7개 과제로 구성된 벤치마크 DimEval을 제안합니다. 방법의 효과를 평가하기 위해 정량적 추론 과제를 제안하고 실험을 수행합니다. 실험 결과, 우리의 차원 인식 방법은 GPT-4에 비해 정량적 추론 과제에서 정확도가 크게 향상(43.55%->50.67%)된 것을 확인할 수 있었습니다. [abs|pdf]

[19/51] Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion

Keywords: emotional_voice_conversion, emotion_intra_speech, voice_conversion
Abstract: 감정 음성 변환은 비감정 요소는 보존하면서 주어진 감정에 따라 음성을 조작하는 것을 목표로 합니다. 기존의 접근 방식은 세분화된 감정 속성을 잘 표현하지 못합니다. 이 논문에서는 음성 변환을 위해 인스턴스별 감정 지식을 활용하는 주의 기반 대화형 얽힘 네트워크(AINN)를 제안합니다. 네트워크를 효과적으로 훈련하기 위해 2단계 파이프라인을 도입합니다: 1단계에서는 음성 간 대조 학습을 활용하여 세분화된 감정을 모델링하고, 음성 내 엉킴 풀림 학습을 통해 감정과 내용을 더 잘 분리합니다. 2단계에서는 멀티뷰 일관성 메커니즘으로 변환을 정규화할 것을 제안합니다. 이 기술은 세분화된 감정을 전달하고 음성 내용을 유지하는 데 도움이 됩니다. 광범위한 실험 결과, AINN은 객관적인 지표와 주관적인 지표 모두에서 최신 기술을 능가하는 것으로 나타났습니다. [abs|pdf]

[20/51] Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation

Keywords: camouflaged_instance_segmentation, camouflaged_object_representations, segmenting_camouflaged_objects
Abstract: 텍스트-이미지 확산 기술은 텍스트 설명에서 고품질 이미지를 생성하는 탁월한 능력을 보여주었습니다. 이는 시각 영역과 텍스트 영역 사이에 강력한 상관관계가 존재한다는 것을 의미합니다. 또한 CLIP과 같은 텍스트-이미지 판별 모델은 개방형 개념에서 얻을 수 있는 풍부하고 다양한 정보 덕분에 텍스트 프롬프트에서 이미지 라벨링에 탁월합니다. 이 논문에서는 이러한 기술적 진보를 활용하여 컴퓨터 비전의 까다로운 문제인 위장된 인스턴스 분할을 해결합니다. 구체적으로, 우리는 위장된 객체 표현을 위한 멀티스케일 텍스트-시각적 특징을 학습하기 위해 개방형 어휘로 강화된 최첨단 확산 모델을 기반으로 구축된 방법을 제안합니다. 이러한 교차 도메인 표현은 시각적 단서가 미묘하여 배경과 물체를 구분하기 어려운 위장된 물체를 분할할 때, 특히 훈련에서 볼 수 없는 새로운 물체를 분할할 때 유용합니다. 또한 여러 영역의 특징을 효과적으로 융합하고 관련 특징을 각각의 전경 객체에 연결하기 위한 기술 지원 구성 요소를 개발합니다. 위장된 인스턴스 분할과 일반 개방형 어휘 인스턴스 분할의 여러 벤치마크 데이터 세트에서 우리의 방법을 검증하고 기존 방법과 비교합니다. 실험 결과를 통해 기존 방식에 비해 우리의 방식이 개선되었음을 확인했습니다. 향후 연구를 지원하기 위해 코드와 사전 훈련된 모델을 공개할 예정입니다. [abs|pdf]

[21/51] Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning

Keywords: generating_truth_features, hidden_truth_representations, truth_features
Abstract: 대규모 언어 모델(LLM)은 다양한 작업에서 큰 성공을 거뒀지만 환각이 발생하는 문제가 있습니다. 다차원 직교 프로브를 사용해 숨겨진 진리 표현을 찾아냄으로써 LLM의 진실성을 향상시키는 방법인 트루스 포레스트(Truth Forest)를 소개합니다. 특히, 프로브에 직교 제약 조건을 통합하여 진리 모델링을 위한 여러 직교 기반을 생성합니다. 또한, 시퀀스 내의 확장된 범위의 위치를 고려하는 체계적인 기법인 랜덤 픽(Random Peek)을 도입하여 LLM에서 진실 특징을 식별하는 것과 생성하는 것 사이의 간극을 줄였습니다. 이 접근법을 사용해 TruthfulQA에서 Llama-2-7B의 진실성을 40.8%에서 74.5%로 개선했습니다. 마찬가지로 미세 조정된 모델에서도 상당한 개선이 관찰되었습니다. 프로브를 사용해 트루스 피처에 대한 철저한 분석을 수행했습니다. 시각화 결과에 따르면 직교 프로브는 상호 보완적인 진실 관련 특징을 포착하여 데이터 세트의 고유한 구조를 드러내는 잘 정의된 클러스터를 형성합니다. [abs|pdf]

[22/51] EHR Interaction Between Patients and AI: NoteAid EHR Interaction

Keywords: ehr_interaction_dataset, providing_explanations_ehr, tasks_noteaid_ehr
Abstract: 대규모 언어 모델(LLM)의 급속한 발전과 의미 및 문맥 이해에 있어 뛰어난 성능으로 인해 특수한 영역에서 LLM의 잠재력을 탐구할 필요가 있습니다. 이 백서에서는 환자가 전자 의료 기록(EHR)을 이해하는 데 도움을 줄 필요성에서 비롯된 환자 교육을 지원하기 위해 생성형 LLM을 사용하여 개발된 혁신적인 접근 방식인 NoteAid EHR 인터랙션 파이프라인에 대해 소개합니다. 노트에이드 작업을 기반으로 환자가 이해하지 못할 수 있는 EHR 콘텐츠에 대한 설명 제공과 환자가 EHR을 읽은 후 제기하는 질문에 대한 답변이라는 두 가지 새로운 작업을 환자 관점에서 설계했습니다. MIMIC 퇴원 요약에서 10,000개의 인스턴스가 포함된 데이터 세트를 추출하고, MADE 의료 노트 컬렉션에서 876개의 인스턴스를 추출하여 이 데이터로 NoteAid EHR 인터랙션 파이프라인을 통해 두 가지 작업을 실행했습니다. 이러한 작업에 대한 LLM의 수행 데이터는 수집되어 해당 노트에이드 EHR 인터랙션 데이터세트로 구축되었습니다. LLM 평가와 64개 사례에 대한 엄격한 수작업 평가를 통해 전체 데이터 세트를 종합적으로 평가하여 환자 교육에서 LLM의 잠재력을 보여주었습니다. 또한 이 결과는 향후 이 분야의 탐색과 응용을 위한 귀중한 데이터 지원을 제공하는 동시에 사내 시스템 교육을 위한 고품질 합성 데이터 세트를 제공합니다. [abs|pdf]

[23/51] FerKD: Surgical Label Adaptation for Efficient Distillation

Keywords: hard_label_adaptation, soft_label_predictions, distributions_soft_supervision
Abstract: 우리는 부분적인 소프트-하드 라벨 적응과 영역 보정 메커니즘을 결합한 새롭고 효율적인 지식 증류 프레임워크인 FerKD를 소개합니다. 우리의 접근 방식은 RandomResizedCrop과 같은 표준 데이터 증강이 입력을 다양한 조건, 즉 쉬운 긍정, 어려운 긍정 또는 어려운 부정으로 변환하는 경향이 있다는 관찰과 직관에서 비롯됩니다. 기존의 증류 프레임워크에서는 이렇게 변환된 샘플이 사전 학습된 교사 모델에서 도출된 예측 확률을 통해 동일하게 활용됩니다. 그러나 기존 연구에서 흔히 사용되는 사전 학습된 교사의 예측 값에만 의존하는 것은 이러한 소프트 라벨 예측의 신뢰성을 무시하는 것입니다. 이 문제를 해결하기 위해 저희는 신뢰도가 낮은 영역을 연화된 하드 그라운드트루스 레이블을 사용하여 컨텍스트로 보정하는 새로운 방식을 제안합니다. 이 접근 방식에는 하드 영역 마이닝 + 보정 프로세스가 포함됩니다. 이 방법이 수렴 속도와 최종 정확도를 획기적으로 개선할 수 있음을 실증적으로 입증했습니다. 또한, 일관된 혼합 전략이 소프트 라벨을 활용하여 소프트 감독의 분포를 안정화할 수 있음을 발견했습니다. 그 결과, 동일한 이미지 내에서 유사한 영역을 혼합하여 혼합된 이미지와 해당 소프트 레이블의 변동을 약화시키는 안정화된 셀프믹스 증강을 도입했습니다. FerKD는 직관적이고 잘 설계된 학습 시스템으로, 기존 FKD 솔루션의 여러 휴리스틱과 하이퍼파라미터를 제거합니다. 더 중요한 것은 ImageNet-1K 및 다운스트림 작업을 현저하게 개선한다는 점입니다. 예를 들어, FerKD는 ResNet-50을 통해 이미지넷-1K에서 81.2%의 정확도를 달성하여 FKD와 펀매치를 큰 차이로 앞질렀습니다. 더 나은 사전 훈련된 가중치와 더 큰 아키텍처를 활용하여 미세 조정된 ViT-G14는 89.9%를 달성하기도 합니다. 이 https URL에서 코드를 확인할 수 있습니다. [abs|pdf]

[24/51] FedLED: Label-Free Equipment Fault Diagnosis with Vertical Federated Transfer Learning

Keywords: equipment_fault_diagnosis, fault_diagnosis_systematically, transfer_learning_ftl
Abstract: 연합 전이 학습(FTL)에 기반한 지능형 장비 고장 진단은 학계와 업계 모두에서 상당한 관심을 받고 있습니다. 이 기술을 사용하면 샘플이 제한된 실제 산업 현장에서 원시 데이터 프라이버시를 침해하지 않으면서도 고장 진단 모델을 구축할 수 있습니다. 그러나 기존 접근 방식은 실제 에이전트의 다양한 작업 조건으로 인해 발생하는 극심한 샘플 이질성이나 새로 배치된 장비의 극심한 결함 라벨 부족(심지어 0개)을 해결할 수 없습니다. 이러한 문제를 해결하기 위해 라벨이 없는 대상 도메인에 대한 지식을 효과적으로 비지도 모델 전송에 활용하는 최초의 비지도 수직 FTL 장비 결함 진단 방법인 FedLED를 소개합니다. 실제 장비 모니터링 데이터를 사용한 광범위한 실험 결과, FedLED는 진단 정확도(최대 4.13배)와 일반성 측면에서 SOTA 접근법보다 월등히 뛰어난 성능을 보였음이 입증되었습니다. 이 연구가 목표 도메인 지식으로 체계적으로 강화된 라벨 없는 장비 고장 진단에 대한 추가 연구에 영감을 줄 것으로 기대합니다. [abs|pdf]

[25/51] ClST: A Convolutional Transformer Framework for Automatic Modulation Recognition by Knowledge Distillation

Keywords: novel_convolutional_transformer, named_convolution_transformer, convolution_novel_attention
Abstract: 최근 몇 년 동안 딥러닝(DL)의 급속한 발전으로 DL을 이용한 자동 변조 인식(AMR)은 높은 정확도를 달성했습니다. 하지만 복잡한 채널 환경과 대규모 DL 모델에서 불충분한 훈련 신호 데이터는 DL 방식을 실제로 적용하기 어렵게 만드는 중요한 요소입니다. 이러한 문제점을 해결하기 위해 컨볼루션 연결 신호 변환기(ClST)라는 새로운 신경망과 신호 지식 증류(SKD)라는 새로운 지식 증류 방법을 제안합니다. ClST는 컨볼루션을 포함하는 트랜스포머 계층 구조, 병렬 공간 채널 주의(PSCA) 메커니즘이라는 새로운 주의 메커니즘, 컨볼루션 투영을 활용하는 컨볼루션-트랜스포머 투영(CTP)이라는 새로운 컨볼루션 트랜스포머 블록의 세 가지 주요 수정을 통해 이루어집니다. SKD는 신경망의 파라미터와 복잡성을 효과적으로 줄이기 위한 지식 증류 방식입니다. 유니티는 소형화된 기기에서 신경망을 사용할 수 있어야 한다는 요구를 충족하기 위해 SKD 알고리즘을 사용하여 두 가지 경량 신경망인 KD-CNN과 KD-MobileNet을 훈련했습니다. 시뮬레이션 결과에 따르면 ClST는 모든 데이터 세트에서 고급 신경망보다 성능이 뛰어납니다. 또한 KD-CNN과 KD-MobileNet 모두 네트워크 복잡성을 줄이면서 더 높은 인식 정확도를 얻을 수 있어 소형화된 통신 디바이스에 AMR을 배포하는 데 매우 유용합니다. [abs|pdf]

[26/51] Break Out of a Pigeonhole: A Unified Framework for Examining Miscalibration, Bias, and Stereotype in Recommender Systems

Keywords: stereotypes_improving_recommendation, recommender_systems_tend, recommendation_research_reveals
Abstract: 추천 시스템은 사용자의 니즈에 맞춰 아이템과 정보를 개인화할 수 있다는 장점에도 불구하고, 인기 아이템이나 특정 카테고리를 선호하는 편향성, 지배적인 사용자 그룹을 형성하는 경향이 있는 것으로 밝혀졌습니다. 본 연구에서는 추천 시스템의 시스템적 오류와 이러한 오류가 고정관념, 편견, 오보 등 다양한 책임성 문제에서 어떻게 나타나는지 규명하고자 합니다. 우리는 예측 오류의 원인을 개인 및 집단 수준에서 시스템으로 인한 다양한 유형의 효과를 정량화하는 일련의 주요 측정치로 구분하는 통합 프레임워크를 제안합니다. 이러한 측정 프레임워크를 기반으로 영화 추천 분야에서 가장 널리 채택된 알고리즘을 조사했습니다. 연구 결과, (1) 알고리즘 간의 차이: 더 단순한 알고리즘으로 생성된 추천은 더 복잡한 알고리즘으로 생성된 추천보다 더 정형화되어 있지만 편향성은 덜한 경향이 있습니다. (2) 그룹과 개인에 대한 상이한 영향: 시스템으로 인한 편견과 고정관념은 비정형 사용자와 소수 그룹(예: 여성 및 고령 사용자)에 불균형적인 영향을 미칩니다. (3) 완화 기회: 구조 방정식 모델링을 사용하여 사용자 특성(전형성 및 다양성), 시스템으로 인한 효과, 오보 간의 상호작용을 파악합니다. 또한 과소 대표되는 그룹과 개인을 오버샘플링하여 시스템으로 인한 효과를 완화할 수 있는 가능성을 조사했는데, 이는 고정관념을 줄이고 추천 품질을 개선하는 데 효과적인 것으로 밝혀졌습니다. 이번 연구는 시스템 유발 효과와 오보정뿐만 아니라 추천 시스템의 고정관념 문제를 체계적으로 조사한 최초의 연구입니다. [abs|pdf]

[27/51] Commonsense for Zero-Shot Natural Language Video Localization

Keywords: natural_language_video, shot_natural_language, shot_weakly_supervised
Abstract: 제로 샷 자연어-비디오 로컬라이제이션(NLVL) 방법은 비디오 세그먼트와 의사 쿼리 주석을 동적으로 생성하여 원시 비디오 데이터만으로 NLVL 모델을 훈련하는 데 있어 유망한 결과를 보여주었습니다. 그러나 기존의 유사 쿼리는 원본 비디오에 대한 근거가 부족하여 비정형적이고 단절된 콘텐츠를 생성하는 경우가 많습니다. 이 백서에서는 제로 샷 NLVL에서 상식적인 추론의 효과를 조사합니다. 특히, 상식을 활용하여 상식 향상 모듈을 통해 비디오와 생성된 의사 쿼리 사이의 간극을 메우는 제로 샷 NLVL 프레임워크인 CORONET을 소개합니다. 코로넷은 지식 그래프에서 추출한 상식 정보를 인코딩하고, 비디오에 조건부로 적용하며, 교차 주의 메커니즘을 사용하여 로컬라이제이션 전에 인코딩된 비디오와 의사 쿼리 표현을 향상시킵니다. 두 가지 벤치마크 데이터 세트에 대한 실증적 평가를 통해 CORONET은 다양한 리콜 임계값에서 최대 32.13%, mIoU에서 최대 6.33%의 개선을 달성하여 제로 샷 및 약하게 감독된 기준선을 모두 능가하는 것으로 입증되었습니다. 이러한 결과는 제로 샷 NLVL에 상식적인 추론을 활용하는 것이 얼마나 중요한지 잘 보여줍니다. [abs|pdf]

[28/51] Context-based Transfer and Efficient Iterative Learning for Unbiased Scene Graph Generation

Keywords: scene_graph_generation, unbiased_scene_graph, scene_graph
Abstract: 편향되지 않은 장면 그래프 생성(USGG)은 SGG의 편향된 예측을 해결하는 것을 목표로 합니다. 이를 위해 데이터 전송 방법은 거친 단위의 술어를 세분화된 단위로 변환하여 불균형한 분포를 완화하도록 설계되었습니다. 그러나 이러한 방식은 '여자-식탁'에 '먹는'이 적합하지 않은 경우와 같이 전송된 레이블과 주어-목적어 쌍 간의 문맥적 관련성을 간과합니다. 또한, 일반적으로 데이터 전송을 위해 모델을 사전 훈련한 후 전송된 레이블을 사용해 처음부터 다시 훈련하는 2단계 프로세스를 거쳐야 하므로 상당한 계산 비용이 발생합니다. 따라서 점진적으로 향상된 데이터로 SGG 모델을 반복적으로 훈련하는 플러그 앤 플레이 방식인 CITrans를 소개합니다. 먼저, 세분화된 데이터 전송을 위해 술어의 의미 공간 내에 주어-객체 제약 조건을 부과하는 문맥 제한 전송(CRT)을 도입합니다. 그 후 효율적인 반복 학습(EIL)을 통해 모델을 반복적으로 학습하고 모델의 학습 상태와 일치하는 향상된 레이블을 점진적으로 생성하여 학습 프로세스를 가속화합니다. 마지막으로, 광범위한 실험을 통해 CITrans가 높은 효율로 최첨단 결과를 달성한다는 것이 입증되었습니다. [abs|pdf]

[29/51] Hotspot Prediction of Severe Traffic Accidents in the Federal District of Brazil

Keywords: accidents_machine_learning, prediction_accidents, prediction_accidents_severity
Abstract: 교통 사고는 출퇴근이 매우 중요한 사회에서 가장 큰 문제 중 하나입니다. 사고를 유발하는 요인은 여러 가지 주관적인 변수에 따라 달라질 수 있으며 각 지역, 도시 또는 국가마다 다릅니다. 마찬가지로, 향후 사고 예방에 관한 의사 결정을 지원하기 위한 지식 기반을 제공하기 위해서는 이러한 매개변수를 이해하는 것이 중요합니다. 문헌에는 머신러닝 알고리즘이 사고 또는 사고의 심각도 예측에 사용된 여러 연구가 소개되어 있으며, 이 연구에서는 도시 수준의 데이터 세트가 평가 연구로 사용되었습니다. 이 연구는 주로 사고의 집중도와 머신러닝을 사용하여 핫스팟을 예측하는 방법에 초점을 맞추어 연구의 다양성을 더하고자 합니다. 이러한 접근 방식은 당국이 사고 집중 행동의 뉘앙스를 이해하는 데 유용한 기술임이 입증되었습니다. 처음으로 법의학 교통사고 분석가들이 수집한 브라질 연방지구의 데이터를 현지 기상 조건의 데이터와 결합하여 충돌 집중 지점을 예측하는 데 사용했습니다. 고려한 다섯 가지 알고리즘 중 두 가지 알고리즘이 우수한 성능을 보였습니다: 다층 퍼셉트론과 랜덤 포레스트, 이 중 후자가 98%의 정확도로 가장 우수한 성능을 보였습니다. 결과적으로 날씨 매개변수가 사고 위치만큼 중요하지 않다는 것을 확인했으며, 이는 사고 발생 건수를 줄이기 위해 지역적 개입이 중요하다는 것을 보여줍니다. [abs|pdf]

[30/51] Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e

Keywords: mu2e_accelerator_markov, accelerator_markov_decision, simulator_mu2e_accelerator
Abstract: 페르미국립가속기연구소(페르미랩)의 뮤온-전자 변환 실험(Mu2e)에서 균일한 양성자 빔 강도 전달을 유지하는 문제를 해결하기 위한 새로운 근거리 정책 최적화(PPO) 알고리즘을 소개합니다. 우리의 주요 목표는 일관된 강도 프로파일을 보장하기 위해 유출 프로세스를 규제하는 것이며, 궁극적으로는 밀리초 단위로 실시간 피드백을 제공하고 유출 규제 시스템(SRS) 매개변수를 보정할 수 있는 자동 컨트롤러를 개발하는 것입니다. 유니티는 Mu2e 가속기 시스템을 강화 학습(RL)에 적합한 마르코프 결정 과정으로 취급하며, 편향을 줄이고 훈련 안정성을 향상시키기 위해 PPO를 활용합니다. 이 접근 방식의 핵심 혁신은 신경화된 비례-적분-미분(PID) 컨트롤러를 정책 함수에 통합하여 유출 의무 계수(SDF)를 13.6%까지 크게 개선하여 현재 PID 컨트롤러 기준선의 성능을 1.6% 추가로 능가하는 결과를 가져왔습니다. 이 논문은 Mu2e 가속기의 차별화 가능한 시뮬레이터를 기반으로 한 예비 오프라인 결과를 제시합니다. 이 논문은 실시간 구현 및 응용을 위한 토대를 마련하며, Mu2e 실험을 위한 자동화된 양성자 빔 강도 제어를 향한 중요한 단계를 나타냅니다. [abs|pdf]

[31/51] Towards Auto-Modeling of Formal Verification for NextG Protocols: A Multimodal cross- and self-attention Large Language Model Approach

Keywords: modeling_formal_verification, protocol_design_verification, formal_verification_generation
Abstract: 이 백서에서는 네트워크 프로토콜 설계 및 검증의 복잡성과 확장성 문제를 해결하기 위해 차세대(NextG) 통신 프로토콜의 형식적 검증을 위해 설계된 새로운 시스템인 '5G 및 NextG 프로토콜을 위한 실제 프롬프팅을 이용한 형식적 검증 자동 모델링(AVRE)'을 소개합니다. AVRE는 대규모 언어 모델(LLM)을 활용하여 프로토콜 설명을 종속성 그래프와 형식적 모델로 변환하여 모호성을 효율적으로 해결하고 설계 의도를 포착합니다. 이 시스템은 트랜스포머 모델과 LLM을 통합하여 교차 및 자체 주의 메커니즘을 통해 정량화 가능한 종속성 관계를 자율적으로 설정합니다. HyFuzz 실험 플랫폼의 반복적인 피드백을 통해 향상된 AVRE는 복잡한 통신 프로토콜에서 공식 검증의 정확성과 관련성을 크게 향상시켜 정교한 통신 시스템을 검증하는 데 획기적인 접근 방식을 제공합니다. 최첨단 LLM 기반 모델 및 기존 시간 순서 모델과 CAL의 성능을 비교한 결과, 95.94%의 정확도와 0.98의 AUC를 달성하여 정확성과 견고성에서 우수한 성능을 입증했습니다. 이 NLP 기반 접근 방식은 처음으로 설계 문서에서 직접 익스플로잇을 생성할 수 있게 하여 확장 가능한 시스템 검증 및 유효성 검사에서 괄목할 만한 진전을 이루었습니다. [abs|pdf]

[32/51] STanHop: Sparse Tandem Hopfield Model for Memory-Enhanced Time Series Prediction

Keywords: hopfield_based_neural, sparse_hopfield_layers, learns_stores_temporal
Abstract: 메모리 강화 기능을 갖춘 다변량 시계열 예측을 위한 STanHop-Net(스파스 탠덤 홉필드 네트워크)을 소개합니다. 이 접근 방식의 핵심은 데이터에 따라 시계열 및 교차 시리즈 표현을 모두 희소하게 학습하고 저장하는 새로운 홉필드 기반 신경망 블록인 STanHop입니다. 기본적으로 STanHop은 두 개의 탠덤 스파스 홉필드 레이어를 사용해 시간적 표현과 교차 계열 표현을 순차적으로 학습합니다. 또한, 스탠홉은 플러그 앤 플레이 모듈과 튠 앤 플레이 모듈이라는 두 개의 추가 외부 메모리 모듈을 통합하여 각각 훈련이 필요 없는 메모리 향상과 작업 인식 메모리 향상을 지원합니다. 이 모듈을 통해 StanHop-Net은 갑작스러운 특정 이벤트에 신속하게 대응할 수 있습니다. 방법론적으로는 STanHop 블록을 계층적 방식으로 쌓아 올려 해상도별 희소성을 가진 다중 해상도 특징 추출을 가능하게 하는 방식으로 StanHop-Net을 구축합니다. 이론적으로는 현대 홉필드 모델의 스파스 확장 모델(일반화된 스파스 현대 홉필드 모델)을 도입하여 메모리 용량은 그대로 유지하면서 메모리 검색 오류를 밀도 모델에 비해 더 엄격하게 제어할 수 있음을 보여줍니다. 또한 가상 환경과 실제 환경 모두에서 프레임워크의 효율성을 경험적으로 검증합니다. [abs|pdf]

[33/51] AQUALLM: Audio Question Answering Data Generation Using Large Language Models

Keywords: audio_question_answering, audio_caption_annotations, audio_caption
Abstract: 오디오 질문 답변(AQA)은 기계가 오디오 신호와 자연어 질문을 모두 분석하여 정확한 자연어 답변을 생성하는 중추적인 작업입니다. AQA 시스템의 정확도를 높이기 위해서는 고품질의 다양하고 광범위한 AQA 데이터 세트를 보유하는 것이 중요합니다. 정확하고 효율적인 AQA 모델을 개발하는 데는 많은 관심이 집중되어 왔지만, 당면한 특정 작업을 위한 고품질의 다양하고 광범위한 데이터셋을 생성하는 데는 그다지 큰 관심을 끌지 못했습니다. 이 과제를 해결하기 위해 이 작업은 몇 가지 기여를 하고 있습니다. 대규모 언어 모델(LLM)에 의존하는 확장 가능한 AQA 데이터 생성 파이프라인, 즉 AQUALLM 프레임워크를 소개합니다. 이 프레임워크는 기존 오디오 캡션 주석을 활용하고 최첨단 LLM을 통합하여 광범위한 고품질 AQA 데이터 세트를 생성합니다. 또한 AQA를 위한 세 가지의 광범위한 고품질 벤치마크 데이터 세트를 제공하여 AQA 연구 발전에 크게 기여하고 있습니다. 제안된 데이터셋으로 학습된 AQA 모델은 기존의 최신 기술에 비해 우수한 벤치마크를 설정합니다. 또한, 데이터셋으로 훈련된 모델은 사람이 주석을 단 AQA 데이터를 사용하여 훈련된 모델과 비교했을 때 일반화 가능성이 향상되었습니다. 코드와 데이터 세트는 GitHub에서 액세스할 수 있습니다. [abs|pdf]

[34/51] SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language Models for Private and Secure Inference

Keywords: models_passkey_encrypted, encrypted_models_achieve, inference_encrypted_inputs
Abstract: 이 백서에서는 다양한 최신 AI 기반 애플리케이션에서 중요한 구성 요소로 사용되는 심층 신경망 언어 모델과 관련된 개인정보 보호 및 보안 문제를 다룹니다. 이러한 모델은 특정 작업에 맞게 사전 학습 및 미세 조정을 거친 후 인터넷을 통해 액세스되는 서버에 배포되어 사용되는 경우가 많습니다. 그러나 여기에는 두 가지 근본적인 위험이 존재합니다. (1) 네트워크를 통해 사용자 입력을 서버로 전송하면 가로채기 취약성이 발생하고, (2) 이러한 모델을 배포하는 조직이 제한된 컨텍스트의 사용자 데이터를 저장하기 때문에 개인정보 보호 문제가 발생합니다. 이러한 문제를 해결하기 위해 저희는 패스키로 암호화된 사용자별 텍스트에 트랜스포머 기반 언어 모델을 적용하고 미세 조정하는 새로운 방법을 제안합니다. 사전 학습된 원래의 언어 모델은 먼저 토큰화 및 토큰 임베딩에 적용된 일련의 비가역적 변환을 통해 추가적인 사전 학습 없이 빠르게 조정됩니다. 이를 통해 모델은 암호화된 입력에 대한 추론을 수행하는 동시에 모델 매개변수 및 중간 출력에서 텍스트의 리버스 엔지니어링을 방지할 수 있습니다. 적응 후에는 기존 학습 데이터 세트의 암호화된 버전에서 모델을 미세 조정합니다. 텍스트 분류 및 시퀀스 라벨링을 위한 기존 벤치마크 영어 및 다국어 데이터 세트에서 유명한 모델(예: BERT, RoBERTa)의 적응 버전을 사용한 실험 평가에 따르면 암호화된 모델이 원래 모델과 동등한 성능을 달성하는 것으로 나타났습니다. 이는 성능, 개인정보 보호, 보안을 통합적으로 보호하는 역할을 합니다. [abs|pdf]

[35/51] Count What You Want: Exemplar Identification and Few-shot Counting of Human Actions in the Wild

Keywords: counting_human_actions, count_vocalizing_predefined, count_vocalizing
Abstract: 이 논문에서는 웨어러블 기기의 센서 데이터를 사용하여 관심 있는 사람의 행동을 세는 작업을 다룹니다. 우리는 새로운 예시 기반 프레임워크를 제안하여 사용자가 미리 정의된 소리 '하나', '둘', '셋'을 발성하여 계산하고자 하는 동작의 예시를 제공할 수 있도록 합니다. 우리의 방법은 먼저 오디오 시퀀스에서 이러한 발화의 시간적 위치를 파악합니다. 이러한 위치는 관심 있는 동작 클래스를 대표하는 예시를 식별하기 위한 기초가 됩니다. 그런 다음 예시와 전체 센서 데이터 시퀀스 간에 유사도 맵을 계산하고, 이를 밀도 추정 모듈에 입력해 일련의 추정 밀도 값을 생성합니다. 이러한 밀도 값을 합산하면 최종 집계가 이루어집니다. 접근 방식을 개발하고 평가하기 위해 센서와 오디오 데이터를 모두 아우르는 37개 피험자의 실제 데이터와 50개 행동 카테고리로 구성된 다양하고 현실적인 데이터 세트를 도입했습니다. 이 데이터 세트에 대한 실험은 훈련 데이터에 포함되지 않은 새로운 클래스 및 피사체의 행동 인스턴스를 계산할 때 제안된 방법의 실행 가능성을 보여줍니다. 평균적으로 예측된 개수와 실측값 사이의 불일치는 7.47로, 주파수 기반 및 변압기 기반 방법의 오차보다 훨씬 낮았습니다. 프로젝트, 코드 및 데이터 세트는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[36/51] Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians

Keywords: gradients_stabilizing_improving, challenge_instability_gradients, gradients_long_time
Abstract: 순환 신경망(RNN)을 훈련하는 것은 긴 시간에 걸친 경사도의 불안정성으로 인해 경사도가 폭발하거나 사라질 수 있기 때문에 여전히 어려운 과제입니다. 최근 연구에서는 이러한 문제를 무한소 섭동의 성장 또는 축소를 설명하는 순방향 역학에 대한 리아푸노프 지수의 값과 연결했습니다. 여기에서는 학습 중에 순방향 역학의 리아푸노프 지수를 0으로 밀어내어 기울기 불안정성을 해결하는 새로운 접근 방식인 기울기 플로싱을 제안합니다. 이를 위해 미분 선형 대수를 사용해 역전파를 통해 리아푸노프 지수를 정규화합니다. 이를 통해 그라디언트를 '치실'화하여 안정화함으로써 네트워크 학습을 개선할 수 있습니다. 그래디언트 플로싱이 그래디언트 규범뿐만 아니라 장기 자코비안의 조건 수까지 제어하여 다차원 오류 피드백 전파를 용이하게 한다는 사실을 입증했습니다. 훈련 전에 그라디언트 플로싱을 적용하면 긴 시간 범위를 포함하는 작업의 성공률과 수렴 속도가 모두 향상된다는 사실을 발견했습니다. 까다로운 과제의 경우, 훈련 중에 그라데이션 치실을 적용하면 시간 경과에 따른 역전파를 통해 연결할 수 있는 시간 범위를 더욱 늘릴 수 있음을 보여줍니다. 또한 다양한 RNN 아키텍처와 다양한 시간적 복잡성을 가진 작업에 대한 접근 방식의 효과를 입증합니다. 또한 실제로 사용할 수 있는 그라디언트 플로싱 알고리즘의 간단한 구현을 제공합니다. 연구 결과에 따르면 리아푸노프 지수 정규화를 통한 그라디언트 플로싱은 RNN 훈련의 효과를 크게 향상시키고 폭발 및 사라지는 그라디언트 문제를 완화할 수 있는 것으로 나타났습니다. [abs|pdf]

[37/51] Optimizing watermarks for large language models

Keywords: misuse_watermarks_generative, watermarks_generative, watermarks_generative_llms
Abstract: 대규모 언어 모델(LLM)의 부상과 잠재적 오용에 대한 우려로 인해 생성형 LLM용 워터마크가 최근 많은 관심을 받고 있습니다. 이러한 워터마크의 중요한 측면은 식별 가능성과 생성된 텍스트의 품질에 미치는 영향 사이의 절충점입니다. 이 백서에서는 다중 목표 최적화 문제의 관점에서 이 트레이드오프에 대한 체계적인 접근 방식을 소개합니다. 강력하고 효율적인 워터마크의 대규모 클래스에 대해 관련 파레토 최적 솔루션을 식별하고 현재 기본 워터마크보다 성능이 뛰어난 것으로 나타났습니다. [abs|pdf]

[38/51] GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension

Keywords: user_queries_github, queries_github, autonomously_integrate_repositories
Abstract: ChatGPT 및 GPT-4와 같은 대규모 언어 모델(LLM)은 자연어 처리에서 탁월한 능력을 보여 왔지만, 복잡하고 다면적인 작업을 처리하는 데는 여전히 한계가 있습니다. 다양한 작업을 수행할 수 있는 외부 도구를 탑재한 LLM 기반 에이전트에 대한 연구 분야가 점점 더 확대되고 있습니다. 그러나 기존의 LLM 기반 에이전트는 제한된 도구 세트만 지원하기 때문에 다양한 사용자 쿼리, 특히 전문 지식 영역과 관련된 쿼리를 처리할 수 없습니다. 다양한 사용자 쿼리에 직면했을 때 LLM 기반 에이전트가 자율적으로 도구를 확장하는 것은 여전히 어려운 과제입니다. 깃허브는 툴을 위한 좋은 리소스로 볼 수 있는 수많은 리포지토리를 호스팅하고 있기 때문에, LLM 기반 에이전트가 사용자 쿼리에 따라 깃허브의 리포지토리를 자율적으로 통합하여 툴 세트를 확장할 수 있는 솔루션이 유망합니다. 이 백서에서는 GitHub에서 자율적으로 도구를 확장할 수 있는 에이전트인 GitAgent를 소개합니다. GitAgent는 리포지토리를 통합하기 위해 4단계 절차를 따르며, 이 과정에서 발생하는 문제를 해결하기 위해 GitHub 이슈/PR에 의존하여 사람의 경험을 학습할 수 있습니다. 30개의 사용자 쿼리를 대상으로 한 실험적 평가에서 평균 69.4%의 성공률을 달성하며 GitAgent의 효과를 입증했습니다. [abs|pdf]

[39/51] AI Content Self-Detection for Transformer-based Large Language Models

Keywords: ai_generated_text, attribution_using_ai, generated_text_google
Abstract: chatGPT, Bard, Claude 등 대규모 언어 모델에 기반한 생성형 인공지능(AI) 도구를 텍스트 생성에 사용하는 것은 생산성을 획기적으로 향상시킬 수 있는 잠재력을 지닌 흥미로운 애플리케이션이 많습니다. 한 가지 문제는 AI 도구 사용 시 저작자 귀속입니다. 이는 생성 AI 도구를 부적절하게 사용하면 자동으로 생성된 파생 저작물이 대량으로 생성되어 학생의 학습을 방해하거나 연구를 저해할 수 있는 학술 환경에서 특히 중요합니다. 기존의 표절 감지 시스템은 제출된 텍스트의 출처를 추적할 수는 있지만, 아직 AI가 생성한 텍스트를 정확하게 감지할 수 있는 방법은 갖추지 못했습니다. 이 논문에서는 직접 출처 탐지에 대한 아이디어를 소개하고, 생성형 AI 시스템이 그 결과물을 인식하고 사람이 작성한 텍스트와 구별할 수 있는지 평가합니다. 현재의 트랜스포머 기반 모델이 생성된 텍스트를 스스로 감지할 수 있는 이유를 논증하고, 제로 샷 학습을 사용하여 소규모 실증 연구를 수행하여 그 여부를 조사합니다. 그 결과 생성된 텍스트를 식별하는 AI 시스템의 다양한 능력이 드러났습니다. Google의 Bard 모델이 94%의 정확도로 가장 높은 자체 감지 능력을 보였고, OpenAI의 ChatGPT가 83%로 그 뒤를 이었습니다. 반면, Anthropic의 Claude 모델은 자체 감지가 불가능한 것으로 보입니다. [abs|pdf]

[40/51] Understanding Distributed Representations of Concepts in Deep Neural Networks without Supervision

Keywords: concepts_learned_deep, discovering_distributed_representations, representations_concepts_learned
Abstract: 딥러닝 분류기가 학습한 개념의 중간 표현을 이해하는 것은 일반적인 모델 동작을 해석하는 데 필수적입니다. 학습된 개념을 드러내기 위한 기존의 접근 방식은 사전 정의된 개념 집합이나 세분화 프로세스와 같은 사람의 감독에 의존하는 경우가 많습니다. 이 논문에서는 뉴런의 주요 하위 집합을 선택해 개념의 분산 표현을 발견하는 새로운 비지도 방법을 제안합니다. 우리의 경험적 연구 결과는 유사한 뉴런 활성화 상태를 가진 인스턴스들이 일관된 개념을 공유하는 경향이 있음을 보여줍니다. 이러한 관찰 결과를 바탕으로 제안된 방법은 특징 공간에서 일관된 개념을 가진 인스턴스를 포함하는 해석 가능한 영역, 즉 완화 결정 영역(RDR)을 구성하는 주요 뉴런을 선택합니다. 데이터 내에서 레이블이 지정되지 않은 하위 클래스를 식별하고 오분류의 원인을 감지하는 데 활용할 수 있습니다. 또한, 다양한 레이어에 걸쳐 이 방법을 적용하면 레이어 간에 뚜렷하게 분산된 표현이 드러나므로 딥러닝 모델의 내부 메커니즘에 대한 심층적인 인사이트를 얻을 수 있습니다. [abs|pdf]

[41/51] Dynamic Decision Making in Engineering System Design: A Deep Q-Learning Approach

Keywords: optimizing_engineering, optimizing_engineering_designs, optimize_design_engineering
Abstract: 의사 결정 과정으로 간주되는 엔지니어링 시스템 설계는 복잡성과 불확실성으로 인해 어려움에 직면해 있습니다. 이 백서에서는 엔지니어링 시스템 설계를 최적화하기 위해 딥러닝 알고리즘을 사용할 것을 제안하는 프레임워크를 제시합니다. 엔지니어링 시스템 설계를 최적화하기 위한 단계별 프레임워크를 간략하게 설명합니다. 이 프레임워크의 목표는 여러 불확실성의 원인이 주어졌을 때 시뮬레이션 모델의 출력을 최대화하는 정책을 찾는 것입니다. 제안된 알고리즘은 의사 결정 변수가 이산적인 선형 및 비선형 다단계 확률 문제를 처리하며, 몬테카를로 시뮬레이션을 통해 목적 함수와 제약 조건을 평가합니다. 가격 및 수요와 같은 여러 불확실성이 존재하는 상황에서 두 가지 엔지니어링 시스템 설계 문제를 해결하여 제안한 프레임워크의 효율성을 입증합니다. [abs|pdf]

[42/51] Intelligent Parsing: An Automated Parsing Framework for Extracting Design Semantics from E-commerce Creatives

Keywords: parsing_creative_materials, tagging_creative_materials, naming_creative_materials
Abstract: 산업 이커머스 환경에서는 배너나 포스터와 같은 창의적인 디자인이 어디에나 존재합니다. 크리에이티브 이커머스 디자인 자료(디자이너가 만든 원고)에서 구조화된 의미 정보를 추출하여 디자인 시맨틱을 얻는 것은 지능형 디자인 영역의 핵심 과제입니다. 이 백서에서는 크리에이티브 자료를 지능적으로 파싱하기 위한 포괄적인 자동화 프레임워크를 제안합니다. 이 프레임워크는 소재 인식, 전처리, 스마트네임, 라벨 레이어로 구성됩니다. 자료 인식 레이어는 다양한 감지 및 인식 인터페이스를 통합하여 라벨 식별과 함께 크리에이티브 자료 내의 보조 영역 감지, 레이어 수준 감지 등 비즈니스 측면을 다룹니다. 알고리즘적으로는 캐스케이드 RCNN, GFL 및 기타 모델과 같은 다양한 거시적 방법부터 세분화된 방법까지 포괄합니다. 전처리 레이어에는 크리에이티브 레이어를 필터링하고 크리에이티브 자료에 등급을 매기는 작업이 포함됩니다. 스마트네임 레이어는 크리에이티브 자료에 지능적인 이름을 지정하고, 라벨 레이어는 크리에이티브 자료에 다단계 태깅을 적용하여 다양한 계층 수준에서 태그를 지정할 수 있도록 합니다. 지능형 구문 분석은 지능형 생성, 크리에이티브 최적화 및 자료 라이브러리 구축과 같은 다운스트림 프로세스를 크게 지원하는 완전한 구문 분석 프레임워크를 구성합니다. 쑤닝의 실제 비즈니스 애플리케이션에서는 크리에이티브 자료의 노출, 배포 및 클릭률을 크게 향상시켜 크리에이티브 자료의 폐쇄형 루프 제작을 가속화하고 상당한 이점을 얻을 수 있습니다. [abs|pdf]

[43/51] RefineNet: Enhancing Text-to-Image Conversion with High-Resolution and Detail Accuracy through Hierarchical Transformers and Progressive Refinement

Keywords: image_text_conversion, text_image_conversion, resolution_images_textual
Abstract: 이 연구에서는 텍스트-이미지 변환 시스템의 해상도 한계를 해결하기 위해 설계된 새로운 아키텍처인 RefineNet을 소개합니다. 텍스트 설명에서 고해상도 이미지를 생성하는 데 따르는 어려움을 살펴보고, 세부 사항의 정확성과 계산 효율성 사이의 절충점에 초점을 맞춥니다. 리파인넷은 프로그레시브 및 조건부 정제 기법과 결합된 계층적 트랜스포머를 활용하여 기존 모델보다 뛰어난 디테일과 고품질 이미지를 생성합니다. 다양한 데이터 세트에 대한 광범위한 실험을 통해 특히 동물, 식물, 사람 얼굴과 같은 복잡한 이미지 범주에서 RefineNet의 선명도와 해상도가 우수하다는 것을 입증했습니다. 우리의 연구는 이미지-텍스트 변환 분야를 발전시킬 뿐만 아니라 다양한 애플리케이션에서 고충실도 이미지 생성을 위한 새로운 길을 열어줍니다. [abs|pdf]

[44/51] Conversational Question Answering with Reformulations over Knowledge Graph

Keywords: conversational_question_answering, learned_question_representation, learns_question_representations
Abstract: 지식 그래프(KG)를 통한 대화형 질의응답(convQA)은 KG에 포함된 정보에 대한 다중 턴 자연어 질문에 답변하는 작업입니다. 최신 ConvQA 방법은 종종 불명확한 질문-답변 쌍으로 인해 어려움을 겪습니다. 이러한 입력은 대화 히스토리를 고려할 때 사람이 이해하기는 쉽지만 기계가 해석하기는 어렵기 때문에 ConvQA 성능이 저하될 수 있습니다. 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)에서 생성된 질문 재구성을 활용하여 ConvQA 성능을 개선하는 강화 학습(RL) 기반 모델인 CornNet을 제안합니다. CornNet은 교사 모델이 인간의 글쓰기 재구성을 사용하여 질문 표현을 학습하고, 학생 모델은 LLM이 생성한 재구성을 통해 교사 모델의 출력을 모방하는 교사-학생 아키텍처를 채택합니다. 그런 다음 학습된 질문 표현은 RL 모델이 KG에서 정답을 찾는 데 사용됩니다. 광범위한 실험 결과에 따르면 CornNet은 최첨단 convQA 모델보다 성능이 뛰어납니다. [abs|pdf]

[45/51] Improving Low-resource Prompt-based Relation Representation with Multi-view Decoupling Learning

Keywords: relation_extraction_tasks, relation_labels_optimization, relation_representation_low
Abstract: 최근 사전 학습된 언어 모델(PLM)을 사용한 프롬프트 튜닝은 관계 추출(RE) 작업의 능력을 크게 향상시키는 것으로 입증되었습니다. 그러나 사용 가능한 훈련 데이터가 부족한 저자원 시나리오에서는 기존의 프롬프트 기반 방식이 관계에 대한 피상적인 이해로 인해 프롬프트 기반 표현 학습에 있어 여전히 성능이 저하될 수 있습니다. 이를 위해 저자원 시나리오에서 RE를 위한 고품질 관계 표현 학습의 중요성을 강조하고, 저자원 프롬프트 튜닝 패러다임 내에서 RE의 성능을 개선하기 위해 PLM의 용량을 더 잘 활용할 수 있는 새로운 프롬프트 기반 관계 표현 방법인 MVRE(Multi-View Relation Extraction)를 제안합니다. 특히 MVRE는 관계 추론 시 가능성을 극대화하기 위해 각 관계를 서로 다른 관점으로 분리하여 멀티뷰 관계 표현을 포괄합니다. 또한 최적화 학습 과정과 초기화 과정에서 관계 레이블의 의미를 포함하는 멀티뷰 관계 표현 가상 단어의 정렬을 개선하기 위해 글로벌-로컬 손실과 동적 초기화 방법을 설계합니다. 세 가지 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 이 방법이 리소스가 적은 환경에서도 최신 기술을 구현할 수 있음을 보여줍니다. [abs|pdf]

[46/51] Automatic laminectomy cutting plane planning based on artificial intelligence in robot assisted laminectomy surgery

Keywords: automatic_planning_laminectomy, laminectomy_cutting_plane, automatic_laminectomy_cutting
Abstract: 목적: 이 연구는 인공 지능을 사용하여 후궁 절제술의 자동 계획을 실현하고 그 방법을 검증하는 것을 목표로 합니다. 방법: 우리는 자동 후궁절제술 절단면 계획을 위한 2단계 접근법을 제안합니다. 첫 번째 단계는 키 포인트를 식별하는 것입니다. 각 CT 이미지에 7개의 키 포인트를 수동으로 표시했습니다. 우리가 개발한 공간 피라미드 업샘플링 네트워크(SPU-Net) 알고리즘을 사용하여 7개의 키 포인트를 정확하게 찾아냈습니다. 두 번째 단계에서는 핵심 포인트의 식별을 기반으로 각 척추에 대한 개인화된 좌표계를 생성했습니다. 마지막으로, 좌표계 아래에서 후궁절제술의 가로 및 세로 절단면이 생성되었습니다. 계획의 전반적인 효과를 평가했습니다. 결과: 첫 번째 단계에서 7개의 주요 지점에 대한 SPU-Net 알고리즘의 평균 위치 오차는 0.65mm였습니다. 두 번째 단계에서는 알고리즘을 통해 총 320개의 횡단 절단면과 640개의 종단 절단면을 계획했습니다. 이 중 A, B, C등급의 횡단면 계획 효과는 각각 318개(99.38%), 1개(0.31%), 1개(0.31%)로 나타났습니다. A, B, C등급의 세로 평면 계획 효과는 각각 622개(97.18%), 1개(0.16%), 17개(2.66%)였습니다. 결론: 본 연구에서는 CT 영상에서 주요 지점의 국소화를 기반으로 후궁절제술의 수술 경로를 자동으로 계획하는 방법을 제안합니다. 그 결과 이 방법은 만족스러운 결과를 얻었습니다. 향후 이 방법의 신뢰성을 확인하기 위해서는 더 많은 연구가 필요합니다. [abs|pdf]

[47/51] Empowering Working Memory for Large Language Model Agents

Keywords: optimizing_episodic_memory, episodic_memory, episodic_memory_encoding
Abstract: 대규모 언어 모델(LLM)은 인상적인 언어 능력을 달성했습니다. 하지만 인간과 같은 기억 능력이 부족하다는 중요한 한계가 있습니다. LLM은 순차적인 상호 작용에서 제한된 메모리 보유를 보여 복잡한 추론을 방해합니다. 이 백서에서는 인지 심리학의 작업 기억 프레임워크를 적용하여 LLM 아키텍처를 개선할 수 있는 잠재력을 살펴봅니다. 개별 대화 에피소드의 분리와 지속적 메모리 링크의 부재 등 기존 LLM 메모리 설계의 한계를 분석합니다. 이를 해결하기 위해 중앙 집중식 워킹 메모리 허브와 에피소드 간 메모리 유지를 위한 에피소드 버퍼 액세스를 통합한 혁신적인 모델을 제안합니다. 이 아키텍처는 복잡한 작업과 협업 시나리오에서 미묘한 맥락적 추론에 더 큰 연속성을 제공하는 것을 목표로 합니다. 유망하지만, 에피소드 메모리 인코딩, 저장, 우선순위 지정, 검색 및 보안을 최적화하기 위해서는 추가적인 연구가 필요합니다. 전반적으로 이 백서는 보다 정교하고 인간과 유사한 메모리 기능을 갖춘 LLM 에이전트를 개발하기 위한 전략적 청사진을 제공하며, 메모리 메커니즘을 인공 지능의 중요한 영역으로 강조합니다. [abs|pdf]

[48/51] Flying By ML -- CNN Inversion of Affine Transforms

Keywords: gauges_using_cnn, cnn_invert_affine, training_cnn_interpolation
Abstract: 이 백서에서는 CNN을 사용하여 아핀 변환을 반전하고 계기판 이미지에서 항공기 상태를 추론하여 조종석 게이지 판독을 자동화하는 머신러닝 방법을 설명합니다. 회전 및 뱅크 표시기의 합성 이미지로 검증한 이 연구에서는 단일 이미지에서 데이터 세트 생성, 최적의 노이즈 없는 훈련을 위한 '클린 트레이닝 원리', 범주형 데이터에서 연속적인 값 예측을 위한 CNN 보간 등의 방법을 소개합니다. 또한 하이퍼파라미터 최적화와 ML 시스템 소프트웨어 엔지니어링에 대한 인사이트를 제공합니다. [abs|pdf]

[49/51] Evolving Large Language Model Assistant with Long-Term Conditional Memory

Keywords: dialogue_stores_memory, dialogue_user_ai, future_dialogue_generating
Abstract: 대규모 언어 모델의 급속한 발전으로 ChatGPT와 같은 인공지능 비서가 사람들의 업무와 생활에 널리 침투하고 있습니다. 이 논문에서는 언어 장기기억을 활용하는 진화하는 대규모 언어 모델 어시스턴트를 소개합니다. 이 모델은 사용자와 AI 어시스턴트 간의 과거 대화에서 얻은 지식과 경험을 보존하여 향후 대화에 적용하여 더 나은 응답을 생성하는 데 중점을 둡니다. 이 모델은 완료된 각 대화에 대해 일련의 기록을 생성하여 메모리에 저장합니다. 나중에 새로운 사용자 입력이 주어지면 모델은 관련 메모리를 검색하여 응답의 품질을 개선하는 데 사용합니다. 최적의 메모리 형태를 찾기 위해 메모리를 구성하는 다양한 방법을 탐색하고, 이전 방법의 문제점을 해결하기 위해 조건부 메모리라는 새로운 기억 메커니즘을 제안합니다. 또한 생성 과정에서 메모리의 검색과 사용에 대해서도 조사합니다. 이 어시스턴트는 GPT-4를 백본으로 사용하며, 장기기억을 가진 인공지능 어시스턴트에게 요구되는 다양한 능력에 초점을 맞춰 구성된 세 가지 테스트 데이터 세트에서 이를 평가합니다. [abs|pdf]

[50/51] From Bytes to Biases: Investigating the Cultural Self-Perception of Large Language Models

Keywords: recognizing_cultural_biases, cultural_biases_llms, cultural_self_perception
Abstract: 대규모 언어 모델(LLM)은 인간과 자연스러운 대화를 나눌 수 있어 정보 검색 및 자동화된 의사 결정 지원을 위한 전례 없는 기능을 선보입니다. 이러한 기술은 인간과 기술의 상호작용과 비즈니스 운영 방식을 혁신적으로 변화시켰습니다. 그러나 생성적 인공 지능(GenAI)에 기반한 기술은 학습된 방대한 데이터 세트에 의해 환각, 잘못된 정보, 편견이 발생할 수 있는 것으로 알려져 있습니다. 기존 연구에 따르면 인간은 이러한 편견을 무의식적으로 내면화할 수 있으며, 이러한 편견은 프로그램 사용을 중단한 후에도 지속될 수 있다고 합니다. 이 연구는 GLOBE 프로젝트에서 도출된 가치 질문을 ChatGPT(OpenAI)와 Bard(Google)에 제시하여 LLM의 문화적 자기 인식을 탐구합니다. 연구 결과, 이들의 문화적 자기 인식은 영어권 국가 및 지속적인 경제 경쟁력을 갖춘 국가의 가치관과 가장 밀접하게 일치하는 것으로 나타났습니다. 인공지능이라는 블랙박스가 인간의 편견을 고착화하여 의도치 않게 더 편향된 알고리즘을 만들고 학습시킬 수 있기 때문에 인공 지능의 문화적 편견을 인식하고 그 작동 방식을 이해하는 것은 모든 사회 구성원에게 매우 중요합니다. [abs|pdf]

[51/51] Deep Learning-based Sentiment Classification: A Comparative Survey

Keywords: sentiment_classification, solve_sentiment_classification, reviews_mining
Abstract: 최근에는 리뷰 마이닝 또는 감성 분석(SA)의 핵심 과제인 감성 분류(SC) 문제를 해결하기 위해 딥 러닝(DL) 접근 방식이 적용되고 있습니다. 이러한 접근법의 성능은 다양한 요인에 의해 영향을 받습니다. 이 논문에서는 이러한 요인들을 데이터 준비 기반 요인, 특징 표현 기반 요인, 분류 기법 기반 요인의 세 가지 범주로 분류하여 살펴봅니다. 이 논문은 세 가지 특정 애플리케이션 도메인(제품, 영화, 레스토랑)에서 고객이 제공한 21개의 공개 리뷰 데이터 세트를 사용하여 100개 이상의 DL 기반 SC 접근법의 성능을 비교한 종합적인 문헌 기반 조사 결과입니다. 이 21개의 데이터 세트는 서로 다른 특성(균형/불균형, 크기 등)을 가지고 있어 연구에 대한 글로벌 비전을 제시합니다. 이 비교는 제안된 요인들이 연구된 DL 기반 SC 접근법의 성능에 정량적으로 어떤 영향을 미치는지 설명합니다. [abs|pdf]