프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-22]

다각 2024. 2. 16. 20:41

[1/91] Optimisation in Neurosymbolic Learning Systems

Keywords: reasoning_neural_networks, reasoning_neural, probabilistic_reasoning_neural
Abstract: 뉴로심볼릭 AI는 딥러닝과 심볼릭 AI를 통합하는 것을 목표로 합니다. 이러한 통합은 신경망을 훈련하는 데 필요한 데이터의 양을 줄이고, 모델이 제공하는 답변의 설명 가능성과 해석 가능성을 개선하며, 훈련된 시스템의 정확성을 검증하는 등 많은 가능성을 가지고 있습니다. 유니티는 데이터와 배경 지식을 모두 기호 언어로 표현하는 신경심볼릭 학습을 연구합니다. 이 지식을 전달하기 위해 기호적 요소와 신경적 요소를 어떻게 연결할 수 있을까요? 한 가지 옵션은 진실의 정도를 연구하는 퍼지 추론입니다. 예를 들어, 키가 크다는 것은 이분법적인 개념이 아닙니다. 대신 확률론적 추론은 어떤 것이 진실이거나 일어날 확률을 연구합니다. 우리의 첫 번째 연구 질문은 다양한 형태의 퍼지 추론이 학습과 어떻게 결합하는지를 연구합니다. 우리는 녹색 사과를 관찰할 때 "까마귀는 검은색"이라는 사실을 확인한다는 까마귀 역설과 같은 놀라운 결과를 발견했습니다. 이 연구에서는 학습 후 모델을 배포할 때 배경 지식을 사용하지 않았습니다. 두 번째 연구 질문에서는 배포된 모델에 배경 지식을 사용하는 방법을 연구했습니다. 퍼지 추론에 기반한 새로운 신경망 레이어를 개발했습니다. 확률적 추론은 신경망에 매우 적합하며, 일반적으로 신경망은 확률적으로 훈련됩니다. 하지만 계산 비용이 많이 들고 대규모 작업에는 잘 확장되지 않습니다. 세 번째 연구 질문에서는 평균을 추정하기 위한 샘플링을 통해 확률적 추론을 신경망과 연결하는 방법을 연구하고, 마지막 연구 질문에서는 확률적 신경 기호 학습을 이전보다 훨씬 더 큰 문제로 확장하는 방법을 연구합니다. 우리의 인사이트는 합성 데이터로 신경망을 훈련시켜 확률적 추론의 결과를 예측하는 것입니다. [abs|pdf]

[2/91] Metric Dynamic Equilibrium Logic

Keywords: answer_set_programming, logic_encompasses_temporal, timing_constraints
Abstract: 선형 시간에 기반한 응답 집합 프로그래밍(ASP)의 시간적 확장에서는 동적 시스템의 동작이 상태 시퀀스로 포착됩니다. 이러한 표현은 상대적인 순서를 반영하지만 각 상태와 관련된 특정 시간을 추상화합니다. 그러나 계획과 스케줄링이 함께 진행되는 경우와 같이 많은 애플리케이션에서 타이밍 제약이 중요합니다. 유니티는 동적 연산자가 정수의 간격으로 제약을 받는 선형 시간 동적 평형 로직의 메트릭 확장을 개발하여 이 문제를 해결했습니다. 그 결과 메트릭 동적 평형 로직은 정성적 및 정량적 동적 제약 조건을 지정하기 위한 ASP 기반 접근 방식의 토대를 제공합니다. 따라서 이는 평형 로직의 시간적 확장의 전체 스펙트럼 중에서 가장 일반적입니다. 세부적으로는 시간적, 동적, 계량적, 일반적 균형 로직은 물론 제외된 중간의 법칙이 추가되면 고전적 균형 로직까지 포괄하는 것으로 나타났습니다. [abs|pdf]

[3/91] EFO: the Emotion Frame Ontology

Keywords: emotion_frames_ontology, emotion_ontology, ontology_emotions_emotion
Abstract: 감정은 다양한 분야에서 격렬한 논쟁의 대상이 되고 있습니다. 수많은 이론과 정의에도 불구하고 감정이 무엇인지, 감정에 대해 이야기하거나 분류할 때 관련된 다양한 개념을 어떻게 모델링할 것인지에 대한 합의는 아직 이루어지지 않고 있습니다. 이 백서에서는 OWL 프레임 기반의 감정 온톨로지, 즉 감정 프레임 온톨로지(EFO)를 제안합니다. EFO는 감정을 의미론적 프레임으로 취급하며, 감정 경험의 다양한 측면을 포착하는 일련의 의미론적 역할로 구성됩니다. EFO는 패턴 기반 온톨로지 설계를 따르며, DOLCE 기본 온톨로지에 맞춰져 있습니다. EFO는 여러 감정 이론을 모델링하는 데 사용되며, 감정 온톨로지 네트워크에서 모듈로 교차 연결될 수 있습니다. 이 논문에서는 Ekman의 기본 감정(BE) 이론을 EFO-BE 모듈로 모델링하여 이를 예시하고 감정 상황 표현에 대한 자동 추론을 수행하는 방법을 보여줍니다. 프레임스터 지식 그래프 내에서 BE 감정 프레임을 어휘화하고, 텍스트에서 그래프 기반 감정 감지기를 구현하여 EFO-BE를 평가했습니다. 또한 감정적 음성 및 감정적 얼굴 표정을 포함한 멀티모달 데이터 세트의 EFO 통합을 수행하여 크로스모달 감정 의미론에 대한 추가 조사를 가능하게 했습니다. [abs|pdf]

[4/91] FinLLMs: A Framework for Financial Reasoning Dataset Generation with Large Language Models

Keywords: financial_question_answering, question_answering_data, question_answering_datasets
Abstract: 대규모 언어 모델(LLM)은 일반적으로 광범위한 학습 데이터 세트에 의존합니다. 금융 분야에서는 표와 긴 텍스트가 혼합된 수치 추론 데이터세트를 생성하는 데 상당한 수작업 주석 비용이 수반되는 경우가 많습니다. 제한된 데이터 리소스를 해결하고 주석 비용을 절감하기 위해 대규모 언어 모델을 사용하여 일반적인 재무 공식을 기반으로 재무 질문에 답하는 데이터를 생성하는 방법인 FinLLM을 소개합니다. 먼저, 일반적인 재무 공식 목록을 컴파일하고 이러한 공식이 사용하는 변수를 기반으로 그래프를 구성합니다. 그런 다음 동일한 변수를 공유하는 공식을 새로운 요소로 결합하여 공식 집합을 보강합니다. 구체적으로, 수동 주석을 통해 얻은 공식을 탐색하고, 구축된 그래프를 탐색하여 공유 변수를 가진 공식을 병합합니다. 마지막으로, GPT-3.5를 활용하여 수집된 수식 집합을 기반으로 표 형식의 정보와 긴 텍스트 콘텐츠를 모두 포함하는 재무 질문-답변 데이터를 생성합니다. 실험 결과, FinLLM으로 생성된 합성 데이터는 금융 영역에서 여러 대규모 수치 추론 모델의 성능을 효과적으로 향상시켜 기존의 벤치마크 금융 질문 답변 데이터 세트 두 개를 능가하는 성능을 보였음을 입증했습니다. [abs|pdf]

[5/91] Rethinking the Soft Conflict Pseudo Boolean Constraint on MaxSAT Local Search Solvers

Keywords: sat_algorithms_maxsat, clause_weighting_maxsat, maxsat_local_search
Abstract: MaxSAT는 유명한 NP-완전 만족도 문제(SAT)의 최적화 버전입니다. MaxSAT의 알고리즘에는 주로 완전 솔버와 로컬 검색 불완전 솔버가 있습니다. 많은 완전 솔버에서 더 나은 해가 발견되면 더 나은 해를 찾도록 알고리즘을 강제하기 위해 소프트 충돌 의사 부울(SPB) 제약 조건이 생성됩니다. 많은 지역 검색 알고리즘에서 절 가중치는 검색 방향을 효과적으로 안내하기 위한 핵심 기법입니다. 본 논문에서는 SPB 제약 조건을 로컬 검색 방법의 절 가중치 시스템에 적용하여 알고리즘이 더 나은 해를 찾도록 유도하는 방법을 제안합니다. 또한 절 가중치를 조정하기 위해 상수 값을 사용하는 전통을 깨는 적응형 절 가중치 전략을 제안합니다. 위의 방법을 기반으로 MaxSAT 로컬 검색 솔버에서 절 가중치에 대한 새로운 관점을 제공하는 새로운 로컬 검색 알고리즘인 SPB-MaxSAT을 제안합니다. 광범위한 실험을 통해 제안된 방법의 우수한 성능을 입증합니다. [abs|pdf]

[6/91] CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents

Keywords: decision_making_agents, agents_emphasize_reasoning, learning_reasoning_challenge
Abstract: 의사 결정 에이전트의 일반화에는 과거 경험을 통한 학습과 새로운 상황에서의 추론이라는 두 가지 기본 요소가 포함됩니다. 하지만 대부분의 인터랙티브 환경에서는 학습에 중점을 두기 때문에 추론의 복잡성을 희생하는 경우가 많습니다. 이 백서에서는 문명 게임에서 영감을 받은 환경인 시브알렘을 소개합니다. 문명은 인류의 역사 및 사회와 깊이 연관되어 있기 때문에 정교한 학습이 필요하며, 끊임없이 변화하는 상황은 일반화를 위한 강력한 추론을 요구합니다. 특히 시브알렘은 플레이어 수가 변화하는 불완전한 정보 총합 게임을 설정하여 에이전트가 외교와 협상 기술을 필요로 하는 개방형 확률 환경을 처리해야 하는 복잡한 기능을 다수 제공합니다. 시브알렘에서는 학습에 중점을 둔 텐서 기반 에이전트와 추론에 중점을 둔 언어 기반 에이전트라는 두 가지 대표적인 에이전트 유형에 대한 인터페이스를 제공합니다. 추가 연구를 촉진하기 위해 두 가지 패러다임에 대한 초기 결과를 제시합니다. 일반적인 RL 기반 에이전트는 미니 게임에서 적절한 성능을 발휘하는 반면, RL 기반 에이전트와 LLM 기반 에이전트 모두 전체 게임에서 상당한 진전을 이루지 못했습니다. 전반적으로 시브알렘은 의사 결정 에이전트를 위한 독특한 학습 및 추론 과제를 제시합니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[7/91] Learning Backdoors for Mixed Integer Programs with Contrastive Learning

Keywords: predict_backdoors, sampled_backdoors_ranking, backdoors_ranking
Abstract: 많은 실제 문제를 혼합 정수 프로그램(MIP)으로 효율적으로 모델링하고 분기 및 바운드 방식으로 해결할 수 있습니다. 이전 연구에서는 가능한 경우 분기 우선순위를 지정하면 실행 시간을 단축할 수 있는 작은 변수 집합인 MIP 백도어의 존재가 밝혀졌습니다. 하지만 실행 시간을 개선하는 고품질 백도어를 찾는 것은 여전히 미해결 과제로 남아 있습니다. 이전 연구에서는 무작위로 샘플링된 백도어의 상대적인 솔버 속도를 랭킹을 통해 추정하고 사용 여부를 결정하는 방법을 학습했습니다. 이 논문에서는 무작위 샘플링에 의존하지 않고 몬테카를로 트리 검색 방법을 사용하여 훈련용 백도어를 수집하고, 대조 학습 프레임워크를 적용하여 백도어를 예측하기 위한 그래프 주의 네트워크 모델을 훈련합니다. 네 가지 일반적인 MIP 문제 도메인에서 평가한 결과, 이 방법은 구로비 및 이전 모델에 비해 성능이 향상되었음을 입증했습니다. [abs|pdf]

[8/91] Can A Cognitive Architecture Fundamentally Enhance LLMs? Or Vice Versa?

Keywords: cognitive_architectures_better, computational_cognitive_architectures, cognitive_architectures
Abstract: 이 논문은 현재 머신러닝 중심의 AI 시스템의 한계를 해결하기 위해 무엇이 필요한지에 대해 논의합니다. 이 논문은 컴퓨터 인지 아키텍처로 구현된 인간의 인지와 심리학에서 얻은 인사이트를 통합하면 더 유능하고, 더 안정적이며, 더 인간적인 시스템을 개발하는 데 도움이 될 수 있다고 주장합니다. 이 논문은 현재 LLM의 한계를 해결하는 데 있어 이중 프로세스 아키텍처와 하이브리드 신경 기호적 접근법의 중요성을 강조합니다. 이와는 반대로, 이 논문은 AI와 컴퓨팅 기술의 발전을 더 잘 반영하기 위해 컴퓨팅 인지 아키텍처를 점검해야 할 필요성도 강조합니다. 전반적으로 이 논문은 AI와 인간의 마음을 이해하기 위한 더 나은 모델을 개발하기 위해 다학제적이고 상호 이익이 되는 접근 방식을 옹호합니다. [abs|pdf]

[9/91] Learning a Prior for Monte Carlo Search by Replaying Solutions to Combinatorial Problems

Keywords: monte_carlo_search, inverse_rna_folding, rna_folding
Abstract: 몬테카를로 검색은 여러 가지 어려운 조합 문제에서 탁월한 결과를 제공합니다. 검색 중에 비균일 플레이아웃을 수행하기 위해 사전을 사용하면 균일 플레이아웃에 비해 결과가 크게 향상됩니다. 조합 문제에 맞게 수작업으로 만든 휴리스틱이 선행으로 사용되는 경우가 많습니다. 우리는 선행을 자동으로 계산하는 방법을 제안합니다. 이 방법은 해결된 문제에 대한 통계를 사용합니다. 이 방법은 플레이 타임에 계산 비용이 발생하지 않고 큰 성능 향상을 가져오는 간단하고 일반적인 방법입니다. 이 방법은 세 가지 어려운 조합 문제에 적용됩니다: 라틴 정사각형 완성, 카쿠로, 역 RNA 접기입니다. [abs|pdf]

[10/91] Understanding Learning through the Lens of Dynamical Invariants

Keywords: learning_systems_energetically, propelled_learning_agents, self_propelled_learning
Abstract: 이 백서에서는 학습에 대한 새로운 관점을 제안하며, 학습을 동적 불변량(시스템이 진화함에 따라 시간이 지나도 일정하게 유지되거나 최소한의 변화만 보이는 데이터 조합)을 추구하는 것으로 가정합니다. 이 개념은 이러한 불변성의 고유한 속성에 뿌리를 둔 정보 및 물리적 원리에 의해 뒷받침됩니다. 첫째, 이러한 불변성의 안정성은 암기 및 연상 네트워크에 통합하는 데 이상적이며, 지식 구조의 기초를 형성합니다. 둘째, 이러한 안정적인 불변량의 예측 가능성은 정확하게 예측된 정보의 비트당 kTln2로 정량화할 수 있는 사용 가능한 에너지의 귀중한 원천이 됩니다. 이 에너지는 새로운 변형을 탐색하는 데 활용되어 학습 시스템을 자율적이고 더욱 효과적으로 만들 수 있습니다. 이러한 시스템은 에너지원으로 새로운 데이터 불변량을 지속적으로 찾도록 유도됩니다. 이 백서에서는 예측 가능한 정보 패턴을 사용 가능한 에너지의 원천으로 활용하는 자율적이고 자기 추진적인 학습 에이전트의 여러 메타 아키텍처를 살펴봅니다. [abs|pdf]

[11/91] Generalized Nested Rollout Policy Adaptation with Limited Repetitions

Keywords: optimizing_sequence_choices, rollout_policy_adaptation, monte_carlo_search
Abstract: 일반화된 중첩 롤아웃 정책 적응(GNRPA)은 선택의 순서를 최적화하기 위한 몬테카를로 검색 알고리즘입니다. 저희는 동일한 선택 순서를 반복해서 찾는 지나치게 결정론적인 정책을 피함으로써 GNRPA를 개선할 것을 제안합니다. 이를 위해 주어진 수준에서 찾은 최상의 선택 순서의 반복 횟수를 제한합니다. 실험 결과, 세 가지 조합 문제에 대한 알고리즘이 개선된 것으로 나타났습니다: 역 RNA 접기, 시간 창을 가진 여행하는 세일즈맨 문제, 약한 슈르 문제입니다. [abs|pdf]

[12/91] Synthesizing Moving People with 3D Control

Keywords: body_clothing_rendering, 3d_human_poses, diffusion_based_rendering
Abstract: 이 백서에서는 주어진 목표 3D 모션 시퀀스에 대해 단일 이미지에서 사람을 애니메이션화하기 위한 확산 모델 기반 프레임워크를 소개합니다. 우리의 접근 방식에는 두 가지 핵심 요소가 있습니다. a) 인체의 보이지 않는 부분과 의복에 대한 사전 학습과 b) 적절한 의복과 질감으로 새로운 신체 포즈를 렌더링하는 것입니다. 첫 번째 부분에서는 단일 이미지가 주어졌을 때 인물의 보이지 않는 부분을 환각하기 위해 인필 확산 모델을 학습합니다. 이 모델은 텍스처 맵 공간에서 훈련하기 때문에 포즈와 시점에 변하지 않아 샘플 효율성이 높습니다. 둘째, 3D 사람의 포즈에 의해 제어되는 확산 기반 렌더링 파이프라인을 개발합니다. 이를 통해 옷, 머리카락, 보이지 않는 영역의 그럴듯한 채우기 등 인물의 새로운 포즈를 사실적으로 렌더링할 수 있습니다. 이 분리된 접근 방식을 통해 3D 포즈의 목표 모션과 시각적 유사성 측면에서 입력 이미지에 충실한 이미지 시퀀스를 생성할 수 있습니다. 또한 3D 제어를 통해 다양한 합성 카메라 궤적을 통해 사람을 렌더링할 수 있습니다. 실험 결과, 이 방식은 이전 방식에 비해 장시간의 모션과 다양하고 복잡한 포즈를 생성하는 데 탄력적인 것으로 나타났습니다. 자세한 내용은 웹사이트(https URL)에서 확인하세요. [abs|pdf]

[13/91] SCENES: Subpixel Correspondence Estimation With Epipolar Supervision

Keywords: extracting_point_correspondences, point_correspondences_views, odometry_replacing_correspondence
Abstract: 장면의 두 개 이상의 뷰에서 포인트 대응을 추출하는 것은 기본적인 컴퓨터 비전 문제이며, 특히 상대적인 카메라 포즈 추정과 움직임으로부터 구조를 추출하는 데 중요합니다. 대규모 데이터 세트에 대한 대응 감독을 통해 훈련된 기존의 로컬 특징 일치 접근 방식은 테스트 세트에서 매우 정확한 일치 결과를 얻습니다. 하지만 기존 특징 추출기와 달리 학습된 데이터 세트와 다른 특성을 가진 새로운 데이터 세트에는 잘 일반화되지 않습니다. 대신, 지상 실측 일치 또는 지상 실측 카메라 포즈와 3D 구조를 사용할 수 있다고 가정하는 미세 조정이 필요합니다. 유니티는 뎁스 맵이나 포인트 클라우드와 같은 3D 구조의 필요성을 없애고 주행 거리 측정에서 얻을 수 있는 카메라 포즈 정보만 있으면 된다는 가정 하에 이 가정을 완화했습니다. 이를 위해 대응 손실을 극성 손실로 대체하여 추정 매칭이 관련 극성 선에 놓이도록 유도합니다. 대응 감독보다는 약하지만, 새로운 데이터에 대해 기존 모델을 미세 조정하는 데는 이 단서가 충분하다는 것을 관찰했습니다. 그런 다음 새로운 부트스트랩 접근 방식에서 포즈 추정치를 사용하여 알려진 카메라 포즈에 대한 가정을 더욱 완화합니다. 실내 드론 데이터 세트와 실외 스마트폰 카메라 데이터 세트 등 매우 까다로운 데이터 세트에 대해 평가한 결과, 강력한 감독 없이도 최첨단 결과를 얻을 수 있었습니다. [abs|pdf]

[14/91] Reinforcement learning for question answering in programming domain using public community scoring as a human feedback

Keywords: community_question_answering, evaluating_responses_programming, question_answering
Abstract: 이 연구에서는 프로그래밍에 중점을 둔 커뮤니티 질문 답변(CQA)에서 인간 피드백을 통한 강화 학습(RLHF)과 스택 오버플로의 점수 활용을 통합하여 GPT Neo 125M의 성능을 향상시키는 방법을 살펴봅니다. 두 가지 보상 모델 학습 전략이 근사 정책 최적화(PPO)를 통한 미세 조정에 사용됩니다. 특히, 이 방법을 통해 달성한 성능 향상은 GPT Neo 2.7B 매개변수 변형의 성능 향상과 비슷합니다. 또한 프로그래밍 영역에서 응답을 평가할 때 기존 언어 메트릭의 한계를 보여주는 보조 채점 메커니즘이 도입되었습니다. 이 백서에서는 정확한 분석을 통해 기존의 언어적 지표와 인간 선호도 기반 보상 모델 간의 차이를 살펴보고, 도메인별 평가 방법의 필요성을 강조합니다. 이 연구는 프로그래밍 CQA에 RLHF를 적용하는 데 수반되는 복잡성을 설명하고 문맥 인식 평가의 중요성을 강조함으로써, 집중적인 인간 피드백을 통해 대규모 언어 모델을 개선하기 위한 지속적인 노력에 기여합니다. [abs|pdf]

[15/91] Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning

Keywords: jailbreaking_attacks_categories, relevant_tokens_jailbreaking, susceptibility_jailbreaking_attacks
Abstract: 대규모 언어 모델(LLM)은 유해하고 불법적인 콘텐츠를 생성하도록 유도하는 공격의 일종인 '탈옥' 프롬프트에 취약합니다. 이 백서에서는 LLM 매개변수의 최대 20%를 잘라내면 추가 학습 없이도 표준 벤치마크에서 성능 저하 없이도 이러한 공격에 대한 저항력이 현저히 증가한다는 사실을 보여줍니다. 흥미롭게도 가지치기 후 관찰된 향상된 안전성이 모델의 초기 안전 훈련 수준과 상관관계가 있다는 사실을 발견했는데, 이는 가지치기의 효과가 안전성을 넘어 다른 LLM 동작에도 적용될 수 있음을 암시합니다. 또한, 5가지 카테고리에 걸쳐 225개의 유해한 작업으로 구성된 큐레이팅된 데이터 세트를 10개의 서로 다른 탈옥 프롬프트에 삽입하여 프루닝이 탈옥 프롬프트에서 작업과 관련된 토큰에 주의를 집중하는 데 도움이 된다는 것을 보여줍니다. 마지막으로, 실험 결과 LLaMA-2 채팅, 비쿠나, 미스트랄 인스트럭트 등 유명 채팅 모델이 탈옥 공격에 높은 취약성을 보이며 일부 카테고리의 경우 거의 70~100%의 성공률을 보인다는 사실이 밝혀졌습니다. 이러한 인사이트는 LLM의 안전성, 신뢰성 및 기타 바람직한 동작을 개선하기 위한 일반화 가능한 접근 방식으로서 프루닝의 잠재력을 강조합니다. [abs|pdf]

[16/91] Advancements in eHealth Data Analytics through Natural Language Processing and Deep Learning

Keywords: textual_ehealth_data, image_textual_ehealth, textual_ehealth
Abstract: 의료 환경은 흔히 "정보가 풍부한" 환경이라고도 하지만 "지식이 부족한" 환경이라고도 합니다. 의료 시스템은 실험실 보고서, 진단서, 의료 도구 또는 프로그램 로그, 의료 처방전 등 다양한 출처에서 방대한 양의 데이터를 수집합니다. 이러한 방대한 데이터는 환자의 증상을 분석하여 질병을 예측하거나 질병의 행동 요인을 쉽게 발견하여 질병을 예방하는 등 의료 서비스 및 전반적인 헬스케어 영역을 개선할 수 있는 훌륭한 지식과 정보를 제공할 수 있습니다. 하지만 안타깝게도 텍스트 형태의 이헬스 데이터는 상대적으로 적은 양만 처리되고 해석되기 때문에 빅데이터 작업을 효율적으로 수행하기 어렵습니다. 의료 분야에서는 몇 개의 단어로 전체 개념을 정의할 수 있기 때문에 도메인별 다중 단어 용어를 탐지하는 것이 매우 중요한 작업입니다. 용어는 언어 구조 또는 개념으로 정의할 수 있으며, 한 도메인에 특정한 의미를 가진 하나 이상의 단어로 구성됩니다. 한 도메인의 모든 용어가 그 도메인의 용어를 만듭니다. 이 장에서는 비정형(이미지 및 텍스트) eHealth 데이터를 분석하기 위한 현재 가장 성능이 뛰어난 솔루션에 대한 비판적 연구를 제공합니다. 또한 이 연구에서는 e헬스 맥락에서 현재의 자연어 처리 및 딥러닝 기술을 비교합니다. 마지막으로 몇 가지 현재 이슈를 검토하고 논의하며 이 분야의 연구 방향을 정의합니다. [abs|pdf]

[17/91] Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation

Keywords: pose_domain_adaptation, 3d_annotations_adaptation, 3d_pose_domain
Abstract: 우리는 적응 과정에서 소스 도메인 데이터나 3D 주석에 대한 액세스 없이 RGB 이미지만으로 대상 도메인에 대한 소스 없는 비지도 범주 수준의 포즈 추정을 수행하는 문제를 고려합니다. 3D 포즈 도메인 적응 방법도 타깃 도메인의 3D 데이터가 필요하기 때문에 실제 3D 데이터와 해당 이미지를 수집하고 주석을 다는 작업은 힘들고 비용이 많이 들지만 피할 수 없는 과정입니다. 유니티는 3D 또는 심도 데이터 없이도 3D 포즈 도메인에 적응할 수 있는 방법인 3DUDA를 소개합니다. 유니티의 핵심 인사이트는 특정 오브젝트 하위 부분이 도메인 외부(OOD) 시나리오에서도 안정적으로 유지된다는 관찰에서 비롯되며, 효과적인 모델 업데이트를 위해 이러한 불변 하위 구성요소를 전략적으로 활용할 수 있습니다. 유니티는 객체 범주를 단순한 직육면체 메시로 표현하고, 차등 렌더링을 사용하여 학습한 각 메시 정점에서 모델링된 신경 특징 활성화의 생성 모델을 활용합니다. 국지적으로 강력한 개별 메시 정점 특징에 초점을 맞추고 글로벌 포즈가 정확하지 않은 경우에도 목표 영역의 해당 특징에 대한 근접성을 기반으로 반복적으로 업데이트합니다. 그런 다음 정점 특징과 특징 추출기를 번갈아 가며 업데이트하는 EM 방식으로 모델을 훈련합니다. 이 방법은 가벼운 가정 하에서 글로벌 의사 레이블 데이터 세트에 대한 미세 조정을 시뮬레이션하여 목표 도메인에 점근적으로 수렴하는 것을 보여줍니다. 실제 노이즈, 합성 노이즈, 오클루전을 결합한 복잡한 극단적인 UDA 설정을 포함한 광범위한 경험적 검증을 통해 도메인 이동 문제를 해결하고 포즈 추정 정확도를 크게 향상시키는 간단한 접근 방식의 잠재력을 입증합니다. [abs|pdf]

[18/91] Using LLMs to discover emerging coded antisemitic hate-speech emergence in extremist social media

Keywords: expressions_hatred_emergent, online_antisemitic_discourse, discourse_hatred_jews
Abstract: 온라인 혐오 표현의 확산은 소셜 미디어 플랫폼에 어려운 문제를 야기하고 있습니다. 특히 사용자들의 소속감을 조성하고 탐지를 회피하는 데 관심이 있는 집단이 암호화된 언어를 사용하는 것과 관련된 문제가 있습니다. 암호화된 언어는 빠르게 진화하고 시간이 지남에 따라 그 사용법이 달라집니다. 이 백서에서는 새롭게 등장하는 코드화된 혐오 용어를 탐지하는 방법론을 제안합니다. 이 방법론은 온라인 반유대주의 담론의 맥락에서 테스트됩니다. 이 접근 방식은 극단주의자들이 자주 사용하는 소셜 미디어 플랫폼에서 스크랩한 게시물을 고려합니다. 게시물은 이전에 알려진 유대인 혐오 담론과 관련된 시드 표현을 사용하여 스크랩됩니다. 이 방법은 각 게시물을 가장 잘 나타내는 표현을 식별하고 전체 코퍼스에서 해당 표현의 빈도를 계산하는 것으로 시작합니다. 문법적으로 일관성이 없는 표현과 이전에 접했던 표현을 걸러내어 새로이 잘 형성된 용어에 집중합니다. 그 다음에는 미세 조정된 대규모 언어 모델을 사용하여 알려진 반유대주의 용어와의 의미적 유사성을 평가한 다음, 알려진 혐오 표현과 너무 멀리 떨어져 있는 표현을 필터링합니다. 그런 다음 유대인 주제와 분명히 관련된 용어가 포함된 새로운 반유대주의 표현을 제거하여 코드화된 혐오 표현만 반환합니다. [abs|pdf]

[19/91] Symbolic Cognitive Diagnosis via Hybrid Optimization for Intelligent Education Systems

Keywords: learns_student_exercise, learns_symbolic_tree, learns_symbolic
Abstract: 인지 진단 평가는 학생의 학습을 위한 기본적이고 중요한 작업입니다. 학생과 교수자의 상호작용을 모델링하고 각 지식 속성에 대한 학생의 숙련도를 파악합니다. 실제 지능형 교육 시스템에서 인지 진단 방법의 일반화와 해석 가능성은 매우 중요합니다. 그러나 기존의 대부분의 방법들은 학생과 학습자 간의 복잡한 상호작용으로 인해 두 가지 장점을 모두 살리기 어렵습니다. 이에 본 논문에서는 일반화와 해석 가능성을 동시에 높이기 위해 상징적 인지 진단~(SCD) 프레임워크를 제안합니다. SCD 프레임워크는 복잡한 학생-운동 상호작용 함수를 명시적으로 표현하기 위해 기호 트리를 통합하고, 학생과 운동 매개변수를 효과적으로 학습하기 위해 기울기 기반 최적화 방법을 활용한다. 한편, 이산 기호 표현과 연속 파라미터 최적화를 터널링해야 한다는 과제가 수반됩니다. 이 문제를 해결하기 위해 우리는 표현과 파라미터를 번갈아 가며 하이브리드 방식으로 최적화할 것을 제안합니다. SCD를 충족하기 위해 미분 없는 유전 프로그래밍을 통해 기호 트리를 학습하고 경사 기반 아담(Adam)을 통해 학생 및 운동 파라미터를 번갈아 학습합니다. 다양한 실제 데이터 세트에 대한 광범위한 실험 결과는 일반화와 해석 가능성 모두에서 SCD의 우수성을 보여줍니다. 절제 연구는 SCD의 각 성분의 효능을 검증하고, 사례 연구는 SCD의 해석 능력이 어떻게 작동하는지 명시적으로 보여줍니다. [abs|pdf]

[20/91] Holonic Learning: A Flexible Agent-based Distributed Machine Learning Framework

Keywords: privacy_focused_learning, model_aggregation_holons, learning_paradigm_distributed
Abstract: 지난 10년 동안 데이터와 컴퓨팅 리소스의 편재성이 계속 증가하면서 머신러닝 패러다임이 보다 분산된 접근 방식으로 주목할 만한 전환을 이루었습니다. 이러한 전환은 확장성과 리소스 분배 문제를 해결할 뿐만 아니라 시급한 개인정보 보호 및 보안 문제도 해결하고자 합니다. 이 백서에서는 이러한 논의에 기여하기 위해 딥러닝 모델 학습을 위해 설계된 협업 및 개인정보 보호 중심의 학습 프레임워크인 홀로닉 러닝(Holonic Learning, HoL)을 소개합니다. 홀로닉 개념을 활용하는 HoL 프레임워크는 학습 과정에서 구조화된 자기 유사 계층을 구축하여 각 홀론의 개별 모델 집계 방식과 홀론 내 헌신 및 커뮤니케이션 패턴을 통해 협업을 보다 미묘하게 제어할 수 있게 해줍니다. HoL은 일반적인 형태에서 광범위한 설계 및 유연성 잠재력을 제공합니다. 이 백서에서는 실증적 분석과 그 효과를 입증하기 위해 모든 홀론에 걸쳐 모델 집계를 위해 가중 평균을 사용하는 HoL의 특수 변형인 HoloAvg를 구현합니다. 제안된 방법의 수렴은 표준 MNISt 데이터 세트의 IID 및 비아이디 설정 모두에 대한 실험을 통해 검증됩니다. 또한 다양한 홀론 설계 및 데이터 배포 시나리오에서 HoL의 성능 동작을 조사합니다. 제시된 결과는 특히 비아이디 데이터 배포의 맥락에서 경쟁력 있는 성능을 제공하는 HoL의 우수성을 확인시켜 줍니다. [abs|pdf]

[21/91] Understanding Video Transformers via Universal Concept Discovery

Keywords: transformer_representations_videos, video_transformer_representations, representations_unstructured_video
Abstract: 이 논문에서는 비디오 트랜스포머 표현의 개념 기반 해석 가능성 문제를 연구합니다. 구체적으로, 자동으로 발견되는 높은 수준의 시공간적 개념을 기반으로 비디오 트랜스포머의 의사 결정 과정을 설명하고자 합니다. 개념 기반 해석 가능성에 대한 기존 연구는 이미지 수준의 작업에만 집중되어 있었습니다. 이에 비해 비디오 모델은 추가된 시간적 차원을 다루기 때문에 복잡성이 증가하고 시간에 따른 동적 개념을 식별하는 데 어려움이 있습니다. 이 연구에서는 최초의 비디오 트랜스포머 컨셉 디스커버리(VTCD) 알고리즘을 도입하여 이러한 문제를 체계적으로 해결합니다. 이를 위해 비디오 트랜스포머 표현의 단위인 개념을 비지도 방식으로 식별하고 모델 출력에 대한 중요도 순위를 매기는 효율적인 접근 방식을 제안합니다. 그 결과 도출된 개념은 해석 가능성이 높으며, 비정형 비디오 모델에서 시공간적 추론 메커니즘과 객체 중심 표현을 드러냅니다. 이 분석을 다양한 감독 및 자체 감독 표현 집합에 대해 공동으로 수행하여 이러한 메커니즘 중 일부가 비디오 트랜스포머에 보편적으로 적용된다는 사실을 발견했습니다. 마지막으로, 세분화된 작업에서 모델 성능을 개선하는 데 VTCD를 사용할 수 있음을 입증합니다. [abs|pdf]

[22/91] Co-Pilot for Health: Personalized Algorithmic AI Nudging to Improve Health Outcomes

Keywords: wearable_fitness, data_wearable_fitness, health_behavior_data
Abstract: 웨어러블 유형과 질병 상태에 따라 대규모 인구의 건강 행동을 자동으로 형성할 수 있는 능력은 전 세계 건강 결과를 개선할 수 있는 엄청난 잠재력을 가지고 있습니다. 유니티는 그래프 신경망(GNN) 기반 추천 시스템과 웨어러블 피트니스 기기의 세분화된 건강 행동 데이터를 통해 디지털 알고리즘 넛징을 위한 AI 기반 플랫폼을 설계하고 구현했습니다. 여기에서는 싱가포르에서 12주 동안 $n=84,764$ 명의 개인에게 개인화되고 상황에 맞는 넛지 기능을 제공하는 이 플랫폼의 효과에 대해 설명합니다. 통계적으로 검증한 결과, AI에 최적화된 일일 넛지를 받은 대상 그룹의 참가자는 넛지를 받지 않은 대조 그룹의 참가자에 비해 걸음 수와 같은 일일 신체 활동이 6.17%($p = 3.09\times10^{-4}$), 주간 중등도에서 격렬한 신체 활동(MVPA) 시간이 7.61%($p = 1.16\times10^{-2}$) 증가한 것으로 나타났습니다. 또한, 전송된 넛지의 13.1%가 열렸고(오픈율), 열린 넛지 중 11.7%가 유용하다고 평가한 반면 유용하지 않다고 평가한 비율은 1.9%에 그쳐 인구 수준의 참여도 지표가 크게 개선된 것으로 나타났습니다. [abs|pdf]

[23/91] Learning to Visually Connect Actions and their Effects

Keywords: capturing_intuitive_action, action_specification_video, visually_connecting_actions
Abstract: 이 작업에서는 비디오 이해에 있어 액션과 그 효과를 시각적으로 연결하는 새로운 개념(CATE)을 소개합니다. CATE는 작업 계획 및 데모를 통한 학습과 같은 영역에 적용할 수 있습니다. 우리는 비디오 이해 모델이 의미론적이고 세분화된 수준에서 동작과 효과를 연결하는 동작 선택 및 동작 지정과 같은 다양한 CATE 기반 작업 공식을 제안합니다. 우리는 다양한 공식화가 직관적인 동작 속성을 포착하는 표현을 만들어내는 것을 관찰합니다. 또한 액션 선택과 액션 사양을 위한 다양한 기준 모델을 설계합니다. 작업의 직관적인 특성에도 불구하고 모델은 어려움을 겪고 있으며, 인간은 큰 차이로 모델을 능가하는 것으로 관찰되었습니다. 이 연구는 비디오 이해에서 액션과 효과를 연결하는 유연성과 다양성을 보여줌으로써 향후 노력의 토대를 마련하고, 고급 공식과 모델에 영감을 불어넣는 것을 목표로 합니다. [abs|pdf]

[24/91] Interactions with Prompt Problems: A New Way to Teach Programming with Large Language Models

Keywords: teach_programming_prompt, way_teach_programming, teach_programming
Abstract: 대규모 언어 모델(LLM)은 컴퓨팅 교육에서 수십 년간의 교육학을 뒤집어 놓았습니다. 이전에는 학생들이 코드 _읽기_와 _이해_에 중점을 두지 않고 _쓰기_방식으로 코딩을 배웠습니다. 최근 연구에 따르면 LLM으로 구동되는 무료 코드 생성 도구는 자연어로 제시된 프로그래밍 입문 문제를 쉽게 해결할 수 있는 것으로 나타났습니다. 이 백서에서는 프롬프트 문제로 프로그래밍을 가르치는 새로운 방법을 제안합니다. 학생들은 입력을 어떻게 출력으로 변환해야 하는지를 나타내는 문제를 시각적으로 받고, 이를 프롬프트로 변환하여 LLM이 해독하도록 해야 합니다. 학생 프롬프트에 의해 생성된 코드가 모든 테스트 케이스를 통과할 수 있으면 문제가 정답으로 간주됩니다. 이 백서에서는 이 도구의 설계를 소개하고, 학생들이 학습하면서 이 도구와 상호 작용하는 방식에 대해 논의하며, 이 새로운 유형의 프로그래밍 문제와 LLM을 통합하는 설계 도구에 대한 통찰력을 제공합니다. [abs|pdf]

[25/91] BoolGebra: Attributed Graph-learning for Boolean Algebraic Manipulation

Keywords: logic_synthesis_boolgebra, design_inference, design_inferences
Abstract: 부울 대수 조작은 전자 설계 자동화(EDA) 설계 흐름에서 로직 합성의 핵심입니다. 기존 방법으로는 최적화 기회를 충분히 활용하기 어려우며, 검색 공간의 폭발적인 증가와 확장성 효율성의 제한으로 인해 어려움을 겪는 경우가 많습니다. 이 연구에서는 근본적인 논리 합성을 개선하는 것을 목표로 하는 부울 대수 조작을 위한 새로운 속성 그래프 학습 접근 방식인 BoolGebra를 소개합니다. BoolGebra는 그래프 신경망(GNN)을 통합하고 구조 및 기능 정보 모두에서 초기 특징 임베딩을 입력으로 사용합니다. 완전히 연결된 신경망을 직접 최적화 결과 예측을 위한 예측자로 사용하여 검색 공간을 크게 줄이고 최적화 공간을 효율적으로 찾습니다. 이 실험에서는 훈련된 모델을 사용하여 디자인별 추론과 교차 디자인 추론에 대해 BoolGebra 모델을 훈련하고, 이를 통해 교차 디자인 추론에 대한 일반화 가능성과 작고 단순한 훈련 데이터 세트에서 크고 복잡한 추론 데이터 세트로 확장할 수 있는 잠재력을 보여줍니다. 마지막으로, BoolGebra는 기존 합성 도구 ABC와 통합되어 SOTA 기준선에 대한 엔드투엔드 로직 최소화 평가를 수행합니다. [abs|pdf]

[26/91] Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach

Keywords: multimodal_sentiment, multimodal_sentiment_analysis, modalities_sentiment_prediction
Abstract: 멀티모달 감정 분석은 시각, 언어, 청각적 단서를 통해 개인이 표현하는 감정을 식별하는 것을 목표로 합니다. 그러나 기존의 대부분의 연구는 훈련과 테스트 모두에서 모든 모달리티를 사용할 수 있다고 가정하기 때문에 알고리즘이 누락된 모달리티 시나리오에 취약할 수 있습니다. 이 논문에서는 누락된 오디오 모달리티를 재구성하기 위해 서로 다른 모달리티 간에 번역할 수 있는 새로운 지식 전달 네트워크를 제안합니다. 또한 감정 예측을 위해 재구성 및 관찰된 모달리티의 최대 정보를 유지하기 위한 교차 모달리티 주의 메커니즘을 개발합니다. 공개적으로 사용 가능한 세 가지 데이터 세트에 대한 광범위한 실험을 통해 기준선에 비해 상당한 개선이 이루어졌으며, 완전한 다중 모달리티 감독을 통해 이전 방법과 비슷한 결과를 얻었습니다. [abs|pdf]

[27/91] A Systematic Evaluation of Euclidean Alignment with Deep Learning for EEG Decoding

Keywords: bci_tasks_deep, decoding_bci, training_dl_models
Abstract: 뇌파(EEG) 신호는 다양한 뇌-컴퓨터 인터페이스(BCI) 작업에 자주 사용됩니다. 딥러닝(DL) 기술이 유망한 결과를 보여주긴 했지만, 상당한 양의 데이터가 필요하다는 점이 걸림돌입니다. 전이 학습은 여러 피험자의 데이터를 활용함으로써 DL 모델을 보다 효과적으로 훈련할 수 있습니다. 사용 편의성, 낮은 계산 복잡성, 딥러닝 모델과의 호환성 때문에 인기를 얻고 있는 기법은 유클리드 정렬(EA)입니다. 그러나 공유 및 개별 DL 모델의 훈련 성능에 미치는 영향을 평가한 연구는 거의 없습니다. 이 연구에서는 BCI 신호 해독을 위해 DL과 결합된 EA의 효과를 체계적으로 평가했습니다. 여러 피험자의 데이터로 공유 모델을 훈련하고 새로운 피험자에 대한 전이성을 평가하기 위해 EA를 사용했습니다. 실험 결과, 대상 피사체의 디코딩 성능이 4.33% 향상되고 수렴 시간이 70% 이상 단축되는 것으로 나타났습니다. 또한 다수결 앙상블 분류기로 사용하기 위해 각 피사체에 대한 개별 모델을 훈련했습니다. 이 시나리오에서 EA를 사용하면 3개 모델 앙상블의 정확도가 3.7% 향상되었습니다. 그러나 EA를 사용한 공유 모델과 비교했을 때 앙상블 정확도는 3.62% 더 낮았습니다. [abs|pdf]

[28/91] Ethical Artificial Intelligence Principles and Guidelines for the Governance and Utilization of Highly Advanced Large Language Models

Keywords: ethical_ai_principles, discussing_ethical_ai, ethical_ai
Abstract: ChatGPT, LaMDA 및 기타 대규모 언어 모델(LLM)의 성공으로 인해 기술 분야 및 기타 분야에서 LLM의 개발과 사용이 증가하고 있습니다. 아직 LLM이 인간의 지능을 능가하는 수준에는 이르지 못했지만 언젠가는 그럴 날이 올 것입니다. 이러한 LLM을 고급 LLM이라고 할 수 있습니다. 현재는 아직 그 단계에 도달하지 못했기 때문에 고급 LLM을 다루는 윤리적 인공지능(AI) 원칙과 가이드라인이 제한적으로 사용되고 있습니다. 그러나 그 지점에 도달하게 되면 그 여파를 윤리적이고 최적의 방식으로 처리할 준비가 제대로 되어 있지 않아 원치 않는 예기치 않은 결과를 초래할 수 있다는 점에서 문제가 됩니다. 이 백서에서는 이 문제를 해결하기 위해 고도로 발전된 인공 지능을 다루는 데 사용할 수 있는 윤리적 AI 원칙과 가이드라인에 대해 논의합니다. [abs|pdf]

[29/91] Dynamic Q&A of Clinical Documents with Large Language Models

Keywords: question_answering_clinical, clinical_notes_chatbot, answering_clinical_notes
Abstract: 전자 의료 기록(EHR)에는 임상 노트에 중요한 환자 데이터가 저장되어 있습니다. 이러한 노트의 양과 복잡성이 증가함에 따라 수동 추출이 어려워지고 있습니다. 이 연구는 임상 노트에 대한 동적 질의응답을 위해 대규모 언어 모델(LLM)을 사용하는 자연어 인터페이스를 도입합니다. 랭체인과 트랜스포머 기반 LLM으로 구동되는 챗봇을 통해 사용자는 자연어로 질문하고 임상 노트에서 관련 답변을 받을 수 있습니다. 다양한 임베딩 모델과 고급 LLM을 활용한 실험 결과, 위저드 비쿠나는 높은 컴퓨팅 수요에도 불구하고 뛰어난 정확도를 보였습니다. 가중치 정량화를 포함한 모델 최적화를 통해 지연 시간을 약 48배 개선했습니다. 유망한 결과는 잠재력을 보여주지만, 모델 환각과 제한된 다양한 의료 사례 평가와 같은 과제가 남아 있습니다. 이러한 격차를 해소하는 것은 임상 기록의 가치를 실현하고 AI 기반 임상 의사 결정을 발전시키는 데 매우 중요합니다. [abs|pdf]

[30/91] Proceedings 14th International Conference on Automated Deduction in Geometry

Keywords: adg_2023_held, 2023_edition_adg, edition_adg_2023
Abstract: ADG는 아이디어와 견해를 교환하고, 연구 결과와 진행 상황을 발표하며, 기하학과 자동 추론의 교차점에 있는 소프트웨어 도구를 시연하는 포럼입니다. 이 컨퍼런스는 2년마다 개최됩니다. 이전 ADG는 2021년 하겐베르크(코로나19로 인해 2020년에서 연기되어 온라인 개최), 2018년 난닝, 2016년 스트라스부르, 2014년 코임브라, 2012년 에든버러, 2010년 뮌헨, 2008년 상하이, 2006년 폰테베드라, 2004년 게인즈빌, 2002년 하겐베르크, 2000년 취리히, 1998년 베이징, 1996년 툴루즈에서 열렸습니다.
제14회 ADG 2023은 2023년 9월 20일부터 22일까지 세르비아 베오그라드에서 개최되었습니다. 이번 ADG에서는 교육에서의 공제라는 특별 주제가 추가되었습니다.
초청 연사: 프랑스 스트라스부르 대학교 줄리앙 나르부(Julien Narboux), "기하학의 형식화, 산술화 및 자동화"; 세르비아 베오그라드 대학교 필립 마리치(Filip Marić), "쌍곡기하학의 자동화, 형식화 및 시각화"; 슬로베니아 류블랴나 대학교 즐라탄 마가냐(Zlatan Magajna), "워크샵 OK 기하학" [abs|pdf]

[31/91] Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

Keywords: visual_question_answering, visual_question_generation, language_models_answering
Abstract: 다중 모달 대규모 언어 모델의 획기적인 발전으로 고도의 추론 능력과 세계 지식이 요구되는 복잡한 시각적 질문에 대한 답변은 그 어느 때보다 AI 모델 개발의 중요한 테스트베드가 되었습니다. 그러나 인간의 인지 체계가 체계적으로 이해되지 않았기 때문에 AI 모델에 강력한 교차 모달리티 추론 능력을 갖추는 것은 여전히 어려운 과제입니다. 이 논문에서는 주어진 이미지에서 시각적 단서를 최대한 많이 수집할 수 있다면 이미지를 더 정확하게 인식하고, 질문을 더 잘 이해하고, 관련 지식을 더 쉽게 떠올리고, 최종적으로 답을 추론할 수 있을 것이라고 생각합니다. 이미지에서 질문과 답변 쌍을 마이닝하고 이를 멀티모달 대규모 언어 모델에 프롬프트로 전송하여 이러한 풍부한 시각적 단서를 발견합니다. 우리는 제안된 방법을 Q&A 프롬프트라고 부릅니다. 구체적으로, 먼저 훈련 세트의 이미지-응답 쌍과 해당 질문을 입력과 출력으로 사용하여 시각적 질문 생성 모델을 훈련합니다. 그런 다음 이미지 태깅 모델을 사용하여 다양한 인스턴스를 식별하고 패키지화된 이미지-태그 쌍을 시각적 질문 생성 모델에 전송하여 추출된 이미지 태그를 답변으로 사용하여 관련 질문을 생성합니다. 마지막으로, 이렇게 생성된 질문-답변 쌍을 시각적 인식 프롬프트 모듈을 통해 프롬프트로 인코딩하고 이를 사전 학습된 다중 모드 대규모 언어 모델로 전송하여 최종 답변을 추론합니다. 실험 결과, 최신 방식과 비교했을 때 당사의 Q&A 프롬프트는 OK-VQA 및 A-OKVQA와 같이 다양한 세계 지식에 대한 추론이 필요한 까다로운 시각적 질문 답변 데이터 세트에서 상당한 개선을 달성한 것으로 나타났습니다. [abs|pdf]

[32/91] Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering

Keywords: video_question_answering, question_answering_videoqa, large_multimodal_models
Abstract: 비디오 질문 답변(VideoQA)은 비디오에서 관찰된 정보를 기반으로 자연어 질문에 답하는 것을 목표로 합니다. 최근 이미지 언어 이해 및 추론 분야에서 대규모 다중 모드 모델(LMM)이 성공을 거두었음에도 불구하고, 이 모델은 질문과 관련된 시각적 단서를 무시한 채 균일하게 샘플링된 프레임을 시각적 입력으로 삼아 비디오QA를 충분히 처리하지 못하고 있습니다. 게다가 기존 VideoQA 데이터 세트에는 질문에 중요한 타임스탬프에 대한 사람의 주석이 없습니다. 이러한 점을 고려하여 저희는 시각적 입력으로 질문이 결정적인 순간에 대한 답변을 추론하도록 LMM을 강제하는 새로운 약감독 프레임워크를 제안합니다. 구체적으로, 질문과 답변 쌍을 이벤트 설명으로 융합하여 의사 레이블이 될 목표 순간으로 여러 개의 키프레임을 찾습니다. 이러한 의사 레이블을 추가적으로 약한 감독으로 사용하여 가벼운 가우시안 기반 대비 접지(GCG) 모듈을 고안합니다. GCG는 여러 가우스 함수를 학습하여 비디오의 시간적 구조를 특성화하고, 질문이 중요한 프레임을 샘플로 추출하여 LMM의 시각적 입력이 됩니다. 여러 VideoQA 벤치마크에 대한 광범위한 실험을 통해 프레임워크의 효과를 검증했으며, 이전의 최첨단 방법과 비교했을 때 상당한 개선을 이루었습니다. [abs|pdf]

[33/91] Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model

Keywords: offline_policy_learning, safety_constraint_equivalently, safe_policy_learning
Abstract: 안전한 오프라인 RL은 안전한 정책 학습을 위해 위험한 온라인 상호작용을 우회할 수 있는 유망한 방법입니다. 기존의 대부분의 방법은 소프트 제약, 즉 미리 정해진 임계값 이하로 예상되는 안전 위반을 제한하는 것만 시행합니다. 이는 잠재적으로 안전하지 않은 결과를 초래할 수 있으므로 안전이 중요한 시나리오에서는 허용되지 않습니다. 다른 대안은 위반 건수 제로라는 엄격한 제약을 적용하는 것입니다. 그러나 이는 오프라인 환경에서 매우 복잡하고 상호 연관성이 높은 세 가지 측면, 즉 안전 제약 충족, 보상 극대화, 오프라인 데이터 세트에 의해 부과되는 행동 규칙화 사이에서 적절한 균형을 유지해야 하기 때문에 어려울 수 있습니다. 흥미롭게도 안전-통제 이론의 도달 가능성 분석을 통해 엄격한 안전 제약 조건을 오프라인 데이터 세트가 주어졌을 때 실현 가능한 최대 영역을 식별하는 것과 동일하게 변환할 수 있다는 사실을 발견했습니다. 이렇게 하면 원래의 삼부작 문제를 실현 가능 영역에서 보상 가치를 극대화하고 실현 불가능한 영역에서 안전 위험을 최소화하는 실현 가능성에 따른 목표로 자연스럽게 변환할 수 있습니다. 이에 착안하여 안전 제약 조건 준수, 보상 극대화, 오프라인 정책 학습을 세 가지 분리된 프로세스를 통해 실현하면서 강력한 안전 성능과 안정성을 제공하는 FISOR(FeasIbility-guided Safe Offline RL)을 제안합니다. FISOR에서는 변환된 최적화 문제에 대한 최적의 정책을 특수한 형태의 가중치 행동 복제를 통해 도출할 수 있습니다. 따라서 정책을 추출하기 위해 복잡한 시간 의존 분류기를 훈련할 필요가 없는 새로운 에너지 유도 확산 모델을 제안하여 훈련을 크게 간소화합니다. 안전한 오프라인 RL을 위해 DSRL 벤치마크의 기준선과 FISOR를 비교합니다. 평가 결과, 모든 작업에서 안전 만족도를 보장하는 동시에 대부분의 작업에서 최고의 수익을 달성할 수 있는 유일한 방법은 FISOR인 것으로 나타났습니다. [abs|pdf]

[34/91] Beyond RMSE and MAE: Introducing EAUC to unmask hidden bias and unfairness in dyadic regression models

Keywords: model_bias, models_predict, domains_predicting_rating
Abstract: 한 쌍의 실체에 대한 실제값 결과를 예측하는 이항 회귀 모델은 많은 영역(예: 추천 시스템에서 제품에 대한 사용자의 평가 예측)에서 기본이 되며, 다른 많은 영역(예: 개인화된 약리학에서 환자에게 적절한 약물 복용량 추정)에서 유망하고 연구 중인 모델입니다. 이 연구에서는 개별 개체의 관측값 분포가 균일하지 않으면 최신 모델에서 예측이 심각하게 편향되어 해당 개체에 대해 관측된 과거 값의 평균으로 예측이 치우치고, 편심하지만 똑같이 중요한 경우에는 무작위 예측보다 못한 예측력을 제공한다는 사실을 입증합니다. 우리는 평균제곱근오차(RMSE)나 평균절대오차(MAE)와 같은 글로벌 오차 지표만으로는 이 현상을 포착하기에 불충분하며, 이를 편심 편향이라고 명명하고 모든 연구 모델과 데이터 세트에서 이를 정량화할 수 있는 새로운 보완 지표로 편심-곡선 아래 면적(EAUC)을 소개합니다. 또한 순진한 편향 제거 보정을 사용하여 낮은 모델 편향이 낮은 EAUC와 상관관계가 있으며 그 반대의 경우도 마찬가지임을 입증함으로써 EAUC의 적절성을 증명합니다. 이 연구는 이원 회귀 모델에 대한 편향 인식 평가를 통해 이러한 시스템의 중요한 실제 적용에서 잠재적인 불공정성과 위험을 방지하는 데 기여합니다. [abs|pdf]

[35/91] Towards End-to-End GPS Localization with Neural Pseudorange Correction

Keywords: localization_inaccuracy_gps, end_gps_localization, gps_localization
Abstract: 의사 범위 오류는 GPS의 부정확한 위치추적의 근본 원인입니다. 기존의 데이터 기반 방법은 수작업으로 만든 중간 레이블을 사용하여 의사 범위 오류를 회귀하고 제거합니다. 이와 달리, 저희는 GPS 수신기 상태의 실측 데이터로 계산된 최종 작업 손실을 사용하여 의사 범위 보정을 위한 신경망(PrNet)을 직접 훈련할 수 있는 엔드투엔드 GPS 위치추적 프레임워크인 E2E-PrNet을 제안합니다. 학습 가능한 파라미터에 대한 손실의 기울기는 미분 가능한 비선형 최소제곱 최적화기를 통해 PrNet으로 역전파됩니다. Android 휴대폰에서 수집한 GPS 데이터로 타당성을 검증한 결과, E2E-PrNet이 최첨단 엔드투엔드 GPS 위치추적 방법보다 성능이 뛰어나다는 것을 확인할 수 있었습니다. [abs|pdf]

[36/91] A Simple Framework to Accelerate Multilingual Language Model for Monolingual Text Generation

Keywords: conventional_multilingual_tokenizers, multilingual_tokenizers, multilingual_tokenizers_specifically
Abstract: 최근 대규모 언어 모델의 발전으로 영어뿐만 아니라 비영어권 언어에서도 복잡한 언어 작업을 쉽게 수행할 수 있게 되었습니다. 하지만 영어 중심의 말뭉치로 학습된 Llama와 같은 대부분의 언어 모델의 토큰화기는 영어가 아닌 언어의 토큰을 과도하게 조각화하는 경향이 있습니다. 이 문제는 특히 문자 또는 유니코드 수준에서 분할되는 경우가 많은 비로만 알파벳 언어에서 두드러지게 나타나며, 이로 인해 텍스트 생성 속도가 느려집니다. 이 문제를 해결하기 위해 본 연구에서는 이러한 언어의 텍스트 생성 속도를 높이기 위해 설계된 새로운 프레임워크를 도입했습니다. 이 프레임워크는 기존 다국어 토큰화기보다 더 큰 언어 단위를 예측하고 대상 언어에 맞게 특별히 맞춤화되어 필요한 디코딩 단계의 수를 줄여줍니다. 실증 결과에 따르면 제안된 프레임워크는 단일 언어 작업에서 사전 학습된 다국어 모델의 성능을 유지하면서 표준 디코딩에 비해 생성 속도를 1.9배 향상시키는 것으로 나타났습니다. [abs|pdf]

[37/91] A Comprehensive Survey on Deep-Learning-based Vehicle Re-Identification: Models, Data Sets and Challenges

Keywords: learning_vehicle_reid, learning_vehicle_identification, deep_learning_vehicle
Abstract: 차량 재식별(ReID)은 다양한 교통 환경에 걸쳐 분산된 카메라 네트워크에서 수집된 차량 이미지를 연결하기 위해 노력합니다. 이 작업은 지능형 교통 시스템(ITS)을 배포하고 스마트 시티 이니셔티브를 발전시키는 데 중추적인 역할을 하는 차량 중심 기술의 스펙트럼 내에서 가장 중요한 역할을 담당합니다. 최근 몇 년간 딥 러닝의 급속한 발전으로 차량 ReID 기술의 진화가 크게 촉진되었습니다. 따라서 차량 재식별을 위한 딥러닝을 중심으로 한 방법론에 대한 포괄적인 조사를 수행하는 것은 필수적이며 피할 수 없는 일이 되었습니다. 이 백서에서는 차량 ReID에 적용되는 딥러닝 기술을 광범위하게 살펴봅니다. 이 백서에서는 감독 및 비감독 접근법을 포함하여 이러한 방법의 분류를 개괄적으로 설명하고, 이러한 범주에 속하는 기존 연구를 자세히 살펴보고, 데이터 세트와 평가 기준을 소개하며, 향후 과제와 잠재적 연구 방향을 설명합니다. 이 종합적인 평가는 차량 ReID의 딥러닝 환경을 조사하고 향후 작업의 토대와 출발점을 마련합니다. 이 보고서는 도전 과제와 새로운 트렌드를 강조하고 딥러닝 모델을 활용한 차량 ReID의 발전과 애플리케이션을 촉진함으로써 완벽한 참고 자료가 되는 것을 목표로 합니다. [abs|pdf]

[38/91] Fast Butterfly-Core Community Search For Large Labeled Graphs

Keywords: fast_community_search, community_search_methods, community_search_model
Abstract: 커뮤니티 검색(CS)은 그래프 내에서 쿼리 정점에 해당하는 조밀하게 상호 연결된 하위 그래프를 식별하는 것을 목표로 합니다. 그러나 기존의 이기종 그래프 기반 커뮤니티 검색 방법은 그룹 간 커뮤니티를 식별하는 데 도움이 필요하고 효율성 문제가 있어 대규모 그래프에는 적합하지 않습니다. 본 백서에서는 이기종 그래프에 대한 버터플라이-코어 커뮤니티(BCC) 구조에 기반한 빠른 커뮤니티 검색 모델을 제시합니다. 랜덤 워크 위드 리스타트(RWR) 알고리즘과 버터플라이 정도는 커뮤니티 내 정점의 중요성을 종합적으로 평가하여 리더 정점을 빠르게 업데이트함으로써 그룹 간 결속력을 유지할 수 있습니다. 또한, 버텍스 거리를 업데이트하는 보다 효율적인 방법을 고안하여 버텍스 방문을 최소화하고 운영 효율성을 향상시켰습니다. 여러 실제 시간 그래프에 대한 광범위한 실험을 통해 이 솔루션의 효과와 효율성을 입증했습니다. [abs|pdf]

[39/91] An Effective Index for Truss-based Community Search on Large Directed Graphs

Keywords: efficient_community_searches, searches_large_graphs, retrieved_communities
Abstract: 커뮤니티 검색은 커뮤니티 검색에서 파생된 개념으로, 온라인에서 개인화된 커뮤니티 검색을 가능하게 하며 대규모 실제 네트워크에서 광범위하게 활용되고 있습니다. 최근에는 방향성 없는 그래프에 대한 연구가 많이 진행되었지만, 방향성 있는 그래프 내에서의 커뮤니티 검색 문제에 더 집중할 필요가 있습니다. 최근 제안된 D-트러스 모델은 검색된 커뮤니티의 품질에서 좋은 결과를 얻었습니다. 그러나 기존의 D-트러스 기반 작업은 최대 D-트러스를 검색하기 위해 너무 많은 컴퓨팅 리소스를 소모하기 때문에 큰 그래프에서 효율적인 커뮤니티 검색을 수행할 수 없습니다. 이 문제를 극복하기 위해, 저희는 D-트러스 내 에지의 고유한 밀도와 응집력을 포착하기 위해 D-트러스-연결이라는 혁신적인 병합 관계를 도입했습니다. 이 관계를 사용하면 원본 그래프의 모든 에지를 일련의 D-트러스 연결 클래스로 분할할 수 있습니다. 그런 다음, D-트러스 연결에 기반한 간결하고 컴팩트한 인덱스인 ConDTruss를 구축합니다. ConDTruss를 사용하면 최대 D-트러스 검색의 효율성이 크게 향상되어 이론적으로 최적의 접근 방식이 됩니다. 대형 방향 그래프에 대한 실험적 평가를 통해 제안한 방법의 효율성을 증명했습니다. [abs|pdf]

[40/91] A comprehensive study on fidelity metrics for XAI

Keywords: explanations_perfect_fidelity, fidelity_metrics_reliable, fidelity_metrics_using
Abstract: 설명 가능한 인공 지능(XAI) 시스템을 사용하면서 해결해야 할 몇 가지 과제가 생겼습니다. 여기서는 이 분야의 미해결 과제인 XAI 방법을 올바르게 선택하는 방법에 초점을 맞춥니다. 이 작업의 본질적인 어려움은 근거 자료가 부족하기 때문입니다. 여러 저자가 다양한 XAI 방법의 충실도를 대략적으로 추정할 수 있는 지표를 제안했습니다. 이러한 지표는 검증이 부족하고 의견 불일치 문제가 있습니다. 이 연구에서는 잘 알려진 투명 모델, 즉 의사결정 트리를 사용하여 충실도 지표를 검증하는 새로운 방법론을 제안했습니다. 이 모델을 통해 완벽한 충실도를 가진 설명을 얻을 수 있었습니다. 우리의 제안은 이러한 지표에 대한 최초의 객관적인 벤치마크로서, 기존 제안과의 비교를 용이하게 하고 기존 방법을 능가합니다. 저희는 이 벤치마크를 적용하여 각각 52,000개의 이미지로 구성된 공개 데이터 세트를 사용한 두 가지 실험에서 기존 충실도 지표를 평가했습니다. 이 데이터 세트의 이미지는 128×128픽셀 크기로, 훈련 과정을 간소화하기 위해 합성된 데이터였습니다. 모든 지표 값은 충실도가 부족한 것으로 나타났으며, 가장 좋은 지표 값은 완벽한 설명을 위한 예상 값과 30 % 편차를 보였습니다. 실험을 통해 현재의 충실도 지표는 실제 시나리오에서 사용하기에 충분히 신뢰할 수 없다는 결론에 도달했습니다. 이 결과를 바탕으로 발견된 문제를 피하기 위해 새로운 지표를 개발할 필요가 있다고 판단했으며, 이러한 한계를 해결하기 위해 과학계에서 우리의 제안을 벤치마크로 사용할 것을 권장합니다. [abs|pdf]

[41/91] ZnTrack -- Data as Code

Keywords: data_versioning_tool, driven_data_versioning, data_versioning
Abstract: 지난 10년 동안 컴퓨팅은 엄청난 발전을 거듭해 왔으며, 이러한 발전이 조만간 둔화될 조짐은 보이지 않습니다. 머신 러닝, 대규모 컴퓨팅 리소스, 업계의 관심 증가로 인해 데이터 관리, 시뮬레이션, 모델 생성을 위한 컴퓨터 기반 솔루션에 대한 투자가 증가했습니다. 그러나 이러한 컴퓨팅의 성장과 함께 데이터의 양이 훨씬 더 크게 증가하면서 데이터 저장, 공유 및 추적의 복잡성도 함께 증가했습니다. 이번 작업에서는 Python 기반 데이터 버전 관리 도구인 ZnTrack을 소개합니다. ZnTrack은 기존의 버전 관리 시스템을 기반으로 실험의 매개변수 추적, 워크플로우 설계, 데이터 저장 및 공유를 위한 사용자 친화적이고 사용하기 쉬운 인터페이스를 제공합니다. 대규모 데이터 세트를 간단한 Python 스크립트로 축소할 수 있는 이 기능에서 여기 소개된 작업의 핵심 구성 요소이자 컴퓨팅 시대가 계속 발전함에 따라 의심할 여지 없이 중요한 개념인 코드형 데이터라는 개념이 탄생했습니다. ZnTrack은 사용자가 이러한 미래의 개념을 활용할 수 있도록 오픈 소스, FAIR 데이터 호환 Python 패키지를 제공합니다. [abs|pdf]

[42/91] PuriDefense: Randomized Local Implicit Adversarial Purification for Defending Black-box Query-based Attacks

Keywords: defense_mechanisms_adversarial, adversarial_inputs, generate_adversarial_examples
Abstract: 블랙박스 쿼리 기반 공격은 대상 모델의 아키텍처와 파라미터에 액세스하지 않고도 적대적인 예제를 생성할 수 있기 때문에 서비스형 머신 러닝(MLaaS) 시스템에 심각한 위협이 됩니다. 적대적 훈련, 그라데이션 마스킹, 입력 변환과 같은 기존의 방어 메커니즘은 상당한 계산 비용을 부과하거나 적대적이지 않은 입력의 테스트 정확도를 떨어뜨립니다. 이러한 문제를 해결하기 위해 저희는 낮은 수준의 추론 비용으로 가벼운 정화 모델 앙상블로 무작위 패치별 정화를 사용하는 효율적인 방어 메커니즘인 PuriDefense를 제안합니다. 이 모델은 로컬 암시적 함수를 활용하고 자연스러운 이미지 매니폴드를 재구성합니다. 이론적 분석에 따르면 이러한 접근 방식은 무작위성을 정제에 통합함으로써 쿼리 기반 공격의 수렴 속도를 늦추는 것으로 나타났습니다. CIFAR-10과 ImageNet에 대한 광범위한 실험을 통해 우리가 제안한 정제기 기반 방어 메커니즘의 효과를 검증하여 쿼리 기반 공격에 대한 견고성이 크게 향상되었음을 입증했습니다. [abs|pdf]

[43/91] OrchMoE: Efficient Multi-Adapter Learning with Task-Skill Synergy

Keywords: task_learning_efficiency, task_skill_allocation, multi_task_learning
Abstract: 유니티는 신경망의 순방향 전달을 강화하기 위해 모듈식 기술 아키텍처를 활용하는 새로운 멀티 어댑터 방식인 OrchMoE를 통해 파라미터 효율적 미세 조정(PEFT) 분야를 발전시켰습니다. 명시적인 작업 식별 입력에 의존하는 이전 모델과 달리 OrchMoE는 작업 범주를 자동으로 식별하여 학습 프로세스를 간소화합니다. 이는 작업별 분류를 종합적으로 추론하고 기술 할당 매트릭스를 맞춤화하는 자동 작업 분류 모듈과 작업-기술 할당 모듈로 구성된 통합 메커니즘을 통해 달성됩니다. 1,600개의 다양한 교육 과제를 포함하는 '슈퍼 내추럴 인스트럭션' 데이터 세트에 대한 광범위한 평가 결과, OrchMoE는 동일한 매개변수 제약 내에서 작동하면서도 성능과 샘플 활용 효율성 측면에서 비교 가능한 멀티 어댑터 기준선을 크게 능가하는 것으로 나타났습니다. 이러한 결과는 OrchMoE가 멀티태스크 학습 효율성에서 상당한 도약을 이룰 수 있음을 시사합니다. [abs|pdf]

[44/91] AAT: Adapting Audio Transformer for Various Acoustics Recognition Tasks

Keywords: audio_transformer_model, audio_transformer, efficient_fine_tuning
Abstract: 최근에는 트랜스포머가 음향 인식 분야에 도입되었습니다. 지도 학습 및 준지도 학습과 같은 방법을 사용하여 대규모 데이터 세트에 대해 사전 학습되어 강력한 일반성을 보여주며, 다운스트림 작업에 쉽게 미세 조정되고 더욱 강력한 성능을 보여줍니다. 그러나 현재 주로 사용되는 미세 조정 방법은 여전히 훈련 중에 모든 매개변수를 업데이트하는 전체 미세 조정입니다. 이는 상당한 메모리 사용량과 시간 비용을 초래할 뿐만 아니라 모델의 범용성을 떨어뜨립니다. 다른 미세 조정 방법은 이 문제를 해결하는 데 어려움을 겪거나 적절한 성능을 달성하지 못합니다. 따라서 유니티는 기존의 미세 조정 방법을 종합적으로 분석하여 어댑터 튜닝을 기반으로 한 효율적인 미세 조정 방식, 즉 AAT를 제안했습니다. 핵심 아이디어는 오디오 트랜스포머 모델을 동결하고 학습 가능한 어댑터를 추가로 삽입하여 모델의 원래 일반성을 손상시키지 않으면서도 다운스트림 작업 지식을 효율적으로 획득하는 것입니다. 광범위한 실험 결과, 이 방법은 파라미터의 7.118%만 최적화하면서 전체 미세 조정과 비슷하거나 더 우수한 성능을 달성하는 것으로 나타났습니다. 또한 다른 미세 조정 방법보다 우월함을 입증했습니다. [abs|pdf]

[45/91] Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences

Keywords: reasoning_abilities_mementos, image_reasoning_abilities, mllms_mementos
Abstract: 다중 모드 대규모 언어 모델(MLLM)은 다양한 시각 언어 작업을 처리하는 데 능숙함을 입증했습니다. 그러나 현재의 MLLM 벤치마크는 주로 단일 이미지에 대한 정적 정보를 기반으로 추론을 평가하도록 설계되어 있으며, 끊임없이 변화하는 세상을 이해하는 데 필수적인 이미지 시퀀스에서 추론하는 최신 MLLM의 능력은 덜 연구되어 왔습니다. 이 백서에서는 이러한 문제를 해결하기 위해 머신러닝의 순차적 이미지 추론 능력을 평가하기 위해 고안된 새로운 벤치마크인 메멘토스를 소개합니다. 메멘토스는 다양한 길이의 4,761개의 다양한 이미지 시퀀스로 구성되어 있습니다. 또한 머신러닝 추론 성능을 평가하기 위해 GPT-4 지원 방법을 사용합니다. GPT-4V와 Gemini를 포함한 9개의 최신 MLLM을 메멘토스에서 면밀히 평가한 결과, 주어진 이미지 시퀀스에 대한 동적 정보를 정확하게 설명하는 데 어려움을 겪고 있으며, 이는 종종 사물과 그에 따른 행동에 대한 환각/왜곡으로 이어진다는 사실을 발견했습니다. Facebook의 정량적 분석과 사례 연구를 통해 사물과 행동 환각의 상관관계, 동시 발생 행동의 영향, 행동 환각의 복합적 영향이라는 세 가지 주요 요인이 MLLM의 순차적 이미지 추론에 영향을 미친다는 사실을 확인했습니다. 데이터 세트는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[46/91] Cross-lingual Editing in Multilingual Language Models

Keywords: lingual_model_editing, edited_language, edited_language_subsequent
Abstract: 대규모 언어 모델(LLM)을 학습하려면 상당한 양의 데이터와 컴퓨팅 리소스가 필요하며, 오래된 LLM을 업데이트하려면 상당한 노력과 리소스가 수반됩니다. 재학습 없이 모델 결과물을 효율적으로 업데이트하기 위한 다양한 모델 편집 기법(MET)이 등장했지만, 다양한 언어로 지식이 저장된 다국어 LLM에서의 효과는 아직 미개척 연구 분야로 남아 있습니다. 이 연구 논문에서는 한 가지 사실을 한 가지 언어로 편집한 후 다른 언어로 업데이트 전파를 관찰하는 교차 언어 모델 편집(XME) 패러다임을 소개합니다. XME 패러다임을 조사하기 위해 두 가지 글쓰기 스크립트인 BLOOM, mBERT, XLM-RoBERTa를 사용하여 실험을 진행했습니다: 라틴어 계열(영어, 프랑스어, 스페인어)와 인디아어 계열(힌디어, 구자라트어, 벵골어). 그 결과, 주로 관련된 언어가 서로 다른 두 개의 스크립트 계열에 속할 때 XME 설정에서 최첨단 MET의 성능 한계가 뚜렷하게 드러났습니다. 이러한 결과는 이러한 문제를 해결하기 위해 XME 기술에 대한 추가 연구 및 개발의 필요성을 강조합니다. 이 연구에 사용된 데이터 세트와 관련 코드는 다음 URL에서 공개적으로 확인할 수 있습니다. [abs|pdf]

[47/91] Episodic Reinforcement Learning with Expanded State-reward Space

Keywords: reinforcement_learning_drl, deep_reinforcement_learning, networks_deep_reinforcement
Abstract: 심층 신경망을 기반으로 하는 심층 강화 학습(DRL)은 게임, 의료, 자율 주행 등 다양한 영역에서 엄청난 경험적 성공을 거두었습니다. 이러한 발전에도 불구하고 효과적인 정책을 수립하려면 방대한 수의 환경 샘플이 필요하기 때문에 DRL은 여전히 데이터 비효율적이라는 지적을 받고 있습니다. 최근에는 에피소드 제어(EC) 기반의 모델 없는 DRL 방법을 통해 에피소드 메모리에서 과거 경험을 불러와 샘플의 효율성을 높일 수 있습니다. 하지만 기존 EC 기반 방법은 방대한 정보를 가진 (과거) 검색 상태의 활용을 소홀히 해 상태와 보상 공간 간의 잠재적 불일치 가능성이 존재하며, 이는 부정확한 가치 추정과 정책 성능 저하의 원인이 될 수 있다는 한계를 가지고 있습니다. 이 문제를 해결하기 위해 입력으로 사용되는 확장된 상태와 학습에 사용되는 확장된 보상에 과거 및 현재 정보가 모두 포함된 확장된 상태-보상 공간을 갖춘 효율적인 EC 기반 DRL 프레임워크를 도입합니다. 구체적으로 설명하자면, EC에서 검색한 과거 상태를 입력 상태의 일부로 재사용하고 검색된 MC 리턴을 각 대화형 전환에서 즉각적인 보상으로 통합합니다. 결과적으로, 우리의 방법은 검색 정보의 완전한 활용과 시간차(TD) 손실에 의한 상태 값의 더 나은 평가를 동시에 달성할 수 있습니다. 까다로운 Box2d 및 Mujoco 작업에 대한 경험적 결과는 최근의 형제 방법과 일반적인 기준선보다 우리 방법이 더 우수하다는 것을 보여줍니다. 또한, Q값 비교를 위한 추가 실험을 통해 Q값 과대평가를 완화하는 데 있어 우리 방법의 효과도 검증했습니다. [abs|pdf]

[48/91] A match made in consistency heaven: when large language models meet evolutionary algorithms

Keywords: text_evolutionary_algorithms, text_evolutionary, natural_text_evolutionary
Abstract: 사전 학습된 대규모 언어 모델(LLM)은 창의적인 자연어 텍스트를 생성할 수 있는 강력한 기능을 갖추고 있습니다. 진화 알고리즘(EA)은 복잡한 실제 문제에 대한 다양한 솔루션을 발견할 수 있습니다. 이 백서에서는 텍스트 서열 생성 및 진화의 공통된 집합성과 방향성을 바탕으로 토큰 임베딩과 유전자형-표현형 매핑, 위치 인코딩과 적합성 형성, 위치 임베딩과 선택, 주의와 크로스오버, 피드포워드 신경망과 돌연변이, 모델 훈련과 파라미터 업데이트, 다중 작업 학습과 다중 목표 최적화 등 여러 가지 일대일 핵심 특성을 포함하는 LLM과 EA의 강력한 일관성에 대해 설명합니다. 이러한 일관성 관점을 바탕으로 진화적 미세 조정 및 LLM 강화 EA를 포함한 기존 결합 연구를 분석합니다. 이러한 인사이트를 활용하여 향후 LLM과 EA의 결합 연구를 위한 근본적인 로드맵을 제시하고, 그 과정에서 직면하게 될 주요 과제를 강조합니다. 이러한 일관성은 LLM의 진화 메커니즘을 밝힐 뿐만 아니라 생물학적 유기체에 근접하거나 이를 능가하는 진화한 인공 에이전트의 개발을 촉진합니다. [abs|pdf]

[49/91] FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis

Keywords: financial_text_sql, text_sql_benchmark, benchmark_dataset_financial
Abstract: 금융 전문가들은 SQL 프로그래밍에 능숙하지 않을 수 있기 때문에, 관계형 데이터베이스를 운영하기 위한 제로 코드 인터페이스를 제공하는 Text-to-SQL이 금융 분석 분야에서 많은 관심을 받고 있습니다. 그러나 지금까지는 금융 분석을 위한 실질적인 Text-to-SQL 벤치마크 데이터셋이 없고, 기존의 Text-to-SQL 방식은 일반적으로 존재하는 와이드 테이블과 같은 금융 애플리케이션의 데이터베이스 고유 특성을 고려하지 않았습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 실용적인 Text-to-SQL 벤치마크 데이터셋을 수집하고 모델에 구애받지 않는 대규모 언어 모델(LLM) 기반의 금융 분석을 위한 Text-to-SQL 프레임워크를 제안합니다. 벤치마크 데이터셋인 BULL은 펀드, 주식, 거시경제 데이터베이스를 포함한 훈선테크놀로지의 실제 금융 분석 업무에서 수집한 것입니다. 또한, 제안된 LLM 기반 Text-to-SQL 프레임워크인 FinSQL은 신속한 구축, 매개변수의 효율적인 미세 조정 및 출력 보정의 관점에서 금융 Text-to-SQL에 대한 체계적인 처리를 제공합니다. BULL에 대한 광범위한 실험 결과에 따르면 FinSQL은 적은 비용으로 최첨단 텍스트-데이터베이스 변환 성능을 달성할 수 있으며, 몇 번의 교차 데이터베이스 모델 전송이 필요한 시나리오에서 최대 36.64%의 성능 향상을 가져올 수 있습니다. [abs|pdf]

[50/91] Causal Layering via Conditional Entropy

Keywords: unobserved_causal_graph, causal_graph_observable, causal_discovery
Abstract: 인과 관계 발견은 관찰 가능한 데이터에서 관찰되지 않은 인과 관계 그래프에 대한 정보를 복구하는 것을 목표로 합니다. 계층화란 결과보다 원인을 먼저 배치하는 변수의 순서를 말합니다. 이 백서에서는 분포가 불연속적인 경우 조건부 엔트로피 오라클을 통해 데이터에 액세스하여 그래프의 계층화를 복구하는 방법을 제공합니다. 이 알고리즘은 그래프에서 소스 또는 싱크를 반복적으로 제거하는 방식으로 작동합니다. 적절한 가정과 조건 하에서, 조건부 엔트로피를 노이즈의 무조건 엔트로피와 비교하여 소스 또는 싱크를 나머지 노드에서 분리할 수 있습니다. 저희 알고리즘은 입증된 정확성을 가지고 있으며 최악의 경우 이차적 시간 내에 실행됩니다. 주요 가정은 충실도와 주입식 노이즈, 그리고 알려진 노이즈 엔트로피 또는 지시된 경로를 따라 약하게 단조롭게 증가하는 노이즈 엔트로피입니다. 또한 충실도를 매우 완만하게 확장하거나 엄격하게 단조롭게 증가하는 잡음 엔트로피 또는 구조 함수에 추가 단일 인수를 포함하도록 잡음 주입성을 확장하는 것 중 하나가 필요합니다. [abs|pdf]

[51/91] Enhancing Scalability in Recommender Systems through Lottery Ticket Hypothesis and Knowledge Distillation-based Neural Network Pruning

Keywords: pruning_neural_networks, efficient_pruning_neural, pruning_neural
Abstract: 이 연구에서는 신경망의 효율적인 가지치기를 목표로 하는 혁신적인 접근 방식을 소개하며, 특히 엣지 디바이스에서의 신경망 배포에 중점을 둡니다. 이 방법은 복권 가설(LTH)과 지식 증류(KD) 프레임워크를 통합하여 세 가지 가지 치기 모델을 공식화합니다. 이러한 모델은 딥러닝 모델의 복잡성으로 인해 실제 배포에 어려움을 겪었던 추천 시스템의 확장성 문제를 해결하기 위해 개발되었습니다. 가지치기 기법을 신중하게 적용하면 정확도를 저하시키지 않으면서도 전력 소비와 모델 크기를 효과적으로 줄일 수 있습니다. 다양한 영역의 실제 데이터 세트를 두 가지 기준선과 비교하여 경험적 평가를 수행했습니다. 놀랍게도 유니티의 접근 방식은 최대 66.67%의 GPU 연산 전력 절감 효과를 가져왔습니다. 특히, 본 연구는 LTH와 KD의 적용을 개척함으로써 추천 시스템 분야에 기여했습니다. [abs|pdf]

[52/91] Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning

Keywords: reasoning_tasks_high, reasoning_tasks, reasoning_language_models
Abstract: 자기 일관성(SC)은 연쇄 사고 추론에 널리 사용되는 디코딩 전략입니다. 다양한 다단계 추론 작업에서 상당한 성능 향상을 가져다주지만, 미리 설정된 크기로 여러 번 샘플링해야 하는 고비용 방식입니다. 본 논문에서는 성능 저하 없이 SC의 비용을 크게 절감할 수 있는 간단하고 확장 가능한 샘플링 프로세스인 Early-Stopping Self-Consistency (ESC)를 제안합니다. 이를 바탕으로 다양한 작업과 모델에 대해 성능과 비용의 균형을 동적으로 선택할 수 있는 ESC 제어 체계가 추가로 도출됩니다. ESC의 효과를 입증하기 위해 다양한 규모의 언어 모델에 대한 산술, 상식, 기호 추론 등 세 가지 인기 있는 추론 과제에 대해 광범위한 실험을 수행했습니다. 실험 결과, 수학(-33.8%), GSM8K(-80.1%), 전략QA(-76.8%), 상식QA(-78.5%), 동전 뒤집기(-84.2%), 마지막 글자(-67.4%) 등 6개 벤치마크에서 ESC가 연쇄 추론의 평균 샘플링 횟수를 크게 줄이면서도 비슷한 성능을 달성한 것으로 나타났습니다. [abs|pdf]

[53/91] LDReg: Local Dimensionality Regularized Self-Supervised Learning

Keywords: dimensional_collapse_learned, local_dimensionality_regularization, collapse_learned_representation
Abstract: 자기 지도 학습(SSL)을 통해 학습된 표현은 학습된 표현 하위 공간의 차원이 매우 낮아 전체 데이터 분포와 양식을 표현하지 못하는 차원 붕괴에 취약할 수 있습니다. '언더필링' 현상으로도 알려진 차원 붕괴는 다운스트림 작업의 성능을 저하시키는 주요 원인 중 하나입니다. 이전 연구에서는 SSL의 차원 붕괴 문제를 글로벌 수준에서 조사했습니다. 이 논문에서는 표현이 전 세계적으로는 고차원 공간에 걸쳐 있지만 국지적으로 붕괴될 수 있음을 보여줍니다. 이 문제를 해결하기 위해 국소 차원 정규화(local dimensionality regularization, LDReg)라는 방법을 제안합니다. 이 방법은 각 데이터 포인트의 점근적으로 작은 반경에서 국부적 거리 분포를 비교하고 최적화하기 위해 피셔-라오 메트릭의 도출을 기반으로 합니다. 로컬 고유 차원을 증가시킴으로써 LDReg가 SSL의 표현 품질을 향상시킨다는 것을 다양한 실험을 통해 입증했습니다. 또한 LDReg가 로컬 및 글로벌 수준 모두에서 차원을 정규화할 수 있음을 보여줍니다. [abs|pdf]

[54/91] DeepEdit: Knowledge Editing as Decoding with Constraints

Keywords: decoding_knowledge_editing, updated_knowledge_deepedit, improves_knowledge_editing
Abstract: 우리는 대규모 언어 모델(LLM)을 위한 지식 편집의 새로운 관점, 즉 제약 조건이 있는 디코딩을 개발합니다. 우리는 추론의 일관성, 질문과의 관련성, 업데이트된 지식에 대한 인식을 개선하여 지식 편집을 향상시키는 신경 기호적 방법인 DeepEdit(지식 편집을 위한 깊이 우선 검색 기반 점진적 디코딩)를 제안합니다. 모델 매개변수, 표현 또는 출력 어휘 분포에 액세스할 필요 없이 모든 블랙박스 LLM에 유연하게 적용할 수 있습니다. DeepEdit는 효과적인 지식 편집을 위한 고품질 추론 단계를 점진적으로 생성합니다. 깊이 우선 검색을 활용하여 LLM의 출력을 수정함으로써 입력 질문에 대한 출력의 정보성과 업데이트된 지식에 대한 인식을 개선합니다. 질적으로, DeepEdit는 지식 편집에 따라 보다 간결한 추론을 생성하도록 LLM을 효과적으로 제어합니다. 정량적으로, DeepEdit는 지식 편집을 통해 까다로운 멀티홉 질문-답변 데이터 세트인 MQuaKE에서 상당한 이득을 얻습니다. 소스 코드는 이 https URL에서 공개합니다. [abs|pdf]

[55/91] Critical Data Size of Language Models from a Grokking Perspective

Keywords: language_models_training, size_language_models, language_models_threshold
Abstract: 언어 모델에서 임계 데이터 크기, 즉 빠른 암기에서 느린 일반화로 근본적인 전환을 나타내는 임계값을 살펴봅니다. 그로킹 구성에 따른 단계적 전이를 데이터 효율성 가설로 공식화하고 언어 모델 학습 역학에서 데이터 부족, 충분, 과잉 체제를 식별합니다. 초기화 및 가중치 감쇠를 재조정하여 단순한 언어 모델에서 안정적으로 그로킹을 재현할 수 있는 그로킹 구성을 개발합니다. 언어 모델이 임계 크기에 도달할 때만 일반화가 발생한다는 것을 보여줍니다. 샘플과 모델에 따른 그로킹을 분석하여 제안된 데이터 효율성 가설을 검증합니다. 실험 결과, 언어 데이터 세트의 임계 데이터 세트 크기에서 더 부드러운 위상 전환이 일어나는 것으로 나타났습니다. 모델 크기가 커질수록 이 임계점도 커지는데, 이는 모델이 커질수록 더 많은 데이터가 필요하다는 것을 나타냅니다. 이러한 결과는 언어 모델 학습에 대한 이해를 심화시켜 언어 모델 학습 메커니즘에서 데이터의 역할에 대한 새로운 관점을 제시합니다. [abs|pdf]

[56/91] Investigating Training Strategies and Model Robustness of Low-Rank Adaptation for Language Modeling in Speech Recognition

Keywords: pretrained_language_models, robust_language_modeling, speech_recognition_models
Abstract: 메모리 제약이 있는 하드웨어를 위한 리소스 효율적인 모델링 접근법의 주류로 고정된 사전 학습 언어 모델(PLM)을 사용한 하위 순위 적응(LoRA)의 사용이 점점 더 대중화되고 있습니다. 이 연구에서는 먼저 다양한 LoRA 훈련 전략을 도입하여 모델 성능을 향상시키는 방법을 살펴보고, 공개 Librispeech 데이터 세트에서 3.50%, 메시징 도메인의 내부 데이터 세트에서 3.67%의 상대적 단어 오류율 감소를 달성했습니다. LoRA 기반 2차 통과 음성 인식 모델의 안정성을 더욱 면밀히 분석하기 위해 입력 섭동에 대한 견고성을 조사했습니다. 이러한 섭동은 동음이의어 대체와 N-최고 섭동 기반 복원 강건성(NPRR)이라는 새로운 메트릭에 뿌리를 두고 있으며, 두 메트릭 모두 복원 모델의 상대적인 성능 저하를 측정하기 위해 고안되었습니다. 실험 결과에 따르면 동적 순위 할당 LoRA와 같은 고급 변형 LoRA는 $1$-최적 섭동에서는 성능 저하를 초래하지만, $N$-최적 섭동에서는 성능 저하를 완화하는 것으로 나타났습니다. 이러한 결과는 완전히 튜닝된 모델 및 바닐라 LoRA 튜닝 기준선과 비교한 것으로, 컴퓨팅 비용 절감과 강력한 언어 모델링을 위해 LoRA 기반 적응을 사용할 때 종합적인 선택이 필요하다는 것을 시사합니다. [abs|pdf]

[57/91] Large Language Models are Efficient Learners of Noise-Robust Speech Recognition

Keywords: incorporating_noise_embeddings, noise_embedding_best, noise_embeddings
Abstract: 최근 대규모 언어 모델(LLM)의 발전으로 자동 음성 인식(ASR)을 위한 생성적 오류 수정(GER)이 촉진되었으며, 이는 LLM의 풍부한 언어 지식과 강력한 추론 능력을 활용하여 인식 결과를 개선합니다. 최근 연구에서는 효율적인 LLM 미세 조정을 통해 ASR N-최적 가설에서 실측 전사로의 매핑을 학습하기 위해 HyPoradise 데이터 세트를 사용한 GER 벤치마크를 제안했는데, 이는 뛰어난 효과를 보이지만 노이즈에 강한 ASR에 대한 특이성이 부족합니다. 이 연구에서는 벤치마크를 잡음이 있는 조건으로 확장하고, 강력한 ASR이 하는 것과 마찬가지로 GER에 대한 노이즈 제거를 수행하도록 LLM을 학습시킬 수 있는지 조사합니다{한 가지 해결책은 LLM에 노이즈 정보를 컨디셔너로 도입하는 것입니다}. 그러나 오디오 인코더의 노이즈 임베딩을 직접 통합하면 모달리티 간 갭으로 인해 LLM 튜닝에 해를 끼칠 수 있습니다. 이를 위해 본 논문에서는 소스 음성의 노이즈 상태를 나타내는 언어 공간 노이즈 임베딩을 N-베스트 리스트에서 추출하여 GER에서 노이즈 제거 과정을 촉진할 수 있는 방법을 제안합니다. 또한, 오디오 노이즈의 표현 능력을 향상시키기 위해 상호 정보 추정을 통한 지식 증류(KD) 접근 방식을 설계하여 오디오 임베딩의 실제 노이즈 정보를 언어 임베딩으로 증류합니다. 다양한 최신 LLM에 대한 실험을 통해 이 접근 방식이 제한된 훈련 데이터로 단어 오류율을 최대 53.9%까지 개선하는 새로운 돌파구를 마련했음을 입증했습니다. 분석 결과, 우리의 언어 공간 노이즈 임베딩은 소스 음성의 노이즈 조건을 잘 표현할 수 있으며, 이 조건에서 상용 LLM은 강력한 언어 공간 노이즈 제거 능력을 보여줍니다. [abs|pdf]

[58/91] Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals?

Keywords: scientific_summarization_tasks, scientific_summarization, generate_long_summaries
Abstract: 이 연구에서는 과학 요약 작업에서 대규모 언어 모델(LLM)의 제어 가능성을 조사합니다. 논문 리뷰, 초록, 일반인 요약 등 다양한 유형의 요약을 특징짓는 주요 문체 및 내용 범위 요인을 파악합니다. 문체적 특징을 제어함으로써, 미세 조정되지 않은 LLM이 참조 요약과의 유사성 및 인간 선호도 측면에서 MuP 리뷰 생성 작업에서 인간을 능가한다는 사실을 발견했습니다. 또한 키워드 기반 분류기 없는 안내(CFG)를 통해 LLM의 제어 가능성을 개선하는 동시에 arXiv 및 PubMed에서 강력하게 미세 조정된 기준선에 필적하는 어휘 중첩을 달성할 수 있음을 보여줍니다. 그러나 연구 결과에 따르면 LLM은 8문장을 초과하는 긴 요약을 일관되게 생성할 수 없는 것으로 나타났습니다. 또한, 이러한 모델은 매우 추상적인 일반인 요약을 생성하는 데 한계가 있습니다. LLM은 강력한 일반 요약 능력을 보여주지만, 비용이 많이 드는 미세 조정 없이 정교한 콘텐츠 제어는 도메인별 애플리케이션에서 해결해야 할 과제로 남아 있습니다. [abs|pdf]

[59/91] Distribution Consistency based Self-Training for Graph Neural Networks with Sparse Labels

Keywords: graph_self_training, nodes_self_training, challenge_graph_neural
Abstract: 단발성 노드 분류는 불충분한 감독과 라벨이 붙은 노드와 라벨이 붙지 않은 노드 사이의 잠재적인 분포 변화로 인해 그래프 신경망(GNN)에 심각한 문제를 야기합니다. 라벨이 지정되지 않은 풍부한 데이터를 활용하기 위해 널리 사용되는 프레임워크인 자가 학습은 선택된 라벨이 지정되지 않은 노드에 의사 라벨을 할당하여 학습 집합을 확장하는 방식으로 등장했습니다. 신뢰도, 정보 획득 등에 기반한 다양한 선택 전략을 개발하기 위해 많은 노력을 기울여 왔습니다. 그러나 이러한 방법 중 어느 것도 훈련 노드 세트와 테스트 노드 세트 간의 분포 변화를 고려하지 않습니다. 의사 라벨링 단계는 이러한 변화를 증폭시키고 심지어 새로운 변화를 도입하여 자가 학습의 효과를 저해할 수 있습니다. 따라서 이번 연구에서는 자가 학습 중에 확장된 훈련 세트와 테스트 세트 사이의 분포 변화를 명시적으로 연결할 수 있는 가능성을 탐색합니다. 이를 위해 새로운 분포 일관성 그래프 자가 학습(DC-GST) 프레임워크를 제안하여 정보를 제공하고 분포 불일치를 해소할 수 있는 의사 라벨 노드를 식별하고 이를 차별화 가능한 최적화 작업으로 공식화합니다. 또한 그래프를 보강하고 의사 레이블을 할당할 때 모델의 일반화 가능성을 높이기 위해 분포 이동 인식 에지 예측자를 채택합니다. 공개적으로 사용 가능한 4개의 벤치마크 데이터 세트에서 제안된 방법을 평가하고 광범위한 실험을 통해 프레임워크가 최첨단 기준선을 지속적으로 능가한다는 것을 입증했습니다. [abs|pdf]

[60/91] Catastrophic Interference is Mitigated in Naturalistic Power-Law Learning Environments

Keywords: previously_learned_tasks, continual_learning_mechanisms, promoting_continual_learning
Abstract: 신경망은 새로운 작업을 학습할 때 이전에 학습한 작업의 성능이 현저히 떨어지는 치명적 간섭(CI)으로 인해 어려움을 겪는 경우가 많습니다. 이는 이전 작업을 크게 잊어버리지 않고 새로운 작업을 순차적으로 학습할 수 있는 인간과 매우 대조적입니다. 이전 연구에서는 정규화, 리허설, 생성적 재생, 증류 방법 등 CI를 완화하기 위한 다양한 기법을 탐색했습니다. 이번 연구에서는 자연스러운 환경에서는 어떤 과제를 마지막으로 수행한 이후 시간이 지날수록 그 과제를 접할 확률이 힘의 법칙에 따라 감소한다는 인지과학 연구에 기반한 다른 접근 방식을 취했습니다. 우리는 CI를 완화하기 위한 기술에 대한 현실적인 평가는 시뮬레이션된 자연주의 학습 환경에서 수행되어야 한다고 주장합니다. 따라서 우리는 인간이 직면하는 것과 유사한 힘의 법칙 환경에서 간단한 리허설 기반 방법을 훈련할 때 CI가 어느 정도 완화되는지 평가합니다. 이번 연구에서는 도메인 증가형 과제인 MNIST 과제에서 순열을 학습하는 이 새로운 리허설 기반 접근법을 살펴봅니다. 또한 리허설 환경을 다른 기준선과 비교하여 지속적인 학습을 촉진하는 데 있어 리허설 환경이 얼마나 효과적인지 보여줍니다. 또한 이 환경이 전진 촉진, 즉 이후 과제를 더 빠르게 학습할 수 있는지를 조사합니다. 다음으로, 과제 수, 모델 크기, 각 과제 후에 연습하는 데이터의 양에 대한 학습 환경의 견고성을 살펴봅니다. 그 결과, 널리 사용되는 정규화 방법을 사용해 훈련한 모델과 전력법칙이 적용되지 않은 환경에서의 리허설과 비교했을 때 성능이 비슷하거나 더 우수하다는 것을 알 수 있었습니다. 이 훈련 패러다임의 장점은 단순성과 추가 신경 회로가 필요하지 않다는 점입니다. 또한, 이 방법은 다른 방법과 직교하기 때문에 향후 연구에서는 힘의 법칙 환경에서의 훈련과 다른 지속적인 학습 메커니즘을 결합할 수 있습니다. [abs|pdf]

[61/91] Agricultural Object Detection with You Look Only Once (YOLO) Algorithm: A Bibliometric and Systematic Literature Review

Keywords: agriculture_object_detector, yolo_agricultural_object, agricultural_object_recognition
Abstract: 비전은 농업에 사용되는 여러 디지털 기술 및 도구의 주요 구성 요소입니다. 물체 디텍터인 YOLO(You Look Only Once)는 최첨단 성능으로 비교적 짧은 기간에 농업 분야에서 인기를 얻고 있습니다. YOLO는 우수한 정확도로 실시간 감지를 제공하며 모니터링, 감시, 감지, 자동화, 로봇 공학 등 다양한 농업 작업에 활용되고 있습니다. 농업 분야에서 YOLO에 대한 연구와 적용은 빠르게 가속화되고 있지만 단편적이고 다분야에 걸쳐 이루어지고 있습니다. 또한 물체 감지기의 성능 특성(예: 정확도, 속도, 계산)은 농업에서의 기술 구현 및 채택률에 영향을 미칩니다. 따라서 이 연구는 광범위한 문헌을 수집하여 농업용 물체 인식을 위한 YOLO의 발전과 적용을 문서화하고 비판적으로 평가하는 것을 목표로 합니다. 먼저, 257편의 논문을 대상으로 서지학적 검토를 실시하여 농업 분야에서의 YOLO에 대한 학술적 환경을 파악했습니다. 둘째, 30편의 논문을 체계적으로 검토하여 특정 농업 작업에 대한 YOLO의 현재 지식, 격차 및 수정 사항을 식별했습니다. 이 연구는 데이터 수집, 처리, 네트워크 수정, 통합 및 배포를 포함한 YOLO의 엔드투엔드 학습 접근 방식에 대한 정보를 비판적으로 평가하고 요약했습니다. 또한 농업 대상 또는 환경별 과제를 해결하기 위한 작업별 YOLO 알고리즘 수정 및 통합에 대해서도 논의했습니다. 일반적으로 YOLO 통합 디지털 도구와 기술은 실시간 자동 모니터링, 감시, 사물 처리를 통해 노동력, 생산 비용, 환경 영향을 줄이면서 자원 효율성을 극대화할 수 있는 잠재력을 보여줍니다. 이 연구는 상세한 문서를 제공하고 농업에서의 YOLO 적용에 대한 기존 지식을 크게 발전시켜 과학계에 큰 도움이 될 수 있습니다. [abs|pdf]

[62/91] MutaBot: A Mutation Testing Approach for Chatbots

Keywords: dialogflow_chatbots_test, chatbots_test_cases, chatbots_test
Abstract: 돌연변이 테스트는 프로그램에 인위적인 결함을 삽입하여 테스트 스위트의 효과를 평가하기 위한 기법입니다. 많은 플랫폼과 언어에서 사용할 수 있지만, 자연어 인터페이스를 통해 사용자와 상호 작용할 수 있는 시스템을 설계하는 데 점점 인기를 얻고 있는 대화형 챗봇에 사용할 수 있는 돌연변이 테스트 도구는 현재 없습니다. 대화형 챗봇 개발자가 대화를 명시적으로 설계해야 하기 때문에 이러한 시스템은 기존 돌연변이 테스트 도구가 지원하지 않는 특정 유형의 결함에 노출되어 있습니다.
이 백서에서는 대화형 챗봇을 위한 돌연변이 테스트 도구인 MutaBot을 소개합니다. MutaBot은 대화 흐름, 의도, 컨텍스트 등 여러 수준에서 돌연변이를 처리합니다. 우리는 잠재적으로 여러 플랫폼을 타겟팅할 수 있도록 이 도구를 설계했으며, 초기에는 Google 대화형 챗봇에 대한 지원을 구현했습니다. 세 개의 다이얼로그플로우 챗봇과 Botium으로 생성된 테스트 케이스로 도구를 평가하여 테스트 스위트의 약점을 파악했습니다. [abs|pdf]

[63/91] Hierarchical Federated Learning in Multi-hop Cluster-Based VANETs

Keywords: learning_clustered_vanet, clustering_based_vanet, clustered_vanet
Abstract: 차량용 애드혹 네트워크(VANET)에서 연합 학습(FL)을 사용하는 것은 원시 데이터 대신 로컬 데이터 세트 그래디언트를 통신함으로써 전송 오버헤드를 줄이고 사용자 개인정보를 보호할 수 있다는 장점으로 인해 연구 분야에서 큰 관심을 받고 있습니다. 하지만 VANET에서 FL을 구현하는 데는 제한된 통신 리소스, 높은 차량 이동성, 데이터 분포의 통계적 다양성 등의 문제가 있습니다. 이러한 문제를 해결하기 위해 본 백서에서는 멀티홉 클러스터링 기반 VANET을 통한 계층적 연합 학습(HFL)을 위한 새로운 프레임워크를 소개합니다. 제안된 방법은 데이터 다양성과 높은 차량 이동성을 모두 고려하기 위해 클러스터링 메트릭으로 FL 모델 파라미터의 평균 상대 속도와 코사인 유사성의 가중치 조합을 활용합니다. 이 메트릭은 클러스터 헤드의 변화를 최소화하면서 수렴을 보장하는 동시에 독립적이지 않고 동일하게 분산된(비아이디) 데이터 시나리오와 관련된 복잡성을 해결합니다. 또한, 이 프레임워크에는 클러스터 헤드(CH)의 원활한 전환을 관리하고 가장 최근의 FL 모델 파라미터를 지정된 CH로 전송하는 새로운 메커니즘이 포함되어 있습니다. 또한, 제안된 접근 방식은 CH의 수를 줄이고 결과적으로 관련 오버헤드를 완화하기 위해 CH를 병합하는 옵션도 고려합니다. 광범위한 시뮬레이션을 통해 제안된 클러스터된 VANET에 대한 계층적 연합 학습은 이전에 제안된 클러스터링 알고리즘 및 비클러스터 VANET에 비해 허용 가능한 수준의 패킷 오버헤드를 유지하면서 정확도와 수렴 시간을 크게 향상시키는 것으로 입증되었습니다. [abs|pdf]

[64/91] Keeping Deep Learning Models in Check: A History-Based Approach to Mitigate Overfitting

Keywords: detect_prevent_overfitting, approaches_overfitting_detection, overfitting_detection_prevention
Abstract: 소프트웨어 엔지니어링 분야에서 딥러닝 모델은 버그 탐지 및 코드 검토와 같은 중요한 작업에 점점 더 많이 사용되고 있습니다. 그러나 과적합은 딥러닝 모델을 활용하는 소프트웨어 시스템의 품질, 안정성, 신뢰성에 영향을 미치는 과제로 남아 있습니다. 과적합은 (1) 드롭아웃 또는 조기 중지를 사용하여 방지하거나 (2) 학습된 모델에서 상관관계 기반 접근 방식을 사용하여 감지할 수 있습니다. 현재 사용되는 과적합 탐지 및 방지 접근법 모두 모델 구조의 수정이 필요하고 컴퓨팅 리소스를 많이 사용해야 하는 등의 제약이 있습니다. 이 백서에서는 훈련 이력(즉, 검증 손실)을 기반으로 과적합을 탐지하고 방지할 수 있는 간단하면서도 강력한 접근법을 제안합니다. 먼저 과적합 모델의 훈련 이력에 대해 시계열 분류기를 훈련합니다. 그런 다음 이 분류기를 사용해 훈련된 모델이 과적합인지 여부를 감지합니다. 또한, 학습된 분류기는 모델의 학습을 중단할 수 있는 최적의 지점을 식별하여 과적합을 방지하는 데 사용할 수 있습니다. 저희는 실제 샘플에서 과적합을 식별하고 방지하는 능력으로 접근 방식을 평가합니다. 상관관계 기반 탐지 접근법 및 가장 일반적으로 사용되는 예방 접근법(즉, 조기 중지)과 비교합니다. 우리의 접근 방식은 현재 가장 성능이 좋은 비침입적 과적합 탐지 접근 방식보다 5% 이상 높은 0.91의 F1 점수를 달성했습니다. 또한, 우리의 접근 방식은 조기 중지보다 최소 32% 더 일찍 과적합을 피하기 위해 훈련을 중지할 수 있으며 최상의 모델을 반환하는 비율이 동일하거나 더 높습니다. [abs|pdf]

[65/91] Exploring General Intelligence via Gated Graph Transformer in Functional Connectivity Studies

Keywords: brain_graph_neural, human_brain_graph, brain_graph
Abstract: FMRI에서 파생된 기능적 연결성(FC)은 다양한 정신과적 장애의 복잡성을 규명하고 인간의 뇌에 내재된 인지 및 행동 역학을 뒷받침하는 신경 경로를 묘사하는 데 중요한 도구로 부상했습니다. 그래프 신경망(GNN)은 신경 영상 데이터를 표현하기 위한 구조화된 접근 방식을 제공하지만, 뇌 영역 간의 연관성을 묘사하기 위해 미리 정의된 그래프 구조가 필요하다는 점에서 한계가 있으며, 이는 FC가 제공하지 않는 세부 사항입니다. 이러한 격차를 해소하기 위해 유니티는 FC를 기반으로 인지 지표를 예측하도록 설계된 게이트 그래프 트랜스포머(GGT) 프레임워크를 도입했습니다. 필라델피아 신경발달 코호트(PNC)에 대한 경험적 검증은 이 모델의 우수한 예측 능력을 강조하며, 인간의 인지 과정과 연관된 중추적인 신경 연결성을 식별하는 데 있어 이 모델의 잠재력을 더욱 강조합니다. [abs|pdf]

[66/91] ELRT: Efficient Low-Rank Training for Compact Convolutional Neural Networks

Keywords: low_rank_cnn, low_rank_cnns, cnns_low_rankness
Abstract: 낮은 순위의 컴팩트한 컨볼루션 신경망(CNN)을 생성하는 인기 있는 모델 압축 기법인 저순위 압축은 문헌에서 많이 연구되어 왔습니다. 반면, 낮은 순위의 CNN을 처음부터 훈련하는 대안적인 방법인 낮은 순위 훈련은 아직 거의 활용되지 않았습니다. 로우랭크 압축과 달리 로우랭크 훈련은 미리 훈련된 풀랭크 모델이 필요하지 않으며, 전체 훈련 단계가 항상 로우랭크 구조에서 수행되기 때문에 실제 적용에 매력적인 이점을 제공합니다. 그러나 기존의 로우랭크 훈련 솔루션은 정확도가 크게 떨어지거나 훈련 중에 풀사이즈 모델을 계속 업데이트해야 하는 등 여러 가지 문제점을 안고 있습니다. 이 논문에서는 로우랭크 CNN 훈련에 대한 체계적인 조사를 수행합니다. 적절한 로우랭크 형식과 성능 개선 전략을 파악하여 정확도 높은 고밀도 로우랭크 CNN 모델을 위한 효율적인 로우랭크 훈련 솔루션인 ELRT를 제안합니다. 다양한 데이터 세트에서 다양한 CNN을 훈련한 광범위한 평가 결과는 ELRT의 효과를 입증합니다. [abs|pdf]

[67/91] Noise Contrastive Estimation-based Matching Framework for Low-resource Security Attack Pattern Recognition

Keywords: cybersecurity_writing, cybersecurity_writing_called, propose_neural_matching
Abstract: 전술, 기법 및 절차(TTP)는 사이버 보안 영역에서 정교한 공격 패턴을 나타내며, 텍스트 지식 베이스에 백과사전식으로 설명되어 있습니다. 사이버 보안 문서에서 TTP를 식별하는 작업(종종 TTP 매핑이라고도 함)은 중요하고도 어려운 작업입니다. 기존의 학습 접근 방식은 종종 고전적인 다중 클래스 또는 다중 레이블 분류 설정에서 문제를 목표로 삼습니다. 이러한 설정은 많은 수의 클래스(즉, TTP), 라벨 분포의 불가피한 왜곡, 라벨 공간의 복잡한 계층 구조로 인해 모델의 학습 능력을 저해합니다. 우리는 이 문제를 다른 학습 패러다임으로 공식화하여, 텍스트와 TTP 레이블 간의 직접적인 의미적 유사성에 의해 텍스트의 할당이 결정되도록 함으로써 대규모 레이블 공간을 놓고 경쟁하는 복잡성을 줄였습니다. 이를 위해 효과적인 샘플링 기반 학습-비교 메커니즘을 갖춘 신경 매칭 아키텍처를 제안하여 제한된 리소스에서도 매칭 모델의 학습 프로세스를 촉진합니다. [abs|pdf]

[68/91] DrugAssist: A Large Language Model for Molecule Optimization

Keywords: interactive_molecule_optimization, drugassist_interactive_molecule, discovery_molecule_optimization
Abstract: 최근 다양한 작업에서 대규모 언어 모델(LLM)이 인상적인 성능을 보임에 따라 신약 개발에 LLM을 적용하려는 시도가 늘고 있습니다. 그러나 신약 개발 파이프라인의 핵심 작업인 분자 최적화는 현재 LLM이 거의 활용되지 않는 분야입니다. 기존 접근법의 대부분은 전문가 피드백을 활용하지 않고 데이터에서 제공하는 화학 구조의 기본 패턴을 파악하는 데만 집중합니다. 이러한 비대화형 접근 방식은 신약 개발 프로세스가 실제로 전문가의 경험과 반복적인 개선의 통합이 필요하다는 사실을 간과합니다. 이러한 격차를 해소하기 위해 유니티는 LLM의 강력한 상호작용성과 일반화 가능성을 활용하여 인간과 기계의 대화를 통해 최적화를 수행하는 대화형 분자 최적화 모델인 DrugAssist를 제안합니다. DrugAssist는 단일 및 다중 속성 최적화 모두에서 선도적인 결과를 달성했으며, 동시에 전이성과 반복적 최적화에서 엄청난 잠재력을 보여주었습니다. 또한 분자 최적화 작업에서 언어 모델을 미세 조정할 수 있는 대규모 명령어 기반 데이터 세트인 MolOpt-Instructions를 공개적으로 공개하고 있습니다. 코드와 데이터는 이 https URL에서 공개적으로 이용할 수 있으며, 이를 통해 향후 LLM의 신약 개발 응용 분야 연구의 토대를 마련할 수 있기를 기대합니다. [abs|pdf]

[69/91] Improving One-class Recommendation with Multi-tasking on Various Preference Intensities

Keywords: recommendations_basing_users, users_implicit_feedback, attentive_graph_convolutional
Abstract: 단품 추천 문제에서는 사용자의 행동과 무행동으로부터 유추되는 사용자의 암묵적 피드백을 기반으로 추천을 해야 합니다. 기존 연구들은 학습 데이터에서 관찰된 긍정 및 부정 상호작용을 인코딩하여 사용자와 아이템의 표현을 얻습니다. 그러나 이러한 작업은 암묵적 피드백의 모든 긍정적 신호가 고정된 선호 강도를 반영한다고 가정하는데, 이는 현실적이지 않습니다. 따라서 이러한 방법으로 학습된 표현은 일반적으로 다양한 선호도를 반영하는 유익한 개체 특징을 포착하지 못합니다.
이 논문에서는 암시적 피드백에서 각 신호의 다양한 선호 강도를 고려한 멀티태스킹 프레임워크를 제안합니다. 엔티티의 표현은 각 하위 작업의 목표를 동시에 만족시켜야 하며, 이를 통해 보다 강력하고 일반화할 수 있습니다. 또한 세심한 그래프 컨볼루션 레이어를 통합하여 사용자-아이템 이분 그래프에서 고차 관계를 탐색하고 상호작용하는 항목에 대한 사용자의 잠재적 경향을 동적으로 포착합니다. 실험 결과에 따르면 이 방법은 세 가지 대규모 실제 벤치마크 데이터 세트에서 최첨단 방법보다 큰 차이로 더 나은 성능을 보였습니다. [abs|pdf]

[70/91] LangProp: A code optimization framework using Language Models applied to driving

Keywords: code_optimization_autonomous, supervised_reinforcement, data_driven_training
Abstract: LangProp은 지도/강화 학습 환경에서 대규모 언어 모델(LLM)로 생성된 코드를 반복적으로 최적화하기 위한 프레임워크입니다. LLM은 합리적인 솔루션을 즉시 생성할 수 있지만, 그 솔루션은 종종 최적이 아닌 경우가 많습니다. 특히 코드 생성 작업의 경우, 초기 코드가 특정 에지 케이스에서 실패할 가능성이 높습니다. LangProp은 입출력 쌍의 데이터 세트에서 코드 성능을 자동으로 평가하고 예외를 포착하여 그 결과를 학습 루프에서 LLM에 다시 피드백함으로써 LLM이 생성한 코드를 반복적으로 개선할 수 있도록 합니다. 이 코드 최적화 절차에 메트릭 및 데이터 기반 트레이닝 패러다임을 채택함으로써 모방 학습, DAgger, 강화 학습과 같은 기존 머신 러닝 기법의 결과를 쉽게 적용할 수 있습니다. 유니티는 자율주행을 위한 자동화된 코드 최적화의 첫 번째 개념 증명을 CARLA에서 시연하여 LangProp이 메트릭 및 데이터 기반 방식으로 검증하고 개선할 수 있는 해석 가능하고 투명한 주행 정책을 생성할 수 있음을 보여줍니다. 이 코드는 오픈 소스로 제공되며 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[71/91] Mathematical Algorithm Design for Deep Learning under Societal and Judicial Constraints: The Algorithmic Transparency Requirement

Keywords: trustworthy_deep_learning, machines_guarantee_trustworthiness, extent_trustworthy_deep
Abstract: 딥러닝은 이해하기 쉽고, 공정하며, 안전하고, 신뢰할 수 있는 방법을 의미하는 신뢰성 측면에서 여전히 단점이 있습니다. 인공지능의 잠재적 위험을 완화하기 위해 유럽 인공지능법 등의 규제 지침을 통해 신뢰성과 관련된 명확한 의무가 제시되고 있습니다. 따라서 신뢰할 수 있는 딥러닝을 어느 정도까지 실현할 수 있는지가 핵심적인 문제입니다. 신뢰성을 구성하는 설명된 속성을 확립하려면 알고리즘 계산에 영향을 미치는 요소를 역추적할 수 있어야 합니다. 즉, 알고리즘 구현이 투명해야 합니다. 현재 딥러닝 모델의 진화가 컴퓨팅 기술의 변화를 필요로 한다는 점에 착안하여, 우리는 컴퓨팅 모델에서 투명한 구현이 가능한지 여부를 분석할 수 있는 수학적 프레임워크를 도출합니다. 우리는 신뢰성 프레임워크를 예시적으로 적용하여 각각 튜링과 블룸-허브-스몰 머신으로 대표되는 디지털 및 아날로그 컴퓨팅 모델에서 역문제에 대한 딥러닝 접근법을 분석합니다. 이전 결과를 바탕으로 블룸-허브-스몰 머신은 상당히 일반적인 조건에서 역문제에 대해 신뢰할 수 있는 솔버를 구축할 가능성이 있는 반면, 튜링 머신은 동일한 수준의 신뢰성을 보장할 수 없다는 것을 발견했습니다. [abs|pdf]

[72/91] On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning

Keywords: guidelines_data_creators, data_creators_scientific, creators_scientific_data
Abstract: 머신러닝(ML) 시스템의 공정성과 신뢰성을 보장하기 위해 최근 ML 커뮤니티의 입법 이니셔티브와 관련 연구에서 ML 모델 학습에 사용되는 데이터를 문서화할 필요성을 지적했습니다. 또한, 최근 몇 년 동안 많은 과학 분야에서 재현성을 위해 데이터 공유 관행이 발전해 왔습니다. 이러한 의미에서 학술 기관에서 이러한 관행을 채택함에 따라 연구자들은 데이터 논문과 같은 동료 심사를 거친 출판물에 데이터와 기술 문서를 게시하도록 장려하고 있습니다. 이 연구에서는 이러한 과학적 데이터 문서가 ML 커뮤니티와 규제 기관의 요구사항을 어떻게 충족하는지 분석합니다. 다양한 영역의 4041개 데이터 논문 샘플을 조사하여 요청된 차원에 대한 완전성과 범위, 최근 몇 년간의 추세를 평가하고, 특히 가장 많이 문서화된 차원과 가장 적게 문서화된 차원에 중점을 두었습니다. 그 결과, 데이터 크리에이터와 과학 데이터 게시자가 ML 기술에서 데이터를 투명하고 공정하게 사용할 수 있도록 준비성을 높일 수 있는 일련의 권장 가이드라인을 제안합니다. [abs|pdf]

[73/91] A Hierarchical Framework with Spatio-Temporal Consistency Learning for Emergence Detection in Complex Adaptive Systems

Keywords: emergence_based_agent, spatio_temporal_encoders, detect_emergent_behaviors
Abstract: 상호작용 에이전트로 구성된 복잡 적응 시스템(CAS)의 글로벌 속성인 이머전은 네트워크 수준의 트래픽 혼잡과 같은 실제 동적 시스템에서 널리 발생합니다. 그 형성과 소멸을 감지하면 시스템 상태를 모니터링하여 유해한 돌발 현상에 대한 경고 신호를 발령할 수 있습니다. CAS는 중앙 집중식 제어 장치가 없기 때문에 각 에이전트의 로컬 관측을 기반으로 출현을 감지하는 것이 바람직하지만 쉽지 않습니다. 기존 연구들은 출현과 관련된 공간 패턴을 포착할 수 없고, 에이전트 간의 비선형 관계를 모델링하지 못합니다. 본 논문에서는 시스템 표현과 에이전트 표현을 각각 학습하여 이 두 가지 문제를 해결하기 위해 시공간적 일관성 학습이 포함된 계층적 프레임워크를 제안합니다. 특히 시공간 인코더는 에이전트의 비선형 관계와 시스템의 복잡한 진화를 포착할 수 있도록 맞춤화되었습니다. 에이전트와 시스템의 표현은 자체 감독 방식으로 내재적인 시공간적 일관성을 유지하면서 학습됩니다. 이 방법은 잘 알려져 있지만 탐지하기 어려운 새로운 행동을 가진 세 가지 데이터 세트에서 기존 방법과 딥러닝 방법보다 더 정확한 탐지를 달성합니다. 특히, 계층적 프레임워크는 일반적이어서 에이전트 수준 및 시스템 수준 탐지를 위해 다른 딥 러닝 방법을 사용할 수 있습니다. [abs|pdf]

[74/91] An attempt to generate new bridge types from latent space of generative flow

Keywords: training_normalizing_flow, normalizing_flow_essentially, normalizing_flow
Abstract: 서로 다른 분포 간의 좌표 및 확률 변환의 예를 통해 흐름 정규화의 기본 원리를 간단하고 간결하게 소개합니다. 확률 함수 분포의 관점에서 확률 변환의 본질을 설명하고, 확률 변환의 스케일링 계수인 야코비안 결정식을 소개합니다. 데이터 집합을 모집단의 표본으로 간주하여 정규화 흐름을 구하는 것은 기본적으로 표본 조사를 통해 모집단의 수치적 특징을 통계적으로 추론한 다음 최대 가능성 추정 방법을 사용하여 손실 함수를 설정하는 것입니다. 이 글에서는 흐름 정규화를 통해 고차원 행렬 행렬식 계산과 신경망 가역 변환이라는 두 가지 주요 응용 과제를 현명하게 해결하는 방법을 소개합니다. 3경간 빔 교량, 아치 교량, 사장교, 현수교의 대칭 구조 이미지 데이터 세트를 사용하여 TensorFlow Probability 라이브러리의 Glow API를 기반으로 유량 정규화 모델을 구축하고 훈련합니다. 이 모델은 교량 데이터 세트의 복잡한 분포를 표준 정규 분포로 원활하게 변환할 수 있으며, 얻은 잠재 공간 샘플링을 통해 훈련 데이터 세트와 다른 새로운 교량 유형을 생성할 수 있습니다. [abs|pdf]

[75/91] Design and development of opto-neural processors for simulation of neural networks trained in image detection for potential implementation in hybrid robotics

Keywords: living_neural_network, living_neural_networks, simulated_living_neural
Abstract: 신경망은 이미지 처리, 모터 제어, 물체 감지 등 다양한 처리 애플리케이션에 사용되어 왔습니다. 살아있는 신경망은 낮은 전력 소비, 빠른 처리, 생물학적 현실감 등의 장점을 제공합니다. 광유전학은 생물학적 뉴런에 대한 높은 공간적, 시간적 제어를 제공하며 살아있는 신경망을 훈련할 수 있는 가능성을 제시합니다. 이 연구에서는 광유전학에 의한 정밀한 활성화를 통해 기존 신경망 훈련 알고리즘에 필적하는 정확도를 달성하는 STDP 기반 알고리즘을 역전파하여 간접적으로 훈련된 시뮬레이션된 살아있는 신경망을 제안합니다. [abs|pdf]

[76/91] Top in Chinese Data Processing: English Code Models

Keywords: coding_chinese_tasks, chinese_tasks, chinese_tasks_tasks
Abstract: 언어 모델 적용에 있어 작업과 훈련 말뭉치 간의 정렬은 기본적인 합의 사항이지만, 일련의 실험과 우리가 설계한 메트릭에 따르면 코드 기반 대규모 언어 모델(LLM)은 코딩이 없는 중국어 작업에서 작업과 밀접하게 일치하는 데이터로 훈련된 모델보다 훨씬 뛰어난 성능을 발휘합니다. 또한 중국어 환각에 대한 민감도가 높은 과제에서는 중국어의 언어적 특징이 더 적은 모델이 더 나은 성능을 보였습니다. 이 실험 결과는 검색 증강 생성(RAG)을 위한 데이터 준비와 같은 중국어 데이터 처리 작업에서 기본 모델을 코드 기반 모델로 대체하기만 하면 쉽게 복제할 수 있습니다. 또한, 이 연구는 철학적 '차이니즈 룸' 사고 실험에 대한 논의를 위한 뚜렷한 관점을 제공합니다. [abs|pdf]

[77/91] MorpheusNet: Resource efficient sleep stage classifier for embedded on-line systems

Keywords: sleep_stage_classification, capable_predicting_sleep, leveraging_sleep_stages
Abstract: 수면 단계 분류(SSC)는 전문가가 수 시간 분량의 전기생리학적 기록을 검토하여 수동으로 분류해야 하는 노동 집약적인 작업입니다. 이는 치료 목적으로 수면 단계를 활용하는 데 있어 제한적인 요소입니다. 웨어러블 기기의 경제성이 높아지고 보급이 확대됨에 따라 SSC를 자동화하면 수면 기반 치료법을 대규모로 배포할 수 있을 것입니다. 이 과정을 자동화할 수 있는 잠재적 방법으로 딥러닝이 주목받고 있습니다. 이전 연구에 따르면 딥러닝은 전문가가 수작업으로 점수를 매기는 것과 비슷한 정확도를 보였습니다. 하지만 이전의 접근 방식은 상당한 양의 메모리와 컴퓨팅 리소스를 필요로 합니다. 이는 실시간으로 분류하고 엣지에 모델을 배포하는 능력을 제한합니다. 이러한 격차를 해소하기 위해 유니티는 외부 컴퓨팅 소스(예: 휴대폰, 클라우드)에 액세스하지 않고도 실시간으로 수면 단계를 예측할 수 있는 모델을 제공하는 것을 목표로 합니다. 이 알고리즘은 배터리로 구동되는 임베디드 시스템에서 사용할 수 있도록 전력 효율이 높습니다. 소니의 소형 절전 단계 분류기는 하드웨어 설정이 제한된 대부분의 상용 마이크로컨트롤러(MCU)에 배포할 수 있습니다. 이는 메모리 풋프린트가 훨씬 적은 작업을 필요로 하는 접근 방식 때문입니다. 이 모델은 공개적으로 사용 가능한 3개의 데이터베이스를 대상으로 테스트한 결과, 최신 기술에 필적하는 성능을 달성하는 동시에 모델 복잡성을 수십 배(최신 기술에 비해 최대 280배) 줄였습니다. 또한 파라미터를 8비트로 정량화하여 정확도를 평균 0.95%만 떨어뜨리면서 모델을 최적화했습니다. 양자화된 모델을 펌웨어에 구현하면 Arm CortexM4 프로세서에서 1.6초의 지연 시간을 달성할 수 있어 온라인 SSC 기반 치료법에 사용할 수 있습니다. [abs|pdf]

[78/91] BioDiffusion: A Versatile Diffusion Model for Biomedical Signal Synthesis

Keywords: biomedical_signal_generation, outperforms_biomedical_signal, multivariate_biomedical_signals
Abstract: 생체 신호와 관련된 머신 러닝 작업은 제한된 데이터 가용성, 불균형한 데이터 세트, 라벨링의 복잡성, 측정 노이즈의 간섭 등의 문제로 어려움을 겪는 경우가 많습니다. 이러한 문제는 종종 머신러닝 알고리즘을 최적으로 훈련하는 데 방해가 됩니다. 이러한 문제를 해결하기 위해 다변량 생체 신호의 합성에 최적화된 확산 기반 확률론적 모델인 BioDiffusion을 소개합니다. BioDiffusion은 무조건, 라벨 조건부, 신호 조건부 생성을 포함한 다양한 작업을 위해 충실도가 높은 비고정형 다변량 신호를 생성하는 데 탁월한 성능을 보여줍니다. 이렇게 합성된 신호를 활용하면 앞서 언급한 과제에 대한 주목할 만한 해결책을 제시할 수 있습니다. 유니티의 연구는 합성된 데이터 품질에 대한 정성적, 정량적 평가를 모두 포함하며, 생체 신호와 관련된 머신러닝 작업의 정확성을 강화할 수 있는 역량을 강조합니다. 또한, 현재의 선도적인 시계열 생성 모델과 비교했을 때, 경험적 증거에 따르면 바이오디퓨전이 생의학 신호 생성 품질에서 더 뛰어난 성능을 보인다고 합니다. [abs|pdf]

[79/91] GANs for EVT Based Model Parameter Estimation in Real-time Ultra-Reliable Communication

Keywords: proposed_gan_based, conventional_gan, gan_structure
Abstract: 6세대(6G) 시스템의 초신뢰성 저지연 통신(URLLC) 패러다임은 특히 무선 통신 채널 내에서 드물고 극단적인 이벤트를 처리할 때 정밀한 채널 모델링에 크게 의존합니다. 이 백서에서는 실시간으로 정밀한 채널 모델링을 달성하기 위해 극한 가치 이론(EVT)과 생성적 적대적 네트워크(GAN)를 통합하는 새로운 방법론을 살펴봅니다. 제안된 접근 방식은 일반화된 파레토 분포(GPD)를 사용하여 극한 이벤트의 분포를 모델링함으로써 EVT를 활용합니다. 그 후, 생성적 적대 신경망(GAN)을 사용하여 GPD의 파라미터를 추정합니다. 전체 분포를 추정하는 데 중점을 두는 기존의 GAN 구성과 달리, 제안된 접근 방식은 GAN 구조 내에 추가 블록을 통합하는 것입니다. 이 특정 보강은 일반화 파레토 분포(GPD)의 매개변수를 직접 추정하기 위한 명시적인 목적으로 설계되었습니다. 다양한 표본 크기에 대한 광범위한 시뮬레이션을 통해 제안된 GAN 기반 접근 방식은 특히 표본 크기가 제한된 시나리오에서 최대 가능성 추정(MLE)을 능가하는 우수한 적응성을 지속적으로 입증했습니다. [abs|pdf]

[80/91] A systematic review of geospatial location embedding approaches in large language models: A path to spatial AI systems

Keywords: geospatial_location_embedding, geospatial_artificial_intelligence, embeds_spatial_knowing
Abstract: 지리공간 위치 임베딩(GLE)은 대규모 언어 모델(LLM)이 공간 데이터를 통합하고 분석하는 데 도움이 됩니다. 지리공간 인공 지능(GeoAI)에서 GLE의 등장은 복잡한 현대 공간에서 더 깊은 지리공간 인식의 필요성과 생성형 AI에서 깊은 의미를 추출하는 LLM의 성공으로 인해 촉발되었습니다. Google Scholar, Science Direct, arXiv에서 지리공간 위치 임베딩과 LLM에 관한 논문을 검색하고 LLM을 통해 더 깊은 공간적 '앎'을 얻는 데 초점을 맞춘 논문을 검토했습니다. 제목 304개, 초록 30개, 전문 18개의 논문에서 엔티티 위치 임베딩(ELE), 문서 위치 임베딩(DLE), 시퀀스 위치 임베딩(SLE), 토큰 위치 임베딩(TLE)의 네 가지 GLE 테마를 보여주는 논문을 선별했습니다. 합성은 "공간"과 "LLM" 간의 대화형 대화를 포함해 표 형식의 내러티브 방식으로 이루어집니다 GLE는 공간 데이터를 중첩하여 공간 이해를 돕지만, 공간 양식의 복잡성과 일반화된 추론을 발전시켜야 할 필요성을 강조합니다. GLE는 모델 아키텍처에 공간적 지식을 내장하는 공간 기반/언어 모델(SLM)의 필요성을 나타냅니다. SLM 프레임워크는 공간 인공 지능 시스템(SPAIS)을 발전시켜 물리적 공간에 매핑되는 공간 벡터 공간(SVS)을 구축합니다. 그 결과 공간에 내재된 언어 모델은 독특합니다. 이 모델은 실제 공간과 AI가 가능한 공간을 동시에 표현하여 공간 인공지능 시스템(SPAIS)의 기반이 되는 AI 네이티브 지리 저장, 분석 및 멀티 모달리티를 위한 길을 열어줍니다. [abs|pdf]

[81/91] EEGFormer: Towards Transferable and Interpretable Large-Scale EEG Foundation Model

Keywords: eeg_data_pretrained, learning_eeg, learning_eeg_modeling
Abstract: 자기 지도 학습은 자연어 처리와 컴퓨터 비전 분야에서 매우 효과적인 접근 방식으로 부상했습니다. 발작 감지부터 파동 분석에 이르는 광범위한 실제 의료 애플리케이션에 존재하는 라벨이 없는 데이터가 풍부하기 때문에 뇌파(EEG) 데이터와 같은 뇌 신호에도 적용할 수 있습니다. 뇌파 모델링에 자가 지도 학습을 활용하는 기존 연구는 주로 단일 다운스트림 작업에 해당하는 개별 데이터 세트에 대한 사전 학습에 초점을 맞추기 때문에 풍부한 데이터의 힘을 활용할 수 없으며, 일반화가 부족하여 차선의 솔루션을 도출할 수 있습니다. 또한 이러한 방법들은 인간이 이해하기 어려운 엔드투엔드 모델 학습에 의존합니다. 이 논문에서는 대규모 복합 뇌파 데이터로 사전 학습된 새로운 뇌파 기초 모델, 즉 EEGFormer를 제시합니다. 사전 학습된 모델은 다양한 다운스트림 작업에서 적응 가능한 성능으로 뇌파 신호에 대한 보편적인 표현을 학습할 뿐만 아니라 데이터 내에서 유용한 패턴에 대한 해석 가능한 결과를 제공합니다. 모델의 효율성을 검증하기 위해 다양한 다운스트림 작업에서 모델을 광범위하게 평가하고 다양한 전송 설정에서 성능을 평가합니다. 또한, 학습된 모델이 어떻게 전이 가능한 이상 징후 탐지 성능을 보여주고, 자기 지도 학습을 통해 획득한 패턴의 해석 가능성을 제공하는지 보여줍니다. [abs|pdf]

[82/91] Knowledge-Assisted Dual-Stage Evolutionary Optimization of Large-Scale Crude Oil Scheduling

Keywords: crude_oil_scheduling, oil_scheduling, oil_scheduling_problems
Abstract: 현대 정유 공장에서 원유 스케줄링이 확장됨에 따라 기존의 최적화 방법으로는 최적화하기 어려운 수천 개의 이항 변수와 비선형 제약 조건이 있는 대규모 원유 스케줄링 문제(LSCOSP)가 등장하고 있습니다. 본 논문에서는 해상 접근 정유 공장의 실제 원유 스케줄링을 예로 들어 원유 하역, 운송, 원유 증류 장치 처리, 중간 제품의 재고 관리에서 발생하는 LSCOSP를 모델링하는 것부터 시작하여 이를 해결합니다. 제안된 모델을 기반으로 휴리스틱 규칙에 기반한 이중 단계 진화 알고리즘(DSEA/HR로 표시)을 개발하며, 이중 단계 검색 메커니즘은 글로벌 검색과 로컬 정제 단계로 구성됩니다. 글로벌 탐색 단계에서는 경험적 운영 지식을 기반으로 여러 휴리스틱 규칙을 고안하여 성능이 우수한 초기 모집단을 생성하고 혼합 변수 공간에서 수렴을 가속화합니다. 국소 개선 단계에서는 국소 연속 변수를 추가로 최적화하여 실현 불가능한 솔루션을 실현 가능한 영역으로 이동시키는 복구 전략이 제안됩니다. 전체 진화 과정에서 제안된 이중 단계 프레임워크는 탐사와 개발의 균형을 맞추는 데 중요한 역할을 합니다. 실험 결과에 따르면 DSEA/HR은 LSCOSP 인스턴스에서 합리적인 시간 내에 널리 사용되는 최신 수학적 프로그래밍 방법과 메타 휴리스틱 알고리즘을 능가하는 성능을 보였습니다. [abs|pdf]

[83/91] Revolutionizing Pharma: Unveiling the AI and LLM Trends in the Pharmaceutical Industry

Keywords: intelligence_ai_pharmaceutical, ai_pharmaceutical_industry, ai_pharmaceutical
Abstract: 이 문서는 제약 산업에서 인공지능(AI)의 새로운 트렌드와 중요한 발전에 대한 중요한 개요를 제공합니다. 연구 개발, 동물 실험, 임상 시험, 병원 임상 단계, 생산, 규제 업무, 품질 관리 및 기타 지원 분야를 포함한 주요 운영 영역 전반에 걸친 적용 사례를 자세히 설명하며 각 부문에서 AI의 역할을 범주별로 살펴봅니다. 특히 머신러닝 알고리즘과 같은 최첨단 AI 기술과 제약 운영의 다양한 측면에 대한 기여도를 강조합니다. 이 종합적인 분석을 통해 이 백서는 제약 산업의 미래를 재편하는 데 있어 AI의 혁신적 잠재력을 강조합니다. [abs|pdf]

[84/91] Multi-Source Collaborative Gradient Discrepancy Minimization for Federated Domain Generalization

Keywords: federated_domain_adaptation, federated_domain_generalization, domain_generalization_adaptation
Abstract: 연합 도메인 일반화는 여러 분산된 소스 도메인에서 도메인 불변 모델을 학습하여 보이지 않는 대상 도메인에 배포하는 것을 목표로 합니다. 개인정보 보호 문제로 인해 서로 다른 소스 도메인의 데이터는 격리된 상태로 유지되며, 이로 인해 도메인 간 격차를 해소하는 데 어려움이 있습니다. 이 문제를 해결하기 위해 연합 도메인 일반화를 위한 다중 소스 협업 경사 불일치 최소화(MCGDM) 방법을 제안합니다. 구체적으로, 고립된 도메인 내에서 도메인별 정보가 과도하게 적합해지는 것을 방지하기 위해 원본 이미지와 증강 이미지 간의 도메인 내 그라데이션 매칭을 제안합니다. 또한, 다른 도메인의 협업을 통한 도메인 간 그라데이션 매칭을 제안하여 분산된 도메인 간의 도메인 이동을 더욱 줄일 수 있습니다. 도메인 내 및 도메인 간 그라데이션 매칭을 결합하여 학습된 모델이 보이지 않는 도메인에서도 잘 일반화될 수 있도록 합니다. 또한, 의사 레이블이 지정된 목표 도메인에서 목표 모델을 미세 조정하여 연합 도메인 적응 작업으로 확장할 수 있습니다. 연합 도메인 일반화 및 적응에 대한 광범위한 실험을 통해 우리의 방법이 최첨단 방법보다 훨씬 뛰어난 성능을 보임을 알 수 있습니다. [abs|pdf]

[85/91] Querying Triadic Concepts through Partial or Complete Matching of Triples

Keywords: querying_triadic_concepts, querying_triadic, ranking_retrieved_triadic
Abstract: 이 백서에서는 역 인덱스를 사용하여 삼항식의 부분 또는 전체 일치를 통해 삼항식 개념을 쿼리하는 새로운 방법을 소개하여 범위, 의도 및/또는 방식에 따라 용어 집합을 포함하는 이미 계산된 삼항식 개념을 검색합니다. 아나니아에 설명된 근사화 접근 방식과 달리, 이 방법은 (i) 초기 삼원적 컨텍스트나 그 세 가지 이원적 컨텍스트를 유지할 필요가 없고, (ii) 컨텍스트 탐색을 통해 삼원 구성 요소에 파생 연산자를 적용하지 않으며, (iii) 일차원 쿼리에 대한 답변으로 삼원적 개념을 얻기 위한 인수분해 단계가 필요하지 않습니다. 또한, 이 솔루션은 주어진 쿼리와의 유사성을 기반으로 검색된 삼원 개념의 순위를 매기는 새로운 메트릭을 도입했습니다. 마지막으로, 근사치 접근 방식과 비교하여 우리 접근 방식의 효과와 확장성을 설명하기 위한 실증적 연구가 주로 수행됩니다. 우리의 솔루션은 뛰어난 효율성을 보여줄 뿐만 아니라 확장성이 뛰어나 빅데이터 시나리오에 적합하다는 점을 강조합니다. [abs|pdf]

[86/91] The complementary contributions of academia and industry to AI research

Keywords: academic_industry_collaborations, industry_academia_robust, novelty_academic_teams
Abstract: 인공 지능(AI)은 산업계와 학계에서 엄청난 발전을 거듭해 왔습니다. 그러나 최근 산업계의 눈부신 발전은 전 세계를 놀라게 했고, 이 분야에서 학술 연구의 역할에 대한 새로운 시각을 불러일으켰습니다. 이 글에서는 지난 25년 동안 두 환경에서 생성된 AI의 영향과 유형을 분석하고 몇 가지 패턴을 설정합니다. 업계 연구자들로만 구성된 팀이 발표한 논문이 더 많은 주목을 받는 경향이 있으며, 인용 횟수와 인용 파괴력이 높고, 최첨단 모델을 생산할 가능성이 몇 배 더 높다는 사실을 발견했습니다. 이와는 대조적으로, 학계 연구팀이 AI 연구의 대부분을 발표하고 더 참신한 연구를 생산하는 경향이 있으며, 단일 논문이 기존과는 다른 비정형적일 가능성이 몇 배 더 높다는 사실을 발견했습니다. 산업계와 학계의 각 영향력-참신성 우위는 하위 분야, 팀 규모, 연공서열, 명성 등을 통제할 수 있을 정도로 강력합니다. 산학 협력은 학계 팀의 참신성을 모방하는 데 어려움을 겪고 있으며 산업계 팀과 유사하게 보이는 경향이 있다는 사실을 발견했습니다. 이번 연구 결과를 통해 학계와 산업계가 AI의 건전한 발전에 기여하는 고유하고 거의 대체 불가능한 공헌을 확인할 수 있었습니다. [abs|pdf]

[87/91] HyperSense: Accelerating Hyper-Dimensional Computing for Intelligent Sensor Data Processing

Keywords: hypersense_designed_hardware, data_rates_hypersense, accelerator_tailored_hypersense
Abstract: 공동 설계된 하드웨어 및 소프트웨어 시스템인 하이퍼센스는 센서 데이터의 객체 존재 예측을 기반으로 아날로그-디지털 컨버터(ADC) 모듈의 데이터 생성 속도를 효율적으로 제어합니다. 센서 수량과 데이터 속도가 증가함에 따라 발생하는 문제를 해결하는 HyperSense는 에너지 효율적인 저정밀 ADC를 사용하여 중복되는 디지털 데이터를 줄여 머신러닝 시스템 비용을 절감합니다. 신경망에서 영감을 받은 하이퍼디멘셔널 컴퓨팅(HDC)을 활용하는 하이퍼센스는 원시 저정밀 센서 데이터를 실시간으로 분석하여 노이즈, 메모리 중심성, 실시간 학습을 처리하는 데 이점을 제공합니다.
유니티가 제안한 하이퍼센스 모델은 물체 감지를 위한 고성능 소프트웨어와 실시간 하드웨어 예측을 결합하여 지능형 센서 제어라는 새로운 개념을 도입했습니다. 종합적인 소프트웨어 및 하드웨어 평가 결과, 경량 모델 중 가장 높은 곡선 면적(AUC)과 가장 선명한 수신기 작동 특성(ROC) 곡선을 통해 솔루션의 우수한 성능이 입증되었습니다. 하드웨어 측면에서 보면, 하이퍼센스를 위해 맞춤화된 유니티의 FPGA 기반 도메인별 가속기는 기존 시스템 대비 최대 92.1%의 에너지 절감 효과를 보여주면서 NVIDIA 젯슨 오린의 YOLOv4에 비해 5.6배의 속도 향상을 달성했습니다. 이러한 결과는 하이퍼센스의 효과와 효율성을 입증하며, 다양한 애플리케이션에서 지능형 감지 및 실시간 데이터 처리를 위한 유망한 솔루션으로 자리매김하고 있습니다. [abs|pdf]

[88/91] Intelligent Condition Monitoring of Industrial Plants: An Overview of Methodologies and Uncertainty Management Strategies

Keywords: intelligent_condition_monitoring, condition_monitoring, fault_detection_diagnosis
Abstract: 상태 모니터링은 현대 산업 시스템의 안전과 신뢰성에 중요한 역할을 합니다. 인공지능(AI) 접근 방식은 산업 애플리케이션에서 성장하는 주제이자 결함을 식별하는 강력한 방법으로 학계와 업계에서 주목받고 있습니다. 이 백서에서는 오픈소스 벤치마크인 테네시 이스트만 프로세스(TEP)를 중심으로 산업 플랜트의 지능형 상태 모니터링과 고장 감지 및 진단 방법에 대한 개요를 제공합니다. 이 조사에서는 산업 플랜트 상태 모니터링, 고장 감지 및 진단을 위한 가장 인기 있고 최신의 딥러닝(DL) 및 머신러닝(ML) 알고리즘을 요약하고 각 알고리즘의 장단점을 연구합니다. 불균형 데이터, 라벨링되지 않은 샘플과 같은 문제와 딥러닝 모델이 이를 처리하는 방법도 다룹니다. 마지막으로 테네시 이스트만 프로세스(TEP)를 활용한 다양한 알고리즘의 정확도와 사양을 비교합니다. 이 연구는 상태 모니터링에 관한 문헌과 최신 방법, 그리고 이에 대한 문제점과 가능한 해결책을 다루고 있어 이 분야를 처음 접하는 연구자와 전문가 모두에게 유익할 것입니다. [abs|pdf]

[89/91] Harnessing Transparent Learning Analytics for Individualized Support through Auto-detection of Engagement in Face-to-Face Collaborative Learning

Keywords: support_collaborative_learning, collaborative_learning_explored, collaborative_learning
Abstract: 학습 분석을 사용하여 협업 학습을 조사하고 지원하는 방법은 수년 동안 연구되어 왔습니다. 최근에는 다양한 인공 지능 접근 방식을 사용한 자동화된 접근 방식이 협업 학습 과제에서 학생의 참여와 성과를 모델링하고 예측하는 데 유망한 결과를 제공하고 있습니다. 그러나 학습 분석 설계 및 구현에 '블랙박스' 접근법을 사용할 때 발생하는 투명성과 해석 가능성 부족으로 인해 교수 및 학습 실습에 대한 지침이 어려울 수 있습니다. 한편으로는 머신러닝 알고리즘과 모델에 의해 생성된 블랙박스로 인해 사용자가 교육적으로 의미 있는 학습 및 교수 제안을 얻지 못하게 됩니다. 반면에 그룹 및 코호트 수준의 분석에만 초점을 맞추면 협업 그룹에서 작업하는 개별 학생에 대한 구체적인 지원을 제공하기 어려울 수 있습니다. 이 논문에서는 협업 과정에서 학생의 개별 참여도를 자동으로 감지하는 투명한 접근 방식을 제안합니다. 그 결과, 제안된 접근 방식이 학생의 개별적인 참여도를 반영할 수 있으며 다양한 협업 학습 과제(인지, 행동, 정서)와 학습 결과를 가진 학생을 구분하는 지표로 사용될 수 있음을 보여줍니다. 대면 상황에서 협업 학습의 비계를 세우기 위해 제안된 협업 분석 접근법의 잠재력에 대해 논의하고 향후 연구 제안을 제공합니다. [abs|pdf]

[90/91] Null Space Properties of Neural Networks with Applications to Image Steganography

Keywords: null_space_neural, neural_networks_null, networks_null_space
Abstract: 이 백서에서는 신경망의 널 공간 속성에 대해 살펴봅니다. 널 공간 정의를 선형 맵에서 비선형 맵으로 확장하고 신경망에서 널 공간의 존재에 대해 논의합니다. 주어진 신경망의 널 공간은 입력 데이터 중 최종 예측에 기여하지 않는 부분을 알려주어 신경망을 속이는 데 사용할 수 있습니다. 이는 신경망에 내재된 약점을 악용할 수 있음을 드러냅니다. 여기서 설명하는 한 가지 응용 사례는 이미지 스테가노그래피의 한 방법입니다. MNIST와 같은 이미지 데이터 세트에 대한 실험을 통해 전체 이미지를 완전히 다른 이미지처럼 보이게 만들 수 있음에도 불구하고 널 공간 구성 요소를 사용하여 신경망이 선택된 숨겨진 이미지 클래스를 선택하도록 강제할 수 있음을 보여줍니다. 마지막으로 사람이 보는 것과 신경망이 실제로 예측을 위해 사용하는 이미지의 일부를 비교하여 신경망이 '보는 것'이 우리가 예상하는 것과 완전히 다르다는 것을 보여줌으로써 결론을 내립니다. [abs|pdf]

[91/91] Zero Bubble Pipeline Parallelism

Keywords: pipeline_parallelism, potential_pipeline_parallelism, novel_pipeline_schedules
Abstract: 파이프라인 병렬화는 대규모 분산 훈련의 핵심 구성 요소 중 하나이지만, 피할 수 없는 것으로 여겨지는 파이프라인 버블로 인해 효율성이 저하됩니다. 이번 연구에서는 동기식 훈련 의미론 하에서 파이프라인 버블 제로를 달성하는 데 성공한 최초의 스케줄링 전략을 소개합니다. 이 개선의 핵심 아이디어는 역방향 계산을 입력에 대한 기울기를 계산하는 부분과 매개변수에 대한 계산 부분으로 나누는 것입니다. 이 아이디어를 바탕으로 기준선 방법을 훨씬 능가하는 새로운 파이프라인 스케줄을 직접 제작합니다. 또한 특정 모델 구성과 메모리 제한에 따라 최적의 스케줄을 자동으로 찾아내는 알고리즘을 개발합니다. 또한, 진정한 버블 제로를 달성하기 위해 최적화 단계에서 동기화를 우회하는 새로운 기술을 도입합니다. 실험 평가 결과, 이 방법은 비슷한 메모리 제한 하에서 처리량이 최대 23%까지 1F1B 스케줄을 능가하는 것으로 나타났습니다. 메모리 제약이 완화되면 이 수치는 31%까지 더 높아질 수 있습니다. 이러한 결과는 파이프라인 병렬 처리의 진정한 잠재력을 활용하는 데 있어 중요한 진전이라고 생각합니다. 이 https URL의 인기 있는 Megatron-LM 리포지토리를 기반으로 구현을 오픈 소스화했습니다. [abs|pdf]