프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-15]

다각 2024. 1. 16. 13:30

[1/79] A Brain-inspired Computational Model for Human-like Concept Learning

Keywords: human_concept_learning, like_concept_representations, concept_representations_study
Abstract: 개념 학습은 인간 인지의 근본적인 측면이며 범주화, 추론, 기억, 의사 결정과 같은 정신적 과정에서 중요한 역할을 합니다. 다양한 분야의 연구자들은 개인의 개념 습득 과정에 대해 지속적인 관심을 보여 왔습니다. 이 연구에서는 인간의 개념 학습과 관련된 메커니즘을 밝히기 위해 컴퓨터 신경과학과 인지심리학의 연구 결과를 살펴봅니다. 이러한 연구 결과에 따르면 뇌의 개념 표상은 다감각적 표상과 텍스트 유래 표상이라는 두 가지 필수 구성 요소에 의존합니다. 이 두 가지 유형의 표상은 의미 제어 시스템에 의해 조정되어 궁극적으로 개념의 습득으로 이어집니다. 이 연구는 이러한 메커니즘에서 영감을 얻어 스파이크 신경망에 기반한 개념 학습을 위한 인간과 유사한 계산 모델을 개발합니다. 이 연구는 다양한 출처와 두 가지 형태의 개념 표현의 불균형한 차원으로 인해 발생하는 문제를 효과적으로 해결함으로써 인간과 유사한 개념 표현을 성공적으로 달성했습니다. 유사한 개념에 대한 테스트 결과, 인간이 개념을 학습하는 방식을 모방한 이 모델이 인간의 인지와 밀접하게 일치하는 표현을 생성하는 것으로 나타났습니다. [abs|pdf]

[2/79] Sanity Checks Revisited: An Exploration to Repair the Model Parameter Randomisation Test

Keywords: explainable_artificial_intelligence, acknowledged_explainable_artificial, parameter_randomisation_test
Abstract: 모델 매개변수 무작위화 테스트(MPRT)는 설명 함수가 모델 함수의 매개변수 변화에 민감해야 한다는 잘 짜여진 평가 원칙으로 설명 가능한 인공 지능(XAI) 커뮤니티에서 널리 인정받고 있습니다. 그러나 최근의 연구에서는 MPRT의 경험적 해석에 대한 몇 가지 방법론적 주의 사항이 확인되었습니다. 이러한 주의사항을 해결하기 위해, 우리는 원래의 MPRT를 두 가지 변형한 Smooth MPRT와 효율적인 MPRT를 도입했는데, 전자는 샘플링을 통해 노이즈가 평가 결과에 미치는 영향을 최소화하고, 후자는 완전한 파라미터 무작위화 후 설명의 복잡성 증가를 통해 테스트를 다시 해석함으로써 편향된 유사성 측정의 필요성을 피할 수 있습니다. 실험 결과는 이러한 제안된 변형이 메트릭 신뢰도를 개선하여 XAI 방법을 더욱 신뢰할 수 있게 한다는 것을 보여줍니다. [abs|pdf]

[3/79] Vehicle: Bridging the Embedding Gap in the Verification of Neuro-Symbolic Programs

Keywords: neural_symbolic_programs, verification_neural_symbolic, neuro_symbolic_programs
Abstract: 기계 학습 구성 요소와 전통적인 기호 코드를 모두 포함하는 프로그램인 신경 기호 프로그램이 점점 더 널리 보급되고 있습니다. 그러나 머신러닝 구성 요소의 동작에 따라 정확성이 달라지는 이러한 프로그램을 검증하는 일반적인 방법론은 아직 부족하다고 생각합니다. 이 논문에서는 의미론적으로 의미 있는 '문제 공간' 속성을 동등한 '임베딩 공간' 속성과 연결하는 기술이 부족한 '임베딩 갭'을 주요 문제 중 하나로 파악하고, 신경 기호 프로그램의 엔드투엔드 검증을 모듈 방식으로 용이하게 하기 위해 설계된 도구인 Vehicle에 대해 설명합니다. Vehicle은 신경망의 '문제 공간' 속성을 지정하고 '임베딩 공간'과의 관계를 선언하기 위한 편리한 언어와 선택한 머신러닝 훈련 환경, 신경망 검증기, 대화형 정리 증명기의 언어로 이러한 속성의 해석을 자동화하는 강력한 컴파일러를 제공합니다. 신경망 컨트롤러가 장착된 간단한 자율 주행 자동차의 안전성을 공식적으로 검증하는 데 Vehicle을 사용하여 그 유용성을 입증합니다. [abs|pdf]

[4/79] Cognitive BPM as an Equalizer: Improving Access and Efficiency for Employees with (and without) Cognitive Disabilities

Keywords: cognitive_disabilities_processgpt, processes_cognitive_limitations, improves_process_usability
Abstract: 비즈니스 프로세스를 자동화, 증강, 개선하기 위해 설계된 AI 모델인 ProcessGPT를 살펴보고, 특히 인지 장애가 있는 인력의 인지적 한계 내에서 비즈니스 프로세스를 관리할 때의 어려움을 연구합니다. ProcessGPT는 인간의 인지적 한계를 고려한 효율적인 비즈니스 프로세스 설계를 위한 청사진을 제공합니다. 인지 장애라는 렌즈를 통해 이를 바라봄으로써 ProcessGPT가 인지 장애가 있는 사람과 없는 사람의 프로세스 사용성을 향상시킨다는 것을 보여줍니다. 또한 ProcessGPT와 유사한 기능을 구현하는 조직이 생산성, 사기, 포용성을 향상시킬 수 있음을 입증합니다. [abs|pdf]

[5/79] MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in Recommendation Systems

Keywords: reranker_simultaneously_optimizes, reranker_simultaneously, reranker
Abstract: 이 백서에서는 관련성, 다양성, 신선도를 동시에 최적화하는 일반적인 모델 기반 재랭크 프레임워크인 멀티슬롯 리랭커를 제안합니다. 특히, 순차적 욕심 알고리즘(SGA)은 대규모 생산 추천 엔진에 충분히 효율적인(선형 시간 복잡도) 알고리즘입니다. 목록의 항목 간 상호 영향을 명시적으로 모델링하고 여러 목표의 2차 통과 순위 점수를 활용함으로써 수신자 운영 특성 곡선(AUC)의 오프라인 영역을 $+6%$에서 $+10%$까지 끌어올릴 수 있었습니다. 또한 오프라인 리플레이 이론을 여러 목표 간의 트레이드오프가 있는 다중 슬롯 순위 재조정 시나리오에 일반화했습니다. 오프라인 리플레이 결과는 파레토 최적화를 통해 더욱 향상될 수 있습니다. 또한, 유니티는 레이 프레임워크와 통합된 OpenAI Gym을 기반으로 멀티 슬롯 리랭킹 시뮬레이터를 구축했습니다. 이 시뮬레이터는 강화 학습과 지도 학습 알고리즘을 빠르게 벤치마킹할 수 있도록 다양한 가정을 쉽게 구성할 수 있습니다. [abs|pdf]

[6/79] A Universal Knowledge Model and Cognitive Architecture for Prototyping AGI

Keywords: cognitive_architecture_intelligent, cognitive_architectures_creating, knowledge_archigraph
Abstract: 이 문서에서는 일반 인공 지능(AGI)을 만들기 위한 42가지 인지 아키텍처를 식별하고 AGI에 접근하는 에이전트가 갖춰야 할 상호 관련된 기능 블록 집합을 제안했습니다. 필요한 블록 세트는 기존 아키텍처에서 찾아볼 수 없기 때문에 이 논문에서는 AGI에 접근하는 지능형 시스템을 위한 새로운 인지 아키텍처를 제안합니다. 아키텍처 프레임워크의 핵심 솔루션 중 하나로 자연어 텍스트, 이미지, 오디오 및 비디오 녹화, 그래프, 알고리즘, 데이터베이스, 신경망, 지식 그래프, 온톨로지, 프레임, 본질-특성-관계 모델, 생산 시스템, 술어 계산 모델, 개념 모델 등 다양한 비형식화, 부분 및 완전 형식화 지식 표현 방법을 단일 지식 기반에 결합할 수 있는 범용 지식 표현 방법이 제안됩니다. 다양한 지식 조각을 결합하고 구조화하기 위해 주석이 달린 메타그래프의 발전으로 구축된 아키그래프 모델이 사용됩니다. 개발 중인 인지 아키텍처에는 기계 의식, 기계 잠재의식, 외부 환경과의 상호작용 블록, 목표 관리 블록, 감정 제어 시스템, 사회적 상호작용 블록, 성찰 블록, 윤리 블록 및 세계관 블록, 학습 블록, 모니터링 블록, 진술 및 문제 해결 블록, 자기 조직화 및 메타 학습 블록 등이 구성 요소로 포함됩니다. [abs|pdf]

[7/79] Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction

Keywords: pedestrian_intention_prediction, sequence_pedestrian, takes_sequence_pedestrian
Abstract: 보행자 의도 예측은 자율 주행에 매우 중요합니다. 특히 보행자가 자율주행차 앞에서 횡단할지 여부를 파악하는 것은 안전하고 편안한 기동을 수행하기 위한 핵심입니다. 연속적인 이미지에서 이러한 의도를 예측하는 정확하고 빠른 모델을 만드는 것은 어려운 일입니다. 그 원인 중 하나는 다양한 교차 및 비교차(C/NC) 시나리오가 포함된 데이터 세트가 부족하다는 점입니다. 유니티는 C/NC 비디오 클립 샘플로 구성된 합성 데이터 세트를 프로그래밍 방식으로 생성할 수 있는 ARCANE이라는 프레임워크를 도입하여 이러한 부족 문제를 해결했습니다. 예를 들어, ARCANE을 사용하여 PedSynth라는 대규모의 다양한 데이터 세트를 생성합니다. PedSynth가 JAAD 및 PIE와 같이 널리 사용되는 실제 데이터 세트를 보완하여 C/NC 예측을 위한 보다 정확한 모델을 구현하는 방법을 보여드리겠습니다. 또한 C/NC 예측 모델의 온보드 배포를 고려하여, 빠르고 메모리 사용량이 매우 적은 PedGNN이라는 딥 모델도 제안합니다. PedGNN은 보행자 골격의 시퀀스를 입력으로 받아 횡단 의도를 예측하는 GNN-GRU 아키텍처를 기반으로 합니다. [abs|pdf]

[8/79] The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

Keywords: data_hard_training, hard_training_data, trained_hard_data
Abstract: 하드 트레이닝 데이터는 정의상 올바르게 레이블을 지정하기 어려운데 어떻게 하면 하드 테스트 데이터에서 잘 작동하도록 모델을 훈련시킬 수 있을까요? 이 질문은 확장 가능한 감독 문제라고 불리며 언어 모델이 지속적으로 개선됨에 따라 점점 더 많은 관심을 받고 있습니다. 이 백서에서는 현재의 언어 모델이 쉬운 데이터에서 어려운 데이터로 비교적 잘 일반화하며 심지어 어려운 데이터로 훈련된 '오라클' 모델만큼 잘 수행한다는 놀라운 결론을 제시합니다. 우리는 6가지의 경험적으로 다양한 인간 경도 측정치(예: 학년 수준)와 1가지 모델 기반 측정치(손실 기반)를 포함한 7가지 데이터 포인트 경도 측정치에 대해 컨텍스트 내 학습, 선형 분류기 헤드, QLoRA와 같은 간단한 훈련 방법을 사용하여 이러한 종류의 쉬운 것에서 어려운 것으로의 일반화를 입증합니다. 또한, 하드 데이터에 대한 모델 성능을 가장 중요하게 생각하더라도 하드 데이터는 일반적으로 노이즈가 많고 수집 비용이 더 많이 들기 때문에 하드 데이터보다는 쉬운 데이터를 수집하고 훈련하는 것이 더 나을 수 있음을 보여줍니다. 이 실험에서는 최대 70b 크기의 공개 모델과 초등학교 3학년 과학 문제부터 대학 수준의 STEM 문제, 일반 상식 퀴즈까지 다양한 난이도의 질문으로 구성된 4개의 공개 질문-답변 데이터 세트를 사용했습니다. 연구한 과제에서 LM의 쉬운 일반화에서 어려운 일반화가 놀라울 정도로 강력하다는 결론을 내렸으며, 이는 확장 가능한 감독 문제가 이전에 생각했던 것보다 쉬울 수 있음을 시사합니다. 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[9/79] Using Natural Language Inference to Improve Persona Extraction from Dialogue in a New Domain

Keywords: dialogue_persona_extraction, trained_persona_extraction, specific_dialogue_persona
Abstract: 페르소나챗과 같은 귀중한 데이터 세트는 페르소나 기반 대화 에이전트를 훈련하기 위한 토대를 제공하지만, 주로 '실제' 세계에 존재하는 대화 및 내러티브 설정의 다양성이 부족합니다. 고유한 페르소나를 가진 대화 에이전트를 개발하기 위해서는 특정 페르소나가 주어졌을 때 대화하도록 모델을 훈련시켜야 하지만, 이러한 페르소나를 수작업으로 만드는 것은 시간이 많이 소요될 수 있으므로 기존 캐릭터별 대화에서 페르소나 정보를 자동으로 추출하는 방법이 존재합니다. 하지만 이러한 페르소나 추출 모델 역시 PersonaChat에서 파생된 데이터 세트를 기반으로 학습되며, 판타지 중심의 데이터 세트인 LIGHT와 같이 현실 세계에서 일어나지 않는 대화 설정에서는 고품질의 페르소나 정보를 제공하는 데 어려움을 겪습니다. 특정 설정에서 모델을 훈련시키기 위해 새로운 데이터를 생성하는 것은 인력 집약적이며, 따라서 비용이 엄청나게 많이 듭니다. 이러한 두 가지 문제를 해결하기 위해 훈련된 페르소나 추출 모델을 새로운 설정에 사후에 적용하기 위한 자연어 추론 방법을 도입했습니다. 대화 자연어 추론(NLI) 문헌에서 영감을 얻어 대화에서 구조화된 페르소나 정보를 추출하기 위한 NLI 재순위화 방법을 고안했습니다. 기존의 페르소나 추출 모델과 비교했을 때, 저희의 방법은 더 높은 품질의 페르소나를 추출하고 사람의 주석이 덜 필요합니다. [abs|pdf]

[10/79] Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty

Keywords: lm_articulated_uncertainties, appropriately_communicate_uncertainties, uncertainties_answering_questions
Abstract: 자연어가 인간과 AI의 상호작용을 위한 기본 인터페이스가 되면서 LM이 다운스트림 애플리케이션에서 불확실성을 적절히 전달해야 할 필요성이 커지고 있습니다. 이 연구에서는 LM이 자연어를 통해 응답에 대한 확신을 통합하는 방법과 LM이 표현한 불확실성에 대해 다운스트림 사용자가 어떻게 반응하는지를 조사합니다. 공개적으로 배포된 모델을 조사한 결과, LM이 질문에 답할 때 불확실성을 표현할 수 없으며 심지어 잘못된 응답을 생성하는 경우도 있음을 발견했습니다. LM은 자신감을 표현하라는 메시지를 명시적으로 받을 수 있지만, 과신하는 경향이 있어 자신감 있는 답변 중 높은 오류율(평균 47%)을 보입니다. 인간 실험을 통해 LM의 과신에 따른 위험을 테스트한 결과, 사용자들은 확실성 표시 여부와 관계없이 LM 생성에 크게 의존하는 것으로 나타났습니다. 마지막으로, RLHF 정렬에 사용되는 선호도 주석이 달린 데이터 세트를 조사하여 인간이 불확실성이 있는 텍스트에 대해 편견을 가지고 있음을 발견했습니다. 이러한 연구를 통해 인간과 기계 학습의 상호작용이 직면한 새로운 안전상의 위험을 강조하고 앞으로의 설계 권장 사항과 완화 전략을 제안합니다. [abs|pdf]

[11/79] Reframing Tax Law Entailment as Analogical Reasoning

Keywords: statutory_reasoning_analogy, statutory_reasoning_refers, statutory_reasoning_solving
Abstract: 법정 추론은 자연어로 기술된 일련의 사건 사실에 법률 조항을 적용하는 것을 말합니다. 우리는 법정 추론을 유추 작업으로 재구성하며, 유추 작업의 각 인스턴스는 두 가지 법정 추론 인스턴스의 조합을 포함합니다. 이렇게 하면 데이터 세트 크기가 두 배로 증가하고 해석 가능성이라는 요소가 추가됩니다. 이 작업은 자연어 처리 모델에게 원래 작업과 거의 비슷하게 어렵다는 것을 보여줍니다. 마지막으로 다시 법정 추론으로 돌아와서 검색 메커니즘과 유추 모델을 조합하여 이 문제를 해결하고 이전의 유사한 작업에서 어느 정도 진전이 있었음을 보여줍니다. [abs|pdf]

[12/79] Reliability Analysis of Psychological Concept Extraction and Classification in User-penned Text

Keywords: self_esteem_posts, esteem_reddit_posts, nlp_models_developed
Abstract: 소셜 자연어 처리 연구 커뮤니티에서는 최근 언어 사용과 자기 인식 간의 복잡한 상호작용에 대한 책임감 있는 AI 모델을 구축하기 위해 정신 건강 분석의 전산적 발전이 급증하는 것을 목격하고 있습니다. 이러한 책임감 있는 AI 모델은 소셜 미디어에서 사용자가 작성한 텍스트의 심리적 개념을 정량화하는 데 도움이 됩니다. 낮은 수준의 (분류) 작업을 넘어서서, 기존의 이진 분류 데이터 세트를 설명이라는 렌즈를 통해 신뢰도 분석이라는 높은 수준의 작업으로 발전시켜 안전 조치 중 하나로 제시합니다. Reddit 사용자의 게시물에 낮은 자존감이 있음을 암시하는 미묘한 텍스트 단서를 포착하기 위해 LoST 데이터 세트에 주석을 달았습니다. 또한 낮은 자존감의 존재 여부를 판단하기 위해 개발된 NLP 모델은 (i) 트리거: 정신적 장애를 유발하는 단어, (ii) LoST 지표: 낮은 자존감을 강조하는 텍스트 지표, (iii) 결과: 정신적 장애의 결과를 설명하는 단어의 세 가지 유형의 텍스트 단서에 더 중점을 두고 있다고 설명합니다. 우리는 기존 분류기를 구현하여 도메인별 심리학 기반 과제에 대해 사전 학습된 언어 모델(PLM)의 주의 메커니즘을 조사합니다. 연구 결과에 따르면 PLM의 초점을 트리거와 결과에서 보다 포괄적인 설명으로 전환하여 Reddit 게시물의 낮은 자존감을 판단하는 동시에 LoST 지표를 강조해야 할 필요성을 시사합니다. [abs|pdf]

[13/79] A Closed-form Solution for Weight Optimization in Fully-connected Feed-forward Neural Networks

Keywords: forward_neural_networks, feed_forward_neural, optimize_weights_network
Abstract: 이 연구는 완전 연결 피드 포워드 신경망의 가중치 최적화 문제를 해결합니다. 역전파(BP) 및 체인 규칙 경사 기반 최적화(반복 실행을 의미하며 경우에 따라 부담스럽고 시간이 많이 소요됨)를 기반으로 하는 기존 접근 방식과 달리, 제안된 접근 방식은 최소 제곱(LS) 방법론을 통해 폐쇄형 가중치 최적화를 위한 솔루션을 제공합니다. 입출력 매핑이 주입식인 경우, 새로운 접근 방식은 각 뉴런에 대해 각 계층의 가중치 집합을 공동으로 최적화하여 단일 반복에서 역전파 방식으로 가중치를 최적화합니다. 입력-출력 매핑이 주입적이지 않은 경우(예: 분류 문제), 제안된 솔루션은 몇 번의 반복만으로 최종 솔루션을 얻을 수 있도록 쉽게 조정할 수 있습니다. 기존 솔루션에 비해 중요한 장점은 이러한 계산(레이어의 모든 뉴런에 대해)이 서로 독립적이기 때문에 병렬로 수행하여 주어진 레이어의 모든 가중치를 동시에 최적화할 수 있다는 것입니다. 또한, 모든 네트워크 레이어의 가중치를 최적화하는 데 필요한 정확한 계산 횟수(비인젝티브 매핑의 경우 반복당)를 얻을 수 있다는 점에서 실행 시간은 결정론적입니다. 시뮬레이션 및 경험적 결과에 따르면 제안된 방식인 BPLS는 잘 작동하며 정확도 측면에서는 기존 방식과 경쟁력이 있지만 실행 시간 측면에서는 기존 방식을 훨씬 능가합니다. 요약하자면, 새로운 방법은 구현이 간단하고, 기존 방법보다 경쟁력이 있으며, 계산적으로 더 효율적이고, 병렬 구현에 적합하다는 것입니다. [abs|pdf]

[14/79] An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

Keywords: bottlenecks_active_learning, annotation_efforts, samples_annotate
Abstract: 명령어 데이터세트에 대한 지도 미세 조정(SFT)은 최신 대규모 언어 모델(LLM)에서 관찰되는 놀라운 제로 샷 일반화 기능을 달성하는 데 중요한 역할을 해왔습니다. 그러나 명령어 데이터 세트에 포함된 작업의 수가 계속 증가함에 따라 명령어에 대한 고품질 응답을 생성하는 데 필요한 주석 작업은 엄청나게 많은 비용이 소요되고 있습니다. 능동적 학습은 라벨이 없는 풀에서 주석을 달 유용한 샘플의 하위 집합을 식별하는 데 효과적이지만, 높은 계산 비용이 LLM의 맥락에서 광범위하게 적용하는 데 걸림돌로 남아 있습니다. SFT의 주석 비용을 줄이고 능동적 학습의 계산 병목 현상을 피하기 위해 실험 설계를 사용할 것을 제안합니다. 실험 설계 기법은 라벨링할 가장 유익한 샘플을 선택하고, 일반적으로 불확실성 및/또는 다양성 개념을 극대화합니다. 이번 연구에서는 기존의 여러 실험 설계 기법과 새로운 실험 설계 기법을 평가하는 프레임워크를 구현했으며, 이러한 기법들이 계산 오버헤드가 거의 없이도 라벨 효율을 지속적으로 크게 향상시킨다는 사실을 발견했습니다. 생성 작업에서 우리의 방법은 무작위 샘플링에 필요한 주석 비용의 $50%$만으로 동일한 일반화 성능을 달성합니다. [abs|pdf]

[15/79] Exploring Conversational Agents as an Effective Tool for Measuring Cognitive Biases in Decision-Making

Keywords: biases_indicate_conversational, cognitive_biases, cognitive_bias_enable
Abstract: 휴리스틱과 인지적 편향은 인간의 의사 결정에 필수적인 요소입니다. 특정 인지 편향을 자동으로 감지하면 지능형 도구가 더 나은 의사 결정 지원을 제공할 수 있습니다. 현재 인지 편향의 존재를 감지하려면 수작업 실험과 사람의 해석이 필요합니다. 저희의 연구는 다양한 영역에서 다양한 인지 편향을 측정할 수 있는 효과적인 도구로서 대화형 에이전트를 탐구하는 것을 목표로 합니다. 우리가 제안하는 대화형 에이전트는 기존의 실험 설계와 문헌에서 확인된 다양한 실험 과제에 기반한 편향 측정 메커니즘을 통합합니다. 프레이밍 편향과 손실 회피 편향을 측정하기 위한 초기 실험을 통해 대화형 에이전트가 편향을 측정하는 데 효과적으로 사용될 수 있음을 확인했습니다. [abs|pdf]

[16/79] DQNC2S: DQN-based Cross-stream Crisis event Summarizer

Keywords: summarizing_multiple_disaster, crisisfacts_2022_benchmark, crisis_timeline_generation
Abstract: 여러 재난 관련 데이터 스트림을 동시에 요약하는 것은 기존의 검색 및 순위 재조정 전략이 다중 스트림 데이터의 고유한 중복성과 다중 쿼리 환경에서의 제한된 확장성으로 인해 어려움을 겪기 때문에 특히 어렵습니다. 이 연구는 딥 큐 네트워크를 통해 약한 주석에 기반한 위기 타임라인 생성에 대한 온라인 접근 방식을 제안합니다. 이 방법은 사람이 주석을 달거나 콘텐츠의 순위를 다시 매길 필요 없이 관련성 있는 텍스트를 즉석에서 선택합니다. 따라서 추론 시간이 입력 쿼리의 수와 무관합니다. 또한 제안된 접근 방식은 보상 기능에 중복 필터를 통합하여 스트림 간 콘텐츠 중복을 효과적으로 처리합니다. 달성된 ROUGE 및 BERTScore 결과는 CrisisFACTS 2022 벤치마크에서 최고 성능의 모델보다 우수합니다. [abs|pdf]

[17/79] LLMRS: Unlocking Potentials of LLM-Based Recommender Systems for Software Purchase

Keywords: generate_general_recommendations, user_tailored_recommendations, recommendation_systems
Abstract: 추천 시스템은 Spotify 재생 목록 추천부터 Amazon 제품 추천에 이르기까지 어디에나 존재합니다. 하지만 방법론이나 데이터 세트에 따라 이러한 시스템은 일반적으로 사용자 선호도를 파악하고 일반적인 추천을 생성하는 데 실패합니다. 최근 대규모 언어 모델(LLM)의 발전으로 사용자 쿼리를 분석하는 데 유망한 결과를 얻을 수 있습니다. 그러나 이러한 모델을 사용하여 사용자 선호도와 효율성을 파악하는 것은 여전히 미해결 과제로 남아 있습니다. 이 백서에서는 사전 학습된 LLM을 사용해 사용자 리뷰를 리뷰 점수로 인코딩하고 사용자 맞춤형 추천을 생성하는 LLM 기반 제로샷 추천 시스템인 LLMRS를 제안합니다. 소프트웨어 구매 사용 사례에 대한 실제 데이터 세트인 Amazon 제품 리뷰에서 LLMRS를 실험했습니다. 그 결과, LLMRS는 순위 기반 기준 모델보다 성능이 뛰어나면서도 제품 리뷰에서 의미 있는 정보를 성공적으로 포착하여 더욱 신뢰할 수 있는 추천을 제공하는 것으로 나타났습니다. [abs|pdf]

[18/79] Decoupling Pixel Flipping and Occlusion Strategy for Consistent XAI Benchmarks

Keywords: occlusion_based_explanations, usefulness_occlusion_based, usefulness_occlusion
Abstract: 특징 제거는 오클루전 기반 설명(샤플리 값)과 그 평가(픽셀 뒤집기, PF) 모두에서 설명 가능한 AI(XAI)의 핵심 구성 요소입니다. 그러나 오클루전 전략은 단순한 평균 대체부터 최첨단 확산 모델을 사용한 인페인팅까지 매우 다양할 수 있습니다. 이러한 모호성 때문에 오클루전 기반 접근법의 유용성이 제한됩니다. 예를 들어, PF 벤치마크는 상반된 순위로 이어집니다. 이는 경쟁하는 PF 측정치에 의해 증폭됩니다: 가장 영향력 있는 기능(MIF) 또는 가장 영향력이 적은 기능(LIF)부터 제거됩니다. 이 연구에서는 이러한 불일치 문제를 해결하기 위해 두 가지 상호보완적인 관점을 제안합니다. 첫째, 오클루전 기반 XAI에 대한 일반적인 비판, 즉 인위적인 샘플이 모델 평가의 신뢰성을 떨어뜨린다는 문제를 해결합니다. 우리는 R(eference)-Out-of-Model-Scope(OMS) 점수로 신뢰도를 측정할 것을 제안합니다. R-OMS 점수는 오클루전 전략을 체계적으로 비교할 수 있게 해주며, 일관된 PF 순위를 그룹화하여 불일치 문제를 해결합니다. 둘째, MIF와 LIF의 인사이트는 역으로 R-OMS 점수에 따라 달라진다는 것을 보여줍니다. 이를 활용하기 위해 MIF와 LIF 측정값을 대칭적 연관성 이득(SRG) 측정값으로 결합합니다. 이렇게 하면 기본 오클루전 전략에 대한 고유한 연결이 끊어지고 일관된 순위가 도출됩니다. 이렇게 하면 40개의 서로 다른 오클루전 전략 세트에 대해 검증하는 불일치 문제가 해결됩니다. [abs|pdf]

[19/79] Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but Inconsistently

Keywords: inheritance_predicting_semantic, predicting_semantic_properties, semantic_properties
Abstract: 최근의 제로 샷 평가는 의미 추출을 수행하는 언어 모델(LM)의 능력에 중요한 한계가 있음을 강조했습니다. 그러나 이제 LM이 문맥 내 예제나 지침과 같은 실험적 컨텍스트가 있을 때 급격한 성능 향상을 보일 수 있다는 사실은 잘 알려져 있습니다. 그렇다면 이전에 연구된 의미에 민감한 작업에 얼마나 잘 적용될 수 있을까요? 이 글에서는 실험적 문맥이 LM이 속성 상속, 즉 이전에 실패한 것으로 밝혀진 새로운 개념의 의미적 속성을 예측하는 작업을 수행할 때 LM의 견고성을 어느 정도 향상시킬 수 있는지에 대한 사례 연구를 제시합니다. 문맥 내 예제와 지침의 특성을 신중하게 제어한 결과, 실제로 LM에서 사소하지 않은 속성 상속 동작을 유도할 수 있다는 사실이 밝혀졌습니다. 그러나 이러한 능력은 일관성이 없습니다. 최소한의 작업 재구성을 통해 일부 LM은 입력에서 얕은 비의미적 휴리스틱을 포착하는 것으로 밝혀졌으며, 이는 의미적 속성 추론의 계산 원리를 LM이 아직 숙달하지 못했음을 시사합니다. [abs|pdf]

[20/79] CCFC: Bridging Federated Clustering and Contrastive Learning

Keywords: contrastive_federated_clustering, cluster_contrastive_federated, federated_clustering_representation
Abstract: 연합 클러스터링은 연합 시나리오를 위한 중앙 집중식 클러스터링의 필수 확장 기능으로, 여러 데이터 보유 클라이언트가 데이터를 로컬에 유지하면서 공동으로 데이터를 그룹화할 수 있게 해줍니다. 중앙 집중식 시나리오에서 표현 학습에 기반한 클러스터링은 고차원의 복잡한 데이터를 처리하는 데 상당한 발전을 가져왔습니다. 그러나 연합 클러스터링과 표현 학습의 조합은 아직 충분히 연구되지 않은 상태입니다. 이러한 간극을 메우기 위해 먼저 클러스터링 친화적인 표현을 학습하기 위한 클러스터 대비 모델을 맞춤화합니다. 그런 다음, 이 모델을 클러스터-대비 연합 클러스터링(CCFC)이라는 새로운 연합 클러스터링 방법을 제안하기 위한 기초로 활용합니다. 표현 학습의 이점을 누리는 CCFC의 클러스터링 성능은 경우에 따라 최상의 기준 방법의 두 배에 달하기도 합니다. 가장 관련성이 높은 베이스라인과 비교했을 때, 가장 눈에 띄는 사례에서 최대 0.4155의 상당한 NMI 점수 향상을 가져옵니다. 또한 CCFC는 실질적인 관점에서 디바이스 장애를 처리하는 데 있어서도 우수한 성능을 보여줍니다. [abs|pdf]

[21/79] Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential Recommendations

Keywords: ada_retrieval_adaptive, ada_retrieval_comprises, propose_ada_retrieval
Abstract: 검색 모델은 특정 사용자의 선호도에 맞는 소수의 아이템 후보를 선택하는 것을 목표로 합니다. 랭커와 같은 후속 모델은 아이템 후보의 품질에 크게 의존하기 때문에 대규모 추천 시스템에서 중요한 역할을 합니다. 그러나 대부분의 기존 검색 모델은 단일 라운드 추론 패러다임을 사용하므로 사용자 선호도의 동적 특성을 적절히 포착하지 못하고 아이템 공간의 한 영역에 갇혀 있을 수 있습니다. 이 백서에서는 전체 항목 공간에서 잠재적인 후보를 더 잘 포착하기 위해 사용자 표현을 반복적으로 개선하는 추천 시스템을 위한 적응형 다라운드 검색 패러다임인 Ada-Retrieval을 제안합니다. Ada-Retrieval은 항목 및 사용자 표현에 컨텍스트 정보를 주입하도록 설계된 항목 표현 어댑터와 사용자 표현 어댑터라는 두 가지 핵심 모듈로 구성됩니다. 이 프레임워크는 모델에 구애받지 않는 설계를 유지하므로 RNN이나 트랜스포머와 같은 다양한 백본 모델과 원활하게 통합할 수 있습니다. 널리 사용되는 세 가지 공개 데이터 세트에서 5개의 강력한 순차적 추천 모델을 백본 모델로 통합하여 실험을 수행했습니다. 그 결과 Ada-Retrieval이 다양한 기본 모델의 성능을 크게 향상시키며, 여러 데이터 세트에서 일관된 개선이 관찰된다는 것을 입증했습니다. 코드와 데이터는 다음 https URL에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[22/79] Every Node is Different: Dynamically Fusing Self-Supervised Tasks for Attributed Graph Clustering

Keywords: attributed_graph_clustering, supervised_learning_ssl, self_supervised_learning
Abstract: 어트리뷰티드 그래프 클러스터링은 노드를 여러 그룹으로 분할하는 비지도 작업입니다. 자기 지도 학습(SSL)은 이 작업을 처리하는 데 큰 잠재력을 보여주며, 최근의 일부 연구에서는 성능을 더욱 향상시키기 위해 여러 SSL 작업을 동시에 학습합니다. 현재는 모든 그래프 노드에 대해 서로 다른 SSL 작업에 동일한 가중치가 할당됩니다. 그러나 이웃 노드가 서로 다른 그룹에 속해 있는 일부 그래프 노드는 SSL 작업에 상당히 다른 가중치를 부여하는 것을 관찰할 수 있습니다. 이 백서에서는 다양한 노드에 대한 SSL 작업의 가중치를 동적으로 학습하고 서로 다른 SSL 작업에서 학습한 임베딩을 융합하여 성능을 향상시키는 방법을 제안합니다. 이를 위해 혁신적인 그래프 클러스터링 접근 방식, 즉 동적 융합 자기 지도 학습(DyFSS)을 설계합니다. 특히, DyFSS는 게이팅 네트워크에서 파생된 고유한 가중치를 사용하여 다양한 SSL 작업에서 추출한 특징을 융합합니다. 게이팅 네트워크를 효과적으로 학습하기 위해 의사 레이블과 그래프 구조를 통합하는 이중 수준의 자기 지도 전략을 설계합니다. 5개의 데이터 세트에 대한 광범위한 실험 결과, DyFSS는 정확도 지표에서 최첨단 멀티태스크 SSL 방법보다 최대 8.66% 더 뛰어난 성능을 보였습니다. DyFSS의 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[23/79] Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints

Keywords: connectionist_techniques_phonetic, phonetic_speech_recognition, speech_recognition
Abstract: 이 논문에서는 강력한 지연 시간 제약이 있는 음성 음성 인식에서 연결주의 기법을 사용하는 방법을 설명합니다. 이러한 제약 조건은 음성 신호에서 실시간으로 합성 얼굴의 입술 움직임을 도출하는 작업에서 음성 문자열을 조음 합성기에 공급함으로써 부과됩니다. 특히 다양한 지연 조건에서 다층 퍼셉트론이 학습한 시간 진화 모델과 비터비 디코더가 부과한 전이 모델 간의 상호 작용을 분석하는 데 주의를 기울였습니다. 언어 모델(LM)의 시간 종속성을 매개변수로 제어하는 두 가지 실험을 수행했습니다. 그 결과 신경망 토폴로지, LM의 시간 종속성 길이, 디코더 지연 시간 등 세 가지 요인 간에 강력한 상호 작용이 있는 것으로 나타났습니다. [abs|pdf]

[24/79] Mapping Transformer Leveraged Embeddings for Cross-Lingual Document Representation

Keywords: recommending_documents_languages, mapped_cross_lingual, document_representations_tldrs
Abstract: 문서 추천 시스템은 웹에서 관련 콘텐츠를 찾는 도구로 자리 잡았습니다. 그러나 이러한 시스템은 쿼리 언어와 다른 언어로 된 문서를 추천하는 데는 한계가 있어 모국어가 아닌 언어로 된 리소스를 간과할 수 있습니다. 이 연구는 다국어 도메인에 매핑된 TLDR(Transformer 활용 문서 표현)을 사용하여 여러 언어의 문서를 표현하는 데 중점을 둡니다. 유럽연합에서 선택한 5개 언어의 조합을 나타내는 20개 언어 쌍에 대해 세 가지 매핑 방법을 사용하여 사전 학습된 4개의 다국어 트랜스포머 모델(mBERT, mT5 XLM RoBERTa, ErnieM)을 평가했습니다. 매핑되지 않은 언어와 비교하여 매핑된 TLDR의 효과를 측정하기 위해 짝 검색률 및 상호 순위와 같은 메트릭을 사용했습니다. 이 결과는 사전 학습된 트랜스포머와 매핑 접근 방식을 통해 달성한 언어 간 표현의 힘을 강조하며, 언어 연결을 넘어 두 개의 특정 언어 사이로 확장할 수 있는 유망한 방향을 제시합니다. [abs|pdf]

[25/79] Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

Keywords: information_evaluating_translations, machine_translation_evaluation, translation_evaluation_tasks
Abstract: 대규모 언어 모델(LLM)은 기계 번역 평가 작업에서 괄목할 만한 성과를 거두었지만, 제공된 데이터를 활용하여 평가를 수행하는 방법에 대해서는 여전히 지식의 격차가 존재합니다. 이 연구는 LLM이 번역을 평가할 때 소스 및 참조 정보를 어떻게 활용하는지를 살펴보고, 궁극적으로는 LLM의 작동 메커니즘을 더 잘 이해하는 것을 목표로 합니다. 이를 위해 다양한 입력 모드와 모델 유형에 걸쳐 통제된 실험을 설계하고, 소스 정보와 참조 정보의 유용성을 파악하기 위해 거시적 및 세분화된 프롬프트를 모두 사용합니다. 놀랍게도 참조 정보가 평가 정확도를 크게 향상시키는 반면, 소스 정보는 때때로 비생산적인 것으로 나타나 번역 평가에 LLM을 사용할 때 언어 간 기능이 부족하다는 것을 알 수 있었습니다. 또한 LLM의 번역 오류 감지를 위한 메타평가를 실시하여 유사한 현상을 관찰했습니다. 이러한 연구 결과는 기계 번역 평가 작업에서 더 나은 성능을 달성하기 위해 LLM의 교차 언어 기능을 충분히 활용하는 LLM에 대한 잠재적인 연구 방향을 제시합니다. [abs|pdf]

[26/79] A General Benchmark Framework is Dynamic Graph Neural Network Need

Keywords: dynamic_graph_learning, dynamic_graph_models, advancements_dynamic_graph
Abstract: 동적 그래프 학습은 진화하는 관계와 시간적 역학을 가진 실제 시스템을 모델링하는 데 매우 중요합니다. 그러나 현재 연구에는 통합된 벤치마크 프레임워크가 없어 동적 그래프 모델에 대한 평가가 부정확한 경우가 많습니다. 이 백서에서는 동적 그래프 학습의 중요성과 다양한 영역에서의 응용을 강조합니다. 또한 시간적 역학, 진화하는 그래프 구조, 다운스트림 작업 요구사항을 포착하는 표준화된 벤치마크 프레임워크의 필요성을 강조합니다. 통합된 벤치마크를 구축하면 연구자들이 기존 모델의 강점과 한계를 이해하고 혁신을 촉진하며 동적 그래프 학습을 발전시키는 데 도움이 될 것입니다. 결론적으로, 이 백서에서는 표준화된 벤치마크 프레임워크의 부재를 현재 동적 그래프 학습 연구의 한계로 지적합니다. 이러한 프레임워크는 정확한 모델 평가를 용이하게 하고, 동적 그래프 학습 기법의 발전을 촉진하며, 실제 애플리케이션을 위한 보다 효과적인 모델 개발을 가능하게 할 것입니다. [abs|pdf]

[27/79] Treatment-Aware Hyperbolic Representation Learning for Causal Effect Estimation with Social Networks

Keywords: networks_learn_representation, representation_hidden_confounders, confounder_representation
Abstract: 관찰 데이터로부터 개별 치료 효과(ITE)를 추정하는 것은 여러 영역에서 중요한 가치를 지닌 중요한 연구 주제입니다. 숨겨진 교란 요인을 식별하는 방법은 ITE 추정의 핵심 과제입니다. 최근 연구에서는 이 문제를 해결하기 위해 소셜 네트워크의 구조적 정보를 통합하여 주목할 만한 발전을 이루었습니다. 그러나 이러한 방법은 그래프 신경망을 사용하여 유클리드 공간에서 숨겨진 교란 요인의 표현을 학습하는데, (1) 소셜 네트워크는 종종 스케일이 없는 구조를 보이는 반면 유클리드 임베딩은 이러한 그래프를 임베딩하는 데 사용될 때 높은 왜곡이 발생하고 (2) 소셜 네트워크 내의 각 자아 중심 네트워크는 치료 관련 특성을 나타내며 숨겨진 교란 요인의 중요한 패턴을 암시한다는 두 가지 중요한 문제를 무시하고 있습니다. 이러한 문제를 해결하기 위해 저희는 치료 인식 쌍곡선 표현 학습(TAHyper)이라는 새로운 방법을 제안합니다. 첫째, TAHyper는 쌍곡선 공간을 사용해 소셜 네트워크를 인코딩함으로써 유클리드 임베딩으로 인한 교란자 표현의 왜곡을 효과적으로 줄입니다. 둘째, 개인과 이웃이 동일한 대우를 받는지 여부를 식별하여 숨겨진 교란자의 표현을 향상시키는 대우 인식 관계 식별 모듈을 설계합니다. 두 가지 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 이 방법의 우수성을 입증합니다. [abs|pdf]

[28/79] Multimodal Learning for detecting urban functional zones using remote sensing image and multi-semantic information

Keywords: images_multi_semantic, remote_sensing, addition_remote_sensing
Abstract: 도시 관심 지역(AOI)은 경계가 정의된 통합된 도시 기능 구역을 의미합니다. 도시 상거래의 급속한 발전으로 인해 AOI를 정의할 때 보다 정밀한 요건에 대한 요구가 증가하고 있습니다. 하지만 기존 연구는 주로 도시 계획이나 지역 경제 분석을 위한 광범위한 AOI 마이닝에 집중되어 있어 모바일 인터넷 온-오프라인 비즈니스의 정확한 요구사항을 충족시키지 못하고 있습니다. 이러한 비즈니스는 특정 커뮤니티, 학교, 병원까지 정확한 정보를 필요로 합니다. 이 논문에서는 원격 감지 이미지와 다중 시맨틱스 참조 정보를 사용하여 AOI 펜스 폴리곤을 감지하기 위한 엔드투엔드 멀티모달 딥러닝 알고리즘을 제안합니다. 그런 다음 동적 인간 이동성 및 물류 주소 정보를 통합하는 캐스케이드 모듈을 통해 적시성을 평가합니다. 구체적으로는 먼저 특정 카테고리의 관심 지점(POI)을 선택하고, 이를 통해 해당 원격 감지 이미지, 인근 POI, 도로 노드, 사람 이동성, 물류 주소를 불러와 트랜스포머 인코더-디코더 아키텍처 기반의 멀티모달 감지 모델인 AOITR을 구축합니다. 이 모델에는 원격 센싱 이미지 외에도 핵심 POI와 도로 노드를 포함한 다중 의미 정보가 내장되어 있으며, 트랜스포머 디코더의 쿼리 내용 부분으로 재구성되어 AOI 폴리곤을 생성합니다. 한편, 계단식 피드포워드 네트워크를 통해 상대적으로 동적인 사람의 이동성, 주변 POI, 물류 주소의 분포 특징을 AOI 신뢰도 평가에 활용합니다. 실험 결과는 우리의 알고리즘이 기존의 두 가지 방법보다 훨씬 뛰어난 성능을 발휘한다는 것을 보여줍니다. [abs|pdf]

[29/79] Medical Dialogue Generation via Intuitive-then-Analytical Differential Diagnosis

Keywords: medical_dialogue_generation, medical_dialogue_systems, dialogue_generation_framework
Abstract: 의료 대화 시스템은 신속한 진단, 치료 계획, 건강 상담을 제공할 수 있는 잠재력을 가지고 있어 연구계의 주목을 받고 있습니다. 의료 대화에서 올바른 진단은 향후 상담의 토대가 되기 때문에 매우 중요합니다. 임상의는 일반적으로 직관적 추론과 분석적 추론을 모두 사용하여 감별 진단을 내립니다. 이러한 추론 과정을 통해 다양한 질병에 대한 가설을 세우고 검증하며 포괄적이고 엄격한 진단을 내리기 위해 노력합니다. 그러나 최근 의료 대화 생성에 관한 연구들은 감별 진단 모델링의 중요성을 간과하고 있어 이러한 시스템의 실제 적용에 걸림돌이 되고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 직관적-분석적 감별 진단(IADDx)을 이용한 의료 대화 생성 프레임워크를 제안합니다. 이 방법은 검색 기반의 직관적 연상을 통한 감별 진단으로 시작하여 그래프 강화 분석 절차를 통해 이를 구체화합니다. 그 결과 도출된 감별 진단은 의학 지식을 검색하고 응답 생성을 안내하는 데 사용됩니다. 두 가지 데이터 세트에 대한 실험 결과를 통해 이 방법의 유효성을 검증합니다. 또한, 중간 결과와 그래프 기반 진단 경로를 생성하여 임상의와 환자 모두 진단 과정을 이해하는 데 프레임워크가 어떻게 도움이 되는지 보여줍니다. [abs|pdf]

[30/79] Intelligent Data-Driven Architectural Features Orchestration for Network Slicing

Keywords: capabilities_network_slicing, network_slicing_architectures, embedded_network_slicing
Abstract: 네트워크 슬라이싱은 차세대 모바일 네트워크(NGMN)와 차량용 인터넷(IoV) 및 산업용 IoT(IIoT)와 같은 다양한 새로운 시스템을 위한 중요한 요소이자 트렌드입니다. 오케스트레이션과 머신 러닝은 네트워크 슬라이싱 프로세스에서 중요한 역할을 하는 핵심 요소로, NS 프로세스는 리소스와 기능을 오케스트레이션해야 하며 머신 러닝은 잠재적으로 오케스트레이션 프로세스를 최적화할 수 있기 때문입니다. 그러나 기존의 네트워크 슬라이싱 아키텍처는 슬라이싱 프로세스에서 기능과 리소스를 오케스트레이션하는 지능적인 접근 방식을 정의할 수 있는 기능이 부족합니다. 이 백서에서는 네트워크 슬라이싱 아키텍처의 기능 및 성능에 대한 머신 러닝 기반 오케스트레이션에 대해 설명합니다. 먼저 슬라이싱 계획, 구성, 커미셔닝, 운영 단계에서의 슬라이스 리소스 오케스트레이션과 할당을 분석합니다. 이어서 최적화된 아키텍처 기능 오케스트레이션의 필요성을 강조하고, ML 내장 에이전트, 지식 습득을 위한 연합 학습 내재적 메커니즘, 네트워크 슬라이싱 아키텍처에 내장된 데이터 중심 접근 방식을 사용할 것을 권장합니다. SFI2 네트워크 슬라이싱 아키텍처에 내장된 아키텍처 기능 오케스트레이션 사례를 추가로 개발합니다. 분산된 임베디드 및 협력 ML 에이전트를 사용하여 SFI2 아키텍처를 위한 공격 방지 보안 메커니즘을 개발합니다. 이 사례는 아키텍처 기능의 오케스트레이션 프로세스와 이점을 설명하며 네트워크 슬라이싱 프로세스에서 아키텍처 기능의 중요성을 강조합니다. [abs|pdf]

[31/79] PCB-Vision: A Multiscene RGB-Hyperspectral Benchmark Dataset of Printed Circuit Boards

Keywords: rgb_hyperspectral_imaging, pcb_vision, insights_waste_stream
Abstract: 전자 폐기물 재활용이라는 중요한 주제를 다루는 이 기부는 의사 결정 및 프로세스 제어의 기반이 되는 첨단 자동 데이터 처리 파이프라인을 개발하는 데 전념하고 있습니다. 순환 경제와 유엔(UN)의 지속 가능한 개발 목표(SDG)의 광범위한 목표에 부합하는 이 연구는 RGB 및 초분광 이미징 데이터를 활용한 비침습적 분석 방법을 활용하여 재활용 효율 최적화를 위한 전자 폐기물 스트림 구성에 대한 양적, 질적 인사이트를 제공합니다. 이 백서에서는 가시광선 및 근적외선(VNIR) 범위의 고분해능 하이퍼스펙트럼 데이터 큐브와 짝을 이루는 53개의 고공간 해상도 RGB 이미지로 구성된 선구적인 RGB-하이퍼스펙트럼 인쇄회로기판(PCB) 벤치마크 데이터 세트인 'PCB-Vision'을 소개합니다. 오픈 사이언스 원칙에 기반한 데이터 세트는 집적 회로(IC), 커패시터, 커넥터의 세 가지 주요 PCB 구성 요소에 초점을 맞춘 고품질의 실측 데이터를 통해 연구자에게 포괄적인 리소스를 제공합니다. 또한 제안된 데이터 세트에 대한 광범위한 통계 조사와 함께 U-Net, Attention U-Net, Residual U-Net, LinkNet, DeepLabv3+를 비롯한 여러 최신(SOTA) 모델의 성능을 제공합니다. 이러한 다중 장면 벤치마크 데이터 세트를 기준 코드와 함께 공개적으로 공유함으로써, 컴퓨터 비전 및 원격 센싱을 포함하되 이에 국한되지 않는 다양한 과학 커뮤니티에서 투명하고 추적 가능하며 비교 가능한 고급 데이터 처리 개발을 촉진할 수 있기를 바랍니다. 협력적이고 포용적인 과학 커뮤니티를 지원하겠다는 Facebook의 약속을 강조하며, 코드, 데이터, 실측 데이터, 마스크를 포함한 모든 자료는 이 https URL에서 액세스할 수 있습니다. [abs|pdf]

[32/79] ML-On-Rails: Safeguarding Machine Learning Models in Software Systems A Case Study

Keywords: safeguarding_ml_models, safeguard_ml_models, ml_model_prototyping
Abstract: 기계 학습(ML)은 특히 대규모 언어 모델(LLM)의 등장과 함께 다양한 산업 분야에 큰 변화를 가져왔습니다. 그러나 소프트웨어 시스템 내에서 ML 모델 프로토타이핑에서 프로덕션 사용으로 전환하는 데는 몇 가지 과제가 있습니다. 이러한 과제는 주로 안전, 보안, 투명성 확보와 관련이 있으며, 이는 결과적으로 ML 모델의 전반적인 견고성과 신뢰성에 영향을 미칩니다. 이 백서에서는 ML 모델을 보호하고, 다양한 ML 작업을 위해 잘 정의된 엔드포인트 인터페이스를 구축하며, ML 공급자와 ML 소비자(소프트웨어 엔지니어) 간의 명확한 커뮤니케이션을 위해 설계된 프로토콜인 ML-On-Rails에 대해 소개합니다. ML-On-Rails는 프로덕션 ML과 관련된 고유한 문제를 식별하는 탐지 기능을 통합하여 ML 모델의 견고성을 강화합니다. 유니티는 MoveReminder 애플리케이션의 실제 사례 연구를 통해 ML-On-Rails 프로토콜을 평가했습니다. 이 평가를 통해 프로덕션 환경에서 ML 모델을 보호하는 것이 얼마나 중요한지 강조했습니다. [abs|pdf]

[33/79] Frequency Masking for Universal Deepfake Detection

Keywords: universal_deepfake_detection, deepfake_detection_goal, deepfake_detection
Abstract: 우리는 보편적인 딥페이크 탐지를 연구합니다. 우리의 목표는 다양한 생성 AI 접근법, 특히 딥페이크 탐지기의 훈련 과정에서 보이지 않는 새로운 접근법에서 합성 이미지를 탐지하는 것입니다. 보편적인 딥페이크 탐지를 위해서는 뛰어난 일반화 기능이 필요합니다. 최근 제안된 마스킹 이미지 모델링이 자가 지도 사전 학습에서 뛰어난 일반화 능력을 입증한 것에 착안하여, 범용 딥페이크 탐지를 위한 마스킹 이미지 모델링을 최초로 시도합니다. 딥페이크 검출기 훈련에서 공간 및 주파수 영역 마스킹을 연구합니다. 경험적 분석을 바탕으로 주파수 마스킹을 통한 새로운 딥페이크 검출기를 제안합니다. 주파수 영역에 초점을 맞춘다는 점에서 공간 영역 탐지를 주로 연구하는 대다수의 연구와 차별화됩니다. 비교 분석 결과, 기존 방식에 비해 상당한 성능 향상을 보였습니다. 코드와 모델은 공개적으로 사용 가능합니다. [abs|pdf]

[34/79] Improving the Detection of Small Oriented Objects in Aerial Images

Keywords: objects_attention_features, oriented_aerial_detectors, objects_aerial_images
Abstract: 대규모 항공 이미지에서 작은 픽셀 면적을 나타내는 작은 방향성 물체는 크기와 방향성 때문에 검출이 어렵습니다. 기존의 방향성 항공 검출기들은 유망한 결과를 보여주었지만 주로 물체의 크기보다는 방향성 모델링에 초점을 맞추고 있습니다. 본 연구에서는 방향성 객체 검출 모델의 분류 및 회귀 작업을 강화하여 항공 영상에서 작은 방향성 객체를 정확하게 검출하는 방법을 제안했습니다. 이를 위해 두 가지 손실로 구성된 주의점 네트워크를 설계했습니다: 유도-주의 손실(GALoss)과 박스-포인트 손실(BPLoss)입니다. GALoss는 인스턴스 분할 마스크를 기준 진실로 사용하여 작은 물체 감지를 개선하는 데 필요한 주의 특징을 학습합니다. 그런 다음 이러한 주의 특징을 사용하여 목표 지향 경계 상자에 대한 점의 위치를 결정하는 BPLoss의 박스 포인트를 예측합니다. 실험 결과는 작은 물체 인스턴스가 있는 표준 방향 항공 데이터 세트(DOTA-v1.5)와 해양 관련 데이터 세트(HRSC2016)에서의 관심 지점 네트워크의 효과를 보여줍니다. 코드는 공개적으로 사용 가능합니다. [abs|pdf]

[35/79] Expected Shapley-Like Scores of Boolean Functions: Complexity and Applications to Probabilistic Databases

Keywords: computations_expected_shapley, probabilistic_databases, shapley_values_originating
Abstract: 게임 이론에서 시작되어 설명 가능한 AI에서 점점 더 각광받고 있는 샤플리 값은 반자프 값과 같은 다른 유사한 파워 인덱스와 함께 데이터베이스에 대한 쿼리 답변에서 사실의 기여도를 평가하기 위해 제안되었습니다. 이 연구에서는 이러한 샤플리와 유사한 점수를 확률론적 설정에 적용하여 기대값을 계산하는 것을 목표로 합니다. 예상 샤플리 값과 부울 함수의 예상 값의 계산이 다항식 시간에서 상호 환원 가능하므로 동일한 트랙터빌리티 환경을 얻을 수 있음을 보여줍니다. 부울 함수가 결정론적 분해 가능 회로로 표현되는 특정 트랙터블 케이스를 조사하여 이 설정에 대한 다항식 시간 알고리즘을 설계합니다. 데이터베이스 출처를 통해 확률론적 데이터베이스에 적용하고, 표준 벤치마크를 통해 이 알고리즘의 실현 가능성을 실험적으로 검증하는 ProvSQL 시스템 내에서 이 알고리즘을 효과적으로 구현하는 방법을 제시합니다. [abs|pdf]

[36/79] Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation

Keywords: instruction_tuning_datasets, based_instruction_translation, datasets_large_language
Abstract: 이 백서에서는 수동 주석에 의존하지 않고 대규모 언어 모델(LLM)을 위한 고품질 명령어 튜닝 데이터 세트를 생성하는 새로운 접근 방식인 Kun을 소개합니다. 명령어 역번역 및 답변 다듬기에 기반한 자가 학습 알고리즘을 채택한 Kun은 Wudao, Wanjuan, SkyPile 등 다양한 소스의 레이블이 없는 데이터를 활용하여 백만 개가 넘는 중국어 명령어 데이터 포인트로 구성된 방대한 데이터 세트를 생성합니다. 이 접근 방식은 가장 효과적인 인스트럭션-출력 쌍을 정제하고 선택하기 위해 자체 큐레이션 프로세스를 사용함으로써 기존 방식에서 크게 벗어납니다. 다양한 벤치마크에서 6B-파라미터 이 모델을 사용한 실험을 통해 쿤의 견고성과 확장성이 입증되었습니다. 이 방법론의 핵심적인 기여는 데이터 보존과 명확성을 향상시키는 알고리즘의 발전과 비용과 시간이 많이 소요되는 수동 주석에 대한 의존도를 크게 줄여주는 혁신적인 데이터 생성 방식에 있습니다. 이 방법론은 LLM의 명령어 추종 기능을 개선하기 위한 확장 가능하고 효율적인 솔루션을 제시하며, 다양한 분야에 걸쳐 적용될 수 있는 중요한 의미를 지니고 있습니다. 코드와 데이터 세트는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[37/79] PersianMind: A Cross-Lingual Persian-English Large Language Model

Keywords: large_language_models, open_source_bilingual, large_language_model
Abstract: 대규모 언어 모델은 다양한 언어 작업에서 놀라운 숙련도를 보이며 다양한 영역에 걸쳐 광범위한 지식을 보유하고 있습니다. 영어에서 가장 뛰어난 성능을 발휘하지만 다른 언어에 대한 능력도 주목할 만합니다. 반면, LLaMa와 같은 오픈 소스 모델은 주로 영어 데이터 세트를 기반으로 학습되기 때문에 비영어권 언어에서는 성능이 떨어집니다. 이 백서에서는 페르시아어에서 클로즈드 소스 GPT-3.5 터보와 비슷한 성능을 보이는 오픈 소스 이중 언어 대규모 언어 모델인 페르시아어 마인드(PersianMind)를 소개합니다. 10,000개의 페르시아어 토큰으로 LLaMa2의 어휘를 확장하고 약 20억 개의 페르시아어 토큰으로 구성된 데이터 세트에서 훈련함으로써, 우리의 접근 방식이 모델의 영어 지식을 보존하고 전이 학습을 사용하여 한 언어에서 다른 언어로 작업 지식을 옮기는 데 탁월하다는 것을 보여 줍니다. [abs|pdf]

[38/79] Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers

Keywords: generated_code_detection, perturbs_code_corpus, code_corpus
Abstract: 대규모 언어 모델은 코드 생성에 전례 없는 물결을 일으켰습니다. 상당한 발전을 이루었지만, 기계와 사람이 작성한 소스 코드의 구분이 모호해져 소프트웨어 아티팩트의 무결성 및 진위성 문제를 야기했습니다. DetectGPT와 같은 이전 방법은 기계 생성 텍스트를 식별하는 데 효과적임이 입증되었지만 기계 생성 코드의 고유 패턴을 식별하고 활용하지 못합니다. 따라서 코드에 적용할 경우 그 적용성이 떨어집니다. 이 백서에서는 기계 작성 코드와 사람이 작성한 코드를 특징짓는 특정 패턴을 주의 깊게 연구합니다. 길이, 어휘 다양성, 자연스러움과 같은 코드 속성을 엄격하게 분석하여 각 소스에 내재된 고유한 패턴을 드러냅니다. 특히 코드의 구조적 세분화가 코드의 출처를 식별하는 데 중요한 요소라는 점에 주목했습니다. 이러한 연구 결과를 바탕으로 코드의 고유한 구조적 패턴을 포착하여 DetectGPT를 개선하는 새로운 기계 생성 코드 탐지 방법인 DetectCodeGPT를 제안합니다. 교란을 위해 외부 LLM에 의존하는 기존 기법과는 달리, DetectCodeGPT는 공백과 줄 바꿈을 전략적으로 삽입하여 코드 코퍼스를 교란함으로써 효과와 효율성을 모두 보장합니다. 실험 결과에 따르면 이 접근 방식은 기계 생성 코드를 탐지하는 데 있어 최첨단 기술보다 훨씬 뛰어난 성능을 발휘합니다. [abs|pdf]

[39/79] 3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp Features and Parametric Control?

Keywords: text_driven_3d, 3d_object_generation, manipulating_3d_software
Abstract: 최근 암시적 3D 표현과 생성 모델의 발전으로 3D 오브젝트 생성 분야가 크게 발전했습니다. 그러나 산업 디자인 및 제조와 같은 분야에서 매우 중요한 파라메트릭 제어하에 정의된 선명한 특징을 가진 형상을 정확하게 모델링하는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 격차를 해소하기 위해 유니티는 프로그램 합성을 통해 3D 소프트웨어를 조작하는 텍스트 기반 3D 형상을 생성하기 위해 대규모 언어 모델(LLM)을 사용하는 프레임워크를 소개합니다. 또한 산업 형상의 3D 파라메트릭 모델링을 위해 특별히 맞춤화된 데이터 세트인 3D-PreMise를 소개하며, 제안된 파이프라인 내에서 최첨단 LLM을 탐색할 수 있도록 설계되었습니다. 유니티의 연구는 효과적인 생성 전략을 제시하고 시각적 인터페이스를 사용하여 LLM의 자체 수정 기능을 심층적으로 탐구합니다. 유니티의 연구는 산업 애플리케이션을 위한 3D 파라메트릭 모델링에서 LLM의 잠재력과 한계를 모두 강조합니다. [abs|pdf]

[40/79] Improving Graph Convolutional Networks with Transformer Layer in social-based items recommendation

Keywords: ratings_social_networks, gcn_predicting_ratings, predicting_ratings_social
Abstract: 이 연구에서는 소셜 네트워크에서 평점을 예측하기 위한 GCN을 개선하기 위한 접근 방식을 제안했습니다. 이 모델은 여러 계층의 트랜스포머 아키텍처로 구성된 표준 모델에서 확장된 것입니다. 이 백서의 주요 초점은 네트워크에 노드를 임베딩하기 위한 인코더 아키텍처에 있습니다. 그래프 기반 컨볼루션 레이어의 임베딩 레이어를 사용하면 주의 메커니즘이 특징 공간을 재배치하여 다운스트림 작업을 위한 보다 효율적인 임베딩을 얻을 수 있습니다. 실험 결과, 우리가 제안한 아키텍처가 기존의 링크 예측 작업에서 GCN보다 더 나은 성능을 달성하는 것으로 나타났습니다. [abs|pdf]

[41/79] From Automation to Augmentation: Large Language Models Elevating Essay Scoring Landscape

Keywords: learners_automated, learners_automated_essay, automate_grading
Abstract: 제2언어 학습자에게는 즉각적이고 개인화된 피드백을 받는 것이 매우 중요하며, 자동 에세이 채점(AES) 시스템은 인간 강사가 부재할 때 중요한 리소스입니다. 이 연구는 AES를 위한 도구로서 대규모 언어 모델(LLM), 특히 GPT-4와 미세 조정된 GPT-3.5의 효과를 조사합니다. 공개 및 비공개 데이터 세트에 대해 수행된 종합적인 실험을 통해 LLM 기반 AES 시스템의 놀라운 장점을 강조합니다. 여기에는 뛰어난 정확도, 일관성, 일반화 가능성, 해석 가능성 등이 포함되며, 미세 조정된 GPT-3.5는 기존 등급 모델을 능가합니다. 또한 초보자 채점자와 전문가 채점자가 모두 참여하는 LLM 지원 인간 평가 실험을 수행합니다. 그 결과, LLM이 채점 프로세스를 자동화할 뿐만 아니라 채점자의 성과도 향상시킨다는 중요한 사실을 발견했습니다. 초보 채점자는 LLM이 생성한 피드백을 제공받으면 전문가와 동등한 수준의 정확도를 달성하는 반면, 전문 채점자는 더 효율적이고 일관성 있는 평가를 유지할 수 있습니다. 이러한 결과는 교육 기술에서 LLM의 잠재력을 강조하며, 인간과 AI 간의 효과적인 협업을 위한 기반을 마련하고 궁극적으로 AI가 생성한 피드백을 통해 혁신적인 학습 경험을 제공할 수 있음을 보여줍니다. [abs|pdf]

[42/79] UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer

Keywords: prune_efficient_cnn, efficient_cnn_models, efficient_cnn
Abstract: 네트워크 채널을 줄이는 기존의 채널별 가지치기 방법은 깊이별 컨볼루션 레이어와 널리 사용되는 역방향 잔여 블록과 같은 특정 효율적인 모듈을 사용하는 효율적인 CNN 모델을 효과적으로 가지치기하는 데 어려움을 겪습니다. 네트워크 깊이를 줄이는 이전의 깊이 가지치기 방법은 일부 정규화 레이어가 존재하기 때문에 일부 효율적인 모델을 가지치기하는 데 적합하지 않습니다. 또한 활성화 레이어를 직접 제거하여 서브넷을 미세 조정하면 원래 모델 가중치가 손상되어 가지치기된 모델이 높은 성능을 달성하는 데 방해가 됩니다. 이러한 문제를 해결하기 위해 효율적인 모델을 위한 새로운 깊이 가지치기 방법을 제안합니다. 우리의 접근 방식은 서브넷에 대한 새로운 블록 가지치기 전략과 점진적 훈련 방법을 제안합니다. 또한 가지치기 방법을 비전 트랜스포머 모델에까지 확장합니다. 실험 결과는 우리의 방법이 다양한 가지치기 구성에서 기존의 깊이 가지치기 방법보다 일관되게 우수한 성능을 발휘한다는 것을 보여줍니다. 우리는 ConvNeXtV1에 우리의 방법을 적용하여 3개의 가지치기된 ConvNeXtV1 모델을 얻었으며, 이는 비슷한 추론 성능으로 대부분의 SOTA 효율 모델을 능가했습니다. 또한 이 방법은 비전 트랜스포머 모델에서 최첨단 가지치기 성능을 달성했습니다. [abs|pdf]

[43/79] Uncertainty quantification for probabilistic machine learning in earth observation using conformal prediction

Keywords: prediction_domain_earth, existing_gee_predictive, gee_predictive_modelling
Abstract: 인공 지능(AI) 시스템을 사용할 때 신뢰할 수 없는 예측이 발생할 수 있으며, 특히 의사 결정에 사용할 경우 다운스트림 애플리케이션에 부정적인 결과를 초래할 수 있습니다. 컨포멀 예측은 모델에 구애받지 않는 불확실성 정량화 프레임워크를 제공하여 데이터 세트의 분포와 관계없이 모든 데이터 세트에 사후에 적용할 수 있습니다. 다른 픽셀 수준의 불확실성 정량화 방법과 달리, 컨포멀 예측은 기본 모델 및 학습 데이터 세트에 액세스할 필요 없이 작동하며, 계산 효율성을 유지하면서 동시에 통계적으로 유효하고 유익한 예측 영역을 제공합니다. 점 예측과 함께 불확실성을 보고해야 할 필요성이 증가함에 따라, 저희는 지구 관측(EO) 애플리케이션 영역에서 등각 예측의 가능성에 주목하고 있습니다. 이를 위해 EO 영역의 불확실성 정량화 현황을 평가한 결과, 검토한 Google 어스 엔진(GEE) 데이터 세트의 20%만이 어느 정도의 불확실성 정보를 통합하고 있으며, 신뢰할 수 없는 방법이 널리 퍼져 있다는 사실을 발견했습니다. 다음으로, 기존 GEE 예측 모델링 워크플로우에 원활하게 통합되는 모듈을 소개하고, 역동적 세계 및 글로벌 생태계 역학 조사(GEDI) 데이터세트를 비롯하여 지역적 규모에서 글로벌 규모에 이르는 데이터세트에 이러한 도구를 적용하는 방법을 시연합니다. 이 사례 연구에는 회귀 및 분류 작업이 포함되며, 기존 워크플로우와 딥러닝 기반 워크플로우가 모두 포함됩니다. 이어서, EO에서 컨포멀 예측을 사용함으로써 얻을 수 있는 기회에 대해 논의합니다. 여기에서 제공하는 것과 같이 사용하기 쉬운 컨포멀 예측기 구현의 가용성이 높아짐에 따라 EO에서 엄격한 불확실성 정량화가 더 널리 채택되어 운영 모니터링 및 의사 결정과 같은 사용의 신뢰성이 향상될 것으로 기대합니다. [abs|pdf]

[44/79] Mission: Impossible Language Models

Keywords: impossible_languages_crucially, languages_inherently_impossible, uncontroversially_impossible_languages
Abstract: 촘스키와 다른 학자들은 대규모 언어 모델(LLM)이 인간이 학습할 수 있는 언어와 불가능한 언어를 똑같이 학습할 수 있다고 직접적으로 주장했습니다. 그러나 이러한 주장을 뒷받침할 만한 실험적 증거는 거의 발표되지 않았습니다. 여기서는 부자연스러운 어순과 문법 규칙으로 영어 데이터를 체계적으로 변경하여 설계한 다양한 복잡성의 합성 불가능한 언어 세트를 개발합니다. 이러한 언어들은 불가능의 연속선상에 놓여 있습니다. 한쪽 끝에는 무작위적이고 돌이킬 수 없는 영어 단어의 조합과 같이 본질적으로 불가능한 언어가 있고, 다른 쪽 끝에는 직관적으로 불가능하지는 않지만 언어학에서는 종종 그렇게 간주되는 언어, 특히 단어 위치 계산에 기반한 규칙이 있는 언어가 있습니다. 저희는 GPT-2 소형 모델이 이러한 논란의 여지가 있는 불가능한 언어를 학습할 수 있는 능력을 평가하기 위해 다양한 평가를 수행했으며, 중요한 것은 각 언어의 학습 과정을 비교하기 위해 훈련 전반에 걸쳐 다양한 단계에서 이러한 평가를 수행했다는 점입니다. 우리의 핵심 발견은 GPT-2가 영어를 대조군으로 삼았을 때 불가능한 언어를 학습하는 데 어려움을 겪고 있다는 것이며, 이는 핵심 주장에 도전하는 것입니다. 더 중요한 것은 우리의 접근 방식이 다양한 불가능한 언어에 대해 서로 다른 LLM 아키텍처를 테스트하여 이러한 인지 및 유형학적 조사를 위한 도구로 LLM을 어떻게 사용할 수 있는지에 대해 자세히 알아볼 수 있는 생산적인 탐구 라인을 열어주기를 희망한다는 것입니다. [abs|pdf]

[45/79] Knowledge-Informed Machine Learning for Cancer Diagnosis and Prognosis: A review

Keywords: machine_learning_cancer, learning_cancer_diagnosis, biomedical_knowledge_data
Abstract: 암은 여전히 의료 분야에서 가장 치료하기 어려운 질병 중 하나입니다. 머신러닝은 암 진단과 예후를 위해 풍부한 멀티오믹스 프로파일과 의료 영상에 대한 심층적인 분석을 가능하게 했습니다. 이러한 발전에도 불구하고 머신러닝 모델은 제한된 라벨링된 샘플 크기, 고차원 데이터 유형의 복잡한 상호 작용, 환자 간 및 종양 내에서 관찰되는 내재적 이질성, 해석 가능성 및 기존 생물의학 지식과의 일관성에 대한 우려로 인한 문제에 직면해 있습니다. 이러한 문제를 극복하기 위한 한 가지 접근 방식은 생물의학 지식을 데이터 기반 모델에 통합하는 것이며, 이는 모델 결과의 정확성, 견고성 및 해석 가능성을 향상시킬 수 있는 잠재력을 입증했습니다. 여기에서는 암 진단 및 예후를 위해 생물의학 지식과 데이터의 융합, 즉 지식 기반 머신러닝을 도입한 최첨단 머신러닝 연구를 살펴봅니다. 임상, 이미징, 분자, 치료 데이터 등 네 가지 주요 데이터 유형에 내재된 특성을 강조하면서 이러한 맥락과 관련된 모델링 고려 사항을 강조합니다. 다양한 형태의 지식 표현과 머신러닝 파이프라인에 지식을 통합하는 최신 전략에 대한 개요를 구체적인 사례와 함께 제공합니다. 마지막으로 지식 기반 머신러닝을 통해 암 연구를 발전시키기 위한 향후 방향에 대해 논의하며 리뷰 기사를 마무리합니다. [abs|pdf]

[46/79] DevEval: Evaluating Code Generation in Practical Software Projects

Keywords: code_generation_practical, code_generation, development_code_generation
Abstract: 코드 생성에서 대규모 언어 모델(LLM)을 평가하는 방법은 여전히 미해결 과제입니다. 많은 벤치마크가 제안되었지만 비현실적인 프로그램 배포, 불충분한 종속성, 소규모 프로젝트 컨텍스트 등 실제 소프트웨어 프로젝트와 일치하지 않는 부분이 있습니다. 따라서 실제 프로젝트에서 LLM의 기능은 아직 불분명합니다. 이 백서에서는 개발자의 실제 프로젝트 경험에 기반한 새로운 벤치마크인 DevEval을 제안합니다. DevEval은 엄격한 파이프라인을 통해 수집되며, 119개의 실제 프로젝트에서 10개 도메인을 포괄하는 2,690개의 샘플을 포함합니다. 이전 벤치마크와 비교했을 때, DevEval은 실제 프로그램 배포, 충분한 종속성, 충분한 규모의 프로젝트 컨텍스트 등 다양한 측면에서 실제 프로젝트와 일치합니다. DevEval에서 널리 사용되는 5가지 LLM(예: gpt-4, gpt-3.5-turbo, CodeLLaMa, StarCoder)을 평가하고 코드 생성에 대한 실제 능력을 공개합니다. 예를 들어, gpt-3.5-turbo의 최고 Pass@1은 실험에서 42를 기록했습니다. 또한 실제 프로젝트에서 코드 생성의 어려움과 향후 방향에 대해서도 논의합니다. DevEval을 오픈소스화하여 실제 프로젝트에서 코드 생성 개발을 촉진할 수 있기를 바랍니다. [abs|pdf]

[47/79] Adaptive Data Augmentation for Aspect Sentiment Quad Prediction

Keywords: aspect_sentiment_quad, aspect_sentiment, aspect_based_sentiment
Abstract: ASQP(Aspect sentiment quad prediction)는 주어진 문장에 대한 쿼드 감성 요소를 예측하는 것을 목표로 하며, 이는 측면 기반 감성 분석 분야에서 매우 중요한 작업입니다. 그러나 데이터 불균형 문제는 ASQP 작업에서 충분한 관심을 받지 못했습니다. 본 논문에서는 이 문제를 쿼드 패턴 불균형과 양상 범주 불균형의 두 가지로 나누고, 불균형 문제를 해결하기 위한 적응형 데이터 증강(ADA) 프레임워크를 제안합니다. 구체적으로, 조건 함수를 사용한 데이터 증강 프로세스는 꼬리 쿼드 패턴과 측면 범주를 적응적으로 향상시켜 ASQP의 데이터 불균형을 완화합니다. 또한 이전 연구에 이어 카테고리 사전 지식과 구문 안내 디코딩 타깃을 도입하여 완전한 쿼드를 추출하기 위한 생성 프레임워크를 추가로 탐색합니다. 실험 결과는 ASQP 작업의 불균형에 대한 데이터 증강이 성능을 향상시킬 수 있으며, 제안한 ADA 방법이 나이브 데이터 오버샘플링보다 우수하다는 것을 보여줍니다. [abs|pdf]

[48/79] What should I say? -- Interacting with AI and Natural Language Interfaces

Keywords: interact_ai_human, humans_interact_ai, human_ai_interaction
Abstract: 인공지능(AI) 기술이 점점 더 널리 보급됨에 따라 인간이 AI와 상호작용하는 방식을 탐구하는 것이 점점 더 중요해지고 있습니다. 인간-컴퓨터 상호작용(HCI) 분야에서 인간-인공지능 상호작용(HAI) 하위 분야가 생겨났으며, 바로 이 개념을 연구하는 것을 목표로 합니다. 많은 상호작용 패턴은 본질적으로 인간과 더 유사한 것을 목표로 하는 이러한 대체 인터페이스 사용의 인지 과학적 의미뿐만 아니라 필요한 인지의 변화를 완전히 이해하지 못한 채 구현되어 왔습니다. 선행 연구에 따르면 마음 이론 표상이 성공적이고 수월한 의사소통에 매우 중요하지만, AI와 상호작용할 때 마음 이론 표상이 어떻게 확립되는지에 대해서는 알려진 바가 거의 없습니다. [abs|pdf]

[49/79] How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

Keywords: jailbreak_propose_persuasion, persuasive_adversarial_prompts, persuasive_adversarial
Abstract: 대부분의 기존 AI 보안 연구는 AI 모델을 기계로 간주하고 보안 전문가가 개발한 알고리즘 중심의 공격에 초점을 맞췄습니다. 대규모 언어 모델(LLM)이 점점 더 보편화되고 유능해짐에 따라 비전문가인 사용자도 일상적인 상호작용에서 위험을 초래할 수 있습니다. 이 백서에서는 인간과 유사한 커뮤니케이터로서 LLM을 탈옥하는 새로운 관점을 소개하여 일상적인 언어 상호 작용과 AI 안전 사이의 간과된 교차점을 탐구합니다. 특히, LLM을 탈옥하도록 설득하는 방법을 연구합니다. 먼저, 수십 년간의 사회과학 연구를 통해 도출된 설득 분류법을 제안합니다. 그런 다음, 이 분류법을 적용하여 탈옥을 유도하기 위한 해석 가능한 설득적 적대적 프롬프트(PAP)를 자동으로 생성합니다. 그 결과, 설득이 모든 위험 범주에서 탈옥 성과를 크게 향상시키는 것으로 나타났습니다: PAP는 10$의 실험에서 라마 2-7b 채팅, GPT-3.5, GPT-4에 대해 지속적으로 $92%$ 이상의 공격 성공률을 달성하여 최근의 알고리즘 중심 공격을 능가했습니다. 방어 측면에서는 PAP에 대한 다양한 메커니즘을 연구하고 기존 방어에 상당한 격차가 있음을 발견했으며, 고도로 상호 작용하는 LLM에 대한 보다 근본적인 방어가 필요하다고 주장합니다 [abs|pdf]

[50/79] Graph Relation Distillation for Efficient Biomedical Instance Segmentation

Keywords: instance_aware_embeddings, instance_relations_pixel, instance_graph_distillation
Abstract: 심층 신경망에 의해 예측되는 인스턴스 인식 임베딩은 생물의학 인스턴스 세분화에 혁신을 가져왔지만, 리소스 요구 사항이 상당합니다. 지식 증류는 무거운 교사 네트워크에서 추출한 지식을 가볍고 성능이 우수한 학생 네트워크로 전송하는 방식으로 해결책을 제시합니다. 하지만 기존의 지식 증류 방식은 인스턴스 구분을 위한 지식을 추출하는 데 어려움을 겪고 있으며, 글로벌 관계 정보를 간과하고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 효율적인 바이오메디컬 인스턴스 세분화를 위한 그래프 관계 증류 접근법을 제안하며, 이는 인스턴스 수준 특징, 인스턴스 관계, 픽셀 수준 경계라는 세 가지 필수 지식 유형을 고려합니다. 여기서는 이미지 내 수준과 이미지 간 수준 모두에 배포되는 두 가지 그래프 증류 방식, 즉 인스턴스 그래프 증류(IGD)와 선호도 그래프 증류(AGD)를 소개합니다. IGD는 인스턴스 그래프 일관성을 적용하여 인스턴스 특징과 관계를 나타내는 그래프를 구성하고, 이 두 가지 유형의 지식을 전송합니다. AGD는 픽셀 관계를 나타내는 선호도 그래프를 구성하여 인스턴스 경계에 대한 구조화된 지식을 포착하고, 픽셀 선호도 일관성을 보장함으로써 경계 관련 지식을 전달합니다. 여러 생물의학 데이터 세트에 대한 실험 결과는 이러한 접근 방식의 효과를 입증하며, 학생 모델이 $ 1%$ 미만의 파라미터와 10%$ 미만의 추론 시간으로 교사 모델에 비해 유망한 성능을 달성할 수 있도록 지원합니다. [abs|pdf]

[51/79] A Temporal-Spectral Fusion Transformer with Subject-specific Adapter for Enhancing RSVP-BCI Decoding

Keywords: view_information_eeg, bci_efficient, views_eeg
Abstract: RSVP(Rapid Serial Visual Presentation) 기반 뇌-컴퓨터 인터페이스(BCI)는 뇌파(EEG) 신호를 사용하여 표적 검색을 위한 효율적인 기술입니다. 기존 디코딩 방법의 성능 향상은 새로운 피험자로부터 얻은 상당한 양의 훈련 데이터에 의존하기 때문에 BCI 시스템의 준비 시간이 늘어납니다. 여러 연구에서 새로운 피험자의 데이터에 대한 성능 개선의 의존도를 줄이기 위해 기존 피험자의 데이터를 도입했지만, 방대한 데이터를 사용한 적대적 학습에 기반한 최적화 전략은 준비 과정에서 훈련 시간을 증가시킵니다. 또한 대부분의 기존 방법은 뇌파 신호의 단일 뷰 정보에만 초점을 맞출 뿐, 성능을 더욱 향상시킬 수 있는 다른 뷰의 정보는 무시합니다. 준비 시간을 줄이면서 디코딩 성능을 향상시키기 위해 피험자별 어댑터를 사용한 시간-스펙트럼 융합 변환기(TSformer-SA)를 제안합니다. 구체적으로, 뇌파 시간 신호와 스펙트로그램 이미지에서 추출한 두 가지 시점의 특징에서 정보 전달을 용이하게 하고 공통된 표현을 추출하기 위해 시점 간 상호 작용 모듈을 제안합니다. 그런 다음 주의 기반 융합 모듈이 두 뷰의 특징을 융합하여 분류를 위한 포괄적인 판별 특징을 얻습니다. 또한 동일한 뇌파 신호에 대한 두 개의 뷰 간의 특징 유사성을 최대화하기 위해 다중 뷰 일관성 손실이 제안됩니다. 마지막으로, 기존 피험자의 데이터로 학습된 모델의 지식을 새로운 피험자의 데이터를 해독하기 위해 빠르게 이전할 수 있는 피험자별 어댑터를 제안합니다. 실험 결과, TSformer-SA는 비교 방법보다 훨씬 뛰어난 성능을 보였으며 새로운 피험자의 제한된 훈련 데이터로도 뛰어난 성능을 달성했습니다. 이를 통해 실제 사용 중인 BCI 시스템의 효율적인 디코딩과 신속한 배포가 용이해집니다. [abs|pdf]

[52/79] Striking a Balance in Fairness for Dynamic Systems Through Reinforcement Learning

Keywords: fairness_dynamic_systems, fairness_dynamic, fair_machine_learning
Abstract: 공정한 머신러닝 분야에서 상당한 발전이 이루어졌지만, 대부분의 연구는 의사결정 모델이 정적 집단에서 작동하는 시나리오에 초점을 맞추고 있습니다. 이 백서에서는 순차적인 의사결정이 이루어지는 동적 시스템에서의 공정성을 연구합니다. 각 결정은 기능이나 사용자 행동의 기본 분포를 변화시킬 수 있습니다. 우리는 마르코프 의사결정 과정(MDP)을 통해 동적 시스템을 모델링합니다. 전통적인 공정성 개념과 장기적인 공정성은 서로 반드시 일치하지 않을 수 있는 별개의 요건이라는 점을 인정하여, 전처리 및 처리 중 접근 방식을 모두 사용하여 다양한 공정성 고려 사항을 강화 학습과 통합하는 알고리즘 프레임워크를 제안합니다. 세 가지 사례 연구를 통해 이 방법이 전통적인 공정성 개념, 장기적인 공정성, 유용성 사이의 균형을 맞출 수 있음을 보여줍니다. [abs|pdf]

[53/79] A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications

Keywords: aware_multi_agent, semantic_aware_multi, multi_agent_deep
Abstract: 시맨틱 인식 패러다임의 등장은 특히 6G 기반 애플리케이션의 맥락에서 혁신적인 서비스를 위한 기회를 제공합니다. 시맨틱 추출 기술에서 상당한 진전이 있었지만, 시맨틱 정보를 리소스 할당 의사 결정에 통합하는 것은 아직 초기 단계에 있으며, 미래 시스템의 요구 사항과 특성을 고려하지 않고 있습니다. 이에 본 논문에서는 무선 스펙트럼에 대한 다중 액세스 문제에 대한 새로운 공식을 소개합니다. 본 논문에서는 자체 처리량과 보조 처리량 개념을 도입하여 사용자 데이터 상관관계를 고려하는 동시에 $\alpha$-공정성 지표를 사용하여 활용도-공정성 트레이드 오프를 최적화하는 것을 목표로 합니다. 먼저 문제를 분석하여 최적의 솔루션을 식별합니다. 그 후, 시맨틱 인식 다중 에이전트 이중 및 결투 심층 Q-러닝(SAMA-D3QL) 기법을 제안합니다. 이 방법은 모델 없는 다중 에이전트 심층 강화 학습(MADRL)을 기반으로 하며, 사용자 장비가 로컬 개별 관측치만을 기반으로 무선 스펙트럼 액세스에 관한 결정을 자율적으로 내릴 수 있도록 합니다. 제안된 기술의 효율성은 단일 채널과 다중 채널의 두 가지 시나리오를 통해 평가됩니다. 연구 결과에 따르면 다양한 $\alpha$ 값, 연결 행렬, 채널에 걸쳐 SAMA-D3QL이 다른 접근 방식보다 일관되게 우수한 성능을 보였습니다. 이는 향후 동적으로 진화하는 연합 애플리케이션의 실현을 촉진할 수 있는 유망한 후보로 자리매김하고 있습니다. [abs|pdf]

[54/79] Advantage of Quantum Neural Networks as Quantum Information Decoders

Keywords: topological_quantum_memory, quantum_memory, decoding_realistic_quantum
Abstract: 노이즈로 인한 오류로부터 양자 정보를 보호하는 유망한 전략은 위상 양자 메모리 장치의 저에너지 상태로 인코딩하는 것입니다. 그러나 현실적인 환경 하에서 이러한 메모리에서 발생하는 판독 오류는 잘 알려져 있지 않습니다. 우리는 위상 안정기 해밀턴의 기저 공간에 부호화된 양자 정보를 담금질 무질서와 같은 일반적인 섭동이 있을 때 해독하는 문제를 연구합니다. 먼저 표준 안정기 기반 오류 수정 및 디코딩 체계가 이러한 섭동 양자 코드에서 적절하게 잘 작동한다는 것을 증명하여 디코딩 오류가 기본 비섭동 코드의 거리에서 기하 급수적으로 감소한다는 것을 보여줍니다. 그런 다음 양자 신경망(QNN) 디코더가 판독 오류를 거의 4배로 개선한다는 것을 증명합니다. 따라서 우리는 실제 양자 오류 수정 코드를 디코딩하는 데 QNN을 사용하는 것이 입증 가능한 이점을 보여 주며, 우리의 결과는 단기적인 실험실 환경에서 더 넓은 범위의 비안정화 코드를 탐색할 수 있게 해줍니다. [abs|pdf]

[55/79] WISE: full-Waveform variational Inference via Subsurface Extensions

Keywords: inversion_employing_variational, waveform_inversion, waveform_inversion_employing
Abstract: 유니티는 이동 속도 모델의 불확실성과 이미징에 미치는 영향을 정량화하기 위해 변형 추론과 조건부 정규화 흐름을 사용하는 전체 파형 반전을 위한 확률론적 기법을 소개합니다. 이 접근 방식은 생성적 인공 지능과 물리학 정보에 기반한 공통 이미지 수집을 통합하여 정확한 초기 속도 모델에 대한 의존도를 줄입니다. 고려된 사례 연구를 통해 데이터에 따라 조정된 이동 속도 모델을 실현하는 것이 효과적임을 입증했습니다. 이러한 모델은 후속 이미징 과정에서 진폭 및 위치 효과를 정량화하는 데 사용됩니다. [abs|pdf]

[56/79] Learning Unsupervised Semantic Document Representation for Fine-grained Aspect-based Sentiment Analysis

Keywords: representation_core_nlp, document_representation_learning, core_nlp_tasks
Abstract: 문서 표현은 기계 이해에 관한 많은 NLP 작업의 핵심입니다. 비지도 방식으로 학습된 일반적 표현은 일반성을 유지하며 다양한 애플리케이션에 사용할 수 있습니다. 실제로 감성 분석(SA)은 의미론과 깊은 관련이 있는 것으로 간주되는 까다로운 작업으로, 일반 표현을 평가하는 데 자주 사용됩니다. 비지도 문서 표현 학습에 대한 기존의 방법은 단어의 순서를 명시적으로 고려하는 순차적 방법과 명시적으로 고려하지 않는 비순차적 방법으로 나눌 수 있습니다. 그러나 이 두 가지 방식은 각각 약점을 가지고 있습니다. 이 논문에서는 두 가지 방법론이 가진 어려움을 극복하는 모델을 제안합니다. 실험 결과, 이 모델은 널리 사용되는 SA 데이터 세트와 세분화된 측면 기반 SA에서 최신 방법보다 큰 폭으로 우수한 성능을 보였습니다. [abs|pdf]

[57/79] An Exploratory Assessment of LLM's Potential Toward Flight Trajectory Reconstruction Analysis

Keywords: reconstructing_flight_trajectories, flight_trajectories_analysis, flight_trajectories_using
Abstract: 대규모 언어 모델(LLM)은 특히 비행 궤적을 재구성하는 데 있어 항공 분야에서 혁신적인 잠재력을 가지고 있습니다. 이 백서에서는 LLM이 순차적 데이터 처리와 복잡한 데이터 구조 해독에 탁월하다는 개념에 기반하여 이러한 잠재력을 조사합니다. 이 연구는 사전 학습된 오픈소스 LLM인 LLaMA 2 모델을 활용하여 실제 시나리오에 내재된 불규칙성이 있는 자동 종속 감시 방송(ADS-B) 데이터를 사용하여 비행 궤적을 재구성하는 데 중점을 둡니다. 이 연구 결과는 노이즈를 필터링하고 선형 및 곡선 비행 궤적을 모두 추정하는 데 있어 모델이 능숙하다는 것을 보여줍니다. 그러나 분석 결과, LLM 모델의 토큰 길이 제한으로 인한 긴 데이터 시퀀스 관리의 어려움도 드러났습니다. 이 연구의 인사이트는 비행 궤적 재구성에서 LLM의 잠재력을 강조하고 항공 및 운송 부문에서 광범위하게 적용될 수 있는 새로운 길을 열어줍니다. [abs|pdf]

[58/79] xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein

Keywords: protein_language_models, protein_language_model, unified_protein_language
Abstract: 단백질 언어 모델은 단백질 서열에서 생물학적 정보를 학습하는 데 괄목할 만한 성공을 거두었습니다. 그러나 대부분의 기존 모델은 자동 인코딩 또는 자동 회귀적 사전 학습 목표에 의해 제한되어 있어 단백질 이해와 생성 작업을 동시에 처리하는 데 어려움을 겪고 있습니다. 저희는 혁신적인 사전 훈련 프레임워크를 통해 이 두 가지 유형의 작업을 동시에 처리할 수 있는 통합 단백질 언어 모델인 xTrimoPGLM을 제안합니다. 우리의 주요 기술적 기여는 두 가지 유형의 목표의 호환성과 공동 최적화의 잠재력을 탐구한 것으로, 이를 통해 1,000억 개의 파라미터와 1조 개의 훈련 토큰이라는 전례 없는 규모로 xTrimoPGLM을 훈련하는 전략을 이끌어냈습니다. 광범위한 실험 결과, 1) 4가지 카테고리에 걸친 18가지 단백질 이해 벤치마크에서 xTrimoPGLM이 다른 고급 기준선을 크게 능가하는 것으로 나타났습니다. 또한 이 모델은 단백질 구조의 원자 해상도 보기를 용이하게 하여 기존의 언어 모델 기반 도구를 능가하는 고급 3D 구조 예측 모델로 이어집니다. 2) xTrimoPGLM은 자연 단백질 서열의 원리에 따라 새로운 단백질 서열을 생성할 수 있을 뿐만 아니라 선별된 서열에 대해 감독 미세 조정(SFT) 후 프로그래밍 가능한 생성도 수행할 수 있습니다. 이러한 결과는 단백질 서열을 이해하고 생성하는 데 있어 xTrimoPGLM의 상당한 능력과 다재다능함을 강조하며, 단백질 과학의 기초 모델의 진화하는 환경에 기여하고 있습니다. [abs|pdf]

[59/79] NeuSpin: Design of a Reliable Edge Neuromorphic System Based on Spintronics for Green AI

Keywords: baynns_cim_hardware, implementing_baynns_cim, consumption_implementing_baynns
Abstract: 개인 맞춤형 의료 서비스를 위한 사물 인터넷(IoT)과 스마트 웨어러블 디바이스는 점점 더 많은 양의 데이터를 저장하고 처리해야 합니다. 이러한 디바이스의 핵심 요구사항은 초저전력, 고성능 처리 기능, 저렴한 비용의 자율성, 엣지에서 그린 AI를 구현할 수 있는 신뢰성과 정확성입니다. 인공 지능(AI) 모델, 특히 베이지안 신경망(BayNN)은 리소스 집약적이며 메모리 벽 문제로 인해 기존 컴퓨팅 아키텍처에서 어려움을 겪고 있습니다. 새로운 저항성 메모리를 사용한 메모리 내 컴퓨팅(CIM)은 메모리 블록과 컴퓨팅 유닛을 결합하여 효율을 높이고 전력 소비를 낮추는 솔루션을 제공합니다. 그러나 스핀트로닉 기술을 사용하여 CIM 하드웨어에 BayNN을 구현하는 것은 가변성과 제조 결함으로 인해 기술적 어려움이 있습니다. NeuSPIN 프로젝트는 풀스택 하드웨어 및 소프트웨어 공동 설계를 통해 이러한 문제를 해결하고, 새로운 알고리즘 및 회로 설계 접근법을 개발하여 스핀트로닉 기반 CIM 플랫폼에서 BayNN의 성능, 에너지 효율성 및 견고성을 향상시키는 것을 목표로 합니다. [abs|pdf]

[60/79] CrisisKAN: Knowledge-infused and Explainable Multimodal Attention Network for Crisis Event Classification

Keywords: attention_network, multimodal_attention_network, multimodal_attention
Abstract: 소셜 미디어의 광범위한 사용은 다양한 이벤트를 식별하기 위한 실시간 정보(이미지, 텍스트 또는 두 가지 모두)의 새로운 소스로 부상하고 있습니다. 이미지 및 텍스트 기반 이벤트 분류의 급속한 성장에도 불구하고, 최신(SOTA) 모델은 일관성 없는 인코딩으로 인해 이미지와 텍스트 양식의 특징 사이의 의미적 간극을 메우는 데 어려움을 겪고 있습니다. 또한 모델의 블랙박스 특성으로 인해 재난, 팬데믹과 같은 고위험 상황에서 신뢰를 구축하기 위한 모델의 결과를 설명하지 못합니다. 또한 소셜 미디어 게시물에 부과되는 단어 제한으로 인해 특정 사건에 대한 편견이 생길 수 있습니다. 이러한 문제를 해결하기 위해 저희는 이미지와 텍스트를 위키피디아의 외부 지식과 결합하여 위기 사건을 분류하는 새로운 지식 주입 및 설명 가능한 멀티모달 주의 네트워크인 CrisisKAN을 제안했습니다. 텍스트 정보에 대한 맥락별 이해를 강화하기 위해 제안된 위키 추출 알고리즘을 사용하여 위키피디아 지식을 통합했습니다. 이와 함께 시각적 데이터와 텍스트 데이터를 통합할 때 의미적 차이를 메우기 위해 안내식 교차 주의 모듈을 구현했습니다. 신뢰성을 보장하기 위해 제안된 모델의 예측에 대한 강력한 설명을 제공하는 그라디언트 가중 클래스 활성화 매핑(Grad-CAM)이라는 모델별 접근 방식을 사용합니다. CrisisMMD 데이터 세트에 대한 포괄적인 실험을 통해 다양한 위기별 작업과 설정에 대한 심층적인 분석 결과를 얻을 수 있습니다. 그 결과, CrisisKAN은 기존의 SOTA 방법론보다 뛰어난 성능을 보이며 설명 가능한 다중 모드 이벤트 분류 영역에서 새로운 관점을 제공합니다. [abs|pdf]

[61/79] End to end Hindi to English speech conversion using Bark, mBART and a finetuned XLSR Wav2Vec2

Keywords: spoken_hindi_synthesized, hindi_synthesized_english, speech_conversion_framework
Abstract: 음성은 오랫동안 효과적인 커뮤니케이션과 연결을 가로막는 장애물이 되어 왔으며, 점점 더 상호 연결되는 세상에서 여전히 해결해야 할 과제로 남아 있습니다. 이 연구 논문에서는 힌디어-영어 번역을 위해 맞춤화된 엔드투엔드 음성 변환 프레임워크를 통해 이러한 지속적인 장애물에 대한 혁신적인 솔루션을 소개하고, 영어 오디오 합성을 통해 정점을 찍습니다. 이 프레임워크는 자동 음성 인식(ASR)을 위한 XLSR Wav2Vec2, 신경망 기계 번역(NMT)을 위한 mBART, 텍스트 음성 변환(TTS) 합성 구성 요소와 같은 최첨단 기술을 통합하여 언어 간 커뮤니케이션에 대한 통합적이고 원활한 접근 방식을 제공합니다. 각 구성 요소의 복잡한 세부 사항을 자세히 살펴보고 각 구성 요소의 개별적인 기여를 설명하고 힌디어 음성에서 합성된 영어 오디오로 원활하게 전환할 수 있는 시너지 효과를 살펴봅니다. [abs|pdf]

[62/79] AI Art is Theft: Labour, Extraction, and Exploitation, Or, On the Dangers of Stochastic Pollocks

Keywords: artistic_labour_ai, ai_creative_labour, ai_generated_images
Abstract: DALL-E, 미드저니, 스테이블 디퓨전 등의 애플리케이션이 출시된 이후, 제너레이티브 인공지능은 예술 작품 제작 도구로서 많은 논란을 불러일으켰습니다. 일각에서는 이러한 기술이 다가올 완전 자동화된 미래의 전조라는 장기적인 우려를 제기하기도 하지만, 더 시급한 문제는 제너레이티브 AI가 현재의 창작 노동에 미치는 영향입니다. 이미 비즈니스 리더들은 인간의 예술적 노동력을 AI가 생성한 이미지로 대체하기 시작했습니다. 이에 대해 예술계에서는 AI 이미지 생성이 일종의 도둑질이라고 주장하며 항의 운동을 벌이고 있습니다. 이 논문은 이러한 주장을 분석, 입증, 비판하여 AI 이미지 생성기가 비윤리적인 종류의 노동 절도를 수반한다는 결론을 내립니다. 이 주장이 맞다면 다른 많은 AI 애플리케이션도 도용에 의존하고 있는 셈입니다. [abs|pdf]

[63/79] GOODAT: Towards Test-time Graph Out-of-Distribution Detection

Keywords: graph_neural_networks, detect_graph_distribution, graph_neural
Abstract: 그래프 신경망(GNN)은 다양한 영역에서 그래프 데이터를 모델링하는 데 광범위하게 활용되고 있습니다. GNN은 테스트 데이터가 훈련 데이터의 분포를 공유하는 시나리오(분포 내, ID)에서는 탁월한 성능을 발휘하지만, 익숙하지 않은 분포의 샘플(분포 외, OOD)을 만나면 종종 잘못된 예측을 하는 경우가 있습니다. GNN으로 OOD 샘플을 식별하고 거부하기 위해, 최근의 연구에서는 특정 모델을 훈련하거나 잘 훈련된 GNN을 기반으로 데이터를 수정하는 데 초점을 맞춘 그래프 OOD 탐지를 탐구했습니다. 이러한 방법은 효과적이지만, 훈련 데이터에 대해 GNN 기반 모델을 최적화해야 하기 때문에 훈련 리소스와 비용이 많이 듭니다. 또한, 원본 GNN을 수정하고 훈련 데이터에 접근해야 하기 때문에 범용성이 제한됩니다. 이를 위해 본 백서에서는 훈련 데이터 및 GNN 아키텍처의 수정과 무관하게 작동하는 데이터 중심의 비지도 플러그 앤 플레이 솔루션인 GOODAT(Graph Out-of-Distribution At Test-time)을 통해 테스트 시점의 그래프 편차를 감지하는 방법을 소개합니다. 가벼운 그래프 마스커를 통해 GOODAT은 테스트 샘플에서 유용한 하위 그래프를 학습할 수 있으며, 이를 통해 OOD와 ID 샘플 간의 뚜렷한 그래프 패턴을 포착할 수 있습니다. 그래프 마스커를 최적화하기 위해 그래프 정보 병목 현상 원리에 기반한 세 가지 비지도 목적 함수를 세심하게 설계하여 마스커가 OOD 탐지를 위한 간결하면서도 유익한 하위 그래프를 캡처하도록 동기를 부여합니다. 종합적인 평가 결과, GOODAT 방법은 다양한 실제 데이터 세트에서 최첨단 벤치마크를 능가하는 성능을 보였습니다. 코드는 Github에서 확인할 수 있습니다(https URL) [abs|pdf]

[64/79] MTAD: Tools and Benchmarks for Multivariate Time Series Anomaly Detection

Keywords: kpi_anomaly_detectors, kpi_anomaly_detection, anomaly_detectors
Abstract: 핵심 성과 지표(KPI)는 많은 소프트웨어 시스템의 신뢰성과 안정성을 보장하기 위한 필수 시계열 지표입니다. 런타임 상태를 충실히 기록하여 비정상적인 시스템 동작에 대한 이해를 돕고 엔지니어가 근본 원인을 파악할 수 있는 유용한 단서를 제공합니다. 그러나 최신 소프트웨어 시스템의 규모와 복잡성이 전례 없이 커지면서 KPI의 양이 폭발적으로 증가하고 있습니다. 그 결과, 기존의 많은 KPI 이상 징후 탐지 방법이 실용적이지 않게 되었고, 이는 학계와 업계 모두에서 머신 러닝 기반 솔루션의 빠른 개발을 촉진하는 촉매제 역할을 하고 있습니다. 그러나 현재 이러한 KPI 이상 징후 탐지 방법들 간의 엄격한 비교가 부족하고, 이를 다시 구현하려면 적지 않은 노력이 필요합니다. 또한, 작품마다 서로 다른 지표를 사용하여 독립적인 평가 프로세스를 채택하고 있는 것으로 나타났습니다. 그 중 일부는 모델의 역량을 완전히 드러내지 못할 수도 있고, 일부는 마치 진전이 있는 것처럼 착각을 불러일으키기도 합니다. 이 백서에서는 다양한 KPI 이상 징후 탐지기의 특성을 더 잘 이해하고 평가 문제를 해결하기 위해 12가지 최신 방법을 종합적으로 검토 및 평가하고, 주목도라는 새로운 지표를 제안합니다. 특히, 선정된 방법에는 전통적인 머신러닝 기반 방법 5가지와 딥러닝 기반 방법 7가지가 포함됩니다. 이 방법들은 공개적으로 사용 가능한 5개의 다변량 KPI 데이터 세트를 사용하여 평가됩니다. 사용하기 쉬운 인터페이스를 갖춘 통합 툴킷도 공개됩니다. 정확도, 주목도, 효율성, 지연 등의 측면에서 벤치마크 결과를 보고하며, 이는 산업 배포에 실질적으로 중요한 요소입니다. 저희의 연구가 향후 학술 연구 및 산업 적용을 위한 기초 자료로 기여할 수 있을 것으로 믿습니다. [abs|pdf]

[65/79] Harnessing Artificial Intelligence for Sustainable Agricultural Development in Africa: Opportunities, Challenges, and Impact

Keywords: ai_applications_agriculture, ai_fostering_sustainability, ai_smallholder_farmers
Abstract: 이 백서는 아프리카의 다양한 지역에서 지속 가능한 농업 개발의 맥락에서 인공지능(AI)의 혁신적 잠재력을 탐구합니다. 기회, 도전 과제, 영향력을 탐구하는 이 연구는 농업 분야에서 AI 애플리케이션의 역동적인 환경을 탐색합니다. 정밀 농업, 농작물 모니터링, 기후 회복력 있는 관행과 같은 기회와 기술 인프라, 데이터 접근성, 기술 격차와 관련된 도전 과제를 살펴봅니다. 이 글에서는 AI가 소규모 농부, 공급망, 포용적 성장에 미치는 영향을 분석합니다. 윤리적 고려 사항과 정책적 시사점도 논의하여 책임감 있는 AI 통합에 대한 인사이트를 제공합니다. 이 백서는 미묘한 이해를 제공함으로써 아프리카 농업의 지속가능성을 촉진하기 위한 AI 활용에 대한 지속적인 담론에 기여합니다. [abs|pdf]

[66/79] A Survey on Game Theory Optimal Poker

Keywords: imperfect_information_games, theory_optimal_poker, successful_poker_bots
Abstract: 포커는 체스, 커넥트 포 등과 같이 완전 정보 게임인 다른 게임과 달리 불완전 정보 게임의 범주에 속합니다. 많은 완전 정보 게임이 해결된 반면, 불완전 정보 게임은 현재까지 해결되지 않았습니다. 따라서 포커는 인공지능 연구를 위한 훌륭한 테스트 베드가 될 수 있습니다. 이 논문에서는 먼저 게임 이론의 최적 포커와 착취적 포커를 비교합니다. 둘째, 타타니안[1], 플루리버스[6]와 같은 성공적인 포커 봇이 사용하는 추상화 기법, 베팅 모델, 특정 전략의 복잡성에 대해 논의합니다. 셋째, 2인 게임과 멀티플레이어 게임, 그리고 더 많은 플레이어와 함께 플레이할 때 발생하는 한계에 대해서도 살펴봅니다. 마지막으로, 이 백서에서는 승리 전략을 개발하는 데 있어 머신러닝의 역할과 이론적 접근 방식에 대해 논의하고 빠르게 진화하는 이 분야의 미래 방향을 제시합니다. [abs|pdf]

[67/79] Enhancing Multimodal Understanding with CLIP-Based Image-to-Text Transformation

Keywords: language_image_pretraining, contrastive_language_image, vision_natural_language
Abstract: 입력 이미지를 해당 텍스트 설명으로 변환하는 과정은 컴퓨터 비전과 자연어 처리 영역에서 매우 중요하고 복잡한 작업입니다. 이 백서에서는 대조적 언어-이미지 사전 학습 모델의 기능을 활용하는 혁신적인 앙상블 접근 방식을 제안합니다. [abs|pdf]

[68/79] Adjustable Molecular Representation for Unified Pre-training Strategy

Keywords: learning_molecular_representations, molecular_encoder_learning, encoder_learning_molecular
Abstract: 우리는 통합 사전 학습 전략을 위한 조정 가능한 분자 표현(Adjustable Molecular Representation for Unified Pre-training Strategy)의 약자인 새로운 대규모 분자 모델인 AdaMR을 제안합니다. 단일 분자 인코딩을 사용하는 최근의 대규모 분자 모델과 달리 AdaMR은 세분화 조절이 가능한 분자 인코더를 사용하여 원자 및 하위 구조 수준 모두에서 분자 표현을 학습합니다. 사전 훈련 과정에서는 여러 개의 일반 분자 표현을 표준 표현으로 변환하는 분자 표준화 작업을 설계했습니다. 분자 인코딩의 세분성을 조정함으로써 훈련된 모델은 모델 속성 예측 및 분자 생성과 같은 여러 다운스트림 작업에 대한 효과를 개선할 수 있습니다. 하위 구조 수준의 분자 표현은 화학적 특성을 결정하고 유사한 기능을 하는 특정 원자 그룹이나 배열에 대한 정보를 보유하므로 특성 예측과 같은 작업에 유용합니다. 한편 원자 수준 표현은 생성적 분자 표준화 사전 학습 작업과 결합하여 생성 작업의 유효성, 참신성, 고유성을 향상시킵니다. AdaMR의 이러한 기능은 수많은 다운스트림 작업에서 강력한 성능을 입증합니다. 우리는 분자넷의 6가지 데이터 세트에 대한 다양한 분자 특성 예측 작업과 ZINC250K 데이터 세트에 대한 두 가지 생성 작업을 사용하여 제안된 분자 인코딩 및 사전 훈련 방법을 평가하고, 이 중 5가지 작업에서 최첨단(SOTA) 결과를 얻었습니다. [abs|pdf]

[69/79] A debiasing technique for place-based algorithmic patrol management

Keywords: data_driven_policing, algorithmic_patrol_management, fairness_data_driven
Abstract: 최근 몇 년 동안 데이터 기반 치안에 혁명이 일어나고 있습니다. 이에 따라 과거 데이터의 편향성이 알고리즘의 의사 결정에 어떤 영향을 미치는지에 대한 면밀한 조사가 이루어지고 있습니다. 이 탐색적 연구에서는 장소 기반 알고리즘 순찰 관리 시스템을 위한 디베이싱 기법을 소개합니다. 이 기법이 모델에서 높은 정확도를 유지하면서 인종적으로 편향된 특징을 효율적으로 제거한다는 것을 보여줍니다. 마지막으로, 이 연구를 통해 밝혀낸 공정성 및 데이터 기반 치안 영역에서 향후 수행할 수 있는 잠재적 연구 목록을 제공합니다. [abs|pdf]

[70/79] Trustworthy human-centric based Automated Decision-Making Systems

Keywords: ads_misuse, misuse_ads_misuse, misuse_ads
Abstract: 업무 성과를 높이기 위해 다양한 분야, 활동, 직종에 걸쳐 자동화된 의사결정 시스템(ADS)이 널리 보급되고 있습니다. 그러나 이러한 광범위한 도입은 ADS의 오용을 비롯한 잠재적 위험을 수반합니다. 이러한 오용은 ADS가 불필요한 상황에서 사용되거나 필수 요건, 조건 및 약관을 간과하여 의도하지 않은 결과를 초래할 때 나타날 수 있습니다. 이 연구 보고서는 현대 사회와 미래의 맥락에서 디지털화, 디지털 혁신, ADS의 활용과 관련된 의미, 차이점, 윤리적 고려사항에 대한 철저한 검토를 제시합니다. 특히 ADS 배포에 있어 규제, 투명성, 윤리적 행동이 반드시 필요하다는 점을 강조합니다. [abs|pdf]

[71/79] Future-proofing Education: A Prototype for Simulating Oral Examinations Using Large Language Models

Keywords: oral_examination_simulation, simulating_oral_exams, examination_simulation_using
Abstract: 이 연구에서는 프로토타입을 사용한 자동화된 구술 시험 시뮬레이션을 중심으로 고등 교육에서 대규모 언어 모델(LLM)의 영향력을 살펴봅니다. 프로토타입의 설계 고려 사항을 설명하고, 엄선된 교육자 및 학생 그룹과 함께 시스템을 평가합니다. 기술 및 교육적 관찰에 대해 논의합니다. 이 프로토타입은 구술 시험을 시뮬레이션하고, 개인화된 피드백을 제공하며, 교육자의 업무량을 간소화하는 데 효과적임이 입증되었습니다. 이 프로토타입의 유망한 결과는 교육의 민주화, 다양한 학생 인구의 포용, 교육의 질과 효율성 향상에 있어 LLM의 잠재력을 보여줍니다. [abs|pdf]

[72/79] UDEEP: Edge-based Computer Vision for In-Situ Underwater Crayfish and Plastic Detection

Keywords: invasive_signal_crayfish, signal_crayfish_extensively, crayfish_species_britain
Abstract: 침입성 신호 가재는 생태계에 해로운 영향을 미칩니다. 이들은 영국의 유일한 토종 가재 종인 흰발가재에 치명적인 곰팡이형 가재 전염병(아파노미세스 아스타시)을 퍼뜨립니다. 침입한 신호 가재는 광범위하게 굴을 파서 서식지 파괴, 강둑 침식, 수질 악화를 초래하는 동시에 토종 가재와 자원을 두고 경쟁하여 토종 가재 개체 수 감소로 이어집니다. 또한, 오염은 흰발가재의 취약성을 악화시켜 일부 영국 카운티에서는 개체수가 90% 이상 감소하는 등 멸종 위기에 처해 있습니다. 수중 생태계를 보호하기 위해서는 영국 하천 생태계의 침입종과 버려진 플라스틱으로 인한 문제를 해결하는 것이 필수적입니다. UDEEP 플랫폼은 AI, IoT 디바이스의 효율성과 엣지 컴퓨팅(즉, NJN)의 성능을 활용하면서 신호 가재와 플라스틱 쓰레기를 즉시 분류하여 환경 모니터링에 중요한 역할을 할 수 있습니다. 이러한 종의 존재, 확산 및 풍부도에 대한 정확한 데이터를 제공함으로써 UDEEP 플랫폼은 모니터링 노력에 기여하고 침입 종의 확산을 완화하는 데 도움을 줄 수 있습니다. [abs|pdf]

[73/79] Multi-Modal Optimization with k-Cluster Big Bang-Big Crunch Algorithm

Keywords: multi_modal_optimization, modal_optimization_algorithm, modal_optimization_methods
Abstract: 다중 모드 최적화는 엔지니어링 문제, 특히 다양한 대안 솔루션을 모색할 때 자주 발생합니다. 진화 알고리즘은 모집단 개념, 탐색/탐색, 병렬 계산에 적합하다는 특징 덕분에 다중 모드 최적화를 효율적으로 처리할 수 있습니다.
이 백서에서는 클러스터링에 기반한 빅뱅-빅 크런치 알고리즘의 멀티모달 최적화 버전, 즉 k-BBBC를 소개합니다. 이 알고리즘은 전체 모집단의 완전한 수렴을 보장하여 특정 문제에 대해 평균적으로 99%에 달하는 국부 최적값을 구합니다. 또한 (i) 검색된 솔루션 집합(즉, 모집단)에서 국소 최적점을 식별하고 (ii) 예상 최적점 대비 올바르게 검색된 최적점의 수(즉, 성공률)를 정량화하는 두 가지 후처리 방법을 도입합니다.
실험 결과, k-BBBC는 최적값의 수가 많고(379개의 최적값에 대해 테스트) 차원이 높은(32개의 결정 변수에 대해 테스트) 문제에서도 우수한 성능을 보였습니다. 다른 멀티모달 최적화 방법과 비교했을 때, 특히 엘리트주의가 적용되었을 때 정확도(탐색 공간과 목적 공간 모두에서)와 성공률(올바르게 검색된 옵티마의 수) 측면에서 더 뛰어난 성능을 보였습니다. 마지막으로, 제안한 후처리 방법의 성공률을 실제 방법과 비교하여 검증했습니다. 그 결과, 이러한 방법을 사용하면 검색 공간에서 최적점이 어디에 있는지 알 필요 없이도 최적점을 정확하게 식별하고 성공 여부를 알려줌으로써 멀티모달 최적화 알고리즘의 성능을 평가할 수 있음을 알 수 있었습니다. [abs|pdf]

[74/79] Towards Joint Sequence-Structure Generation of Nucleic Acid and Protein Complexes with SE(3)-Discrete Diffusion

Keywords: generative_models_macromolecules, models_macromolecules, benchmark_macromolecular_complex
Abstract: 거대 분자의 생성 모델은 단백질 공학 분야의 산업 및 생물의학 연구에 풍부하고 영향력 있는 영향을 미칩니다. 그러나 기존의 방법은 단백질과 다른 거대 분자 사이에서 일반적으로 발생하는 상호작용을 고려하지 않고 단백질 구조 또는 서열을 독립적으로 또는 공동으로 모델링하는 데 제한되어 있습니다. 본 연구에서는 공동 SE(3)-이산 확산 노이즈를 사용하여 핵산과 단백질 복합체의 서열과 구조를 독립적으로 또는 복합적으로 설계하는 생성 모델인 MMDiff를 소개합니다. 이러한 모델은 구조 기반 전사 인자 설계와 비코딩 RNA 서열 설계 등 거대 분자 설계의 새로운 영역에 중요한 영향을 미칩니다. 우리는 이 연구에서 소개하는 고분자 복합체 생성을 위한 엄격한 새로운 설계 벤치마크를 통해 MMDiff의 유용성을 입증합니다. 우리의 결과는 MMDiff가 다중 사슬 단백질 복합체와 상호 작용하는 DNA 및 RNA 분자의 조인트 모델링을 적당히 수행하면서 마이크로 RNA 및 단일 가닥 DNA 분자를 성공적으로 생성할 수 있음을 보여줍니다. 소스 코드: 이 https URL. [abs|pdf]

[75/79] D-STGCNT: A Dense Spatio-Temporal Graph Conv-GRU Network based on transformer for assessment of patient physical rehabilitation

Keywords: rehabilitation_exercise_dense, rehabilitation_exercises_evaluation, rehabilitation_exercise
Abstract: 이 논문은 임상의의 감독 없이 운동을 수행하는 환자의 신체 재활 운동을 자동으로 평가하는 문제를 다룹니다. 올바른 수행을 보장하고 원하는 결과를 달성하기 위한 품질 점수를 제공하는 것이 목표입니다. 이 목표를 달성하기 위해 새로운 그래프 기반 모델인 '트랜스포머가 포함된 고밀도 시공간 그래프 Conv-GRU 네트워크'가 도입되었습니다. 이 모델은 시공간 데이터를 효율적으로 처리하기 위해 수정된 버전의 STGCN과 트랜스포머 아키텍처를 결합한 것입니다. 핵심 아이디어는 비선형 구조를 존중하는 골격 데이터를 그래프로 간주하고 각 재활 운동에서 주요 역할을 하는 관절을 감지하는 것입니다. 고밀도 연결과 GRU 메커니즘은 대규모 3D 골격 입력을 빠르게 처리하고 시간적 역학을 효과적으로 모델링하는 데 사용됩니다. 트랜스포머 인코더의 주의 메커니즘은 입력 시퀀스의 관련 부분에 초점을 맞추기 때문에 재활 운동을 평가하는 데 유용합니다. KIMORE 및 UI-PRMD 데이터 세트에 대해 제안된 접근 방식을 평가한 결과, 정확도와 계산 시간 측면에서 최첨단 방법을 능가하는 잠재력을 확인할 수 있었습니다. 그 결과 재활 운동을 더 빠르고 정확하게 학습하고 평가할 수 있게 되었습니다. 또한 이 모델은 정성적인 일러스트를 통해 귀중한 피드백을 제공하여 특정 운동에서 관절의 중요성을 효과적으로 강조합니다. [abs|pdf]

[76/79] Artificial Intelligence for Digital and Computational Pathology

Keywords: computational_pathology_predicting, pathology_predicting_clinical, advances_computational_pathology
Abstract: 조직 슬라이드 디지털화의 발전과 딥러닝을 비롯한 인공 지능의 빠른 발전으로 컴퓨터 병리학 분야가 활성화되었습니다. 이 분야는 임상 진단을 자동화하고, 환자의 예후와 치료에 대한 반응을 예측하며, 조직 이미지에서 새로운 형태학적 바이오마커를 발견할 수 있는 엄청난 잠재력을 지니고 있습니다. 이러한 인공지능 기반 시스템 중 일부는 현재 임상 진단을 지원하는 것으로 승인을 받고 있지만, 연구 도구로서 광범위한 임상 채택과 통합을 위한 기술적 장벽이 남아 있습니다. 이 리뷰에서는 전체 슬라이드 이미지에서 임상 종말점을 예측하기 위한 컴퓨터 병리학의 최근 방법론적 발전을 통합하고, 이러한 발전이 어떻게 임상 진료의 자동화와 새로운 바이오마커의 발견을 가능하게 하는지를 강조합니다. 그런 다음 점점 더 다양한 양상의 임상 데이터와 함께 이 분야가 광범위한 임상 및 연구 과제로 확장됨에 따라 미래의 관점을 제시합니다. [abs|pdf]

[77/79] Redefining Recon: Bridging Gaps with UAVs, 360 degree Cameras, and Neural Radiance Fields

Keywords: cameras_advances_neural, rescue_teams_robotic, arial_vehicles_uavs
Abstract: 재난 상황에서의 디지털 상황 인식 영역에서는 3D 모델과 같은 정확한 디지털 표현이 필수적인 역할을 합니다. 구조팀의 안전을 보장하기 위해 이러한 모델을 생성하기 위해 로봇 플랫폼을 배포하는 경우가 많습니다. 이 백서에서는 360도 카메라가 장착된 30cm 미만의 소형 무인항공기(UAV)의 기능과 신경 방사장(NeRF)의 발전된 기능을 시너지 효과를 내는 혁신적인 접근 방식을 소개합니다. 특수 신경망인 NeRF는 2D 이미지를 사용하여 모든 장면의 3D 표현을 추론한 다음 요청에 따라 다양한 각도에서 합성할 수 있습니다. 이 방법은 특히 건물의 구조적 무결성이 진입을 금지할 정도로 손상된 심각한 파괴를 경험한 도시 환경에 적합하며, 지진 발생 후나 심각한 화재 발생 후 흔히 관찰됩니다. 최근의 화재 후 시나리오를 통해 접근 방식을 테스트하여 물, 눈, 다양한 조명 조건, 반사 표면으로 특징지어지는 까다로운 실외 환경에서도 NeRF의 효율성을 강조했습니다. [abs|pdf]

[78/79] QuasiNet: a neural network with trainable product layers

Keywords: product_neurons_learning, neural_networks_achieve, classical_neural_networks
Abstract: 기존 신경망은 숨겨진 뉴런의 수가 적을 때 XOR이나 패리티와 같은 어려운 문제에서 제한적으로만 수렴을 달성합니다. 이러한 문제에서 신경망의 성공률을 높이기 위해 기존 신경망 모델에서 영감을 얻은 새로운 신경망 모델인 제품 뉴런과 고전적 오류 역전파에서 파생된 학습 규칙을 통해 상호 배타적인 상황의 문제를 우아하게 해결하는 새로운 신경망 모델을 제안합니다. 가중치가 미리 설정되어 있고 적응할 수 없는 기존 제품 뉴런과 달리, 제품 뉴런 레이어는 학습도 가능합니다. 우리는 이 모델을 테스트하고 앞서 언급한 문제뿐만 아니라 두 개의 나선과 같은 다른 어려운 문제에서 고전적인 다층 퍼셉트론과 성공률을 비교했습니다. 그 결과, 우리 모델이 기존 MLP보다 확실히 더 성공적이며 많은 작업과 애플리케이션에서 사용될 수 있는 잠재력을 가지고 있음을 알 수 있었습니다. [abs|pdf]

[79/79] Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box

Keywords: iou_based_loss, iou_based_bbr, iou_loss_auxiliary
Abstract: 탐지기의 급속한 발전과 함께 경계 상자 회귀(BBR) 손실 기능도 지속적으로 업데이트되고 최적화되어 왔습니다. 그러나 기존의 IoU 기반 BBR은 여전히 새로운 손실 항을 추가하여 컨버전스를 가속화하는 데 초점을 맞추고 있으며, IoU 손실 항 자체의 한계는 무시하고 있습니다. 이론적으로 IoU 손실은 바운딩 박스 회귀 상태를 효과적으로 설명할 수 있지만, 실제 적용 시에는 다양한 검출기 및 검출 작업에 따라 스스로 조정할 수 없고 일반화가 어렵습니다. 위의 내용을 바탕으로 먼저 BBR 모델을 분석한 결과, 서로 다른 회귀 샘플을 구분하고 서로 다른 규모의 보조 바운딩 박스를 사용하여 손실을 계산하면 바운딩 박스 회귀 프로세스를 효과적으로 가속화할 수 있다는 결론을 내렸습니다. IoU가 높은 샘플의 경우 더 작은 보조 바운딩 박스를 사용하여 손실을 계산하면 수렴을 가속화할 수 있고, 낮은 샘플의 경우 더 큰 보조 바운딩 박스를 사용하는 것이 적합합니다. 그런 다음, 보조 바운딩 박스를 통해 IoU 손실을 계산하는 Inner-IoU 손실을 제안합니다. 다양한 데이터 세트와 탐지기의 경우, 손실을 계산하기 위한 보조 바운딩 박스의 스케일 크기를 제어하기 위해 배율 비율을 도입합니다. 마지막으로 시뮬레이션 및 비교 실험을 위해 기존 IoU 기반 손실 함수에 Inner-IoU를 통합합니다. 실험 결과, 본 논문에서 제안한 방법을 활용했을 때 탐지 성능이 더욱 향상됨을 보여줌으로써 Inner-IoU 손실의 효과와 일반화 능력을 검증했습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]