프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-03]

다각 2024. 1. 3. 18:02

[1/57] Towards Cognitive AI Systems: a Survey and Prospective on Neuro-Symbolic AI

Keywords: neuro_symbolic_ai, symbolic_ai_nsai, symbolic_ai
Abstract: 심층 신경망을 중심으로 한 인공 지능(AI)의 눈부신 발전은 우리 삶의 다양한 측면에 큰 영향을 미쳤습니다. 그러나 현재 지속 불가능한 계산 궤적, 제한된 견고성, 설명 가능성 부족 등의 과제로 인해 차세대 AI 시스템 개발이 요구되고 있습니다. 신경 기호적 AI(NSAI)는 신경, 기호, 확률론적 접근 방식을 융합하여 해석 가능성, 견고성, 신뢰성을 향상시키는 동시에 훨씬 적은 데이터로 학습을 촉진하는 유망한 패러다임으로 부상하고 있습니다. 최근의 NSAI 시스템은 추론 및 인지 능력을 갖춘 인간-AI 협업 시나리오에서 큰 잠재력을 보여주었습니다. 이 백서에서는 최근 NSAI의 진전 상황을 체계적으로 검토하고 NSAI 모델의 성능 특성과 계산 연산자를 분석합니다. 또한 시스템 및 아키텍처 관점에서 NSAI의 과제와 잠재적인 미래 방향에 대해 논의합니다. [abs|pdf]

[2/57] Safety and Performance, Why Not Both? Bi-Objective Optimized Model Compression against Heterogeneous Attacks Toward AI Software Deployment

Keywords: ai_software_compression, adversaries_compressed_model, safe_model_compression
Abstract: 인공지능(AI) 소프트웨어의 딥러닝 모델 크기가 빠르게 증가하면서 리소스가 제한된 디바이스(예: 스마트폰)에 대규모로 배포하는 데 장애가 되고 있습니다. 이 문제를 완화하기 위해 고성능을 유지하면서 모델 크기를 압축하는 것을 목표로 하는 AI 소프트웨어 압축이 중요한 역할을 합니다. 그러나 큰 모델의 본질적인 결함이 압축된 모델에 그대로 상속될 수 있습니다. 압축 모델은 일반적으로 적절한 보호 조치 없이 많은 수의 디바이스에 배포되기 때문에 이러한 결함은 공격자가 쉽게 활용할 수 있습니다. 이 글에서는 안전성-성능 동시 최적화의 관점에서 안전한 모델 압축 문제를 해결하고자 합니다. 특히 소프트웨어 엔지니어링의 테스트 중심 개발(TDD) 패러다임에서 영감을 받아 SafeCompress라는 테스트 중심 스파스 트레이닝 프레임워크를 제안합니다. 공격 메커니즘을 안전 테스트로 시뮬레이션함으로써 SafeCompress는 동적 스파스 트레이닝 패러다임에 따라 큰 모델을 작은 모델로 자동 압축할 수 있습니다. 그런 다음 블랙박스 멤버십 추론 공격과 화이트박스 멤버십 추론 공격이라는 두 가지 대표적이고 이질적인 공격 메커니즘을 고려하여 BMIA-SafeCompress와 WMIA-SafeCompress라는 두 가지 구체적인 인스턴스를 개발합니다. 또한, 공격자가 블랙박스 멤버십 추론 공격과 화이트박스 멤버십 추론 공격을 동시에 수행하는 경우를 방어하기 위해 SafeCompress를 확장하여 MMIA-SafeCompress라는 또 다른 인스턴스를 구현합니다. 저희는 컴퓨터 비전과 자연어 처리 작업을 위해 5개의 데이터 세트에 대한 광범위한 실험을 수행했습니다. 그 결과 프레임워크의 효과와 일반화 가능성을 확인할 수 있었습니다. 또한 멤버십 추론 공격 이외의 다른 공격에 SafeCompress를 적용하는 방법에 대해서도 논의하여 SafeCompress의 유연성을 보여줍니다. [abs|pdf]

[3/57] Towards Bridging the Gap between High-Level Reasoning and Execution on Robots

Keywords: golog_robot_actions, robot_actions, executing_action_robot
Abstract: 예를 들어 작업 계획이나 Golog를 사용한 에이전트 프로그래밍을 통해 동작을 추론할 때 로봇의 동작은 일반적으로 추상적인 수준에서 모델링되며, 물체를 집는 것과 같은 복잡한 동작은 현재 상태에만 의존하는 결정론적 효과와 전제 조건을 가진 원자적 프리미티브로 취급됩니다. 그러나 로봇에서 이러한 동작을 실행할 때는 더 이상 기본 요소로 볼 수 없습니다. 대신 동작 실행은 추가적인 시간적 전제 조건과 시간 제약이 있는 여러 단계를 포함하는 복잡한 작업입니다. 또한 잘못된 감지 결과를 생성하거나 원하는 효과를 항상 얻지 못하는 등 노이즈가 발생할 수 있습니다. 이러한 측면은 일반적으로 추론 작업에서 무시되지만, 실행 중에 처리해야 합니다. 이 논문에서는 이러한 간극을 좁히기 위한 몇 가지 접근법을 제안합니다. [abs|pdf]

[4/57] Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Keywords: supervised_fine_tuned, supervised_fine_tuning, large_language_models
Abstract: 지도 미세 조정(SFT)을 통해 사람이 주석이 달린 데이터의 힘을 활용하는 것은 대규모 언어 모델(LLM)을 발전시키는 데 있어 매우 중요합니다. 이 백서에서는 사람이 주석한 데이터를 추가로 확보할 필요 없이 약한 LLM을 강력한 LLM으로 성장시킬 수 있는 가능성을 살펴봅니다. 우리는 감독된 미세 조정 모델에서 출발하는 새로운 미세 조정 방법인 SPIN(Self-Play fIne-tuNing)을 제안합니다. SPIN의 핵심은 셀프 플레이 메커니즘으로, LLM이 자신의 인스턴스를 상대로 학습하여 기능을 개선합니다. 좀 더 구체적으로 설명하면, LLM은 이전 반복에서 자체 학습 데이터를 생성하고, 사람이 주석을 단 데이터에서 얻은 응답과 자체 생성된 응답을 구분하여 정책을 개선합니다. 우리의 방법은 초기 모델에서 강력한 모델로 LLM을 점진적으로 향상시켜 SFT를 위한 사람 주석이 달린 데모 데이터의 잠재력을 최대한 활용합니다. 이론적으로는 LLM 정책이 목표 데이터 분포와 일치할 때만 우리 방법의 훈련 목적 함수에 대한 전역 최적이 달성된다는 것을 증명합니다. 경험적으로, 우리는 HuggingFace 오픈 LLM 리더보드, MT-Bench, Big-Bench의 데이터 세트를 포함한 여러 벤치마크 데이터 세트에서 우리의 방법을 평가합니다. 그 결과, SPIN은 다양한 벤치마크에서 LLM의 성능을 크게 향상시킬 수 있으며, 심지어 추가 GPT-4 선호도 데이터로 보완된 직접 선호도 최적화(DPO)를 통해 훈련된 모델보다 성능이 더 뛰어나다는 것을 보여주었습니다. 이는 셀프 플레이의 가능성을 보여 주며, 전문가 없이도 LLM에서 인간 수준의 성능을 달성할 수 있게 해줍니다. [abs|pdf]

[5/57] TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview

Keywords: conversational_information_seeking, conversational_search_agents, conversational_search
Abstract: 대화형 정보 탐색은 이전 연구에서 상당한 기여를 한 중추적인 연구 분야입니다. TREC 대화형 지식 지원 트랙(iKAT)은 TREC 대화형 지원 트랙(CAsT)의 기초 작업을 기반으로 합니다. 그러나 iKAT는 사용자의 이전 상호 작용과 현재 컨텍스트를 기반으로 응답을 조정하는 대화형 검색 에이전트의 개발과 연구를 강조하는 것이 특징입니다. 문제는 대화형 검색 에이전트(CSA)가 이러한 개인화된 컨텍스트를 효율적으로 통합하여 사용자에게 관련 정보를 효과적으로 안내할 수 있도록 하는 것입니다. 또한 iKAT은 사용자가 결론에 도달하거나 작업을 수행하기 위해 데이터와 정보를 탐색하여 옵션을 비교하는 결정적 검색 작업을 강조합니다. 이러한 작업은 여행, 건강, 쇼핑 등 일상적인 정보 탐색 결정에 널리 사용되는 것으로, 옵션 찾기, 옵션 비교, 옵션의 장단점 파악 등 정보 공간에 대한 쿼리 또는 질문이 포함된 상위 수준의 정보 연산자 하위 집합을 중심으로 이루어지는 경우가 많습니다. 다양한 페르소나와 그들의 정보 요구(질문의 순서를 통해 표현됨)를 고려할 때, 이러한 유사한 쿼리에 대한 답변은 매우 다를 것이기 때문에 다양한 대화 궤적이 발생할 것입니다. 이 백서에서는 과제, 주제, 데이터 수집 및 평가 프레임워크에 대해 설명하는 TREC iKAT의 첫 해에 대해 보고합니다. 또한 제출된 과제를 검토하고 그 결과를 요약합니다. [abs|pdf]

[6/57] An Autoregressive Text-to-Graph Framework for Joint Entity and Relation Extraction

Keywords: relation_extraction_unstructured, relation_extraction, entity_relation_extraction
Abstract: 본 논문에서는 구조화되지 않은 텍스트에서 조건부 시퀀스 생성 문제로 프레임을 구성하여 공동 엔티티 및 관계 추출을 위한 새로운 방법을 제안합니다. 기존의 생성 정보 추출 모델이 왼쪽에서 오른쪽으로 토큰 레벨을 생성하는 것과 달리, 우리의 접근 방식은 span-based입니다. 이는 노드가 텍스트 스팬을 나타내고 에지가 관계 삼중항을 나타내는 선형화된 그래프를 생성합니다. 이 방법은 스팬과 관계 유형의 동적 어휘에 대한 포인팅 메커니즘을 갖춘 트랜스포머 인코더-디코더 아키텍처를 사용합니다. 이 모델은 스팬 표현을 통해 엔티티와 관계의 구조적 특성과 경계를 포착하는 동시에 포인팅 메커니즘을 통해 생성된 출력을 원문에 근거할 수 있습니다. 벤치마크 데이터 세트에 대한 평가는 이러한 접근 방식의 효과를 검증하여 경쟁력 있는 결과를 보여줍니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[7/57] LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

Keywords: long_context_handling, handling_long_contexts, handle_long_contexts
Abstract: 이 작업은 미세 조정 없이도 긴 문맥을 처리할 수 있는 LLM의 고유한 능력을 이끌어냅니다. 훈련 중 훈련 시퀀스의 길이가 제한되어 있기 때문에 추론을 위해 긴 입력 시퀀스에 대규모 언어 모델(LLM)을 적용하는 데 한계가 있을 수 있습니다. 이 연구에서는 기존 LLM 자체에 긴 문맥을 처리할 수 있는 기능이 내재되어 있다고 주장합니다. 이러한 논거를 바탕으로 본 논문에서는 내재된 능력을 충분히 활용하기 위해 LLM의 컨텍스트 윈도우를 자체적으로 확장할 것을 제안하며, 이를 위해 LLM의 긴 컨텍스트 처리 잠재력을 자극하는 Self-Extend를 제안합니다. 기본 아이디어는 그룹 수준과 이웃 수준이라는 두 가지 수준의 주의 정보를 구성하는 것입니다. 이 두 가지 수준은 원래 모델의 자기주의에 의해 계산되므로 제안된 방식은 학습이 필요하지 않습니다. 제안한 방법은 단 네 줄의 코드 수정만으로 기존 LLM의 컨텍스트 윈도우를 미세 조정 없이 손쉽게 확장할 수 있습니다. 종합적인 실험을 수행한 결과, 제안한 방법이 기존 LLM의 컨텍스트 윈도우 길이를 효과적으로 확장할 수 있음을 보여줍니다. [abs|pdf]

[8/57] Experimental Validation of Sensor Fusion-based GNSS Spoofing Attack Detection Framework for Autonomous Vehicles

Keywords: gnss_spoofing_attacks, satellite_gnss_spoofing, fusion_based_spoofing
Abstract: 이 논문에서는 자율주행차(AV)를 위한 센서 융합 기반 글로벌 위성항법시스템(GNSS) 스푸핑 공격 탐지 프레임워크의 성능을 검증합니다. 데이터를 수집하기 위해 관성 측정 장치(IMU)와 함께 GNSS 수신기가 장착된 차량이 사용됩니다. 감지 프레임워크에는 두 가지 전략이 통합되어 있습니다: 첫 번째 전략은 두 개의 연속된 타임스탬프 사이의 이동 거리인 예측된 위치 이동을 관성 센서 기반 위치 이동과 비교하는 것입니다. 이를 위해 가속도계 및 자이로스코프 센서와 같은 저비용 차량 내 관성 센서의 데이터를 융합하여 장단기 메모리(LSTM) 신경망에 공급합니다. 두 번째 전략은 랜덤 포레스트 지도 머신 러닝 모델을 사용하여 회전을 감지하고 분류하며, 스티어링 각도 센서의 출력을 사용하여 좌회전과 우회전을 구분합니다. 실험에서는 턴 바이 턴과 유턴의 두 가지 유형의 스푸핑 공격 모델을 시뮬레이션합니다. 이러한 스푸핑 공격은 SQL 인젝션 공격으로 모델링되며, 성공적으로 구현되면 내비게이션 시스템은 주입된 스푸핑된 위치 정보를 합법적인 것으로 인식하지만 합법적인 GNSS 신호는 감지하지 못합니다. 중요한 점은 스푸핑 공격이 진행되는 동안 IMU 데이터가 손상되지 않는다는 것입니다. 탐지 프레임워크의 효과를 테스트하기 위해 앨라배마주 터스칼루사에서 도시 도로 구조를 모방한 실험을 실시했습니다. 그 결과, 프레임워크가 저속 위치 드리프트 공격을 포함하여 다양하고 정교한 GNSS 스푸핑 공격을 탐지할 수 있음을 입증했습니다. 전반적으로 실험 결과는 센서 융합 기반 스푸핑 공격 탐지 접근 방식이 GNSS 스푸핑 위협으로부터 AV를 보호하는 데 있어 견고하고 효과적이라는 것을 보여줍니다. [abs|pdf]

[9/57] Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

Keywords: legal_hallucinations_responses, legal_hallucinations_alarmingly, producing_legal_hallucinations
Abstract: 대규모 언어 모델(LLM)은 법률 업무를 혁신할 수 있는 잠재력을 가지고 있지만, 이러한 잠재력은 법적 사실과 일치하지 않는 모델 응답인 법적 환각의 존재로 인해 위협을 받고 있습니다. 저희는 독창적인 법률 쿼리 세트를 사용하여 이러한 환각의 정도를 조사하고, 구조화된 법률 메타데이터에 대한 LLM의 응답을 비교하고 일관성을 조사합니다. (1) 법적 환각의 유형학을 개발하여 향후 이 분야의 연구를 위한 개념적 틀을 제공합니다. (2) 법적 환각이 놀라울 정도로 널리 퍼져 있으며, 이 모델에 무작위 연방 법원 사건에 대한 구체적이고 검증 가능한 질문을 던졌을 때 ChatGPT 3.5의 경우 69%, Llama 2의 경우 88%의 확률로 발생한다는 사실을 발견했습니다. (3) 사실과 반대되는 질문 설정에서 사용자의 잘못된 법적 가정을 바로잡지 못하는 경우가 많다는 것을 보여줍니다. (4) 우리는 LLM이 언제 법적 환각을 일으킬지 항상 예측할 수 없거나 항상 알 수 없다는 증거를 제시합니다. 이러한 연구 결과를 종합하면, 인기 있는 법학석사 학위를 법률 업무에 무분별하게 빠르게 통합하는 것을 경계해야 합니다. 숙련된 변호사라 할지라도 법적 환각을 경계해야 하며, LLM의 혜택을 가장 많이 받을 수 있는 사람들, 즉 소송을 직접 수행하거나 전통적인 법률 자원을 이용할 수 없는 사람들에게는 그 위험이 가장 높습니다. [abs|pdf]

[10/57] Physics-informed Generalizable Wireless Channel Modeling with Segmentation and Deep Learning: Fundamentals, Methodologies, and Challenges

Keywords: indoor_channel_prediction, accurate_channel_predictions, channel_predictions_work
Abstract: 채널 모델링은 무선 시스템을 발전시키는 데 있어 기본이 되므로 상당한 연구가 집중되고 있습니다. 최근의 추세는 모델링 프로세스를 용이하게 하고 정확한 채널 예측을 도출하기 위해 데이터 기반 기술에 대한 의존도가 높아지고 있습니다. 이 연구에서는 먼저 데이터 기반 채널 모델링 방법에 대한 간략한 개요를 제공하고 그 한계를 강조합니다. 그런 다음 물리 정보 신경망(PINN) 기반 모델링의 개념과 장점을 소개하고 이 분야에서 최근 이루어진 연구 성과를 요약합니다. 연구 결과에 따르면 채널 모델링에서 PINN 기반 접근 방식은 일반화 가능성, 해석 가능성, 견고성과 같은 유망한 속성을 보여줍니다. 크리테오는 향후 모델 개발에 정보를 제공하고 영감을 줄 수 있도록 설계된 종합적인 PINN 방법론 아키텍처를 제공합니다. 시맨틱 세분화와 딥러닝을 통한 정확한 실내 채널 예측에 대한 최근 연구 사례도 소개합니다. 이 연구는 직면한 과제를 해결하고 이 분야의 잠재적인 연구 방향을 제안하는 것으로 마무리됩니다. [abs|pdf]

[11/57] A Comprehensive Study of Knowledge Editing for Large Language Models

Keywords: knowledge_model_editing, techniques_knowledge_editing, knowledge_editing
Abstract: 대규모 언어 모델(LLM)은 인간의 의사소통과 매우 흡사한 텍스트를 이해하고 생성하는 데 탁월한 능력을 보여 왔습니다. 하지만 광범위한 매개변수화로 인해 학습 과정에서 상당한 연산 요구가 발생한다는 점이 가장 큰 한계입니다. 이 문제는 세상의 역동적인 특성으로 인해 더욱 심화되어, 오래된 정보를 수정하거나 새로운 지식을 통합하여 지속적인 관련성을 보장하기 위해 LLM을 자주 업데이트해야 합니다. 많은 애플리케이션은 결함이나 바람직하지 않은 동작을 해결하기 위해 학습 후에도 지속적인 모델 조정을 요구합니다. 즉석에서 모델을 수정할 수 있는 효율적이고 가벼운 방법에 대한 관심이 높아지고 있습니다. 이를 위해 최근에는 다양한 입력에 걸쳐 전반적인 성능을 유지하면서 특정 도메인 내에서 LLM의 동작을 효율적으로 수정하는 것을 목표로 하는 LLM용 지식 편집 기술이 급성장하고 있습니다. 이 백서에서는 먼저 지식 편집 문제를 정의한 다음 최첨단 접근 방식을 포괄적으로 검토합니다. 교육 및 인지 연구 이론에서 영감을 얻어 지식 편집 방법을 외부 지식 활용, 모델에 지식 병합, 내재적 지식 편집의 세 가지 그룹으로 분류하는 통합된 분류 기준을 제안합니다. 또한, 대표적인 지식 편집 접근법에 대한 포괄적인 경험적 평가를 위해 새로운 벤치마크인 KnowEdit를 도입합니다. 또한 지식 위치에 대한 심층 분석을 통해 LLM에 내재된 지식 구조를 더 깊이 이해할 수 있습니다. 마지막으로, 지식 편집의 광범위하고 영향력 있는 의미를 간략히 설명하면서 지식 편집의 몇 가지 잠재적 적용 사례에 대해 논의합니다. [abs|pdf]

[12/57] LLbezpeky: Leveraging Large Language Models for Vulnerability Detection

Keywords: vulnerabilities_context_android, actionable_vulnerability_detection, detecting_vulnerabilities
Abstract: 보안 시스템 구축에 대한 지속적인 연구와 발전에도 불구하고, 안드로이드 애플리케이션에는 계속해서 취약점이 발견되고 있어 효과적인 탐지 방법이 필요합니다. 정적 및 동적 분석 도구를 사용하는 현재의 전략은 압도적인 오탐률과 제한된 분석 범위와 같은 한계가 있어 어느 쪽도 채택하기 어렵습니다. 지난 몇 년 동안 취약점 탐지를 위해 머신 러닝 기반 접근 방식이 광범위하게 연구되어 왔지만, 데이터 요구 사항과 기능 엔지니어링 문제로 인해 실제 적용 가능성에 제약이 있습니다. 방대한 파라미터를 갖춘 대규모 언어 모델(LLM)은 프로그래밍 언어뿐만 아니라 인간 언어의 셈법을 이해하는 데 엄청난 잠재력을 보여 주었습니다. Android 보안의 맥락에서 취약점을 탐지하는 데 LLM이 얼마나 효과적인지 자세히 살펴봅니다. 또한 개발자가 취약점을 식별하고 수정하는 데 도움이 되는 AI 기반 워크플로우를 구축하는 데 중점을 둡니다. 실험 결과, LLM은 Ghera 벤치마크에서 91.67%의 사례에서 안전하지 않은 앱을 올바르게 플래그 지정하여 애플리케이션 내에서 문제를 찾아내는 데 있어 기대 이상의 성능을 보였습니다. 실험을 통해 얻은 추론을 바탕으로 강력하고 실행 가능한 취약점 탐지 시스템을 구축하고 그 효과를 입증합니다. 또한 실험을 통해 다양한 단순 구성이 정탐(TP) 및 오탐(FP) 비율에 어떤 영향을 미칠 수 있는지에 대해 조명합니다. [abs|pdf]

[13/57] Optimal Synthesis of Finite State Machines with Universal Gates using Evolutionary Algorithm

Keywords: cartesian_genetic_programming, state_machines_mcnc91, mcnc91_benchmark_circuits
Abstract: 이 연구는 유한 상태 기계의 합성을 위한 최적화 방법을 제시합니다. 온칩 면적과 회로 비용을 줄이는 데 중점을 둡니다. MCNC91 벤치마크 회로의 유한 상태 기계 목록은 데카르트 유전 프로그래밍을 사용하여 진화했습니다. 평균적으로 총 게이트 수가 거의 30% 감소했습니다. 진화 과정에 대한 일부 매개 변수의 영향도 논문에서 논의되었습니다. [abs|pdf]

[14/57] Fairness Certification for Natural Language Processing and Large Language Models

Keywords: fairness_certification_nlp, fairness_criteria_nlp, nlp_fairness_critical
Abstract: 자연어 처리(NLP)는 특히 대규모 언어 모델(LLM)의 엄청난 발전으로 인해 우리의 일상 생활에서 중요한 역할을 하고 있습니다. 하지만 NLP는 채용 시 전문가 시스템이나 교육 분야의 LLM 기반 튜터와 같이 공정성이 중요한 사용 사례도 많습니다. NLP는 인간의 언어를 기반으로 하기 때문에 잠재적으로 해로운 편견이 NLP 시스템으로 확산되어 불공정한 결과를 낳거나 소수자를 차별하거나 법적 문제를 일으킬 수 있습니다. 따라서 NLP 접근 방식에 대한 공정성 인증을 개발하는 것이 중요합니다. 저희는 NLP에 대한 공정성 인증을 위해 질적 연구 접근법을 따릅니다. 특히 알고리즘 공정성에 관한 방대한 문헌을 검토하고 해당 분야의 다양한 전문가를 대상으로 반구조화된 전문가 인터뷰를 실시했습니다. 그 결과 자연어 처리의 공정성 기준을 6가지로 체계화했으며, 이를 다시 18가지 하위 범주로 세분화할 수 있습니다. 이러한 기준은 감사자와 피감사 조직의 관점에서 공정성을 인증하기 위한 프로세스를 운영하고 테스트할 수 있는 기반을 제공합니다. [abs|pdf]

[15/57] Do Concept Bottleneck Models Obey Locality?

Keywords: understandable_concepts_deep, concepts_deep_learning, concepts_understand_locality
Abstract: 개념 기반 학습은 인간이 이해할 수 있는 개념을 통해 예측을 설명함으로써 딥러닝 모델의 해석 가능성을 향상시킵니다. 이 패러다임에 따라 학습된 딥러닝 모델은 신경망이 다른 개념과 독립적으로 특정 개념의 존재 유무를 예측하는 방법을 학습할 수 있다는 가정에 크게 의존합니다. 그러나 최근의 연구에 따르면 개념 기반 해석 가능 아키텍처의 전형적인 제품군인 개념 병목 모델(CBM)에서는 이러한 가정이 적용되지 않을 수 있음을 강력하게 시사합니다. 이 백서에서는 개념이 공간적으로 고정된 특징의 하위 집합에 의해 전적으로 정의되는 경우와 의미론적으로 미리 정의된 개념의 고정된 하위 집합과만 상관관계가 있는 경우 모두에서 개념이 국지화될 때 CBM이 개념 간 조건부 독립성의 정도를 정확하게 포착하는지 여부를 조사합니다. 로컬리티를 이해하기 위해 개념의 공간적 또는 의미적 로컬리티를 벗어난 특징의 변화가 개념 예측에 어떤 영향을 미치는지 분석합니다. 연구 결과에 따르면 개념의 존재가 고정된 특징 하위 공간에 국한되어 있거나 의미가 다른 개념의 작은 하위 집합과 연관되어 있는 잘 정의된 시나리오에서도 CBM은 이러한 지역성을 학습하지 못하는 것으로 나타났습니다. 이러한 결과는 CBM이 학습한 개념 표현의 품질에 의문을 제기하며, 개념 기반 설명이 지역성 외부의 변화에 취약할 수 있음을 강력하게 시사합니다. [abs|pdf]

[16/57] Encoding Binary Events from Continuous Time Series in Rooted Trees using Contrastive Learning

Keywords: learning_binary_event, event_encoder_continuous, encoder_continuous_time
Abstract: 광대역 인프라 소유자는 로컬 네트워크에서 고객이 어떻게 연결되어 있는지 항상 알 수 없는데, 이는 뿌리가 있는 나무와 같은 구조입니다. 최근의 한 연구에서는 트리의 나뭇잎(고객)에서 얻은 불연속 시계열 데이터를 사용하여 로컬 네트워크의 토폴로지를 추론할 수 있습니다. 이 연구에서는 연속 시계열 데이터로부터 이진 이벤트 인코더를 학습하기 위한 대조적인 접근법을 제안합니다. 예비 결과, 우리의 접근 방식이 가치 있는 인코더를 학습하는 데 어느 정도 잠재력을 가지고 있음을 보여줍니다. [abs|pdf]

[17/57] IdentiFace : A VGG Based Multimodal Facial Biometric System

Keywords: multimodal_facial_biometric, facial_biometric_systems, facial_biometric
Abstract: 얼굴 생체 인식 시스템의 개발은 컴퓨터 비전 분야의 발전에 크게 기여했습니다. 오늘날에는 여러 가지 생체 특성을 효율적이고 의미 있는 방식으로 결합한 멀티모달 시스템을 개발해야 할 필요성이 대두되고 있습니다. 이 논문에서는 얼굴 인식의 핵심인 얼굴과 성별, 얼굴형, 감정 등 가장 중요한 소프트 생체 특성을 결합한 멀티모달 얼굴 생체인식 시스템인 'IdentiFace'를 소개합니다. 또한 다양한 하위 시스템에서 약간의 변경을 통해 VGG-16에서 영감을 얻은 아키텍처만을 사용하여 시스템을 개발하는 데 중점을 두었습니다. 이러한 통합을 통해 여러 모달리티에 걸쳐 더 간단하게 통합할 수 있습니다. 이를 통해 작업 간에 학습된 특징을 더 쉽게 해석할 수 있어 얼굴 양식 전반의 의사 결정 과정과 잠재적 연결성을 잘 파악할 수 있습니다. 인식 문제의 경우, FERET 데이터베이스[1]에서 수집한 데이터를 사용하여 클래스 내 변이가 큰 5개 클래스에 대해 99.2%의 테스트 정확도를 달성했습니다. 성별 인식 문제에서는 자체 데이터 세트에서 99.4%, 공개 데이터 세트[2]에서 95.15%를 달성했습니다. 또한 유명인 얼굴형 데이터셋[3]을 사용한 얼굴형 문제에서도 88.03%의 테스트 정확도를 달성할 수 있었습니다. 마지막으로 감정 과제에서 66.13%의 테스트 정확도를 달성했는데, 이는 FER2013 데이터 세트의 관련 작업[4]과 비교했을 때 매우 수용 가능한 정확도로 간주됩니다. [abs|pdf]

[18/57] Zero-Shot Position Debiasing for Large Language Models

Keywords: position_bias_leveraging, bias_leveraging_information, bias_leveraging
Abstract: 미세 조정은 대규모 언어 모델(LLM)의 도메인 성능을 개선하는 효과적인 방법임이 입증되었습니다. 그러나 LLM은 데이터 세트 편향과 예측에 대한 지름길에 맞출 수 있어 생성 성능이 저하될 수 있습니다. 실험 결과에 따르면 LLM은 입력의 시작이나 끝에 위치한 정보 또는 입력 내의 특정 위치 단서를 활용하는 위치 편향이 나타나기 쉽습니다. 위치 편향성을 완화하기 위한 기존 연구들은 외부 편향성 지식이나 주석이 달린 비편향성 샘플을 필요로 하는데, 이는 현실적으로 실용적이지 않습니다. 이 연구에서는 LLM의 위치 편향을 완화하기 위해 제로샷 위치 디베이싱(ZOE) 프레임워크를 제안합니다. ZOE는 외부 지식이나 데이터 세트 없이 사전 학습된 LLM의 비지도 응답을 디베이싱에 활용합니다. 비지도 응답의 품질을 개선하기 위해, 우리는 이러한 응답을 잘라내는 마스터-슬레이브 정렬(MSA) 모듈을 제안합니다. 8개의 데이터 세트와 5개의 과제에 대한 실험 결과, ZOE는 네 가지 유형의 위치 편향을 완화하는 데 있어 기존 방법보다 일관되게 우수한 성능을 보였습니다. 게다가 ZOE는 편향된 샘플에 대해 약간의 성능 저하만 감수하면 이를 달성할 수 있어 간단하고 효과적입니다. [abs|pdf]

[19/57] PPBFL: A Privacy Protected Blockchain-based Federated Learning Model

Keywords: privacy_federated_learning, security_federated_learning, data_privacy_federated
Abstract: 머신러닝의 급속한 발전과 데이터 프라이버시에 대한 우려가 커지면서 연합 학습이 점점 더 주목받고 있습니다. 그러나 모델 매개변수에 대한 공격과 인센티브 메커니즘의 부재와 같은 문제는 연합 학습의 효과를 저해합니다. 따라서 연합 학습의 보안을 강화하고 모델 학습에 대한 노드의 적극적인 참여를 촉진하기 위해 프라이버시 보호 블록체인 기반 연합 학습 모델(PPBFL)을 제안합니다. 블록체인은 행성 간 파일 시스템(IPFS)에 저장된 모델 매개변수가 변경되지 않도록 보장합니다. 새로운 적응형 차등 프라이버시 추가 알고리즘이 로컬 모델과 글로벌 모델에 동시에 적용되어 로컬 모델의 프라이버시를 보존하고 연합 학습에 수많은 로컬 모델이 존재할 경우 글로벌 모델의 보안이 저하되는 것을 방지합니다. 또한, 새로운 혼합 트랜잭션 메커니즘을 도입하여 로컬 학습 클라이언트의 신원 정보를 더 잘 보호합니다. 보안 분석 및 실험 결과에 따르면 PPBFL은 모델 성능과 보안 모두에서 기준 방법보다 우수한 것으로 나타났습니다. [abs|pdf]

[20/57] Skin cancer diagnosis using NIR spectroscopy data of skin lesions in vivo using machine learning algorithms

Keywords: dataset_nir_spectral, classification_nir_spectral, nir_spectral_data
Abstract: 피부 병변은 양성 또는 악성으로 분류됩니다. 악성 중 흑색종은 매우 공격적인 암으로 주요 사망 원인입니다. 따라서 피부암의 조기 진단이 매우 중요합니다. 지난 몇 년 동안 병변의 이미지와 임상 데이터를 대부분 사용하는 컴퓨터 보조 진단(CAD)에 대한 관심이 높아지고 있습니다. 이러한 정보 소스는 병변의 분자 구조에 대한 정보를 제공하지 못하기 때문에 한계가 있습니다. 근적외선 분광법은 피부 병변의 자동화된 CAD에 대한 대안적인 정보 소스를 제공할 수 있습니다. 분광학에서 가장 일반적으로 사용되는 기술과 분류 알고리즘은 주성분 분석(PCA), 부분 최소 제곱 - 판별 분석(PLS-DA), 서포트 벡터 머신(SVM)입니다. 그럼에도 불구하고 분광학에 머신러닝과 딥러닝(MDL)의 최신 기술을 적용하는 것에 대한 관심이 높아지고 있습니다. 분광학에 MDL을 적용하는 데 있어 가장 큰 한계 중 하나는 공개 데이터 세트가 부족하다는 점입니다. 우리가 아는 한 피부 병변에 대한 근적외선 스펙트럼 데이터의 공개 데이터 세트가 없기 때문에, 노력을 기울여 근적외선 스펙트럼 데이터를 피부암으로 분류하기 위한 황금 표준을 생성하는 NIR-SC-UFES라는 새로운 데이터 세트를 수집, 주석 달기 및 분석했습니다. 다음으로, 암과 비암 피부 병변을 분류하기 위해 머신러닝 알고리즘인 XGBoost, CatBoost, LightGBM, 1D 컨볼루션 신경망(1D-CNN)을 조사했습니다. 실험 결과, 표준 정상 변수(SNV)를 사용한 전처리, 특징 추출을 통해 균형 정확도 0.839, 리콜 0.851, 정밀도 0.852, F-점수 0.850의 값을 제공하는 LightGBM의 성능이 가장 우수한 것으로 나타났습니다. 얻은 결과는 근적외선 스펙트럼 데이터를 사용하여 생체 내 피부 병변이 있는 환자를 자동으로 분류하는 것을 목표로 하는 피부 병변 CAD의 첫 번째 단계를 나타냅니다. [abs|pdf]

[21/57] JMA: a General Algorithm to Craft Nearly Optimal Targeted Adversarial Example

Keywords: adversarial_examples_deep, craft_targeted_adversarial, targeted_adversarial
Abstract: 지금까지 딥러닝 분류기에 대한 표적 공격 예시를 만들기 위해 제안된 대부분의 접근 방식은 매우 차선책이며 일반적으로 표적 클래스의 가능성을 높이는 데 의존하기 때문에 암묵적으로 원핫 인코딩 설정에 초점을 맞추고 있습니다. 이 백서에서는 입력 샘플의 잠재 공간 표현을 주어진 방향으로 이동시키는 데 필요한 노력(입력 공간에서)을 고려하여 자코비안 유도 마할라노비스 거리(JMA) 항의 최소화에 의존하는 보다 일반적이고 이론적으로 건전한 표적 공격을 제안합니다. 최소화는 Wolfe 이중성 정리를 활용하여 문제를 비음수 최소제곱(NNLS) 문제의 해로 축소함으로써 해결됩니다. 제안된 알고리즘은 원래 Szegedy 등이 도입한 적대적 예제 문제의 선형화된 버전에 대한 최적의 해를 제공합니다. 우리가 수행한 실험을 통해 다양한 출력 인코딩 체계에서 효과적인 것으로 입증된 제안된 공격의 일반성을 확인했습니다. 특히 JMA 공격은 다중 레이블 분류 시나리오에서도 효과적이어서 20개의 레이블이 있는 복잡한 다중 레이블 분류 시나리오에서 최대 절반의 레이블에 대한 표적 수정을 유도할 수 있으며, 이는 지금까지 제안된 모든 공격이 도달할 수 없는 수준입니다. 또 다른 장점으로, JMA 공격은 일반적으로 반복 횟수가 매우 적기 때문에 기존 방법보다 효율적입니다. [abs|pdf]

[22/57] Uncertainty Resolution in Misinformation Detection

Keywords: effective_mitigating_misinformation, mitigating_misinformation, mitigating_misinformation_particularly
Abstract: 잘못된 정보는 대중의 신뢰를 약화시키고 사실적 담론을 왜곡하는 등 다양한 위험을 초래할 수 있습니다. GPT-4와 같은 대규모 언어 모델(LLM)은 잘못된 정보를 완화하는 데 효과적이며, 특히 충분한 문맥이 제공되는 진술을 처리하는 데 효과적인 것으로 나타났습니다. 하지만 모호하거나 문맥이 부족한 문장을 정확하게 평가하는 데는 어려움을 겪습니다. 이 연구에서는 이러한 진술의 불확실성을 해결할 수 있는 새로운 방법을 소개합니다. 누락된 정보를 분류하고, 누락된 정보가 있는 교차 도메인 콘텐츠에 적용할 수 있는 LIAR-New 데이터 세트에 대한 카테고리 레이블을 게시하는 프레임워크를 제안합니다. 그런 다음 이 프레임워크를 활용하여 누락된 컨텍스트에 대한 효과적인 사용자 쿼리를 생성합니다. 이 방법은 기준선에 비해 생성된 질문에 대해 사용자가 답변할 수 있는 비율은 38% 포인트, 분류 성능은 10% 포인트 이상 매크로 F1 향상됩니다. 따라서 이 접근 방식은 향후 잘못된 정보 완화 파이프라인에 유용한 구성 요소를 제공할 수 있습니다. [abs|pdf]

[23/57] NID-SLAM: Neural Implicit Representation-based RGB-D SLAM in dynamic environments

Keywords: performance_neural_slam, enhance_visual_slam, neural_slam
Abstract: 신경 암시적 표현은 특히 고충실도 고밀도 지도를 제공하는 데 있어 시각적 SLAM 알고리즘을 향상시키기 위해 연구되어 왔습니다. 기존 방법은 정적인 장면에서는 안정적으로 작동하지만 움직이는 물체로 인한 중단으로 인해 어려움을 겪습니다. 이 백서에서는 동적 환경에서 신경 SLAM의 성능을 크게 향상시키는 NID-SLAM을 소개합니다. 특히 시맨틱 마스크의 부정확한 영역, 특히 한계 영역을 개선하기 위한 새로운 접근 방식을 제안합니다. 이 방법은 심도 이미지에 존재하는 기하학적 정보를 활용하여 동적 물체를 정확하게 제거함으로써 카메라 드리프트의 가능성을 줄입니다. 또한 동적 장면에 대한 키프레임 선택 전략을 소개하여 대규모 물체에 대한 카메라 추적의 견고성을 높이고 매핑의 효율성을 개선합니다. 공개적으로 사용 가능한 RGB-D 데이터 세트에 대한 실험을 통해 유니티의 방법이 동적 환경에서 추적 정확도와 매핑 품질 면에서 경쟁사의 신경 SLAM 접근 방식보다 뛰어난 성능을 발휘한다는 것을 입증했습니다. [abs|pdf]

[24/57] Unifying Structured Data as Graph for Data-to-Text Pre-Training

Keywords: graph_text_generation, data_text_generation, text_generation_tasks
Abstract: 데이터-텍스트(D2T) 생성은 구조화된 데이터를 자연어 텍스트로 변환하는 것을 목표로 합니다. 데이터-텍스트 사전 학습은 D2T 생성을 향상시키는 데 강력하며 인상적인 성능을 제공하는 것으로 입증되었습니다. 하지만 기존의 사전 훈련 방법은 입력 구조를 고려하지 않고 구조화된 데이터를 지나치게 단순화하거나 특정 데이터 구조(예: 테이블 또는 지식 그래프)에 맞춰 훈련 목표를 설계했습니다. 이 논문에서는 다양한 유형의 구조화된 데이터(예: 테이블, 키-값 데이터, 지식 그래프)를 그래프 형식으로 통합하고 다양한 데이터-텍스트 생성 작업을 그래프-텍스트 생성으로 캐스팅합니다. 입력 그래프의 구조 정보를 효과적으로 활용하기 위해 구조 강화 트랜스포머를 설계하여 D2T 생성을 위한 구조 강화 사전 학습 방법을 제안합니다. 구체적으로, 입력 그래프에서 연결된 노드들의 상대적 위치 정보를 부호화하는 트랜스포머의 위치 행렬을 고안합니다. 또한, 사용 가능한 명시적 연결 구조를 고려하여 그래프 구조를 원래 트랜스포머에 통합하기 위한 새로운 주의 행렬을 제안합니다. 6개의 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 모델의 효과를 확인할 수 있습니다. 소스 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[25/57] Accurate and Efficient Urban Street Tree Inventory with Deep Learning on Mobile Phone Imagery

Keywords: phone_imaging_urban, accurately_segment_tree, smartphone_cameras_accurately
Abstract: 기후 변화의 주요 원인인 삼림 벌채는 농업 부문의 붕괴, 지구 온난화, 돌발 홍수, 산사태와 같은 해로운 결과를 초래합니다. 도시 가로수 인벤토리에 대한 기존의 접근 방식은 부정확하고 전문화된 장비가 필요합니다. 이러한 문제를 극복하기 위해 이 백서에서는 도시 가로수 목록에 딥러닝 기술과 휴대폰 이미지를 활용하는 혁신적인 방법을 제안합니다. 이 접근 방식은 스마트폰 카메라로 촬영한 한 쌍의 이미지를 활용하여 나무 줄기를 정확하게 분할하고 가슴높이 지름(DBH)을 계산합니다. 기존 방식에 비해 뛰어난 정확도, 특수 장비에 대한 의존도 감소, 접근하기 어려운 지역에서의 적용 가능성 등 여러 가지 장점이 있습니다. 400그루의 나무로 구성된 포괄적인 데이터 세트에서 이 방법을 평가한 결과, 2.5% 미만의 오차율로 DBH를 추정하는 정확도를 달성했습니다. 이 방법은 산림 관리 관행을 크게 개선할 수 있는 상당한 잠재력을 가지고 있습니다. 이 모델은 나무 목록의 정확성과 효율성을 향상시켜 도시 관리가 삼림 벌채와 기후 변화의 악영향을 완화할 수 있도록 지원합니다. [abs|pdf]

[26/57] Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training

Keywords: pre_trained_encoders, pre_trained_image, trained_image_text
Abstract: 현대 의료 분야에서는 진단을 위해 텍스트 보고서와 함께 방사선 이미지를 활용하는 경우가 많기 때문에 사전 학습된 대규모 모델을 통해 다양한 의료 비전 표현을 학습하는 비전 언어 자기 지도 학습(VL-SSL)의 사용이 권장되고 있습니다. 하지만 대부분의 기존 VL-SSL 프레임워크는 엔드투엔드 방식으로 학습되기 때문에 연산량이 많고 사전 학습된 인코더에 포함된 중요한 사전 정보를 잃을 수 있습니다. 이 두 가지 문제를 해결하기 위해 유니티는 사전 학습된 이미지 및 텍스트 인코더의 의료 지식을 고정된 상태로 유지하여 보존하고 크로스 모드 학습을 위한 경량 어댑터 모듈을 사용하는 백본 애그노스틱 어댑터 프레임워크를 도입했습니다. 세 가지 데이터 세트에서 의료 이미지 분류 및 세분화 작업을 실험한 결과, 이 프레임워크는 현재의 사전 학습 접근 방식에 비해 학습 가능한 매개변수를 90% 이상 줄이면서 경쟁력 있는 성능을 제공하는 것으로 나타났습니다. 특히 1%의 데이터로 미세 조정한 경우, 의료 이미지 세분화에서 전체 데이터 세트로 훈련된 여러 Transformer 기반 방법보다 뛰어난 성능을 보였습니다. [abs|pdf]

[27/57] Quadratic Time-Frequency Analysis of Vibration Signals for Diagnosing Bearing Faults

Keywords: diagnose_bearing_faults, bearing_faults_time, diagnosis_bearing_faults
Abstract: 베어링 결함의 진단은 유지보수 비용과 운영 고장을 줄이는 데 가장 중요합니다. 베어링 결함은 기계 진동의 주요 원인이며, 신호 형태를 분석하면 베어링 상태에 대한 인사이트를 얻을 수 있습니다. 안타깝게도 기존의 접근 방식은 제어 환경에 최적화되어 있어 시간에 따라 변화하는 회전 속도와 진동의 비고정성 같은 현실적인 조건을 무시합니다. 이 논문에서는 시간-주파수 분석과 딥러닝 기법을 융합하여 시간에 따라 변화하는 속도와 다양한 소음 수준에서 베어링 결함을 진단하는 방법을 제시합니다. 먼저 베어링 결함으로 인한 진동을 공식화하고 비고정성과 베어링의 고유 및 작동 매개변수 사이의 연관성을 논의합니다. 또한 이차 시간-주파수 분포를 규명하고 다양한 베어링 결함과 관련된 고유한 동적 패턴을 해결하는 데 있어 그 효과를 검증합니다. 이를 바탕으로 구름 요소 베어링의 다양한 결함을 진단하기 위한 시간-주파수 컨볼루션 신경망(TF-CNN)을 설계합니다. 실험 결과는 최근 개발된 기술과 비교하여 TF-CNN의 우수한 성능을 입증합니다. 또한 속도 변화와 결합된 결함 관련 비고정적 특징을 포착하는 데 있어 다재다능하고 노이즈에 대한 탁월한 복원력을 보여주며 다양한 신호 대 잡음비 및 성능 지표에서 경쟁 방법을 지속적으로 능가하는 것으로 입증되었습니다. 전체적으로 TF-CNN은 극심한 노이즈 조건에서 최대 15%까지 상당한 정확도 향상을 달성합니다. [abs|pdf]

[28/57] Spiker+: a framework for the generation of efficient Spiking Neural Networks FPGA accelerators for inference at the edge

Keywords: hardware_accelerated_snn, spiker_snn_accelerator, networks_snn_accelerators
Abstract: 엣지의 임베디드 시스템에 인공 신경망을 포함하면 애플리케이션이 네트워크 주변에서 작동하는 디바이스 내에서 직접 인공 지능 기능을 활용할 수 있습니다. 이 백서에서는 엣지에서의 추론을 위해 FPGA에서 효율적이고 저전력이며 작은 면적의 맞춤형 스파이킹 신경망(SNN) 가속기를 생성하기 위한 포괄적인 프레임워크인 Spiker+에 대해 소개합니다. Spiker+는 구성 가능한 멀티레이어 하드웨어 SNN, 고효율 뉴런 아키텍처 라이브러리, 설계 프레임워크를 제공하여 몇 줄의 Python 코드만으로 복잡한 신경망 가속기를 개발할 수 있습니다. Spiker+는 두 가지 벤치마크 데이터 세트인 MNIST와 Spiking Heidelberg Digits(SHD)에서 테스트되었습니다. MNIST에서는 최신 SNN 가속기와 비교했을 때 경쟁력 있는 성능을 보여줍니다. 7,612개의 로직 셀과 18개의 블록 RAM(BRAM)이 필요하기 때문에 매우 작은 FPGA에 적합하고, 전력 소비량도 입력 이미지에 대한 완전한 추론에 180mW만 소모되어 리소스 할당 측면에서 이들보다 월등히 뛰어납니다. 지연 시간은 780us/img로 최신 기술과 비슷한 수준입니다. 저자가 알기로는 스파이커+가 SHD에서 테스트된 최초의 SNN 가속기입니다. 이 가속기의 경우, 입력 데이터에 대한 완전한 추론을 위해 18,268개의 로직 셀과 51개의 BRAM이 필요하며, 전체 전력 소비량은 430mW, 지연 시간은 54us입니다. 이는 하드웨어 가속 SNN 환경에서 Spiker+의 중요성을 강조하며, 리소스 및 전력 제약이 있는 엣지 애플리케이션에 구성 및 조정이 가능한 SNN 아키텍처를 배포하는 데 탁월한 솔루션입니다. [abs|pdf]

[29/57] Explainable Adaptive Tree-based Model Selection for Time Series Forecasting

Keywords: tree_based_forecasters, online_forecasting, severe_online_forecasting
Abstract: 트리 기반 모델은 시계열 예측을 비롯한 다양한 작업에 성공적으로 적용되어 왔습니다. 비교적 높은 수준의 해석 가능성으로 인해 그 수요는 점점 증가하고 있으며 널리 사용되고 있습니다. 그러나 이들 중 상당수는 과적합 문제로 인해 실제 의사 결정에 적용하는 데 한계가 있습니다. 이 문제는 시계열 관측치가 점진적으로 수집되고 시간이 지남에 따라 도출되는 분포가 계속 변할 수 있는 온라인 예측 환경에서 더욱 심각해집니다. 이러한 맥락에서 본 논문에서는 시계열 예측 작업에서 TreeSHAP 설명가능성 방법을 사용하여 트리 기반 모델을 온라인으로 선택하는 새로운 방법을 제안합니다. 먼저 다양한 트리 기반 모델의 임의의 집합으로 시작합니다. 그런 다음 일관된 설계를 통해 성능 기반 순위를 매겨 TreeSHAP이 입력된 시계열의 여러 지역에 걸쳐 트리 기반 예측자를 전문화할 수 있도록 윤곽을 잡습니다. 이 프레임워크에서 적절한 모델 선택은 시계열의 드리프트 감지에 따라 적응적으로 온라인에서 수행됩니다. 또한 온라인 입력 중요도, 모델 선택, 모델 출력 설명의 세 가지 수준에서 설명성을 지원합니다. 다양한 실제 데이터 세트에 대한 광범위한 경험적 연구에 따르면 이 방법은 여러 기준선뿐만 아니라 최첨단 접근 방식과 비교하여 우수하거나 동등한 결과를 달성하는 것으로 나타났습니다. [abs|pdf]

[30/57] Utilizing Autoregressive Networks for Full Lifecycle Data Generation of Rolling Bearings for RUL Prediction

Keywords: data_generated_cvgan, data_generated_cvgans, generated_cvgan_model
Abstract: 구름 베어링의 수명 예측은 산업 생산에서 매우 중요합니다. 그러나 고품질의 전체 수명 주기 데이터가 부족하다는 점이 정확한 예측을 달성하는 데 큰 제약이 되어 왔습니다. 이 백서에서는 이러한 문제를 해결하기 위해 과거 진동 데이터와 남은 유효 수명에 따라 수평 및 수직 방향의 1차원 진동 신호를 생성할 수 있는 새로운 프레임워크인 CVGAN 모델을 소개합니다. 또한, 이전에 생성된 진동 정보를 반복적으로 활용하여 현재 신호의 생성을 유도할 수 있는 자동 회귀 생성 방법을 제안합니다. CVGAN 모델의 효과는 PHM 2012 데이터 세트에서 수행한 실험을 통해 검증됩니다. 실험 결과, MMD 및 FID 지표 모두에서 CVGAN 모델이 자동 회귀 및 비자동 회귀 생성 모드 모두에서 많은 고급 방법보다 성능이 뛰어나다는 것이 입증되었습니다. 특히 CVGAN 모델에서 생성된 전체 라이프사이클 데이터를 사용하여 학습하면 예측 모델의 성능이 크게 향상됩니다. 이 결과는 이러한 모델의 예측력을 향상시키는 데 있어 CVGAN이 생성한 데이터가 얼마나 효과적인지 잘 보여줍니다. [abs|pdf]

[31/57] AI-FLARES: Artificial Intelligence for the Analysis of Solar Flares Data

Keywords: analysis_solar_flares, solar_flare_forecasting, solar_flares_data
Abstract: AI-FLARES(태양 플레어 데이터 분석을 위한 인공 지능)는 이탈리아 우주국(Agenzia Spaziale Italiana)과 이탈리아 국립천문연구소(Istituto Nazionale di Astrofisica)가 '이탈리아 우주과학 커뮤니티 스튜디오' 프로그램의 일환으로 자금을 지원한 연구 프로젝트입니다. 이 프로젝트에서 다룬 주제는 태양 플레어 방출과 관련된 원격 감지 우주 데이터 분석을 위한 계산 방법의 개발과 사용이었습니다. 이 백서에서는 태양 플레어 예측, 플레어 발생원의 형태 재구성, 태양 플레어에 의해 촉발된 가속 메커니즘의 해석에 중점을 두고 이 프로젝트에서 얻은 주요 결과를 개괄적으로 살펴봅니다. [abs|pdf]

[32/57] Efficient Parallel Audio Generation using Group Masked Language Modeling

Keywords: parallel_audio_generation, audio_generation_training, audio_generation
Abstract: 병렬 오디오 생성을 위한 빠르고 고품질의 코덱 언어 모델을 제시합니다. 최신 병렬 오디오 생성 모델인 사운드스톰은 자동 회귀 모델에 비해 추론 속도가 빠르지만, 반복 샘플링으로 인해 추론 속도가 느리다는 단점이 있습니다. 이 문제를 해결하기 위해 효율적인 병렬 오디오 생성을 위한 그룹 마스크 언어 모델링(G-MLM)과 그룹 반복 병렬 디코딩(G-IPD)을 제안합니다. 이 훈련 및 샘플링 방식은 모두 그룹별 조건부 종속성을 효과적으로 모델링하여 적은 수의 반복으로 고품질 오디오를 합성할 수 있도록 합니다. 또한 이 모델은 교차 주의 기반 아키텍처를 사용하여 프롬프트 음성의 화자 스타일을 포착하고 계산 효율성을 개선합니다. 실험 결과에 따르면 제안된 모델은 프롬프트 기반 오디오 생성에서 기준선보다 우수한 성능을 보였습니다. [abs|pdf]

[33/57] Quokka: An Open-source Large Language Model ChatBot for Material Science

Keywords: chatbot_materials_science, chatbot_materials, specialized_chatbot_materials
Abstract: 이 백서에서는 Llama-2 언어 모델을 활용하고 S2ORC 데이터 세트의 방대한 재료 과학 분야 연구 논문에 대한 지속적인 사전 학습을 통해 재료 과학에 특화된 챗봇을 개발하는 방법을 소개합니다. 이 방법론에는 백만 개가 넘는 분야별 논문에 대한 초기 사전 교육 단계와 챗봇의 기능을 개선하기 위한 명령어 튜닝 프로세스가 포함됩니다. 이 챗봇은 재료 과학 분야의 질문에 대해 문맥을 인식하는 즉각적인 답변을 제공함으로써 연구자, 교육자, 학생을 지원하도록 설계되었습니다. 학습된 4가지 체크포인트(7B, 13B, 채팅 기능 포함 또는 미포함)를 이 https URL에서 연구 커뮤니티에 무료로 제공합니다. [abs|pdf]

[34/57] Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation

Keywords: generate_vietnamese_poems, poetry_generation_challenging, poetry_generation
Abstract: 시 생성은 언어, 감정, 스타일의 뉘앙스를 이해하는 모델이 필요하기 때문에 자연어 처리 분야에서 까다로운 작업이었습니다. 이 백서에서는 대규모 언어 모델을 사용하여 자연어 프롬프트에서 베트남 시를 생성함으로써 향상된 콘텐츠 제어 기능을 갖춘 직관적인 프로세스를 촉진할 것을 제안합니다. 가장 효과적인 모델인 GPT-3 Babbage 변형은 베트남 시의 '뤽박쥐' 장르에 맞게 맞춤화된 평가 점수 0.8점을 달성했습니다. 또한 시를 일반 텍스트 프롬프트로 의역하는 아이디어도 탐색하여 "luc bat" 장르에서 0.718이라는 비교적 높은 점수를 얻었습니다. 이 실험은 번역된 시를 입력으로 사용하는 동시에 생성된 콘텐츠를 완벽하게 제어할 수 있는 언어 간 시 대 시 번역의 가능성을 제시합니다. [abs|pdf]

[35/57] Discovering Significant Topics from Legal Decisions with Selective Inference

Keywords: cases_topic_models, identifies_case_topics, topic_models_penalised
Abstract: 당사는 토픽 모델로 합성된 특징을 페널티 회귀와 선택 후 유의성 테스트를 통해 통과시킴으로써 법률 판결문에서 중요한 토픽을 발견하는 자동화된 파이프라인을 제안하고 평가합니다. 이 방법은 결과와 유의미한 상관관계가 있는 판례 토픽, 중요한 토픽에 대한 인사이트를 얻기 위해 수동으로 해석할 수 있는 토픽-단어 분포, 각 토픽의 대표 판례를 식별하는 데 사용할 수 있는 판례-토픽 가중치를 식별합니다. 새로운 도메인 이름 분쟁 데이터 세트와 유럽인권재판소 침해 사건의 표준 데이터 세트에 대해 이 방법을 시연합니다. 언어 모델 임베딩뿐만 아니라 잠재 의미 분석에 기반한 토픽 모델을 평가합니다. 파이프라인을 통해 도출된 토픽이 두 영역의 법률 교리와 일치하며 다른 관련 법률 분석 작업에도 유용할 수 있음을 보여줍니다. [abs|pdf]

[36/57] BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

Keywords: bev_feature_retrieval, view_bev_retrieval, scene_retrieval_lack
Abstract: 자율주행에서 복잡한 장면 데이터 검색에 대한 수요는 증가하고 있으며, 특히 승용차에 도심 주행 기능이 탑재되면서 롱테일 시나리오에 대한 대응이 필수적인 상황입니다. 한편, 기존의 2차원 이미지 검색 방식에서는 전역적 특징 표현이 부족하고 텍스트 검색 능력이 떨어지는 등 장면 검색에 몇 가지 문제가 발생할 수 있습니다. 이러한 문제를 해결하기 위해 설명 텍스트를 입력으로 활용하여 해당 장면을 검색하는 최초의 멀티모달 조감도(BEV) 검색 방법론인 BEV-CLIP을 제안했습니다. 이 방법론은 대규모 언어 모델(LLM)의 의미론적 특징 추출 기능을 적용하여 광범위한 텍스트 설명의 제로 샷 검색을 용이하게 하고, 지식 그래프의 반구조화 정보를 통합하여 포함되는 언어의 의미론적 풍부함과 다양성을 향상시킵니다. 실험 결과, 텍스트-BEV 기능 검색에서 뉴스센스 데이터 세트의 정확도는 87.66%에 달했습니다. 백서에서 입증된 사례는 우리의 검색 방법이 특정 롱테일 코너 장면을 식별하는 데에도 효과적이라는 것을 뒷받침합니다. [abs|pdf]

[37/57] Enhancing Automatic Modulation Recognition through Robust Global Feature Extraction

Keywords: modulation_recognition, automatic_modulation_recognition, modulation_recognition_amr
Abstract: 자동 변조 인식(AMR)은 무선 통신 시스템에서 중요한 역할을 합니다. 최근 몇 년 동안 딥러닝 AMR 전략은 엄청난 성공을 거두었습니다. 변조된 신호는 시간적 종속성이 길기 때문에 변조 체계를 식별하는 데 있어 글로벌 특징을 추출하는 것이 중요합니다. 전통적으로 인간 전문가들은 변조 방식을 분류하기 위해 별자리 다이어그램의 패턴을 분석합니다. 기존의 컨볼루션 기반 네트워크는 수신 필드가 제한적이기 때문에 국부적인 특징을 추출하는 데는 탁월하지만, 전역적인 관계를 포착하는 데는 어려움을 겪습니다. 이러한 한계를 해결하기 위해 유니티는 트랜스포머와 장단기 메모리(LSTM)의 아키텍처를 통합한 새로운 하이브리드 딥 프레임워크인 TLDNN을 도입했습니다. 트랜스포머의 자기주의 메커니즘을 활용해 신호 시퀀스의 글로벌 상관관계를 모델링하는 동시에 LSTM을 사용해 시간적 종속성의 포착을 강화합니다. RF 핑거프린트 특징과 채널 특성이 모델 일반화에 미치는 영향을 완화하기 위해 변조 관련 특징에 대한 모델의 견고성을 향상시키기 위해 세그먼트 대체(SS)라는 데이터 증강 전략을 제안합니다. 널리 사용되는 데이터 세트에 대한 실험 결과는 우리의 방법이 최첨단 성능을 달성하고 복잡성 측면에서 상당한 이점을 제공한다는 것을 보여줍니다. 우리가 제안한 프레임워크는 다른 데이터 세트로 확장할 수 있는 기초적인 백본 역할을 합니다. 특히 몇 개의 샷으로 구성된 시나리오에서 모델의 일반화를 향상시키는 데 있어 증강 접근법의 효과를 확인했습니다. 코드는 url에서 확인할 수 있습니다. [abs|pdf]

[38/57] LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Keywords: language_models_llms, vocabulary_extension_pretraining, pretrained_english
Abstract: 최근에는 ChatGPT로 대표되는 대규모 언어 모델(LLM)의 상당한 발전이 목격되어 다양하고 복잡한 작업에서 놀라운 숙련도를 보여주고 있습니다. 그러나 많은 주류 LLM(예: LLaMA)은 영어가 지배적인 말뭉치에 대해 사전 학습되어 있기 때문에 영어가 아닌 다른 언어에서는 성능이 제한됩니다. 이 논문에서는 언어 생성 및 지시어 추종 기능을 비영어권 언어로 효과적으로 이전하는 방법에 초점을 맞춥니다. 이 질문에 답하기 위해 유니티는 1440시간 이상의 GPU 시간을 축적하여 LLaMA를 기반으로 광범위한 실증 조사를 수행했습니다. 어휘 확장, 추가 사전 훈련, 명령어 튜닝과 같은 주요 요인이 전이에 미치는 영향을 분석합니다. 모델의 지식 수준을 정확하게 평가하기 위해 널리 사용되는 네 가지 표준화된 테스트 벤치마크를 사용합니다: C-Eval, MMLU, AGI-Eval, GAOKAO-Bench입니다. 또한 17개의 다양한 카테고리의 명령어 과제로 구성된 벤치마크인 LLM-Eval을 기반으로 정확성, 유창성, 정보성, 논리적 일관성, 무해성 등의 측면을 고려하여 모델의 응답 품질을 종합적으로 평가합니다. 평가 결과, 지식 정렬과 응답 품질 측면에서 1% 미만의 사전 학습 데이터로도 최첨단 전달 모델과 유사한 성능을 달성할 수 있음을 입증했습니다. 또한 자원이 부족한 13개 언어에 대한 실험 결과도 비슷한 경향을 보였습니다. 이번 실험을 통해 밝혀진 결론은 비영어권 언어 학습 모델을 개발하는 커뮤니티에 도움이 될 것으로 기대합니다. [abs|pdf]

[39/57] Elastic Multi-Gradient Descent for Parallel Continual Learning

Keywords: parallel_continual_learning, goal_continual_learning, continual_learning
Abstract: 지속적 학습(CL)의 목표는 새로운 데이터 스트림에서 지속적으로 학습하여 해당 작업을 수행하는 것입니다. 이전에 연구된 CL은 데이터가 서로 다른 작업에 대해 순차적으로 주어지는 것으로 가정하므로 실제로는 직렬 연속 학습(SCL)에 속합니다. 이 논문에서는 다양한 작업 집합이 서로 다른 시점에 발생하는 동적 멀티태스크 시나리오에서 병렬 연속 학습(PCL)이라는 새로운 패러다임을 연구합니다. PCL은 학습 진행 상황이 다양한 불특정 다수의 작업을 학습해야 하기 때문에 발생하는 모든 작업에 대해 효과적인 모델 업데이트를 보장하기 어렵다는 문제가 있습니다. 이전 컨퍼런스 작업에서는 다중 목표 최적화 문제에서 기울기 간의 불일치를 측정하고 줄이는 데 중점을 두었지만, 여전히 모든 모델 업데이트에 음의 전이가 포함될 수 있습니다. 이 문제를 해결하기 위해 동적 다중 목표 최적화 문제에서 작업별 탄성 요인을 도입하여 파레토 전선을 향한 하강 방향을 조정합니다. 탄력적 다중 경사 하강(EMGD)이라고 하는 이 방법은 각 업데이트가 적절한 파레토 하강 방향을 따르도록 하여 이전에 학습한 작업에 대한 부정적인 영향을 최소화합니다. 또한 이전 작업과 새로운 작업 간의 학습 균형을 맞추기 위해 EMGD를 사용해 계산된 경사도에 따라 메모리 편집 메커니즘을 제안합니다. 이 편집 프로세스는 저장된 데이터 포인트를 업데이트하여 이전 작업의 파레토 하강 방향에 대한 간섭을 줄입니다. 공개 데이터 세트에 대한 실험을 통해 PCL 설정에서 EMGD의 효과를 검증합니다. [abs|pdf]

[40/57] Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation

Keywords: audio_alignment_tta, text_audio_alignment, audio_alignment_especially
Abstract: 최근 확산 모델과 대규모 언어 모델(LLM)의 발전으로 AIGC 분야가 크게 발전했습니다. 자연어 프롬프트에서 오디오를 생성하도록 설계된 급성장하는 AIGC 애플리케이션인 텍스트-오디오(TTA)가 점점 더 많은 관심을 받고 있습니다. 그러나 기존의 TTA 연구는 특히 복잡한 텍스트 입력의 경우 생성 품질과 텍스트-오디오 정렬에 어려움을 겪는 경우가 많습니다. 최첨단 텍스트-이미지(T2I) 확산 모델에서 영감을 얻어 고유의 생성 강점과 정밀한 모달 간 정렬을 효과적으로 활용하여 T2I 모델 프레임워크를 TTA 작업에 적용하는 TTA 시스템인 Auffusion을 소개합니다. 객관적이고 주관적인 평가에 따르면 Auffusion은 제한된 데이터와 컴퓨팅 리소스를 사용하는 이전의 TTA 접근 방식을 능가하는 것으로 나타났습니다. 또한 T2I의 이전 연구에서는 인코더 선택이 세밀한 디테일과 객체 바인딩과 같은 크로스 모달 정렬에 미치는 영향이 크다는 것을 인식한 반면, 이전 TTA 작업에서는 이와 유사한 평가가 부족했습니다. 포괄적인 어퓨전 연구와 혁신적인 크로스 어텐션 맵 시각화를 통해 TTA의 텍스트-오디오 정렬에 대한 통찰력 있는 평가를 제공합니다. 연구 결과 텍스트 설명과 정확하게 일치하는 오디오를 생성하는 데 있어 Auffusion의 뛰어난 역량이 드러났으며, 오디오 스타일 전송, 인페인팅 및 기타 조작과 같은 여러 관련 작업에서도 이를 입증했습니다. 구현 및 데모는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[41/57] Fast Inference Through The Reuse Of Attention Maps In Diffusion Models

Keywords: attention_maps_sampling, reuse_attention_maps, structured_reuse_attention
Abstract: 텍스트-이미지 확산 모델은 유연하고 사실적인 이미지 합성에서 전례 없는 능력을 보여주었습니다. 그러나 단일 이미지를 생성하는 데 필요한 반복적인 프로세스는 비용이 많이 들고 지연 시간이 길어 연구자들은 효율성을 더욱 연구해야 했습니다. 일반적으로 지연 시간을 개선하는 방법은 (1) 지식 증류(KD)를 통해 더 작은 모델을 훈련하는 방법과 (2) ODE 이론의 기술을 채택하여 더 큰 스텝 크기를 용이하게 하는 방법 두 가지가 있습니다. 이와는 대조적으로, 우리는 샘플러의 단계 크기를 변경하지 않는 훈련이 필요 없는 접근 방식을 제안합니다. 특히, 주의집중도 맵을 반복적으로 계산하는 것은 비용이 많이 들고 중복되는 작업이므로 샘플링 중에 주의집중도 맵을 구조적으로 재사용할 것을 제안합니다. 우리의 초기 재사용 정책은 샘플링 절차의 후반부에 재사용이 가장 적합하다는 기초적인 ODE 이론에 근거합니다. 이러한 이론적 접근의 여러 가지 한계에 주목한 후, 경험적으로 더 나은 정책을 모색했습니다. KD에 의존하는 방법과 달리, 저희의 재사용 정책은 플러그 앤 플레이 방식으로 다양한 설정에 쉽게 적용될 수 있습니다. 또한, Stable Diffusion-1.5에 적용하면 재사용 정책이 샘플 품질에 미치는 영향을 최소화하면서 지연 시간을 줄일 수 있습니다. [abs|pdf]

[42/57] Towards Net-Zero Carbon Emissions in Network AI for 6G and Beyond

Keywords: emissions_network_ai, network_ai_implementations, network_ai
Abstract: 2030년까지 전 세계 온실가스(주로 탄소 배출량) 배출량을 절반으로 줄이고 2050년까지 순배출 제로를 달성하기 위한 전 세계적인 노력이 시작되었습니다. 6G 개발도 이러한 목표에 부합해야 합니다. 안타깝게도 모바일 서비스, 특히 스마트 서비스와 애플리케이션에 대한 사용자의 급격한 수요 증가를 충족하기 위해 지속 가능한 순배출 제로 시스템을 개발하는 것은 예상보다 훨씬 더 어려울 수 있습니다. 특히 하드웨어와 소프트웨어 설계의 에너지 효율 개선에도 불구하고 모바일 네트워크의 전체 에너지 소비량과 탄소 배출량은 여전히 엄청난 속도로 증가하고 있습니다. 리소스를 많이 사용하는 AI 알고리즘과 솔루션의 보급이 증가하면서 이 문제는 더욱 악화되고 있습니다. 이 글에서는 주요 배출원을 파악하고 네트워크 AI 구현의 수명주기를 분석하기 위한 평가 프레임워크를 소개합니다. 전체 탄소 배출량을 줄이기 위해 DETA라는 새로운 공동 동적 에너지 거래 및 작업 할당 최적화 프레임워크가 도입되었습니다. 제안한 솔루션의 효과를 검증하기 위해 연합 에지 인텔리전스 기반 네트워크 AI 시스템을 사례 연구로 고려합니다. 하드웨어 프로토타입을 기반으로 한 실험 결과, 우리가 제안한 솔루션은 네트워크 AI 시스템의 탄소 배출량을 최대 74.9%까지 줄일 수 있는 것으로 나타났습니다. 마지막으로 미해결 과제와 향후 방향에 대해 논의합니다. [abs|pdf]

[43/57] Metalearning-Informed Competence in Children: Implications for Responsible Brain-Inspired Artificial Intelligence

Keywords: enabled_young_mind, metalearning_enabled_young, morally_grounded_ai
Abstract: 이 논문은 어린 아이들의 메타인지(학습의 지식과 조절) 전략 실행을 위해 동시에 협력적으로 작동하는 네 가지 필수 인지 메커니즘으로 구성된 새로운 개념적 틀을 제시합니다. 핵심 메커니즘과 관련 전략을 통합한 로드맵은 발달 중인 두뇌의 놀라운 맥락 간 학습 능력에 대한 설명으로 제시됩니다. 근본적인 상호 보완적 프로세스의 4중 구조는 두뇌와 유사한 학습 및 문제 해결 능력을 모방한 인공지능(AI) 시스템으로 확장할 수 있는 기본 메탈러닝 아키텍처를 집합적으로 표현하기 위해 선택되었습니다. 이 연구는 뇌에서 영감을 받은 컴퓨팅을 위한 모델로 메탈러닝이 가능한 젊은 마음을 활용하여 도덕적으로 근거한 AI에 대한 중요한 시사점을 논의합니다. [abs|pdf]

[44/57] Real-Time Object Detection in Occluded Environment with Background Cluttering Effects Using Deep Learning

Keywords: detection_accuracy_deep, detection_recognition_added, accuracy_deep
Abstract: 배경이 어수선하고 가려진 환경에서 작고 결정되지 않은 움직이는 물체나 물체를 감지하는 것은 컴퓨터 비전의 주요 문제입니다. 이는 딥러닝 모델의 감지 정확도에 큰 영향을 미칩니다. 이러한 문제를 극복하기 위해 본 연구에서는 배경이 어수선한 폐색 환경에서 자동차와 탱크를 실시간으로 감지하기 위한 딥러닝 모델에 SSD와 YOLO 알고리즘을 적용하여 감지 정확도를 향상시키고 이러한 모델이 직면한 문제를 줄이는 데 집중했습니다. 개발된 방법은 사용자 지정 데이터 세트를 만들고 노이즈가 많은 데이터 세트를 정리하는 전처리 기법을 사용합니다. 개발된 모델을 훈련하기 위해 데이터 증강 기법을 적용하여 데이터의 균형을 맞추고 다양화합니다. 이러한 기법을 적용하여 구축된 데이터 세트에 대해 모델을 미세 조정, 훈련 및 평가하여 이러한 기법을 적용하지 않았을 때보다 더 정확하게 얻은 결과를 강조 표시했습니다. SSD-Mobilenet v2 모델의 정확도와 초당 프레임은 YOLO V3 및 YOLO V4보다 높습니다. 또한 데이터 강화, 노이즈 감소, 파라미터 최적화, 모델 융합 등 다양한 기법을 적용하여 탐지 및 인식의 효율성을 높였습니다. 또한 카운팅 알고리즘과 대상 속성 실험 비교를 추가하고 객체 카운팅, 경고, 상태, 해상도, 초당 프레임 등의 기능을 갖춘 개발 모델의 그래픽 사용자 인터페이스 시스템을 만들었습니다. 이후 개발된 방법의 타당성을 검증하기 위해 YOLO V3, V4, SSD의 분석 결과를 반영했습니다. 그 결과 제안된 방법이 전체적으로 완성되었습니다. [abs|pdf]

[45/57] Nature-Inspired Algorithms in Optimization: Introduction, Hybridization and Insights

Keywords: metaheuristic_algorithms_optimization, metaheuristic_algorithms, nature_inspired_algorithms
Abstract: 과학과 공학 분야의 많은 문제는 최적화 문제이며, 이를 해결하기 위해서는 정교한 최적화 기법이 필요할 수 있습니다. 자연에서 영감을 얻은 알고리즘은 최적화를 위한 메타 휴리스틱 알고리즘의 한 종류이며, 일부 알고리즘이나 변형은 종종 하이브리드화를 통해 개발됩니다. 벤치마킹은 최적화 알고리즘의 성능을 평가하는 데에도 중요합니다. 이 장에서는 최적화의 개요, 자연에서 영감을 얻은 알고리즘, 하이브리드화의 역할에 대해 중점적으로 설명합니다. 또한 알고리즘의 하이브리드화와 관련된 몇 가지 문제점을 강조합니다. [abs|pdf]

[46/57] Downstream Task-Oriented Generative Model Selections on Synthetic Data Training for Fraud Detection Models

Keywords: generative_models_synthetic, models_synthetic_training, generative_model_selection
Abstract: 다운스트림 작업 중심의 생성 모델 선택을 위한 절차를 고안하는 것은 실질적으로 중요한 해결되지 않은 문제입니다. 기존 연구는 단일 생성 모델 패밀리의 유용성에 초점을 맞췄습니다. 이러한 연구는 합성 데이터 실무자가 머신러닝 모델 클래스와 성능 메트릭의 특정 조합이 주어졌을 때 합성 학습 작업에 가장 적합한 생성 모델군을 선택하는 방법에 대한 제한적인 인사이트를 제공했습니다. 이 백서에서는 사기 탐지 모델 훈련의 경우 다운스트림 작업 지향 생성 모델 선택 문제에 접근하여 모델 해석 가능성과 모델 성능 제약 조건의 다양한 조합을 고려한 모범 사례를 조사합니다. 연구 결과, 느슨한 모델 해석 가능성 제약 하에서는 신경망(NN) 기반과 베이지안 네트워크(BN) 기반 생성 모델 모두 합성 훈련 작업을 완료하는 데 적합하지만, 엄격한 모델 해석 가능성 제약 하에서 사기 탐지 모델을 합성 훈련할 때는 BN 기반 생성 모델이 NN 기반보다 더 우수하다는 것을 알 수 있었습니다. 이번 연구 결과는 훈련 데이터 세트를 실제 데이터에서 합성 데이터로 대체하고자 하는 머신러닝 실무자에게 실질적인 지침을 제공하고, 보다 일반적인 다운스트림 작업 지향 생성 모델 선택 문제에 대한 해답을 제시합니다. [abs|pdf]

[47/57] Data Augmentation Techniques for Cross-Domain WiFi CSI-based Human Activity Recognition

Keywords: learning_applied_wifi, wifi_csi, wifi_csi_investigate
Abstract: WiFi 채널 상태 정보(CSI)를 기반으로 사람의 활동을 인식하면 실내 환경에서 비접촉식 및 시각적 프라이버시 보호 센싱이 가능합니다. 그러나 다양한 환경 조건과 감지 하드웨어로 인해 모델 일반화가 제대로 이루어지지 않는 것은 이 분야에서 잘 알려진 문제입니다. 이 문제를 해결하기 위해 이 연구에서는 이미지 기반 학습에 일반적으로 사용되는 데이터 증강 기법을 WiFi CSI에 적용하여 교차 시나리오 및 교차 시스템 설정에서 모델 일반화 성능에 미치는 영향을 조사합니다. 특히, 가시선(LOS)과 비가시선(NLOS) 관통벽 시나리오 간의 일반화, 그리고 아직 연구가 미진한 서로 다른 안테나 시스템 간의 일반화에 초점을 맞춥니다. 우리는 인간 활동에 대한 CSI 진폭 스펙트로그램 데이터 세트를 수집하여 공개적으로 제공합니다. 이 데이터를 활용하여 EfficientNetV2 아키텍처에 기반한 활동 인식 모델을 훈련하고, 각 증강이 모델 일반화 성능에 미치는 영향을 평가하는 제거 연구를 수행합니다. 수집된 결과에 따르면 CSI 진폭 데이터에 적용된 간단한 데이터 증강 기법의 특정 조합이 시나리오 간 및 시스템 간 일반화를 크게 향상시킬 수 있는 것으로 나타났습니다. [abs|pdf]

[48/57] Automated Model Selection for Tabular Data

Keywords: predictive_feature_combinations, feature_selection_priority, combinations_features_predictive
Abstract: 표 형식의 데이터 세트 형태의 구조화된 데이터에는 개별적이고 불연속적인 특징이 포함되어 있으며, 대상에 대한 개별적 중요도와 상대적 중요도가 다양합니다. 하나 이상의 특징을 조합하면 단순한 개별 특징의 기여도보다 더 예측 가능하고 의미 있는 결과를 얻을 수 있습니다. R의 혼합 효과 선형 모델 라이브러리를 사용하면 모델 설계에서 이러한 대화형 기능 조합을 제공할 수 있습니다. 그러나 선택할 수 있는 기능과 가능한 상호 작용이 많으면 모델 선택은 기하급수적으로 어려운 작업이 됩니다. 우리는 계산 비용을 적게 유지하면서 피처 상호 작용을 통합하는 표 형식 데이터 세트의 예측을 위한 모델 선택 프로세스를 자동화하는 것을 목표로 합니다. 이 프레임워크에는 우선순위 기반 무작위 그리드 검색과 탐욕스러운 검색 방법이라는 두 가지 특징 선택 접근 방식이 포함되어 있습니다. 우선순위 기반 접근 방식은 검색을 안내하기 위해 사전 확률을 사용하여 특징 조합을 효율적으로 탐색합니다. Greedy 방법은 영향력에 따라 기능을 추가하거나 제거하여 반복적으로 솔루션을 구축합니다. 합성 실험을 통해 예측 가능한 특징 조합을 효과적으로 포착할 수 있음을 입증했습니다. [abs|pdf]

[49/57] Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases

Keywords: screening_feature_fusion, leukocyte_detection_multi, automatic_leukocyte_classifiers
Abstract: 일반적인 병원 혈액 검사에서는 의사가 현미경을 사용하여 환자 혈액의 미세한 이미지에서 백혈구를 수동으로 분리해야 하는 기존 프로세스가 있습니다. 이렇게 분리된 백혈구는 자동 백혈구 분류기를 통해 분류되어 혈액 샘플에 존재하는 다양한 유형의 백혈구 비율과 양을 파악하여 질병 진단을 돕습니다. 이 방법론은 시간과 노동 집약적일 뿐만 아니라 이미지 품질 및 환경 조건과 같은 요인으로 인해 오류가 발생할 가능성이 높으며, 이는 잠재적으로 잘못된 분류 및 오진으로 이어질 수 있습니다. 이러한 문제를 해결하기 위해 이 백서에서는 혁신적인 백혈구 검출 방법인 다단계 특징 융합 및 변형 가능한 자기주의 검출(MFDS-DETR)을 제안합니다. 백혈구 규모 불균형 문제를 해결하기 위해 다단계 융합을 가능하게 하는 하이레벨 스크리닝 기능 융합 피라미드(HS-FPN)를 설계했습니다. 이 모델은 높은 수준의 특징을 가중치로 사용하여 채널 주의 모듈을 통해 낮은 수준의 특징 정보를 필터링한 다음, 필터링된 정보를 높은 수준의 특징과 병합하여 모델의 특징 표현 능력을 향상시킵니다. 또한 인코더에 다중 스케일 변형 가능한 자기 주의 모듈을 통합하고 디코더에 자기 주의 및 교차 변형 가능한 주의 메커니즘을 사용하여 백혈구 특징 부족 문제를 해결함으로써 백혈구 특징 맵의 전체 특징을 추출할 수 있도록 돕습니다. 제안된 MFDS-DETR 방법의 효과, 우수성 및 일반화 가능성은 프라이빗 WBCDD, 퍼블릭 LISC 및 BCCD 데이터 세트를 사용하는 다른 최첨단 백혈구 검출 모델과의 비교를 통해 확인되었습니다. 소스 코드와 비공개 WBCCD 데이터 세트는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[50/57] Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning

Keywords: ensemble_forecast_states, policy_generate_ensemble, ensemble_kalman
Abstract: 데이터 동화(DA)는 기후 예측과 일기 예보부터 자율주행 차량의 궤적 계획에 이르기까지 다양한 애플리케이션에서 중추적인 역할을 합니다. 대표적인 예로 널리 사용되는 앙상블 칼만 필터(EnKF)가 있는데, 이 필터는 선형 업데이트에 의존하여 예측 상태의 앙상블 간의 편차를 최소화합니다. 최근 이 분야에서 주로 지도 학습 프레임워크 내에서 딥 러닝 접근 방식이 등장했습니다. 그러나 이러한 모델을 훈련되지 않은 시나리오에 적용하는 것은 여전히 어려운 과제입니다. 이 연구에서는 상태 변수의 전체 또는 부분 관찰을 사용하여 상태 보정을 적용하기 위해 강화 학습(RL)을 활용하는 새로운 DA 전략을 소개합니다. 이 연구는 에이전트의 목표가 관측치와 해당 예측 상태 간의 평균 제곱근 오차를 최소화하는 데 있는 혼란스러운 로렌츠 63 시스템에 대해 이 접근 방식을 입증하는 데 중점을 둡니다. 따라서 에이전트는 보정 전략을 개발하여 사용 가능한 시스템 상태 관측을 기반으로 모델 예측을 개선합니다. 이 전략은 확률적 행동 정책을 사용하여 몬테카를로 기반 DA 프레임워크가 무작위로 정책을 샘플링하여 동화된 실현의 앙상블을 생성할 수 있도록 합니다. 결과는 개발된 RL 알고리즘이 EnKF와 비교했을 때 유리한 성능을 보임을 보여줍니다. 또한 에이전트가 비 가우시안 데이터를 동화할 수 있는 능력을 보여줌으로써 EnKF의 중요한 한계를 해결합니다. [abs|pdf]

[51/57] LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models

Keywords: natural_language_feedback, language_feedback_finetuning, question_answering_tasks
Abstract: LLM(대규모 언어 모델)을 미세 조정하면 학습된 모델을 특정 다운스트림 작업에 맞게 조정하여 작업별 성능을 크게 향상시킬 수 있습니다. 감독형 미세 조정(SFT)은 일반적인 접근 방식으로, LLM이 원하는 답변을 생성하도록 훈련됩니다. 그러나 SFT로 훈련된 LLM은 때때로 단순한 실수를 저지르거나 질문 답변과 같은 추론 작업에서 오류를 범하기도 합니다. 외부 피드백이 없으면, 특히 작은 데이터 세트에서는 SFT가 질문과 원하는 답변 사이의 매핑을 잘 학습하기 어렵습니다. 이 백서에서는 SFT의 대안으로 자연어 피드백을 통한 LLM 미세 조정(LaFFi)을 소개합니다. LaFFi는 LLM이 주석자로부터 받게 될 피드백을 직접 예측합니다. 이러한 반영을 요구하면 도메인 내 질문-답변 작업의 정확도를 크게 향상시킬 수 있으며, 이는 SFT LLM의 영역에서 자연어 피드백을 적용하는 데 있어 유망한 방향을 제시할 수 있습니다. 추가적인 제거 연구에 따르면 주석이 달린 데이터 세트에서 사람이 주석한 데이터의 비중이 미세 조정 성능에 영향을 미치는 것으로 나타났습니다. [abs|pdf]

[52/57] Masked Modeling for Self-supervised Representation Learning on Vision and Beyond

Keywords: supervised_techniques_masked, masked_modeling, masked_modeling_emerged
Abstract: 딥러닝 혁명이 진행됨에 따라 자기 지도 학습은 뛰어난 표현 학습 능력과 레이블이 지정된 데이터에 대한 낮은 의존도 덕분에 최근 몇 년 동안 점점 더 많은 관심을 받고 있습니다. 이러한 다양한 자기 지도 학습 기법 중에서 마스킹 모델링은 훈련 중에 원본 데이터의 일부를 비례적으로 마스킹하여 예측하는 독특한 접근 방식으로 부상했습니다. 이 패러다임은 딥 모델이 강력한 표현을 학습할 수 있게 해주며 컴퓨터 비전, 자연어 처리 및 기타 양식의 맥락에서 탁월한 성능을 입증했습니다. 이번 설문조사에서는 마스킹 모델링 프레임워크와 그 방법론에 대한 종합적인 검토를 제시합니다. 다양한 마스킹 전략, 타겟 복구, 네트워크 아키텍처 등 마스킹 모델링에 포함된 기술의 세부 사항을 자세히 설명합니다. 그런 다음 여러 도메인에 걸쳐 광범위하게 적용되는 마스킹 모델링을 체계적으로 조사합니다. 또한 다양한 분야의 마스킹 모델링 방법 간의 공통점과 차이점도 살펴봅니다. 마지막으로 현재 기술의 한계에 대해 논의하고 마스크드 모델링 연구를 발전시킬 수 있는 몇 가지 잠재적인 방법을 제시하며 마무리합니다. 이 설문조사가 포함된 논문 목록 프로젝트는 url에서 확인할 수 있습니다. [abs|pdf]

[53/57] Social-LLM: Modeling User Behavior at Scale using Language Models and Social Network Data

Keywords: modeling_social_network, social_network_datasets, social_network_data
Abstract: 소셜 네트워크 데이터의 확산은 인간 행동에 대한 광범위한 데이터 기반 탐구를 위한 전례 없는 기회를 열어주었습니다. 소셜 네트워크의 구조적 복잡성은 특히 사회적 영향력과 정보 확산에 관한 다양한 전산 사회과학 문제에 대한 인사이트를 제공합니다. 그러나 대규모 소셜 네트워크 데이터를 모델링하는 데는 계산상의 어려움이 따릅니다. 대규모 언어 모델을 사용하면 텍스트 콘텐츠를 모델링하는 것이 그 어느 때보다 쉬워졌지만, 고급 네트워크 표현 방법은 확장성과 표본 외 사용자에 대한 효율적인 배포에 어려움을 겪습니다. 이에 따라 유니티는 사용자 감지 작업에서 소셜 네트워크 데이터를 모델링하는 데 적합한 새로운 접근 방식을 도입했습니다. 이 혁신적인 방법은 로컬라이즈된 소셜 네트워크 상호 작용을 대규모 언어 모델의 기능과 통합합니다. 사회적으로 연결된 사용자들이 유사성을 공유한다는 소셜 네트워크 동질성을 전제로 하는 이 접근 방식은 이러한 문제를 해결하기 위해 고안되었습니다. 다양한 주제와 탐지 작업을 아우르는 7개의 실제 소셜 네트워크 데이터 세트에 대한 철저한 평가를 통해 이 방법이 컴퓨터 사회과학 분야의 연구를 발전시키는 데 적용 가능하다는 것을 입증했습니다. [abs|pdf]

[54/57] Automating Leukemia Diagnosis with Autoencoders: A Comparative Study

Keywords: autoencoder_designed_best, deep_learning, autoencoders
Abstract: 백혈병은 인간의 생명을 위협하는 가장 흔하고 생명을 위협하는 암 유형 중 하나입니다. 백혈병 환자의 의료 데이터에는 중요한 매개변수 중 일부에 숨겨진 귀중한 정보가 포함되어 있습니다. 이러한 정보를 추출하기 위해 딥러닝을 사용할 수 있습니다. 이 논문에서는 백혈병 진단의 정밀도를 높이는 데 도움이 되는 유용한 기능을 개발하기 위해 자동 인코더를 사용했습니다. 오토인코더에서 사용할 수 있는 최적의 활성화 함수와 최적화자를 찾고, 이 신경망에 가장 적합한 아키텍처를 설계했습니다. 제안된 아키텍처를 이 분야의 고전적인 머신러닝 모델과 비교했습니다. 제안된 방법은 정밀도와 F1 점수 지표에서 다른 머신러닝보다 11% 이상 더 나은 성능을 보였습니다. [abs|pdf]

[55/57] Balanced Graph Structure Information for Brain Disease Detection

Keywords: graph_neural, graph_convolution_networks, graph_structure_brains
Abstract: 자폐증이나 정신분열증과 같은 신경학적 장애를 감지하려면 뇌의 관심 영역(ROI) 간의 연결을 분석하는 것이 필수적입니다. 최근의 발전은 그래프 신경망(GNN)을 사용하여 두뇌의 그래프 구조를 활용함으로써 탐지 성능을 향상시킵니다. 현재의 방법은 ROI의 혈중 산소 농도 의존적(BOLD) 신호 간의 상관관계 측정을 사용하여 그래프 구조를 생성합니다. 다른 방법은 훈련 샘플을 사용하여 엔드투엔드 학습을 통해 최적의 그래프 구조를 학습합니다. 하지만 이러한 방법을 독립적으로 구현할 경우 상관관계 그래프에 잡음이 있는 데이터와 최적 그래프에 과적합 문제가 발생합니다. 본 연구에서는 두 가지 그래프 구조, 즉 필터링된 상관관계 행렬과 그래프 컨볼루션 네트워크(GCN)를 이용한 최적의 샘플 그래프를 모델링하는 Bargrain(두뇌를 위한 균형 잡힌 그래프 구조)을 제안했습니다. 이 접근 방식은 두 그래프의 장점을 모두 활용하고 한 가지 유형의 구조에만 의존할 때의 한계를 극복하는 것을 목표로 합니다. 광범위한 실험 결과, 평균 F1 점수로 측정된 바그레인은 뇌 질환 데이터 세트의 분류 작업에서 최첨단 방법보다 뛰어난 성능을 보였습니다. [abs|pdf]

[56/57] Teach Large Language Models to Forget Privacy

Keywords: privacy_challenge_teaching, privacy_challenge, obfuscating_model_memory
Abstract: 대규모 언어 모델(LLM)은 강력한 것으로 입증되었지만 개인정보 유출의 위험은 여전히 심각한 문제로 남아 있습니다. 차등 프라이버시 및 동형 암호화와 같은 기존의 프라이버시 보호 방법은 블랙박스 API 전용 설정에 적합하지 않으며, 모델 투명성 또는 과중한 계산 리소스를 요구합니다. 저희는 LLM에 잊어버리도록 학습시켜 LLM 로컬 프라이버시 문제를 해결하기 위해 설계된 최초의 프레임워크인 P2F(Prompt2Forget)를 제안합니다. 이 방법은 전체 질문을 더 작은 부분으로 분해하고, 조작된 답변을 생성하며, 원래 입력에 대한 모델의 메모리를 난독화합니다. 다양한 분야의 개인정보에 민감한 정보가 포함된 질문으로 벤치마크 데이터 세트를 만들었습니다. P2F는 제로 샷 일반화를 달성하여 수동 조정 없이도 다양한 사용 사례에 적용할 수 있습니다. 실험 결과에 따르면 P2F는 LLM의 메모리를 난독화할 수 있는 강력한 기능을 갖추고 있으며, 유틸리티 손실 없이 약 90%의 건망증 점수를 달성했습니다. 이는 순진한 직접 명령어 기법과 비교했을 때 최대 63%까지 향상된 것으로, P2F가 LLM 내 민감한 정보의 메모리 보존을 완화하는 데 효과적이라는 점을 강조합니다. 이번 연구 결과는 LLM 망각 작업이라는 새로운 분야에서 최초의 벤치마크를 확립한 것으로, 새롭게 떠오르는 LLM 영역에서 개인 정보 보호의 의미 있는 진전을 의미합니다. [abs|pdf]

[57/57] Tensor Networks for Explainable Machine Learning in Cybersecurity

Keywords: tensor_networks, explainability_machine_learning, paper_tensor_networks
Abstract: 이 백서에서는 텐서 네트워크가 머신러닝 알고리즘의 설명 가능성을 개발하는 데 어떻게 도움이 되는지 보여줍니다. 특히 행렬 곱 상태(MPS)에 기반한 비지도 클러스터링 알고리즘을 개발하고 이를 공격자가 생성한 위협 인텔리전스의 실제 사용 사례에 적용합니다. 조사 결과, MPS는 성능 면에서 자동 인코더나 GAN과 같은 기존 딥러닝 모델에 필적하는 동시에 훨씬 더 풍부한 모델 해석 기능을 제공한다는 것이 입증되었습니다. 이러한 접근 방식은 특징별 확률, 폰 노이만 엔트로피, 상호 정보 추출을 자연스럽게 촉진하여 이상 징후 분류를 위한 설득력 있는 내러티브를 제공하고, 인공지능 의사 결정의 근거를 이해하는 데 필수적인 전례 없는 수준의 투명성과 해석 가능성을 촉진합니다. [abs|pdf]