프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-11]

다각 2024. 1. 16. 13:10

[1/52] Yes, this is what I was looking for! Towards Multi-modal Medical Consultation Concern Summary Generation

Keywords: concern_summary_generation, concern_summaries_intents, annotated_medical_concern
Abstract: 지난 몇 년 동안 의료 관련 업무에서 인터넷 사용이 비약적으로 증가하면서 정보를 효과적으로 관리하고 처리하여 효율적으로 활용하는 데 어려움을 겪고 있습니다. 정서적 혼란과 심리적 어려움을 겪는 순간에 우리는 사회적 낙인 때문에 다른 사람들과 자신의 감정을 논의하는 대신 인터넷을 첫 번째 지원처로 선택하는 경우가 많습니다. 이 논문에서는 상담 중에 제기된 환자의 주요 관심사를 짧고 정확하게 요약하여 제공하는 다중 모드 의료 관심사 요약(MMCS) 생성이라는 새로운 작업을 제안합니다. 환자의 제스처와 표정 등 비언어적 단서는 환자의 우려 사항을 정확하게 파악하는 데 도움이 됩니다. 또한 의사는 환자의 상태를 적절하게 설명하기 위해 나이, 성별 등 환자의 개인 정보도 고려합니다. 이러한 환자의 개인적 맥락과 시각적 제스처의 잠재적 효과에 착안하여, 유니티는 트랜스포머 기반의 멀티태스크, 멀티모달 의도 인식 및 의학적 관심사 요약 생성(IR-MMCSG) 시스템을 제안합니다. 또한 의사-환자 상담 시 의향 인식 및 의료 관심사 요약 생성을 위한 멀티태스킹 프레임워크를 제안합니다. 우리는 의학적 관심사 요약, 의도, 환자 개인 정보, 의사의 추천 및 키워드로 주석이 달린 환자-의사 상담 내용을 포함하는 최초의 다중 모드 의학적 관심사 요약 생성(MM-MediConSummation) 코퍼스를 구축합니다. 실험과 분석을 통해 (a) 환자의 표정/제스처와 개인 정보가 의향 파악과 의료 관심사 요약 생성에 중요한 역할을 하며, (b) 의향 인식과 환자의 의료 관심사 요약 생성 간에 강력한 상관관계가 있음을 입증했습니다
데이터 세트와 소스 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[2/52] Neural Population Learning beyond Symmetric Zero-sum Games

Keywords: exact_game_solvers, games_heterogeneous_players, rigorously_exact_game
Abstract: 우리는 복잡한 시각 운동 기술이 필요한 n-플레이어 총합 게임에서 평형을 찾는 계산적으로 효율적인 방법을 연구합니다. 이러한 환경에서 기존 방법이 계산적으로나 이론적으로 어떻게 어려움을 겪는지 보여줍니다. 그런 다음 기술의 전이 학습의 이점을 활용하고 게임의 거친 상관 평형(CCE)에 수렴하는 신경 모집단 학습 알고리즘인 NeuPL-JPSRO를 소개합니다. 유니티는 정확한 게임 솔버를 통해 엄격하게 검증된 OpenSpiel 게임 제품군에서 경험적 수렴을 보여줍니다. 그런 다음 NeuPL-JPSRO를 복잡한 도메인에 배포하여 우리의 접근 방식을 통해 MuJoCo 제어 도메인에서 적응형 조정과 깃발 뺏기 게임에서 기술 이전을 가능하게 합니다. 유니티의 연구는 평형 수렴 집단 학습을 대규모로 일반화하여 구현할 수 있음을 보여줌으로써 다양한 동기를 가진 이질적인 플레이어 간의 실제 게임을 해결할 수 있는 길을 열어줍니다. [abs|pdf]

[3/52] Sample-and-Bound for Non-Convex Optimization

Keywords: convex_optimization_benchmarks, non_convex_optimization, optimization_adapts_monte
Abstract: 브랜치 앤 바운드와 같은 비볼록 함수의 전역 최적화를 위한 표준 접근 방식은 파티션 트리를 유지하여 도메인을 체계적으로 정리합니다. 트리의 크기는 차원 수에 따라 기하급수적으로 증가합니다. 효율성을 개선하기 위해 몬테카를로 트리 검색(MCTS)을 적용한 비볼록 최적화를 위한 새로운 샘플링 기반 방법을 제안합니다. 방문 횟수를 상한 신뢰 구간에서 표준적으로 사용하는 대신 목표의 수치적 과대 근사치를 불확실성 지표로 활용하고 1차 및 2차 정보의 샘플링된 추정치도 고려합니다. 이 접근 방식의 몬테카를로 트리는 트리를 성장시킬 때 일반적으로 사용되는 고정된 조합 패턴을 피하고 유망한 영역을 적극적으로 확대하는 동시에 탐사와 개발의 균형을 유지합니다. 우리는 고차원 비볼록 최적화 벤치마크에서 제안된 알고리즘을 경쟁 기준선에 대해 평가하고 하이퍼 파라미터의 효과를 분석합니다. [abs|pdf]

[4/52] Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion?

Keywords: interpretable_robot_behaviors, interpretable_robot, synthesize_interpretable_robot
Abstract: 대규모 언어 모델은 다양한 자연어 및 생성 작업에서 뛰어난 생성 능력을 보여 왔습니다. 그러나 의인화 가능성과 실패 사례에 대한 관대함으로 인해 대언어 모델의 새로운 능력, 특히 대언어 모델의 마음 이론(ToM) 능력에 대한 논의가 활발해졌습니다. 다른 개체의 정신 모델을 추론하고 유지하는 능력을 검증하기 위한 여러 가지 오신뢰 테스트가 존재하지만, 우리는 더 큰 위험과 돌이킬 수 없는 결과를 초래할 수 있는 ToM 능력의 특별한 적용, 즉 인간 로봇 상호작용을 연구합니다. 이 연구에서는 로봇이 대규모 언어 모델(LLM)을 사용해 인간 관찰자와 유사한 방식으로 로봇이 생성한 행동을 평가하는 '인지된 행동 인식' 작업을 살펴봅니다. 설명 가능, 판독 가능, 예측 가능, 난독성 행동의 네 가지 행동 유형에 초점을 맞추고 있으며, 이는 해석 가능한 로봇 행동을 합성하는 데 광범위하게 사용되어 왔습니다. 따라서 LLM의 목표는 에이전트의 인간 대리인이 되어 "로봇의 행동 X가 주어졌을 때, 인간 관찰자가 이를 설명할 수 있다고 생각할까?"와 같이 특정 에이전트 행동을 루프에서 인간이 어떻게 인식할지에 대한 답을 구하는 것입니다. 저희는 5가지 영역에 걸쳐 큐레이팅된 상황(로봇 설정 및 계획)에서 사용자가 이러한 질문에 올바르게 답할 수 있는지 확인하기 위해 인간 대상 연구를 수행했습니다. 신념 테스트의 첫 번째 분석 결과, ToM 능력을 가진 LLM에 대한 기대치를 부풀리는 매우 긍정적인 결과가 도출되었습니다. 그런 다음 이러한 환상을 깨는 일련의 교란 테스트, 즉 일관성 없는 믿음, 비정보적 맥락 및 신념 테스트를 제안하고 수행합니다. 바닐라 프롬프트에서 LLM의 높은 점수는 HRI 환경에서의 잠재적 사용 가능성을 보여주지만, ToM을 보유하기 위해서는 맥락에서 사소하거나 관련 없는 섭동에 대한 불변성이 요구되는데, LLM에는 이러한 불변성이 부족하다는 결론을 내립니다. [abs|pdf]

[5/52] I am a Strange Dataset: Metalinguistic Tests for Language Models

Keywords: metalinguistic_language_dataset, self_referential_metalinguistic, metalinguistic_self_reference
Abstract: 메타 언어적 자기 참조("이 논문에는 6개의 섹션이 있습니다.")가 포함된 문장은 많은 도메인에서 널리 사용되고 있습니다. 대규모 언어 모델(LLM)이 이러한 언어를 처리할 수 있을까요? 이 백서에서는 이 질문을 해결하기 위한 새로운 데이터 세트인 "나는 이상한 데이터 세트"를 소개합니다. 생성 및 검증이라는 두 가지 하위 작업이 있습니다. 생성에서 모델은 "이 문장의 두 번째 단어는 이다"(여기서 올바른 연속은 "이다"입니다)와 같은 문장을 이어갑니다. 검증에서는 모델이 "이 문장의 두 번째 단어는 문장입니다."와 같은 문장의 진위를 판단합니다 (거짓). 또한 모델이 메타 언어적 언어를 처리할 수 있는지 여부를 조사하여 기본 데이터 세트를 보완하기 위해 최소한의 다른 메타 언어적 비자기 참조 예제를 제공합니다. 데이터 세트는 전문가가 수작업으로 제작하고 비전문가인 어노테이터가 검증합니다. 다양한 오픈 소스 LLM(70억~700억 개의 파라미터)과 API를 통한 클로즈드 소스 LLM을 테스트합니다. 모든 모델은 두 하위 작업과 비자기 참조 메타 언어학적 제어 데이터에서도 우연에 가까운 성능을 보였지만, 모델 규모에 따라 꾸준히 개선되는 것을 발견했습니다. GPT 4는 일관되게 우연보다 훨씬 나은 성능을 보이는 유일한 모델이지만 여전히 60%대에 불과한 반면, 훈련되지 않은 인간 주석자는 89-93% 범위에서 높은 점수를 받았습니다. 데이터 세트와 평가 툴킷은 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[6/52] INACIA: Integrating Large Language Models in Brazilian Audit Courts: Opportunities and Challenges

Keywords: brazilian_federal_court, legal_systems, ai_integration_legal
Abstract: 이 백서에서는 대규모 언어 모델(LLM)을 브라질 연방회계법원(TCU)의 운영 프레임워크에 통합하기 위해 설계된 획기적인 시스템인 INACIA(Instrução Assistida com Inteligência Artificial)를 소개합니다. 이 시스템은 기본 정보 추출, 허용 가능성 검토, 페리큘럼 인 모라 및 푸무스 보니 아이리스 분석, 추천 생성 등 다양한 단계의 판례 분석을 자동화합니다. 일련의 실험을 통해 사건 문서에서 관련 정보를 추출하고, 법적 타당성을 평가하고, 사법적 권고안을 생성하는 데 있어 INACIA의 잠재력을 입증했습니다. LLM과 함께 검증 데이터 세트를 활용하는 당사의 평가 방법론은 인간의 판단과 높은 상관관계를 보이는 시스템 성능을 평가하는 혁신적인 접근 방식을 제시합니다. 이 결과는 복잡한 법률 업무를 처리하는 데 있어 INACIA의 숙련도를 강조하며, 법률 시스템 내에서 효율성과 사법 공정성을 강화하는 데 적합함을 나타냅니다. 이 논문은 또한 잠재적인 개선 사항과 향후 적용 사례에 대해 논의하며, INACIA를 법률 분야에서 전 세계 AI 통합의 모델로 자리매김하고 있습니다. [abs|pdf]

[7/52] AUTOACT: Automatic Agent Learning from Scratch via Self-Planning

Keywords: automatically_synthesizes_planning, automatic_agent_learning, autoact_automatic_agent
Abstract: 언어 에이전트는 다양하고 복잡한 작업에서 상당한 성과를 거두었습니다. 이 분야에 대한 끊임없는 탐구에도 불구하고 기존 언어 에이전트 시스템은 여전히 비용이 많이 들고 재현 불가능한 데이터에 의존하는 데 어려움을 겪고 있으며, 단일 모델을 여러 기능에 적용해야 하는 과제에 직면해 있습니다. 이를 위해 유니티는 대규모 주석이 달린 데이터와 비공개 소스 모델(예: GPT-4)의 합성 궤적에 의존하지 않는 자동 에이전트 학습 프레임워크인 AutoAct를 도입했습니다. 도구 라이브러리가 있는 제한된 데이터가 주어지면 AutoAct는 먼저 사람이나 강력한 비공개 소스 모델의 도움 없이도 계획 궤적을 자동으로 합성합니다. 그런 다음 AutoAct는 분업 전략을 활용하여 목표 작업 정보와 합성된 궤적을 기반으로 자동으로 차별화하여 작업을 완료할 하위 에이전트 그룹을 생성합니다. 유니티는 다양한 LLM을 대상으로 종합적인 실험을 수행했으며, 그 결과 AutoAct가 다양한 강력한 기준선에 비해 더 나은 또는 동등한 성능을 발휘한다는 것을 입증했습니다. 심지어 Llama-2-13b 모델을 사용할 경우 AutoAct가 GPT-3.5-Turbo 에이전트와 비슷한 성능을 달성할 수 있다는 사실도 확인했습니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[8/52] ReACT: Reinforcement Learning for Controller Parametrization using B-Spline Geometries

Keywords: reinforcement_learning_drl, deep_reinforcement_learning, drl_agent_parametrization
Abstract: 견고하고 성능이 뛰어난 컨트롤러는 산업용 애플리케이션에 필수적입니다. 하지만 복잡하고 비선형적인 시스템의 컨트롤러 파라미터를 도출하는 것은 어렵고 시간이 많이 걸립니다. 이 연구에서는 자동 컨트롤러 매개변수화를 용이하게 하기 위해 N차원 B-스플라인 기하학(BSG)과 심층 강화 학습(DRL)을 사용하는 새로운 접근 방식을 제시합니다. 우리는 작동 조건에 따라 복잡한 동작을 하는 시스템 클래스인 파라미터 변형 시스템의 제어에 중점을 둡니다. 이 시스템 클래스의 경우, 이득 스케줄링 제어 구조는 잘 알려진 설계 원칙으로 인해 산업 전반의 애플리케이션에서 널리 사용됩니다. 이러한 제어 구조와 관련된 고비용의 제어기 매개변수화 작업을 용이하게 하기 위해 유니티는 DRL 에이전트를 배포합니다. 에이전트는 제어 시스템 관찰을 기반으로 컨트롤러 파라미터를 조정하는 방법을 자율적으로 결정합니다. 수많은 작동 조건에 따라 달라질 수 있는 제어기 파라미터를 매핑하기 위해 BSG를 도입하여 적응 프로세스를 보다 효율적으로 만듭니다. 시계열 데이터를 전처리하고 고정 길이 특징 벡터를 추출하기 위해 장기단기메모리(LSTM) 신경망을 사용합니다. 또한 이 작업은 훈련과는 다른 실제 환경과 관련된 액터 정규화를 제공합니다. 이에 따라, 트러스트 퀀타일 비평(TQC) 알고리즘의 액터 및 비평 네트워크에 드롭아웃 레이어 정규화를 적용합니다. 접근 방식의 작동 원리와 효과를 보여주기 위해 파라미터 룩업 테이블을 사용하여 산업 제어 구조의 파라미터화 작업에 대해 DRL 에이전트를 훈련하고 평가합니다. [abs|pdf]

[9/52] Do Vision and Language Encoders Represent the World Similarly?

Keywords: similarity_aligned_encoders, encoders_semantically_similar, aligned_encoders_semantically
Abstract: CLIP과 같은 정렬된 텍스트-이미지 인코더는 시각 언어 작업의 사실상 표준 모델이 되었습니다. 또한 모달리티별 인코더는 각자의 영역에서 인상적인 성능을 발휘합니다. 이는 근본적으로 동일한 물리적 세계를 표현하는 단일 모달 비전 인코더와 언어 인코더 사이에 정렬이 존재할 수 있는가라는 핵심적인 질문을 제기합니다 중심 커널 정렬(CKA)을 사용하여 이미지 캡션 벤치마크에서 시각 및 언어 모델의 잠재 공간 구조를 분석한 결과, 정렬되지 않은 인코더와 정렬된 인코더의 표현 공간이 의미적으로 유사하다는 사실을 발견했습니다. CLIP과 같이 정렬된 인코더에서 통계적 유사성이 없는 경우, 정렬되지 않은 인코더의 일치 가능성이 훈련 없이도 존재한다는 것을 보여줍니다. 이를 그래프 간의 의미론적 유사성을 활용하는 시드 그래프 매칭 문제로 정의하고, 빠른 이차 할당 문제 최적화와 새로운 지역화된 CKA 메트릭 기반 매칭/검색이라는 두 가지 방법을 제안합니다. 언어 간, 도메인 간 캡션 매칭 및 이미지 분류를 비롯한 여러 다운스트림 작업에서 이 방법의 효과를 입증합니다. [abs|pdf]

[10/52] Distributed Monitoring for Data Distribution Shifts in Edge-ML Fraud Detection

Keywords: fraud_edge_ml, fraud_edge, financial_fraud_edge
Abstract: 디지털 시대에는 금융 사기가 눈에 띄게 증가했습니다. 엣지 머신러닝은 스마트폰 결제 서비스 사기 탐지를 위한 유망한 솔루션으로 부상했으며, 엣지 디바이스에 직접 머신러닝 모델을 배포할 수 있습니다. 이 접근 방식은 보다 개인화된 실시간 사기 탐지를 가능하게 합니다. 그러나 현재 연구에는 이러한 분산형 엣지 ML 애플리케이션의 데이터 분포 변화를 모니터링할 수 있는 강력한 시스템이 부족하다는 점이 큰 문제입니다. 저희는 엣지 디바이스 네트워크에서 데이터 분포 변화를 지속적으로 모니터링하도록 설계된 새로운 오픈소스 프레임워크를 도입하여 이러한 격차를 해소하고자 합니다. 이 시스템에는 분산된 엣지 디바이스 네트워크에서 콜모고로프-스미르노프(KS) 테스트의 혁신적인 계산이 포함되어 있어 사용자 행동 변화를 효율적이고 정확하게 모니터링할 수 있습니다. 실제 금융 거래 데이터 세트와 합성 금융 거래 데이터 세트를 모두 사용하여 제안된 프레임워크를 종합적으로 평가하고 프레임워크의 유효성을 입증합니다. [abs|pdf]

[11/52] Pre-trained Large Language Models for Financial Sentiment Analysis

Keywords: classifying_financial_text, financial_sentiment_analysis, classification_financial_news
Abstract: 금융 감정 분석은 금융 텍스트 콘텐츠를 감정 카테고리(예: 긍정, 부정, 중립)로 분류하는 것을 말합니다. 본 논문에서는 금융 뉴스 제목의 분류에 초점을 맞추는데, 이는 훈련 샘플의 양이 많지 않아 어려운 작업입니다. 이러한 어려움을 극복하기 위해 사전 학습된 대규모 언어 모델(LLM)[1, 2, 3]을 적용하여 이 문제를 해결할 것을 제안합니다. 방대한 양의 텍스트 코퍼스로부터 학습된 LLM은 텍스트 이해에 유리하며, 매우 적은 양의 학습 샘플을 필요로 하면서도 도메인별 작업에 효과적으로 적용할 수 있습니다. 특히, 오픈소스인 라마2-7B 모델(2023년)에 지도 미세 조정(SFT) 기법[4]을 적용했습니다. 실험적 평가에 따르면 7B 모델(LLM에 비해 상대적으로 작은 모델)을 사용하더라도 우리의 접근 방식은 이전의 최첨단 알고리즘보다 훨씬 뛰어난 성능을 발휘합니다. [abs|pdf]

[12/52] A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer

Keywords: shot_text_classification, words_based_class, label_word_candidates
Abstract: 라벨 단어를 클래스 라벨에 매핑하는 역할을 하는 버벌라이저는 프롬프트 튜닝의 필수 구성 요소입니다. 이 백서에서는 언어화기를 구성하는 새로운 접근 방식을 제시합니다. 기존의 언어화기 구축 방법은 주로 클래스 이름을 기반으로 동의어 또는 관련 단어 집합을 보강하고 정제하는 데 의존하지만, 이러한 패러다임은 좁은 관점과 추상화 부족으로 인해 적용 범위가 제한적이고 라벨 단어 공간에서 편향성이 높다는 문제가 있습니다. 이 문제를 해결하기 위해 시나리오별 개념을 통합하는 라벨-워드 구축 프로세스를 제안합니다. 구체적으로, 작업별 시나리오에서 풍부한 개념을 라벨 단어 후보로 추출한 다음, 새로운 캐스케이드 보정 모듈을 개발하여 후보를 각 클래스에 맞는 라벨 단어 집합으로 구체화합니다. 제로 샷 텍스트 분류에 널리 사용되는 {5개} 데이터 세트에 대한 광범위한 실험을 통해 제안한 접근 방식의 효과를 평가합니다. 그 결과, 우리의 방법이 기존 방법보다 성능이 뛰어나고 최첨단 결과를 얻을 수 있음을 입증했습니다. [abs|pdf]

[13/52] Knowledge Sharing in Manufacturing using Large Language Models: User Evaluation and Model Benchmarking

Keywords: tools_knowledge_management, factory_documentation_aims, knowledge_contained_factory
Abstract: 지식을 효율적으로 관리하는 것은 조직의 성공을 위해 매우 중요합니다. 제조업에서는 공장 운영이 지식 집약적으로 변하면서 새로운 작업자를 교육하고 지원하는 공장 역량에 부담을 주고 있습니다. 이 백서에서는 공장 문서에 포함된 광범위한 지식을 활용하도록 설계된 대규모 언어 모델(LLM) 기반 시스템을 소개합니다. 이 시스템은 운영자의 질문에 효율적으로 답변하고 새로운 지식의 공유를 촉진하는 것을 목표로 합니다. 그 효과를 평가하기 위해 공장 환경에서 평가를 실시했습니다. 이 평가의 결과는 더 빠른 정보 검색과 더 효율적인 문제 해결이라는 시스템의 이점을 입증했습니다. 그러나 이 연구는 또한 그러한 옵션을 사용할 수 있는 경우 인간 전문가로부터 학습하는 것을 선호한다는 점을 강조했습니다. 또한 이 시스템을 위해 여러 폐쇄형 및 오픈 소스 LLM을 벤치마킹했습니다. GPT-4는 지속적으로 다른 모델보다 우수한 성능을 보였으며, StableBeluga2와 같은 오픈 소스 모델이 그 뒤를 바짝 쫓아 데이터 프라이버시 및 커스터마이징 이점을 고려할 때 매력적인 옵션으로 나타났습니다. 전반적으로 이 연구는 지식 관리를 위해 LLM 도구 사용을 고려하는 공장에 예비 인사이트를 제공합니다. [abs|pdf]

[14/52] Monte Carlo Tree Search for Recipe Generation using GPT-2

Keywords: generate_recipes, recipemc_text_generation, generated_recipes
Abstract: 자동 음식 레시피 생성 방법은 요리사가 새롭고 흥미로운 요리를 탐구하고 창조할 수 있는 창의적인 도구를 제공합니다. 최근의 대규모 언어 모델(LLM)의 성공을 고려할 때, LLM은 개인의 선호도와 식단 제약을 충족하고 냉장고에 있는 재료에 맞게 조정할 수 있는 새로운 레시피를 생성할 수 있는 잠재력을 가지고 있습니다. 레시피를 생성하는 데 LLM을 사용하는 기존 연구에 따르면 LLM을 세밀하게 조정하여 실제와 같은 레시피를 생성할 수 있는 것으로 나타났습니다. 그러나 자세히 살펴보면 이렇게 생성된 레시피는 닭고기 요리에 닭고기를 재료로 포함시키는 것과 같은 기본적인 요구 사항을 충족하지 못하는 경우가 많습니다. 이 논문에서는 몬테카를로 트리 검색(MCTS)에 의존하는 GPT-2를 사용한 텍스트 생성 방법인 RecipeMC를 제안합니다. RecipeMC를 사용하면 텍스트 생성에 소프트 제약을 가하는 보상 함수를 정의하여 생성된 레시피의 신뢰도를 향상시킬 수 있습니다. 연구 결과에 따르면 인간 평가자들은 실제 레시피와 비교했을 때 다른 기준 방법으로 생성된 레시피보다 RecipeMC로 생성된 레시피를 더 자주 선호하는 것으로 나타났습니다. [abs|pdf]

[15/52] Modelling, Positioning, and Deep Reinforcement Learning Path Tracking Control of Scaled Robotic Vehicles: Design and Experimental Validation

Keywords: tracking_controller_trained, controller_trained_expert, path_tracking_controller
Abstract: 모바일 로봇 시스템의 인기가 점점 높아지고 있습니다. 이러한 시스템은 창고 및 제조부터 인공지능(AI) 기반 제어 솔루션과 같은 고급 제어 전략의 평가를 위한 테스트 벤치에 이르기까지 다양한 실내 애플리케이션에 사용됩니다. 스케일링된 로봇 자동차는 일반적으로 차량 상태 추정 및 제어 전용 작업을 포함하는 계층적 제어 아키텍처를 갖추고 있습니다. 이 백서에서는 학습 단계를 가속화하고 시뮬레이션과 현실 간의 격차에 대한 견고성을 높이기 위해 (i) 페더렛 확장 칼만 필터(FEKF)와 (ii) 전문가 데모를 통해 훈련된 새로운 심층 강화 학습(DRL) 경로 추적 컨트롤러를 제안하여 두 가지 측면을 모두 다룹니다. 이 논문은 또한 차량 모델의 공식화와 함께 이 매개변수를 식별하는 효과적이면서도 간단한 절차를 제시합니다. 실험적으로 검증된 모델은 (i) FEKF의 설계를 지원하고 (ii) 제안된 DRL 기반 경로 추적 알고리즘을 훈련하기 위한 디지털 트윈으로 사용됩니다. 실험 결과는 모바일 로봇의 위치 추정을 개선하는 FEKF의 능력을 확인시켜 줍니다. 또한 훈련 중에 고려되지 않은 기동을 통해 DRL 경로 추적 전략의 효과를 실험적으로 테스트하여 AI 기반 솔루션이 모델 기반 제어 전략과 데모 로봇을 능가하는 능력을 보여주었습니다. 벤치마킹 제어기와의 비교는 일련의 핵심 성과 지표를 통해 정량적으로 평가됩니다. [abs|pdf]

[16/52] Experiment Planning with Function Approximation

Keywords: approximation_contextual_bandit, contextual_bandit_problems, bandit_problems
Abstract: 우리는 문맥적 산적 문제에서 함수 근사치를 이용한 실험 계획 문제를 연구합니다. 적응형 알고리즘을 배포하는 데 상당한 오버헤드가 있는 환경(예: 데이터 수집 정책의 실행이 분산되어야 하거나 이러한 정책을 구현하기 위해 루프에 사람이 필요한 경우)에서는 데이터 수집을 위한 정책 집합을 미리 생성하는 것이 가장 중요합니다. 학습자가 효과적인 데이터 수집 전략을 설계하는 데 사용할 수 있는 컨텍스트 데이터 세트는 많지만 보상은 없는 환경을 연구합니다. 보상이 선형적일 때는 이 문제가 잘 연구되어 왔지만, 더 복잡한 보상 모델에 대한 결과는 아직 나오지 않았습니다. 이 연구에서는 함수 근사화와 호환되는 두 가지 실험 계획 전략을 제안합니다. 첫 번째는 보상 함수 클래스의 회피자 차원에 따라 최적성 보장을 복구할 수 있는 회피자 계획 및 샘플링 절차입니다. 두 번째는 행동의 수가 적은 환경에서 균일 샘플러가 경쟁력 있는 최적화율을 달성한다는 것을 보여줍니다. 마지막으로 계획과 적응 학습의 근본적인 차이점을 설명하는 통계적 격차를 도입하여 결과를 마무리하고 모델 선택을 통한 계획에 대한 결과를 제공합니다. [abs|pdf]

[17/52] Can ChatGPT Rival Neural Machine Translation? A Comparative Study

Keywords: translation_quality_assessment, examine_translation_quality, translation_quality
Abstract: 번역에 대규모 언어 모델을 활용하는 것에 대한 관심이 높아짐에 따라 이 백서에서는 중국어 외교 문장을 영어로 번역할 때 ChatGPT로 대표되는 대규모 언어 모델(LLM)의 기능을 주류 신경망 기계 번역(NMT) 엔진과 비교하여 평가합니다. 특히 오류 유형과 6가지 분석 루브릭에 기반한 네 가지 자동화된 지표와 사람의 평가로 측정한 ChatGPT와 NMT 엔진의 번역 품질을 살펴봅니다. 연구 결과에 따르면 자동화된 지표는 다양한 프롬프트와 NMT 시스템에서 ChatGPT에 대해 유사한 결과를 산출하는 반면, 인간 주석가는 번역 작업에 대한 예시나 문맥 정보가 제공될 때 ChatGPT에 눈에 띄게 높은 점수를 부여하는 경향이 있습니다. 자동화된 지표와 인간 평가 차원 간의 쌍방향 상관관계는 약하고 유의미하지 않은 결과를 도출하여 두 가지 번역 품질 평가 방법 간에 차이가 있음을 시사합니다. 이러한 결과는 유능한 기계 번역기로서 ChatGPT의 잠재력과 신속한 엔지니어링이 성능에 미치는 영향에 대한 귀중한 통찰력을 제공합니다. [abs|pdf]

[18/52] MISS: A Generative Pretraining and Finetuning Approach for Med-VQA

Keywords: visual_question_answering, challenging_multimodal_task, multimodal_task
Abstract: 의료용 시각 질문 답변(VQA)은 시각-언어 사전 훈련(VLP) 모델이 일반화 성능을 효과적으로 향상시킬 수 있는 까다로운 멀티모달 작업입니다. 그러나 의료 분야의 대부분의 방법은 VQA를 실제 적용 시나리오로 옮기기 어려운 답변 분류 작업으로 취급합니다. 또한 의료 이미지의 프라이버시와 고비용의 주석 처리 과정으로 인해 사전 학습을 위한 대규모 의료 이미지-텍스트 쌍 데이터 세트가 매우 부족한 실정입니다. 본 논문에서는 의료 VQA 작업을 위한 대규모 다중 작업 자가 지도 학습 기반 프레임워크(MISS)를 제안합니다. 기존 방법과 달리 의료 VQA를 생성 작업으로 취급합니다. 텍스트 인코더와 멀티모달 인코더를 통합하고 멀티태스크 학습을 통해 이미지-텍스트 특징을 정렬합니다. 또한 대규모 언어 모델(LLM)을 사용하여 단일 모달 이미지 데이터 세트의 특징 공간을 확장하는 전송 및 캡션 방법을 제안하여 기존의 의료 비전 분야 작업 데이터를 VLP에 적용할 수 있도록 합니다. 실험 결과, 이 방법은 더 적은 수의 멀티모달 데이터 세트로도 우수한 결과를 얻을 수 있으며, 생성형 VQA 모델의 장점을 입증했습니다. 코드와 모델 가중치는 논문이 승인되면 공개될 예정입니다. [abs|pdf]

[19/52] Derm-T2IM: Harnessing Synthetic Skin Lesion Data via Stable Diffusion Models for Enhanced Skin Disease Classification using ViT and CNN

Keywords: synthetic_data_training, training_synthetic_data, skin_lesion_datasets
Abstract: 이 연구에서는 머신러닝 모델 학습의 견고성을 높이기 위한 전략으로 안정적인 확산 모델을 통해 생성된 피부과 합성 데이터의 활용에 대해 살펴봅니다. 합성 데이터 생성은 레이블이 지정된 제한된 데이터 세트와 관련된 문제를 완화하여 보다 효과적인 모델 학습을 촉진하는 데 중추적인 역할을 합니다. 이러한 맥락에서 최근 성공한 소수의 샷 학습과 텍스트-이미지 잠재 확산 모델에서 소량의 데이터 표현을 확장하여 향상된 데이터 변환 기술을 통합하는 것을 목표로 합니다. 최적으로 튜닝된 모델은 다양하고 사실적인 특성을 가진 고품질의 피부 병변 합성 데이터를 렌더링하는 데 사용되어 기존 훈련 데이터를 보완하고 다양성을 제공합니다. 새로 생성된 합성 데이터를 최첨단 머신러닝 모델의 훈련 파이프라인에 통합하여 모델 성능 향상과 보이지 않는 실제 데이터로의 일반화에 미치는 영향을 조사합니다. 실험 결과, 안정적인 확산 모델을 통해 생성된 합성 데이터가 두 개의 서로 다른 실제 피부 병변 데이터 세트에서 엔드투엔드 CNN 및 비전 트랜스포머 모델의 견고성과 적응성을 개선하는 데 도움이 된다는 것을 입증했습니다. [abs|pdf]

[20/52] Unpacking Human-AI interactions: From interaction primitives to a design space

Keywords: ai_interactions_building, messages_humans_ai, human_ai_interactions
Abstract: 이 백서는 사용자와 AI 시스템이 상호작용하는 동안의 커뮤니케이션을 명시하는 일련의 상호작용 기본 요소를 구축하여 인간과 AI의 상호작용을 위한 반형식적 디자인 공간을 개발하는 것을 목표로 합니다. 이러한 기본 요소들이 어떻게 상호작용 패턴의 집합으로 결합되어 인간과 AI/ML 모델 간의 메시지 교환을 위한 추상적인 사양을 제공하여 목적에 맞는 상호작용을 수행할 수 있는지를 보여줍니다. 이러한 프레임워크의 동기는 두 가지입니다. 첫째, 기존 사례를 간결하게 일반화하여 상호 작용 동작 측면에서 시스템 간의 유사점과 차이점을 강조하고, 둘째, 특히 모델과의 상호 작용을 위한 가능성의 공간을 열어 새로운 시스템을 만드는 데 도움을 주기 위해서입니다. 휴먼 인 더 루프, 설명 가능한 AI, 하이브리드 인텔리전스 및 협업 학습 접근법을 포함하여 HAI 상호 작용의 설계 및 구현과 관련된 프레임워크, 지침 및 분류법에 대한 간략한 문헌 검토를 제시합니다. 문헌 검토를 통해 특정 모델별 데이터 유형의 제공 및 요청 측면에서 정보 교환을 설명하기 위한 어휘를 정의합니다. 이 어휘를 기반으로 인간과 모델 간의 상호작용을 위한 메시지 전달 모델을 제시하고, 이를 통해 기존 시스템과 접근 방식을 설명할 수 있음을 입증합니다. 마지막으로, 이를 일반적인 상호작용 구조를 포착하는 중간 수준의 구조로서 디자인 패턴으로 구축합니다. 이러한 접근 방식이 인간과 AI의 상호작용을 위한 디자인 공간에 어떻게 활용되어 디자인에 대한 새로운 가능성을 창출하고 구현 문제와 우려 사항을 추적할 수 있는지에 대해 논의합니다. [abs|pdf]

[21/52] Any-Way Meta Learning

Keywords: meta_learning_promising, meta_learning, meta_learning_introduce
Abstract: 메타 학습은 빠른 적응성 영역에서 유망한 성능을 보이지만, 고정된 카디널리티에 의해 제약을 받습니다. 훈련 중에 볼 수 없었던 다양한 카디널리티의 과제에 직면하면 모델의 능력이 부족해집니다. 이 논문에서는 에피소드 과제 샘플링 중 확률적 숫자 레이블 할당에서 나타난 '레이블 동등성'을 활용하여 이 문제를 해결하고 해결합니다. 무엇이 '진정한' 메타러닝을 정의하는지에 대한 의문을 제기하면서, 고정된 카디널리티 제약으로부터 모델을 해방시키는 혁신적인 모델 훈련 접근 방식인 '애니웨이' 학습 패러다임을 소개합니다. 놀랍게도 이 모델은 성능, 수렴 속도, 안정성 측면에서 기존의 고정 방식 모델과 일치할 뿐만 아니라 종종 더 나은 성능을 발휘합니다. 이는 도메인 일반화에 대한 기존의 관념을 뒤엎는 결과입니다. 또한 내재적 라벨 등가성에는 당연히 의미론적 정보가 부족하다고 주장합니다. 라벨 등가성에서 발생하는 이러한 의미 정보 격차를 해소하기 위해, 우리는 의미적 클래스 정보를 모델에 주입하는 메커니즘을 추가로 제안합니다. 이를 통해 모델의 이해도와 기능을 향상시킬 수 있습니다. MAML과 ProtoNet과 같은 유명한 아키텍처에서 수행한 실험을 통해 이 방법의 효과를 확인할 수 있습니다. [abs|pdf]

[22/52] Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding

Keywords: diversity_promoting_decoding, directed_text_generation, text_generation_systems
Abstract: 텍스트 생성 시스템에서 가장 중요한 과제 중 하나는 정확할 뿐만 아니라 다양한 출력을 생성하는 것입니다. 최근에는 디코딩 알고리즘 중 가장 높은 품질의 문장을 생성하는 최소 베이즈-리스크(MBR) 디코딩이 각광받고 있습니다. 그러나 다양한 출력을 생성하기 위해 제안된 기존 알고리즘은 주로 빔 탐색 또는 무작위 샘플링을 기반으로 하기 때문에 이러한 기본 방식에 의해 출력 품질이 제한됩니다. 이 백서에서는 MBR 디코딩에 다양성 목표를 적용하여 다양성 촉진 디코딩 알고리즘을 개발하는 대안적 접근 방식을 살펴봅니다. 우리는 높은 품질과 다양성을 가진 문장 집합을 생성하는 방법인 두 가지 변형 MBR인 DMBR(Diverse MBR)과 k-메도이드 MBR(KMBR)을 제안합니다. 인코더-디코더 모델과 프롬프트가 있는 대규모 언어 모델을 사용하여 다양한 지시형 텍스트 생성 작업에서 DMBR과 KMBR을 평가합니다. 실험 결과는 제안된 방법이 다양한 빔 검색 및 샘플링 알고리즘보다 더 나은 절충안을 달성한다는 것을 보여줍니다. [abs|pdf]

[23/52] CreINNs: Credal-Set Interval Neural Networks for Uncertainty Estimation in Classification Tasks

Keywords: interval_neural_networks, uncertainty_deterministic_intervals, reliability_neural_networks
Abstract: 불확실성 추정은 신경망의 신뢰성을 향상시키는 데 점점 더 매력적으로 다가오고 있습니다. 이 연구에서는 분류 작업을 위해 설계된 새로운 크리덴셜 세트 간격 신경망(CreINN)을 소개합니다. CreINN은 기존의 간격 신경망 구조를 유지하면서 결정론적 간격을 통해 가중치 불확실성을 포착하는 동시에 확률 간격의 수학적 프레임워크를 사용하여 신뢰 집합을 예측합니다. 분포 이탈 탐지 벤치마크(CIFAR10 vs SVHN)에 대한 실험적 검증 결과, CreINN은 변형 베이지안 신경망(BNN) 및 심층 앙상블(DE)과 비교했을 때 인식적 불확실성 추정 성능이 더 뛰어났습니다. 또한, CreINN은 변형 BNN에 비해 계산 복잡성이 현저히 감소하고 DE에 비해 모델 크기가 더 작다는 것을 보여줍니다. [abs|pdf]

[24/52] Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk

Keywords: quality_generated_dialogues, generated_conversational_data, generated_conversational
Abstract: 대규모 언어 모델(LLM)은 강력한 대화 에이전트이지만 특정 기능을 수행하도록 전문화하기는 어려울 수 있습니다. 인스트럭션 튜닝, 즉 인간이 생성한 인스트럭션 및 샘플 응답에 대한 모델 튜닝(Ouyang et al., 2022)은 효과적인 방법으로 입증되었지만, 가) 사용할 수 없거나 나) 생성하는 데 많은 비용이 드는 데이터 샘플이 필요합니다. 또한, 단일 지침이 아닌 대화 내에서 특정 워크플로우를 따르도록 하는 것이 목표일 경우 이 비용은 더욱 증가합니다. 강화 학습의 셀프 플레이 기법과 인간 에이전트를 시뮬레이션하기 위한 LLM의 사용에서 영감을 얻어, 다양한 역할을 맡은 대화에 참여하는 LLM을 통해 데이터를 수집하는 보다 효과적인 방법을 제안합니다. 이 접근 방식은 LLM의 '셀프 토크'를 통해 훈련 데이터를 생성하고, 이를 정제하여 감독에 의한 미세 조정에 활용할 수 있습니다. 대화의 (부분적인) 성공 여부를 측정하는 자동화된 방법을 소개합니다. 이 메트릭은 생성된 대화 데이터를 필터링하여 학습을 위해 LLM에 피드백하는 데 사용됩니다. 대화 품질에 대한 자동화된 평가와 사람의 평가를 바탕으로 이러한 셀프 토크 데이터가 결과를 개선한다는 것을 입증합니다. 또한 생성된 대화의 품질을 보여주는 다양한 특성과 이를 학습 데이터로서의 잠재적 유용성에 어떻게 연결할 수 있는지 살펴봅니다. [abs|pdf]

[25/52] Source-Free Cross-Modal Knowledge Transfer by Unleashing the Potential of Task-Irrelevant Data

Keywords: data_guided_modality, modal_knowledge_transfer, source_modality_rgb
Abstract: 소스 없는 교차 모달 지식 전송은 메모리 및 개인정보 보호 문제로 인해 작업 관련(TR) 소스 데이터에 액세스할 수 없는 상태에서 한 소스 모달(예: RGB)에서 대상 모달(예: 깊이 또는 적외선)로 지식을 전송하는 것을 목표로 하는 중요하면서도 까다로운 작업입니다. 최근의 한 시도는 쌍을 이루는 작업과 무관한(TI) 데이터를 활용하고 이 데이터의 특징을 직접 일치시켜 모달리티 갭을 제거합니다. 그러나 이 방식은 쌍을 이룬 TI 데이터를 활용하여 소스 데이터의 분포를 효과적으로 추정하고 목표 양식으로 지식 이전을 더 원활하게 할 수 있다는 중요한 단서를 무시합니다. 이를 위해 우리는 소스 없는 크로스모달 지식 이전을 개선하기 위해 페어링된 TI 데이터의 잠재력을 발휘할 수 있는 새롭고도 간결한 프레임워크를 제안합니다. 이 작업은 두 가지 핵심 기술 요소에 의해 뒷받침됩니다. 첫째, 소스 데이터 분포를 더 잘 추정하기 위해 작업과 무관한 데이터 가이드 양식 브리징(TGMB) 모듈을 도입했습니다. 이 모듈은 두 가지 주요 간극을 완화하기 위해 페어링된 TI 데이터와 사용 가능한 소스 모델의 안내를 기반으로 대상 모달리티 데이터(예: 적외선)를 소스와 유사한 RGB 이미지로 변환합니다: 1) 페어링된 TI 데이터 간의 모달리티 간 격차, 2) TI와 TR 타깃 데이터 간의 모달리티 내 격차. 그런 다음 페어링된 TI 데이터를 활용하여 소스 모델에서 타깃 모델로 지식을 전송하는 작업 관련 데이터 유도 지식 전송(TGKT) 모듈을 제안합니다. 특히, TR 대상 데이터에 대한 레이블을 사용할 수 없고 소스 모델의 예측 신뢰도가 낮기 때문에, TGKT 모델은 자체 감독 의사 라벨링 접근법을 통합하여 대상 모델이 예측을 통해 학습할 수 있도록 합니다. 광범위한 실험을 통해 이 방법은 세 가지 데이터 세트(RGB-심도 및 RGB-적외선)에서 최첨단 성능을 달성하는 것으로 나타났습니다. [abs|pdf]

[26/52] Less is More : A Closer Look at Multi-Modal Few-Shot Learning

Keywords: shot_learning_tasks, framework_shot_learning, underestimated_shot_learning
Abstract: 소수 샷 학습은 매우 제한된 수의 이미지로 새로운 카테고리를 학습하고 구별하는 것을 목표로 하며, 이는 딥러닝 영역에서 중요한 과제를 제시합니다. 최근 연구자들은 이러한 희귀 카테고리의 추가 텍스트 또는 언어 정보를 사전 학습된 언어 모델과 함께 활용하여 학습을 용이하게 함으로써 감독 신호 부족 문제를 부분적으로 완화하고자 했습니다. 그러나 지금까지의 단발성 학습에서는 텍스트 정보와 사전 학습된 언어 모델의 잠재력이 과소평가되어 성능 향상에 한계가 있었습니다. 이 문제를 해결하기 위해 텍스트 정보와 언어 모델을 활용하도록 특별히 설계된 간단하지만 효과적인 소수의 샷 학습 프레임워크를 제안합니다. 좀 더 자세히 설명하자면, 학습 가능한 프롬프트를 통해 사전 학습된 언어 모델의 제로 샷 기능을 명시적으로 활용합니다. 그리고 이전 작업에서 복잡하게 설계된 융합 모듈 없이도 추론을 위해 텍스트 기능과 함께 시각적 기능을 직접 추가했습니다. 또한 셀프 앙상블과 증류 기능을 적용하여 이러한 구성 요소를 더욱 향상시켰습니다. 널리 사용되는 네 개의 소수 데이터 세트에 대한 광범위한 실험을 통해 간단한 프레임워크로도 인상적인 결과를 얻을 수 있음을 입증했습니다. 특히 주목할 만한 것은 단발성 학습 과제에서 평균 3.0%의 분류 정확도로 최첨단 방법을 능가하는 뛰어난 성능을 보였다는 점입니다. (제안된 프레임워크의 소스코드는 수락 시 공개할 예정입니다.) [abs|pdf]

[27/52] AdaFed: Fair Federated Learning via Adaptive Common Descent Direction

Keywords: federated_learning, federated_learning_trained, problem_federated_learning
Abstract: 연합 학습(FL)은 일부 에지 디바이스/클라이언트가 서버가 조율하는 머신 러닝 모델을 공동으로 학습하는 유망한 기술입니다. 훈련된 모델이 일부 디바이스에 불공평하게 유리하거나 불리하게 작용할 수 있는 불공정한 모델 학습은 연합 학습에서 중요한 문제로 알려져 있습니다. 이 문제를 해결하기 위해 이번 연구에서는 AdaFed를 제안합니다. AdaFed의 목표는 (i) 모든 클라이언트의 손실 함수가 감소하고, (ii) 더 중요한 것은 값이 큰 클라이언트의 손실 함수가 더 높은 비율로 감소하는 서버의 업데이트 방향을 찾는 것입니다. AdaFed는 로컬 경사도 및 손실 함수의 값에 따라 이러한 공통된 방향을 적응적으로 조정합니다. 유니티는 페더레이션된 데이터 세트에서 AdaFed의 효과를 검증하고, AdaFed가 최첨단 공정 FL 방법보다 뛰어난 성능을 발휘한다는 사실을 입증했습니다. [abs|pdf]

[28/52] Autonomous Navigation of Tractor-Trailer Vehicles through Roundabout Intersections

Keywords: turning_wheels_trailer, trailer_models, trailer_vehicles
Abstract: 최근 몇 년 동안 안전성과 효율성을 높이기 위해 자율 주행 분야에서 상당한 발전이 이루어졌습니다. 하지만 트랙터-트레일러 차량에 초점을 맞춘 연구는 상대적으로 부족합니다. 이러한 차량은 물리적 특성과 관절로 인해 맞춤형 모델이 필요합니다. 선회할 때 트레일러의 뒷바퀴는 더 좁은 반경으로 회전하고 트럭은 이를 맞추기 위해 종종 차선 중앙에서 벗어나야 합니다. 공개적으로 사용 가능한 모델이 부족하기 때문에 이 연구에서는 여러 로터리 시나리오와 함께 충실도 높은 시뮬레이션 소프트웨어인 CARLA를 사용하여 트럭 및 트레일러 모델을 개발하여 벤치마크를 위한 기준 데이터 세트를 구축합니다. 트윈큐 소프트 액터-크리틱 알고리즘을 사용하여 다양한 로터리에서 73%의 성공률을 달성할 수 있는 준 엔드투엔드 자율 주행 모델을 훈련합니다. [abs|pdf]

[29/52] Invertible Solution of Neural Differential Equations for Analysis of Irregularly-Sampled Time Series

Keywords: irregular_time_series, sampled_time_series, differential_equations_neural
Abstract: 불규칙하고 불완전한 시계열 데이터의 복잡성을 처리하기 위해 신경 미분 방정식(NDE) 기반 방법의 역해법을 제안합니다. NDE 기반 방법은 불규칙하게 샘플링된 시계열을 분석하는 데 강력한 방법이지만, 일반적으로 표준 형식의 가역적 변환을 보장하지 않습니다. 우리의 방법은 계산 부담을 줄이면서 가역성을 보장하는 신경 흐름이 포함된 신경 제어 미분 방정식(Neural CDE)의 변형을 제안합니다. 또한 이중 잠재 공간의 학습을 가능하게 하여 동적 시간 역학의 모델링을 향상시킵니다. 유니티의 연구는 분류와 보간 작업 모두에서 탁월한 성능을 발휘하는 고급 프레임워크를 제시합니다. 이 접근 방식의 핵심은 다양한 시계열 작업에서 높은 정밀도를 발휘하도록 세심하게 설계된 향상된 이중 잠재 상태 아키텍처입니다. 경험적 분석에 따르면 이 방법은 기존 모델보다 훨씬 뛰어난 성능을 발휘합니다. 이 연구는 불규칙한 시계열 분석을 크게 발전시켜 혁신적인 기법을 도입하고 다양한 실제 애플리케이션을 위한 다용도 도구를 제공합니다. [abs|pdf]

[30/52] Closed-Form Interpretation of Neural Network Classifiers with Symbolic Regression Gradients

Keywords: neural_network_symbolic, symbolic_equation_neural, classifiers_neural
Abstract: 자동화된 과학적 발견에 맞춰진 신경망 분류기를 해석하기 위한 통합 프레임워크를 소개합니다. 신경망 기반 회귀와 달리, 분류의 경우 신경망 자체가 폐쇄형 방정식으로 쓸 수 있는 양을 기반으로 분류를 수행하더라도 신경망에서 기호 방정식으로 일대일 매핑을 찾는 것은 일반적으로 불가능합니다. 이 논문에서는 훈련된 신경망을 동일한 양을 기준으로 결정을 내리는 분류 함수의 동등성 클래스에 포함시킵니다. 저는 이 동등성 클래스와 기호 회귀의 탐색 공간에 의해 정의된 사람이 읽을 수 있는 방정식 사이의 교집합을 찾아 신경망을 해석합니다. 이 접근 방식은 분류기나 전체 신경망에만 국한되지 않으며, 숨겨진 계층이나 잠재 공간의 임의의 뉴런에 적용하거나 신경망 회귀를 해석하는 과정을 단순화하기 위해 적용할 수 있습니다. [abs|pdf]

[31/52] Information Flow Rate for Cross-Correlated Stochastic Processes

Keywords: correlations_information_flow, information_flow_stochastic, correlated_gaussian_processes
Abstract: 인과 추론은 결합된 시스템에서 원인과 결과의 상호작용을 파악하고자 합니다. 최근 Liang이 제안한 방법은 시계열 간의 정보 흐름의 방향과 크기를 정량화하여 인과 관계를 감지합니다. 확률적 동역학 시스템에 대한 정보 흐름의 이론적 공식화는 서로 다른 시스템 단위 간의 엔트로피 전달 속도에 대한 일반적인 표현과 데이터 기반 통계를 제공합니다. 직관적인 개념과 물리적으로 의미 있는 매개변수 측면에서 정보 흐름률에 대한 이해를 높이기 위해 결합된 확률적 프로세스 간의 데이터 기반 정보 흐름률의 통계적 특성을 조사합니다. 정보 흐름률 통계의 기대치와 자동 및 교차 상관 함수의 특성 사이의 관계를 도출합니다. 이를 통해 상관관계 함수의 분석적 특성과 특성 시간에 대한 정보 흐름률의 의존성을 규명합니다. 우리의 분석은 샘플링 단계, 교차 상관관계의 강도, 상관관계의 시간적 지연이 정보 흐름 속도에 미치는 영향에 대한 인사이트를 제공합니다. 상관 가우스 프로세스의 수치 시뮬레이션을 통해 이론적 결과를 뒷받침합니다. [abs|pdf]

[32/52] Fully Decentralized Cooperative Multi-Agent Reinforcement Learning: A Survey

Keywords: cooperative_multi_agent, shared_reward_agents, multi_agent_reinforcement
Abstract: 협동형 다중 에이전트 강화 학습은 많은 실제 협동 작업을 해결할 수 있는 강력한 도구이지만, 실제 적용의 제약으로 인해 에이전트를 완전히 분산된 방식으로 훈련해야 할 수도 있습니다. 다른 에이전트에 대한 정보가 부족하기 때문에 완전히 분산된 환경에서 최적의 공동 정책으로 수렴할 수 있는 알고리즘을 도출하는 것은 어려운 일입니다. 따라서 이 분야에 대한 연구가 충분히 이루어지지 않았습니다. 본 논문에서는 모든 에이전트의 공유 보상을 극대화하는 경우와 모든 에이전트의 개별 보상 합계를 극대화하는 경우의 두 가지 설정에서 완전 탈중앙화 방식을 체계적으로 검토하고, 미해결 과제와 향후 연구 방향에 대해 논의하고자 합니다. [abs|pdf]

[33/52] Learning-Based Difficulty Calibration for Enhanced Membership Inference Attacks

Keywords: trained_models_privacy, membership_inference_attacks, sensitive_data_train
Abstract: 머신러닝 모델, 특히 심층 신경망은 현재 의료에서 금융에 이르기까지 다양한 애플리케이션에서 필수적인 요소로 사용되고 있습니다. 그러나 이러한 모델을 학습시키는 데 민감한 데이터를 사용하면 개인정보 보호 및 보안에 대한 우려가 제기됩니다. 학습된 모델이 개인정보를 보호하는지 검증하기 위해 등장한 방법 중 하나는 멤버십 추론 공격(MIA)으로, 공격자가 특정 데이터 포인트가 모델 학습 데이터 세트의 일부인지 여부를 확인할 수 있게 해줍니다. 문헌에서 여러 가지 MIA가 제안되었지만, 낮은 오탐률(FPR) 영역(0.01%~1%)에서 높은 진양성률(TPR)을 달성할 수 있는 것은 소수에 불과합니다. 이는 MIA가 실제 환경에서 실질적으로 유용하게 사용되기 위해 고려해야 할 중요한 요소입니다. 이 논문에서는 낮은 FPR에서 TPR을 크게 개선하는 것을 목표로 하는 새로운 MIA 접근법을 제시합니다. 학습 기반 난이도 보정(LDC-MIA)이라고 명명된 이 방법은 신경망 분류기를 사용하여 데이터 레코드를 경도 수준에 따라 특성화하여 멤버십을 결정합니다. 실험 결과에 따르면 LDC-MIA는 다른 난이도 보정 기반 MIA에 비해 낮은 FPR에서 TPR을 최대 4배까지 개선할 수 있는 것으로 나타났습니다. 또한 모든 데이터 세트에서 가장 높은 ROC 곡선 면적(AUC)을 보였습니다. 이 방법의 비용은 대부분의 기존 MIA와 비슷하지만, 비슷한 성능을 달성하면서 최첨단 방법 중 하나인 LiRA보다 훨씬 효율적입니다. [abs|pdf]

[34/52] The Impact of Reasoning Step Length on Large Language Models

Keywords: increasing_reasoning_steps, improving_reasoning_abilities, reasoning_steps_prompts
Abstract: 생각의 연쇄(CoT)는 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 중요한 역할을 합니다. 그러나 CoT의 효과와 프롬프트에서 추론 단계의 길이 사이의 상관관계는 아직 거의 알려지지 않았습니다. 이를 밝히기 위해 저희는 여러 가지 실증 실험을 통해 그 관계를 탐구했습니다. 특히, 다른 모든 요인을 일정하게 유지하면서 CoT 데모에서 근거 추론 단계를 확장 및 축소하는 실험을 설계했습니다. 그 결과 다음과 같은 주요 결과를 얻었습니다. 첫째, 프롬프트에 새로운 정보를 추가하지 않더라도 프롬프트의 추론 단계를 늘리면 여러 데이터 세트에 걸쳐 LLM의 추론 능력이 상당히 향상된다는 것을 알 수 있습니다. 반대로 핵심 정보를 유지하면서 추론 단계를 단축하면 모델의 추론 능력이 크게 저하됩니다. 이 연구 결과는 CoT 프롬프트의 단계 수의 중요성을 강조하고 복잡한 문제 해결 시나리오에서 LLM의 잠재력을 더 잘 활용할 수 있는 실용적인 지침을 제공합니다. 둘째, CoT의 성능과 데모에 사용된 근거 사이의 관계도 조사했습니다. 그 결과, 놀랍게도 부정확한 근거라도 필요한 추론의 길이를 유지하면 좋은 결과를 얻을 수 있다는 것을 알 수 있었습니다. 셋째, 추론 단계를 늘리는 것의 이점은 작업에 따라 달라지는데, 간단한 작업은 더 적은 단계를 필요로 하는 반면 복잡한 작업은 추론 시퀀스가 길어질수록 더 큰 이점을 얻을 수 있다는 것을 관찰했습니다. [abs|pdf]

[35/52] ANGO: A Next-Level Evaluation Benchmark For Generation-Oriented Language Models In Chinese Domain

Keywords: question_evaluation_benchmark, evaluation_datasets_emerged, question_evaluation
Abstract: 최근 다양한 대규모 언어 모델(LLM) 평가 데이터셋이 등장했지만, 대부분 왜곡된 순위와 모델 역량 분석의 어려움이라는 문제를 안고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 중국어 객관식 문항 평가 벤치마크인 ANGO를 소개합니다. ANGO는 키포인트 분류 기준을 최초로 제안하여, ANGO의 각 문항이 여러 개의 키포인트에 대응할 수 있어 평가 결과의 해석 가능성을 효과적으로 높였습니다. 실제 사람의 수행 능력을 기반으로 정량화 가능한 문제 난이도 기준을 구축하여 ANGO 문제를 9개의 난이도로 구분함으로써 모델 학습에 더욱 정밀한 가이드를 제공합니다. 데이터 유출의 영향을 최소화하고 ANGO의 혁신적인 기능을 최대한 활용하기 위해 유니티는 독자적인 샘플링 전략과 신속한 테스트 세트 반복을 지원하는 새로운 평가 프레임워크를 설계했습니다. 실험 결과, ANGO는 기존 벤치마크에 비해 모델에 더 강력한 도전 과제를 제시하고 평가 결과에서 더 많은 세부 사항을 드러내는 것으로 나타났습니다. [abs|pdf]

[36/52] An Analysis of User Behaviours for Objectively Evaluating Spoken Dialogue Systems

Keywords: evaluation_social_dialogue, social_dialogue_tasks, conversation_results
Abstract: 음성 대화 시스템에 대한 평가 체계를 수립하는 것은 중요하지만 어려울 수도 있습니다. 사용자 실험에서는 주관적인 평가가 일반적으로 사용되지만, 연구 비교 및 재현성을 위해서는 객관적인 평가가 필요합니다. 이 문제를 해결하기 위해 본 논문에서는 사용자의 행동을 기반으로 시스템을 간접적이지만 객관적으로 평가할 수 있는 프레임워크를 제안합니다. 이를 위해 본 논문에서는 사회적 대화 과제인 경청하기, 면접, 첫 만남 대화에서 사용자 행동과 주관적 평가 점수 간의 관계를 조사합니다. 그 결과, 주의 깊게 듣기나 면접과 같이 사용자의 발화가 주를 이루는 대화 과제에서는 발화 횟수나 단어 수와 같은 지표가 평가에 중요한 역할을 한다는 것을 알 수 있었습니다. 또한 면접과 같은 공식적인 작업에서는 불협화음을 관찰하는 것이 효과적일 수 있습니다. 반면에 첫 대면 대화와 같이 상호작용이 많은 대화 과제에서는 평균 스위치 일시 정지 시간과 같은 차례 지키기와 관련된 행동이 더 중요해집니다. 이러한 결과는 적절한 사용자 행동을 선택하면 각 사회적 대화 과제에서 객관적인 평가를 위한 귀중한 인사이트를 얻을 수 있음을 시사합니다. [abs|pdf]

[37/52] User Embedding Model for Personalized Language Prompting

Keywords: long_user_histories, user_embedding, bias_language_models
Abstract: 긴 사용자 히스토리 모델링은 추천 시스템을 개선하는 데 중추적인 역할을 하며, 사용자의 변화하는 선호도를 파악하여 보다 정확하고 개인화된 추천을 제공할 수 있게 해줍니다. 이 연구에서는 자연어로 선호도를 이해하기 위해 긴 사용자 이력을 모델링하는 데 따르는 문제를 다룹니다. 특히, 자유 형식 텍스트의 사용자 이력을 임베딩으로 압축하고 표현하여 LM에 대한 소프트 프롬프트로 사용함으로써 사용자 이력을 효율적으로 처리하는 새로운 사용자 임베딩 모듈(UEM)을 소개합니다. 실험을 통해 이 접근 방식이 기존의 텍스트 기반 프롬프트 방식에 비해 훨씬 더 긴 히스토리를 처리하는 데 있어 탁월한 성능을 발휘하며 예측 성능이 크게 향상됨을 입증했습니다. 이 연구의 주요 기여는 임베딩으로 표현된 사용자 신호로 언어 모델을 편향시킬 수 있는 능력을 입증하는 것입니다. [abs|pdf]

[38/52] Graph Learning-based Fleet Scheduling for Urban Air Mobility under Operational Constraints, Varying Demand & Uncertainties

Keywords: fleet_planning_implementations, graph_reinforcement_learning, uam_fleet_planning
Abstract: 이 백서에서는 여러 공항에서 운항하는 도심 항공 모빌리티(UAM) 비행단을 구성하는 전기 항공기의 스케줄과 목적지를 온라인으로 계획하는 그래프 강화 학습 접근법을 개발합니다. 이 항공기 스케줄링 문제는 시간에 따라 변화하는 수요, 공항 수용 능력, 항공기 수용 능력 및 공역 안전 지침과 관련된 제약, 이륙 지연과 관련된 불확실성, 날씨로 인한 노선 폐쇄, 예상치 못한 항공기 다운타임 등을 고려하도록 공식화되었습니다. 종합적으로 볼 때, 이러한 공식은 기존의 UAM 항공기 계획 구현보다 더 복잡하고 현실성이 떨어질 가능성이 높습니다. 이러한 복잡성을 해결하기 위해 새로운 정책 아키텍처가 구축되며, 주요 구성 요소로는 그래프로 추상화된 버티포트 및 항공기-차량 상태를 인코딩하기 위한 그래프 캡슐 컨버넷, 수요 및 승객 요금에 대한 시계열 정보를 인코딩하는 트랜스포머 레이어, 인코딩된 정보를 사용하여 항공기의 각 가용 목적지를 선택할 확률을 계산하는 다중 헤드 주의 기반 디코더 등이 있습니다. 근사 정책 최적화로 훈련된 이 정책 아키텍처는 무작위 기준선 및 유전 알고리즘으로 도출된 최적 솔루션과 비교했을 때, 8개 버티포트와 40대의 항공기가 포함된 보이지 않는 테스트 시나리오에서 일일 평균 수익 측면에서 훨씬 더 나은 성능을 보여주며 실행 속도도 후자보다 거의 1000배 더 빠릅니다. [abs|pdf]

[39/52] A Deep Learning Representation of Spatial Interaction Model for Resilient Spatial Planning of Community Business Clusters

Keywords: community_business_clusters, model_graph_attention, interactions_business_clusters
Abstract: 기존의 공간 상호작용 모델(SIM)은 비즈니스 클러스터와 상권 간의 복잡하고 맥락을 인식하는 상호작용을 포착하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 유니티는 커뮤니티 비즈니스 클러스터와 해당 상권 간의 시공간적 방문 흐름을 예측할 수 있는 SIM-GAT 모델을 제안합니다. 이 모델은 도시 지역 내 비즈니스 클러스터, 상권, 교통 인프라의 통합 시스템을 연결된 그래프로 혁신적으로 표현합니다. 그런 다음 그래프 기반 딥러닝 모델, 즉 그래프 연결 네트워크(GAT)를 사용하여 비즈니스 클러스터의 복잡성과 상호 의존성을 포착합니다. 플로리다의 마이애미 대도시 지역에서 수집한 데이터로 이 모델을 개발했습니다. 그런 다음 설명 가능한 AI 접근 방식을 통해 다양한 주거 지역과 시나리오에 따른 비즈니스 클러스터의 다양한 매력을 포착하는 데 이 모델이 효과적임을 입증했습니다. 우리는 상호 연결된 커뮤니티 비즈니스 클러스터의 역학을 예측하고 분석하기 위해 기존의 SIM을 보완하는 새로운 방법을 제공합니다. 분석 결과는 커뮤니티 비즈니스 클러스터가 다양한 시나리오에서 고객을 더 잘 수용하고 커뮤니티 비즈니스의 회복력을 향상시킬 수 있도록 데이터에 기반한 장소별 계획 전략을 알려줍니다. [abs|pdf]

[40/52] The inherent goodness of well educated intelligence

Keywords: equilibriums_identified_intelligent, symmetries_controlling_collective, intelligent_collective_characterized
Abstract: 이 논문에서는 생물학적 존재이든 컴퓨터의 인공 실리콘 존재이든 어떤 존재를 지능적으로 만드는 요인을 살펴볼 것입니다. 특히 보수적으로 상호 작용하는 다수의 동일한 보수적 하위 시스템으로 구성된 집합 시스템을 특성화하고 제어할 수 있는 능력을 가진 존재에 주목할 것입니다. 지능의 본질은 "집단이 하나로 행동하는 것" 또는 "지역적 행동의 세계적 결과를 아는 것"이라는 황금률로 밝혀질 것입니다. 집단의 흐름은 대칭에 의해 결정되는 최소 동작의 측지 운동에 따라 소수의 줄을 당기는 꼭두각시에 의해 지배되는 반짝이는 작은 텍스처 집합입니다. 집단적 보수 시스템을 제어하는 것은 어렵고, 역사적으로 시스템에 상당한 점도를 추가하여 최대 성능의 바람직한 메타 안정적 평형을 안정화하는 방식으로 수행되어 왔지만, 그 과정에서 시스템이 저하되거나 파괴됩니다. 대안이 있습니다. 지능형 존재가 메타 안정 평형의 최적의 반짝이는 텍스처를 식별하면(즉, 집단 시스템이 특성화되면), 지능형 존재가 집단 시스템을 최적의 반짝이는 텍스처로 이동시킨 다음 텍스처에 따라 지능형 존재가 빠르게 진동시켜 집단 시스템이 메타 안정 평형을 유지하도록 할 수 있습니다. 잘 교육받은 지능은 지역적 행동의 글로벌 결과를 알고 있으므로 장기적으로 좋지 않은 결과를 초래할 단기적 행동을 취하지 않습니다. 반대로 훈련된 지능 또는 훈련된 어리석음은 단기적인 행동을 최적화하여 장기적으로 좋지 않은 결과를 초래합니다. 잘 훈련된 지능은 본질적으로 선하지만, 훈련된 어리석음은 본질적으로 악하므로 두려워해야 합니다. 경제 및 사회 집단의 통제와 최적화에 특히 주의를 기울여야 합니다. [abs|pdf]

[41/52] MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer

Keywords: embeddings_target_language, embeddings_crosslingual_zero, word_embeddings_target
Abstract: Transformer 기반의 사전 학습된 언어 모델(PLM)은 다양한 자연어 처리(NLP) 작업에서 놀라운 성능을 발휘해 왔습니다. 하지만 이러한 모델을 사전 학습하려면 리소스가 많은 언어에서만 사용할 수 있는 상당한 리소스가 필요할 수 있습니다. 반대로 정적 단어 임베딩은 컴퓨팅 리소스와 필요한 데이터의 양 측면에서 더 쉽게 훈련할 수 있습니다. 이 백서에서는 정적 단어 임베딩을 사용할 수 있는 저자원 언어에 특히 적합한 새롭고 도전적인 과제인 '언어 간 제로 샷 전송을 위한 정적 단어 임베딩을 사용한 MoSECroT 모델 스티칭'을 소개합니다. 이 과제를 해결하기 위해 상대적 표현을 활용하여 소스 언어 PLM의 임베딩과 대상 언어의 정적 단어 임베딩을 위한 공통 공간을 구성하는 최초의 프레임워크를 제시합니다. 이렇게 하면 소스 언어 학습 데이터로 PLM을 학습시키고 임베딩 레이어를 간단히 교체하여 대상 언어로 제로 샷 전송을 수행할 수 있습니다. 그러나 두 가지 분류 데이터 세트에 대한 광범위한 실험을 통해 우리가 제안한 프레임워크가 MoSECroT를 처리할 때 약한 기준선에서는 경쟁력이 있지만 일부 강력한 기준선에 비해서는 경쟁력 있는 결과를 얻지 못한다는 것을 보여줍니다. 이 백서에서는 이러한 부정적인 결과를 설명하고 가능한 개선 방안에 대해 몇 가지 생각을 제시합니다. [abs|pdf]

[42/52] Phishing Website Detection through Multi-Model Analysis of HTML Content

Keywords: datasets_comprehensive_phishing, comprehensive_phishing_research, comprehensive_phishing
Abstract: 인터넷의 등장으로 커뮤니케이션과 업무 방식이 크게 바뀌었습니다. 인터넷은 새로운 기회를 열어주었지만 사이버 위협도 증가했습니다. 사이버 범죄자들이 민감한 정보를 훔치기 위해 기만적인 방법을 사용하는 피싱은 흔하고 심각한 위협 중 하나이며, 이 연구는 HTML 콘텐츠에 세심하게 집중하는 고급 탐지 모델을 도입하여 피싱의 시급한 문제를 해결합니다. 저희가 제안하는 접근 방식은 구조화된 표 형식의 데이터를 위한 전문화된 다중 계층 퍼셉트론(MLP) 모델과 페이지 제목 및 콘텐츠와 같은 텍스트 특징을 분석하기 위한 사전 학습된 자연어 처리(NLP) 모델 두 가지를 통합합니다. 이러한 모델의 임베딩은 새로운 융합 프로세스를 통해 조화롭게 결합됩니다. 그 결과 융합된 임베딩은 선형 분류기에 입력됩니다. 종합적인 피싱 연구를 위한 최신 데이터 세트가 부족하다는 점을 인식하고 최신 데이터 세트를 만들어 커뮤니티와 공개적으로 공유하고 있습니다. 이 데이터 세트는 실제 피싱 상황을 반영하도록 세심하게 큐레이션되어 관련성과 적용 가능성을 보장합니다. 연구 결과에 따르면 CANINE은 페이지 제목을 분석하는 데 탁월한 성능을 보였고 RoBERTa는 페이지 콘텐츠를 평가하는 데 탁월한 성능을 보여줌으로써 제안된 접근 방식의 효율성을 강조했습니다. 멀티텍스트-LP라고 불리는 두 개의 NLP와 하나의 MLP 모델을 융합한 결과, 연구 데이터 세트에서 96.80의 F1 점수와 97.18의 정확도 점수를 기록하는 인상적인 결과를 달성했습니다. 또한, 이러한 접근 방식은 CatchPhish HTML 데이터 세트에서 기존 방법보다 뛰어난 성능을 보여줌으로써 그 효과를 입증했습니다. [abs|pdf]

[43/52] How predictable is language model benchmark performance?

Keywords: diverse_benchmarks_predicting, forecast_ai_capabilities, language_model_performance
Abstract: 11개의 최신 모델 아키텍처에서 5배의 컴퓨팅 규모에 따른 대규모 언어 모델 성능을 조사합니다. 일반적으로 사용되는 BIG-Bench 데이터 세트에서와 같이 여러 개별 작업과 평가에 걸쳐 집계된 평균 벤치마크 성능은 훈련 컴퓨팅 규모의 함수로 상당히 예측 가능하다는 것을 보여줍니다. 특히, 컴퓨팅 규모 1배수에 걸쳐 BIG-Bench Hard 성능을 추정할 때 평균 절대 오차는 6%포인트(pp)로 관찰됩니다. 이와는 대조적으로, 개별 BIG-Bench 작업의 컴퓨팅 성능에 대한 외삽은 평균 오차가 18pp로 더 높습니다. 그럼에도 불구하고 개별 작업 성능은 여전히 우연보다는 훨씬 더 예측 가능합니다. 전반적으로 이번 연구는 컴퓨팅 스케일링이 다양한 벤치마크에서 AI 역량을 예측할 수 있는 유망한 기반을 제공하지만, 특정 작업의 성능을 예측하는 데는 어려움이 있음을 시사합니다. [abs|pdf]

[44/52] LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection

Keywords: anomaly_detection_logformer, log_anomaly_detection, log_attention
Abstract: 로그 이상 징후 탐색은 IT 운영을 위한 인공 지능(AIOps) 분야의 핵심 구성 요소입니다. 다양한 도메인의 로그 데이터를 고려할 때, 알 수 없는 도메인에 대해 전체 네트워크를 재학습하는 것은 실제 산업 시나리오에서 비효율적입니다. 하지만 이전의 딥 모델은 동일한 도메인에 있는 로그 시퀀스의 의미를 추출하는 데만 집중했기 때문에 다중 도메인 로그에 대한 일반화가 제대로 이루어지지 않았습니다. 이러한 문제를 해결하기 위해 본 논문에서는 다양한 도메인에 대한 일반화 능력을 향상시키기 위해 사전 학습과 어댑터 기반 튜닝 단계로 구성된 2단계 프로세스를 구축하는 통합된 Transformer 기반 로그 이상 징후 탐지 프레임워크(LogFormer)를 제안합니다. 구체적으로, 먼저 소스 도메인에서 모델을 사전 학습시켜 로그 데이터에 대한 공유된 의미론적 지식을 확보합니다. 그런 다음 공유 매개변수를 통해 이러한 지식을 대상 도메인으로 전송합니다. 또한, 로그-주의 모듈을 제안하여 로그 패어링에서 무시된 정보를 보완합니다. 제안된 방법은 3개의 공개 데이터 세트와 1개의 실제 데이터 세트에서 평가됩니다. 여러 벤치마크에 대한 실험 결과는 학습 가능한 파라미터의 수가 적고 학습 비용이 낮은 LogFormer의 효과를 입증합니다. [abs|pdf]

[45/52] Convolutional Neural Network Ensemble Learning for Hyperspectral Imaging-based Blackberry Fruit Ripeness Detection in Uncontrolled Farm Environment

Keywords: features_images_fruits, learning_traits_fruit, trained_imagenet
Abstract: 과일 숙성도 추정 모델은 수십 년 동안 평균, 표준편차, 기울기, 색상 모멘트 및/또는 히스토그램과 같은 스펙트럼 지수 특징이나 색상 기반 특징에 의존해 과일 숙성도의 특성을 학습해 왔습니다. 최근에는 딥 러닝 기법을 사용하여 눈에 보이는 숙도 신호가 있는 과일 이미지에서 특징을 추출하는 연구가 거의 없었습니다. 그러나 블랙베리(Rubus fruticosus) 과일은 성숙했을 때 명확하고 신뢰할 수 있는 육안으로 확인할 수 있는 숙성 특성이 없기 때문에 과일을 따는 사람들에게 큰 어려움을 줍니다. 숙성된 블랙베리는 육안으로 볼 때 숙성 전, 숙성 중, 숙성 후 모두 검은색입니다. 이러한 공학적 애플리케이션 문제를 해결하기 위해 이 논문에서는 블랙베리 과일의 미묘한 숙성 특성을 감지하기 위한 새로운 다중 입력 컨볼루션 신경망(CNN) 앙상블 분류기를 제안합니다. 다중 입력 CNN은 ImageNet 데이터 세트에서 훈련된 사전 훈련된 시각적 기하학 그룹 16층 심층 컨볼루션 네트워크(VGG16) 모델에서 생성되었습니다. 완전히 연결된 레이어는 성숙한 블랙베리 열매의 숙성 특성을 학습하는 데 최적화되었습니다. 결과 모델은 스택 일반화 앙상블(SGE) 프레임워크를 사용해 앙상블된 동종 앙상블 학습자를 구축하기 위한 기반 역할을 했습니다. 네트워크에 입력되는 이미지는 700nm 및 770nm 파장의 가시광선 및 근적외선(VIS-NIR) 스펙트럼 필터를 사용하여 스테레오 센서로 획득한 이미지입니다. 실험을 통해 제안된 모델은 보이지 않는 세트에서 95.1%의 정확도를, 현장 조건에서는 90.2%의 정확도를 달성했습니다. 추가 실험을 통해 기계의 감각이 블랙베리 과일 껍질 질감에 대한 인간의 감각과 매우 높은 양의 상관관계가 있음을 밝혀냈습니다. [abs|pdf]

[46/52] DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Keywords: gesture_expression_generation, expression_gesture_generation, speech_motion_generation
Abstract: 본 논문에서는 임의의 길이를 가진 음성 중심의 전체적인 3D 표정 및 제스처 생성을 위한 확산 기반 접근 방식인 DiffSHEG을 제안합니다. 기존 연구들은 공동 음성 제스처나 표정 생성에 개별적으로 초점을 맞춘 반면, 동기화된 표정과 제스처의 공동 생성은 거의 연구되지 않았습니다. 이러한 문제를 해결하기 위해 확산 기반 공동 음성 모션 생성 트랜스포머는 표정에서 제스처로 단방향 정보 흐름을 가능하게 하여 공동 표정-제스처 분포의 매칭을 개선할 수 있도록 합니다. 또한 확산 모델에서 임의의 긴 시퀀스 생성을 위한 아웃페인팅 기반 샘플링 전략을 도입하여 유연성과 계산 효율성을 제공합니다. 이 방법은 음성을 기반으로 고품질의 동기화된 표정 및 제스처 생성을 생성하는 실용적인 솔루션을 제공합니다. 두 개의 공개 데이터 세트에서 평가한 결과, 우리의 접근 방식은 양적, 질적으로 모두 최첨단 성능을 달성했습니다. 또한 사용자 연구를 통해 이전 접근 방식에 비해 DiffSHEG의 우수성이 확인되었습니다. 표현적이고 동기화된 동작을 실시간으로 생성할 수 있게 함으로써 DiffSHEG는 디지털 휴먼 및 구현된 에이전트 개발의 다양한 응용 분야에 적용될 수 있는 잠재력을 보여줍니다. [abs|pdf]

[47/52] Content-Conditioned Generation of Stylized Free hand Sketches

Keywords: hand_sketches_generate, free_hand_sketches, sketches_generate_images
Abstract: 최근 몇 년 동안 프리 핸드 스케치는 여전히 인기 있는 작업으로 남아 있습니다. 그러나 군사 분야와 같은 일부 특수 분야에서는 자유형 스케치를 대규모로 샘플링하기 어렵습니다. 일반적인 데이터 증강 및 이미지 생성 기법으로는 다양한 자유형 스케치 스타일의 이미지를 생성하기 어렵습니다. 따라서 관련 분야에서의 인식 및 분할 작업은 제한적입니다. 본 논문에서는 다양한 스타일의 사실적인 프리 핸드 스케치를 정확하게 생성할 수 있는 새로운 적대적 생성 네트워크를 제안합니다. 사전 정규 분포에서 무작위로 샘플링된 스타일을 사용하여 다양한 자유형 스케치 스타일의 이미지를 생성하고, 알려진 자유형 스케치에서 화가의 스타일을 분리하여 특정 스타일의 이미지를 생성하며, 훈련 집합에 없는 미지의 클래스의 이미지를 생성하는 등 이 모델의 성능을 살펴봅니다. 또한 정성적, 정량적 평가를 통해 시각적 품질, 콘텐츠 정확도, 스타일 모방에 대한 SketchIME의 장점을 입증합니다. [abs|pdf]

[48/52] Music Genre Classification: A Comparative Analysis of CNN and XGBoost Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms

Keywords: classify_audio_files, effectively_classify_audio, music_genre_classification
Abstract: 최근에는 잘 설계된 다양한 알고리즘을 통해 음악 플랫폼이 사용자의 선호도에 따라 콘텐츠를 제공할 수 있게 되었습니다. 음악 장르는 음향적 특징과 문화적 고려 사항 등 다양한 측면을 통해 정의됩니다. 음악 장르 분류는 사용자에게 음악 유사성을 기반으로 콘텐츠를 추천하는 콘텐츠 기반 필터링과 잘 작동합니다. 상당한 양의 데이터 세트가 주어지면 오디오 파일을 효과적으로 분류할 수 있는 머신 러닝 또는 딥 러닝 방법을 사용한 자동 주석이 전제되어야 합니다. 시스템의 효과는 주로 기능과 모델 선택에 따라 달라지는데, 서로 다른 아키텍처와 기능이 서로를 촉진하고 서로 다른 결과를 산출할 수 있기 때문입니다. 이 연구에서는 제안된 컨볼루션 신경망(CNN), 완전히 연결된 레이어(FC)를 갖춘 VGG16, 다양한 피처에 대한 익스트림 그라디언트 부스팅(XGBoost) 접근법 등 세 가지 모델의 성능을 비교 연구합니다: 30초 멜 스펙트로그램과 3초 멜 주파수 세프스트랄 계수(MFCC)를 비교했습니다. 그 결과, MFCC XGBoost 모델이 다른 모델보다 우수한 성능을 보였습니다. 또한 데이터 전처리 단계에서 데이터 세분화를 적용하면 CNN의 성능을 크게 향상시킬 수 있습니다. [abs|pdf]

[49/52] Exploring Attack Resilience in Distributed Platoon Controllers with Model Predictive Control

Keywords: distributed_platoon_controllers, platoon_controller_countermeasures, vehicle_platoon_controllers
Abstract: 분산형 차량 소대 컨트롤러의 광범위한 사용은 교통 흐름, 연비 향상, 오염 감소 등 교통 시스템에 여러 가지 이점을 가져다주었습니다. 반면에 상호 연결된 시스템과 통신 네트워크에 대한 의존도가 높아짐에 따라 이러한 컨트롤러는 잠재적인 사이버 공격에 노출되어 안전과 기능이 손상될 수 있습니다. 이 논문은 공격 시나리오를 조사하고 시스템 성능에 미치는 영향을 평가하여 분산형 차량 소대 컨트롤러의 보안을 개선하는 것을 목표로 합니다. 중간자 공격(MITM), 허위 데이터 주입(FDI) 등 다양한 공격 기법을 모델 예측 제어(MPC) 컨트롤러를 사용하여 시뮬레이션하여 소대 컨트롤러의 취약점과 약점을 파악합니다. 탐지를 위해 머신러닝 기법을 사용한 공격 분석과 강화된 통신 프로토콜을 포함한 대응책을 제안하고 테스트합니다. 이 연구 결과는 안전하고 탄력적인 분산형 소대 컨트롤러를 구축하는 데 도움이 되는 보안 문제를 설계 및 구현에 통합하는 것이 중요하다는 점을 강조합니다. [abs|pdf]

[50/52] A case study of Generative AI in MSX Sales Copilot: Improving seller productivity with a real-time question-answering system for content recommendation

Keywords: embeddings_sellers_queries, embeddings_sellers, llm_embeddings_sellers
Abstract: 이 백서에서는 판매자가 고객과 실시간으로 공유하거나 통화 중에 참조할 수 있는 관련 자료/문서를 얻을 수 있도록 지원하는 실시간 질문-답변 시스템을 설계합니다. 다양한 영업 자료 데이터 세트의 비교적 큰 규모인 Seismic 콘텐츠 리포지토리를 예로 들어, 판매자의 질문에 대한 LLM 임베딩이 어떻게 관련 콘텐츠와 매칭되는지 보여줍니다. 이를 위해 문서와 판매자가 사용할 수 있는 풍부한 메타 기능 세트를 활용하는 정교한 방식으로 프롬프트를 설계했습니다. 크로스 인코더 리랭크 아키텍처를 갖춘 이중 인코더를 사용하여 대규모 데이터 세트에서도 단 몇 초 만에 가장 관련성 높은 콘텐츠 추천을 반환하는 방법을 보여줍니다. 저희의 추천 시스템은 실시간 추론을 위한 AML 엔드포인트로 배포되었으며, 현재 Microsoft 판매자가 매일 사용하는 Dynamics CRM의 프로덕션 버전인 MSX에 배포된 Copilot 인터페이스에 통합되어 있습니다. [abs|pdf]

[51/52] Comparative study of clustering models for multivariate time series from connected medical devices

Keywords: time_dynamic_clustering, latent_cluster, dynamic_clustering
Abstract: 의료 분야에서 환자 데이터는 종종 다변량 시계열로 수집되어 시간 경과에 따른 환자의 건강 상태를 종합적으로 파악할 수 있습니다. 이러한 데이터는 희소할 수 있지만, 연결된 디바이스를 사용하면 그 빈도를 높일 수 있습니다. 목표는 이러한 시계열에서 환자 프로필을 생성하는 것입니다. 레이블이 없는 경우 예측 모델을 사용하여 예측 성능을 기반으로 평가되는 잠재 클러스터 공간을 형성하면서 미래 값을 예측할 수 있습니다. 위딩의 데이터 세트에서 전체 시계열을 클러스터링하는 M AGMAC LUST와 개인의 그룹 소속이 시간에 따라 변할 수 있도록 하는(동적 클러스터링) DGM2의 두 가지 모델을 비교합니다. [abs|pdf]

[52/52] Attributes Grouping and Mining Hashing for Fine-Grained Image Retrieval

Keywords: convolutional_descriptors_attention, retrieval_existing_hashing, grained_image_retrieval
Abstract: 최근 몇 년 동안 해싱 방식은 적은 저장 공간과 강력한 표현 기능으로 인해 대규모 미디어 검색에서 널리 사용되고 있습니다. 전체적인 모양은 비슷하지만 미묘한 차이가 있는 물체를 설명하기 위해 해싱 기반의 세분화된 이미지 검색에 초점을 맞춘 연구가 점점 더 많아지고 있습니다. 기존 해싱 네트워크는 일반적으로 동일한 심층 활성화 텐서에서 주의 안내를 통해 로컬 및 글로벌 특징을 모두 생성하기 때문에 특징 표현의 다양성이 제한됩니다. 이러한 한계를 극복하기 위해 컨볼루션 디스크립터를 주의 유도 피처로 대체하고, 효율적인 세분화된 이미지 검색을 위해 카테고리별 시각적 속성을 여러 디스크립터에 그룹화하여 포괄적인 피처 표현을 생성하는 속성 그룹링 및 마이닝 해싱(AGMH)을 제안합니다. 특히 주의 분산 손실(ADL)은 디스크립터가 다양한 로컬 영역에 주의를 기울여 다양한 미묘한 디테일을 포착하도록 설계되었습니다. 또한 각 디스크립터에서 중요한 속성을 마이닝하고 세분화된 속성과 객체 간의 상관관계를 구축하기 위해 단계적 대화형 외부 주의(SIEA)를 제안합니다. 이 주의 메커니즘은 해시 코드 생성 시 추가 계산 비용이 들지 않는 이산 속성을 학습하는 데 전용됩니다. 마지막으로, 콤팩트 바이너리 코드는 쌍별 유사성을 보존하여 학습합니다. 실험 결과에 따르면 AGMH는 세분화된 벤치마크 데이터 세트에서 최첨단 방법과 비교했을 때 일관되게 최고의 성능을 발휘합니다. [abs|pdf]