프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-02]

다각 2024. 1. 2. 17:14

[1/85] Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education

Keywords: mllms_science_education, multimedia_learning, interactive_learning_landscapes
Abstract: 인공지능(AI), 특히 대규모 언어 모델(LLM) 기반 시스템을 교육에 통합하면 교육 및 학습 경험을 향상시킬 수 있다는 가능성을 보여주었습니다. 그러나 텍스트, 사운드, 시각적 입력을 포함한 다중 모드 데이터를 처리할 수 있는 GPT-4 with vision(GPT-4V)과 같은 다중 모드 대규모 언어 모델(MLLM)의 출현으로 교육 분야에서 더욱 풍부하고 개인화된 대화형 학습 환경의 새로운 시대가 열렸습니다. 멀티미디어 학습 이론에 기반을 둔 이 백서에서는 혁신적인 학습 시나리오의 모범을 제시함으로써 과학 교육의 핵심적인 측면에서 MLLM의 혁신적인 역할을 탐구합니다. 콘텐츠 제작부터 맞춤형 학습 지원, 과학적 실천 역량 함양, 평가 및 피드백 제공에 이르기까지 MLLM의 활용 가능성은 다양합니다. 이러한 시나리오는 텍스트 기반 및 단일 모드 형식에 국한되지 않고 다중 모드가 될 수 있으므로 개인화, 접근성 및 잠재적 학습 효과를 높일 수 있습니다. 많은 기회와 더불어 데이터 보호 및 윤리적 고려 사항과 같은 과제가 더욱 부각되면서 책임감 있는 통합을 보장하는 강력한 프레임워크가 요구되고 있습니다. 이 백서는 MLLM을 구현할 때 기술이 교육자의 역할을 대체하는 것이 아니라 보완하는 균형 잡힌 접근 방식이 필요하며, 이를 통해 과학교육에서 AI를 효과적이고 윤리적으로 사용할 수 있음을 강조합니다. MLLM이 진화하는 교육자의 역할에 미치는 미묘한 영향을 탐구하고 과학교육을 넘어 다른 학문 분야로 담론을 확장하기 위한 추가 연구가 필요합니다. 우리는 잠재력, 도전 과제, 미래의 함의를 탐구함으로써 과학교육과 그 너머에서 MLLM의 변화하는 궤적을 예비적으로 이해하는 데 기여하고자 합니다. [abs|pdf]

[2/85] Fairness in Serving Large Language Models

Keywords: fair_scheduling_serving, scheduling_serving_llms, scheduling_serving
Abstract: 수요가 많은 LLM 추론 서비스(예: ChatGPT 및 BARD)는 짧은 채팅 대화부터 긴 문서 읽기까지 광범위한 요청을 지원합니다. 모든 클라이언트 요청이 공정하게 처리되도록 보장하기 위해 대부분의 주요 LLM 추론 서비스에는 요청 속도 제한이 있어 어떤 클라이언트도 요청 대기열을 지배할 수 없도록 합니다. 그러나 공정성에 대한 이러한 초보적인 개념은 리소스의 활용도가 낮고 여유 용량이 있을 때 클라이언트 경험이 저하되는 결과를 초래하기도 합니다. 공정한 스케줄링에 대한 풍부한 문헌이 존재하지만, 예측할 수 없는 요청 길이와 병렬 가속기의 고유한 일괄 처리 특성으로 인해 LLM을 제공하는 것은 새로운 과제를 제시합니다. 이 백서에서는 처리되는 입력 및 출력 토큰의 수를 설명하는 비용 함수에 기반한 LLM 서빙의 공정성 정의를 소개합니다. 서빙의 공정성을 달성하기 위해 연속 배치 메커니즘에 기반한 공정한 스케줄러인 가상 토큰 카운터(VTC)라는 새로운 스케줄링 알고리즘을 제안합니다. 백로그된 두 클라이언트 간의 서비스 차이에 대한 2배의 엄격한 상한을 증명하여 작업 보존 요건을 준수합니다. 광범위한 실험을 통해 특히 다양한 조건에서 단점을 보이는 다른 기준 방법과 대조적으로 공정성을 보장하는 데 있어 VTC의 우수한 성능을 입증합니다. [abs|pdf]

[3/85] AllSpark: a multimodal spatiotemporal general model

Keywords: multimodal_spatiotemporal_general, multimodal_spatiotemporal_data, multimodal_spatiotemporal
Abstract: 오랫동안 다양한 시공간적 모달 데이터 간의 구조와 의미의 이질성이 높기 때문에 멀티모달 시공간적 데이터의 공동 해석은 매우 어려운 문제였습니다. 주요 과제는 다양한 모달리티의 응집력과 자율성 사이에서 균형을 맞추는 것이며, 이러한 균형은 모달리티의 수가 확장됨에 따라 점차 비선형적인 성격을 띠게 됩니다. 이 글에서는 다양한 양식 간의 결속력과 자율성 사이의 균형을 맞추기 위해 다중 양식 통합 모델을 구축하기 위한 기본 원칙인 참조 프레임워크 언어(LaRF)를 소개합니다. 저희는 올스파크(AllSpark)라는 멀티모달 시공간 일반 인공 지능 모델을 제안합니다. 이 모델은 1D(텍스트, 코드), 2D(RGB, 적외선, SAR, 다중 스펙트럼, 초분광, 표, 그래프, 궤적, 경사 사진), 3D(포인트 클라우드, 비디오) 모달리티를 포함한 13가지 모달리티를 통합 프레임워크에 통합합니다. 모달 응집력을 달성하기 위해 올스파크는 다양한 모달 기능을 언어 모달에 균일하게 매핑합니다. 또한 모달별 프롬프트를 설계하여 멀티 모달 대규모 언어 모델이 멀티 모달 데이터를 정확하게 인식할 수 있도록 안내합니다. 모달리티의 자율성을 유지하기 위해 올스파크는 모달리티별 인코더를 도입하여 다양한 시공간적 모달리티의 토큰을 추출합니다. 그리고 모달 브리지를 사용하여 각 모달리티에서 언어 모달리티로 차원 투영을 달성합니다. 마지막으로, 모델의 해석과 다운스트림 작업 간의 격차를 관찰하여 특정 다운스트림 작업에 대한 모델의 일반화 능력을 향상시키기 위해 작업 헤드를 설계했습니다. 실험 결과, 올스파크는 최첨단 모델에 비해 RGB 및 궤적과 같은 모달리티에서 경쟁력 있는 정확도를 달성하는 것으로 나타났습니다. [abs|pdf]

[4/85] A Reliable Knowledge Processing Framework for Combustion Science using Foundation Models

Keywords: extraction_scientific_literature, efficient_extraction_scientific, scientific_literature_research
Abstract: 이 연구는 연소 과학을 사례 연구로 삼아 과학 데이터 동화에 대규모 언어 모델(LLM)을 통합하는 방법을 탐구합니다. 이 연구는 검색 증강 생성(RAG) 프레임워크와 통합된 기초 모델을 활용하여 실험 연구, 시뮬레이션 및 문헌을 아우르는 다양한 연소 연구 데이터를 처리하는 접근 방식을 소개합니다. 연소 연구의 다면적인 특성은 방대하고 다양한 소스 풀에서 가치 있는 정보를 탐색하고 추출하는 데 있어 지식 처리의 중요한 역할을 강조합니다. 개발된 접근 방식은 데이터 프라이버시와 정확성을 최적화하면서 계산 및 경제적 비용을 최소화합니다. 신속한 엔지니어링과 오프라인 오픈소스 LLM을 통합하여 사용자가 기본 모델을 선택할 수 있는 자율성을 제공합니다. 이 연구는 텍스트 세분화 전략을 면밀히 검토하고, LLM 간의 비교 연구를 수행하며, 프레임워크의 효과를 입증하기 위해 다양한 최적화된 프롬프트를 탐색합니다. 이 프레임워크는 외부 데이터베이스를 통합함으로써 정확한 응답을 생성하고 강력한 논거를 구성하는 데 있어 기존 LLM보다 뛰어난 성능을 발휘합니다. 또한 이 연구에서는 과학 문헌을 효율적으로 추출하기 위해 최적화된 프롬프트 템플릿을 조사합니다. 이 연구는 부정확성을 걸러내는 탐지 알고리즘으로 개발된 맞춤형 워크플로우를 도입하여 환각 및 허위 연구 논문과 관련된 우려를 해결합니다. 이 프레임워크는 개선이 필요한 영역이 식별되었음에도 불구하고 사람의 감독을 최소화하면서 정확한 도메인별 대응을 일관되게 제공합니다. 이번에 도입된 신속성에 구애받지 않는 접근 방식은 향후 심의에 대한 가능성을 제시합니다. 이 연구는 과학 연구에서 LLM과 지식 처리 기술을 통합하는 것의 중요성을 강조하며, 데이터 동화 및 활용의 발전을 위한 토대를 제공합니다. [abs|pdf]

[5/85] Brain-Conditional Multimodal Synthesis: A Survey and Taxonomy

Keywords: multimodal_content_synthesis, brain_conditional_multimodal, conditional_multimodal_synthesis
Abstract: 인공지능 생성 콘텐츠(AIGC) 시대에는 조건부 다중 모달 합성 기술(예: 텍스트-이미지, 텍스트-비디오, 텍스트-오디오 등)이 현실 세계의 자연스러운 콘텐츠를 점차 재구성하고 있습니다. 멀티모달 합성 기술의 핵심은 서로 다른 모달리티 간의 매핑 관계를 설정하는 것입니다. 뇌가 외부 정보를 해석하는 방식을 잠재적으로 반영하는 역할을 하는 뇌 신호는 다양한 외부 모달리티와 독특한 일대다 대응을 나타냅니다. 이러한 대응으로 인해 뇌 신호는 멀티모달 콘텐츠 합성을 위한 유망한 안내 조건으로 떠오르고 있습니다. 뇌 조건부 다중 모드 합성은 뇌 신호를 지각 경험으로 다시 해독하는 것을 말하며, 이는 실용적인 뇌-컴퓨터 인터페이스 시스템을 개발하고 뇌가 외부 자극을 인식하고 이해하는 방법의 근간이 되는 복잡한 메커니즘을 밝히는 데 매우 중요한 역할을 합니다. 이 설문조사는 AIGC-Brain이라고 불리는 AIGC 기반 뇌-조건부 다중 모드 합성이라는 새로운 분야를 종합적으로 조사하여 현재 상황과 미래 방향을 설명합니다. 먼저 AIGC-Brain 디코딩 및 분석의 기초가 되는 관련 뇌 신경 영상 데이터 세트, 기능적 뇌 영역, 주류 생성 모델을 소개합니다. 다음으로, AIGC-Brain 디코딩 모델에 대한 포괄적인 분류법을 제공하고, 비교 및 심층 분석을 용이하게 하기 위해 작업별 대표 작업과 세부 구현 전략을 제시합니다. 그런 다음 정성적 평가와 정량적 평가 모두에 대한 품질 평가가 소개됩니다. 마지막으로 이 설문조사를 통해 얻은 인사이트를 살펴보고, 현재 당면한 과제와 AIGC-Brain의 전망을 개괄적으로 제시합니다. 이 분야의 첫 번째 설문조사로서, 이 백서는 향후 연구를 안내하는 기초적인 개요를 제공함으로써 AIGC-Brain 연구의 진전을 위한 길을 열어줍니다. [abs|pdf]

[6/85] Bidirectional Temporal Plan Graph: Enabling Switchable Passing Orders for More Efficient Multi-Agent Path Finding Plan Execution

Keywords: paths_multiple_agents, design_anytime_algorithms, multi_agent_path
Abstract: 다중 에이전트 경로 찾기(MAPF) 문제는 공유 환경에서 여러 에이전트를 위한 충돌 없는 경로를 계획하는 문제입니다. 대부분의 MAPF 솔버는 에이전트가 특정 시간 간격에 특정 위치에 도착할 수 있다는 가정에 의존합니다. 하지만 실제 실행의 불확실성으로 인해 에이전트가 이 가정에서 벗어나 충돌과 교착 상태가 발생할 수 있습니다. 기존 연구에서는 에이전트가 시간 계획 그래프(TPG)를 따르도록 하여 MAPF 계획에 정의된 대로 모든 위치에서 일관된 통과 순서를 적용함으로써 이 문제를 해결했습니다. 그러나 일부 상황에서는 통과 순서를 충족하기 위해 에이전트가 불필요하게 대기해야 하기 때문에 TPG가 지나치게 엄격하여 실행 시간이 길어지는 것으로 나타났습니다. 이 문제를 극복하기 위해 실행 중에 통과 순서를 전환하여 불필요한 대기 시간을 피할 수 있는 양방향 시간 계획 그래프(BTPG)라는 새로운 그래픽 표현을 도입합니다. 저희는 BTPG를 구성하기 위한 두 가지 알고리즘, 즉 BTPG-네이브와 BTPG-최적화를 설계했습니다. 실험 결과에 따르면 BTPG를 따르는 것이 TPG를 따르는 것보다 지속적으로 성능이 뛰어나며 불필요한 대기 시간을 8~20%까지 줄여줍니다. [abs|pdf]

[7/85] Principal-Agent Reward Shaping in MDPs

Keywords: selfishly_maximize_reward, policy_selfishly_maximize, reward_shaping_budget
Abstract: 주체-대리인 문제는 한 당사자가 다른 당사자를 대신하여 행동할 때 발생하며, 이는 이해 상충으로 이어집니다. 경제학 문헌에서는 주객전도 문제를 광범위하게 연구해 왔으며, 최근의 연구에서는 이를 마르코프 의사결정 과정(MDP)과 같은 더 복잡한 시나리오로 확장했습니다. 이 논문에서는 예산 제약 하에서 보상 형성이 어떻게 주체의 효용을 향상시킬 수 있는지 조사함으로써 이러한 연구 분야를 더욱 탐구합니다. 본 논문에서는 주인과 에이전트가 서로 다른 보상 함수를 가지고 있고 에이전트가 두 플레이어를 위한 MDP 정책을 선택하는 2인 스태켈버그 게임을 연구합니다. 주체는 에이전트에게 추가 보상을 제공하고, 에이전트는 원래 보상과 제공된 보상의 합인 자신의 보상을 최대화하기 위해 이기적으로 정책을 선택합니다. 우리의 결과는 문제의 NP-경도를 확립하고 두 가지 인스턴스 클래스에 대한 다항식 근사 알고리즘을 제공합니다: 확률 트리와 유한한 지평선을 가진 결정론적 의사 결정 과정. [abs|pdf]

[8/85] Open-TI: Open Traffic Intelligence with Augmented Language Model

Keywords: traffic_intelligence, traffic_intelligence_augmented, indistinguishable_traffic_intelligence
Abstract: 교통은 현대 문명 과정에서 도시 발전에 큰 도움이 되었습니다. 첨단 컴퓨터 알고리즘을 활용하는 지능형 교통수단은 사람들의 일상적인 통근 효율성을 더욱 높일 수 있습니다. 그러나 지능형 교통은 여러 분야를 넘나드는 분야로서 실무자가 복잡한 알고리즘과 모호한 신경망을 이해해야 하는 경우가 많기 때문에 첨단 기술을 실제 산업에 신뢰하고 적용하는 데 어려움이 있습니다. 사전 학습된 대규모 언어 모델의 표현력, 특히 복잡한 명령을 이해하고 실행할 수 있는 능력으로 증강될 수 있는 잠재력을 인식한 유니티는 Open-TI를 도입했습니다. 산학 간 격차를 완화하는 가교 역할을 하는 Open-TI는 '튜링 구분이 불가능한 트래픽 인텔리전스'를 목표로 하는 혁신적인 모델로, 기존 대화를 기반으로 외부 트래픽 분석 패키지를 활용할 수 있는 기능으로 보강되었습니다. Open-TI는 지도 데이터 수집부터 복잡한 시뮬레이션의 최종 실행에 이르기까지 처음부터 철저한 트래픽 분석을 수행할 수 있는 최초의 방법입니다. 또한 Open-TI는 교통 신호 제어 정책(TSC)의 훈련 및 조정, 수요 최적화 탐색 등과 같은 작업별 구현을 수행할 수 있습니다. 또한 Open-TI의 예상 의도를 파악하여 LLM이 직접 제어 에이전트 역할을 할 수 있는 가능성을 탐색하고, Open-TI가 ChatZero(제어 에이전트)에 메시지를 전달하고 제어 에이전트가 액션 스페이스에서 선택하여 실행을 진행할 수 있도록 에이전트 간 통신 모드를 설계했습니다. 결국 공식적인 구현 구조를 제공하고, 개방형 설계를 통해 커뮤니티 주도의 추가 개선이 이루어질 수 있도록 했습니다. [abs|pdf]

[9/85] Is Knowledge All Large Language Models Needed for Causal Reasoning?

Keywords: explores_causal_reasoning, causal_reasoning_ability, knowledge_causal_reasoning
Abstract: 이 백서에서는 인공 지능을 발전시키는 데 있어 해석 가능성과 신뢰성을 높이기 위한 대규모 언어 모델(LLM)의 인과적 추론에 대해 살펴봅니다. 다양한 작업에서 LLM이 능숙하게 활용되고 있음에도 불구하고 인과관계를 이해하는 데 있어서는 더 많은 연구가 필요합니다. 우리는 사실과 반대되는 시나리오를 구성하기 위해 '연산자'를 활용하는 새로운 인과적 귀인 모델을 제안하여 입력된 수치 데이터와 LLM의 기존 지식이 인과적 추론 과정에 미치는 영향을 체계적으로 정량화할 수 있도록 합니다. 새로 개발한 실험 설정은 다양한 영역에 걸쳐 맥락 정보와 내재된 지식에 대한 LLM의 의존도를 평가합니다. 평가 결과, LLM의 인과적 추론 능력은 제공된 맥락과 영역별 지식에 따라 달라지는 것으로 나타났으며, "지식은 실제로 LLM이 건전한 인과적 추론을 위해 기본적으로 필요로 하는 것"이라는 주장을 뒷받침합니다. 반대로, 지식이 없는 경우에도 LLM은 계산에 한계가 있기는 하지만 이용 가능한 수치 데이터를 사용하여 어느 정도의 인과적 추론을 할 수 있습니다. [abs|pdf]

[10/85] LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning

Keywords: plans_self_driving, driving_scenarios_learning, rule_based_planner
Abstract: 계획은 자율 주행 스택의 중요한 구성 요소이지만, 연구자들은 다양한 주행 시나리오를 안전하게 처리할 수 있는 강력한 계획 알고리즘을 아직 개발하지 못했습니다. 학습 기반 플래너는 과적합과 낮은 롱테일 성능으로 인해 어려움을 겪습니다. 반면 규칙 기반 플래너는 일반화는 잘하지만 복잡한 운전 조작이 필요한 시나리오를 처리하지 못할 수 있습니다. 이러한 한계를 극복하기 위해 우리는 GPT4, Llama2와 같은 대규모 언어 모델(LLM)의 상식적 추론 기능을 활용하여 자율주행 차량의 계획을 생성할 수 있는 가능성을 연구합니다. 특히 기존의 규칙 기반 플래너와 LLM 기반 플래너를 함께 활용하는 새로운 하이브리드 플래너를 개발합니다. LLM의 상식적인 추론 능력에 기반하여 기존 플래너가 어려움을 겪는 복잡한 시나리오를 탐색하고, 규칙 기반 접근 방식과 함께 작업함으로써 근거를 유지하면서도 합리적인 결과물을 생성합니다. NuPlan 벤치마크에 대한 광범위한 평가를 통해 대부분의 지표에서 기존의 모든 순수 학습 및 규칙 기반 방법을 능가하는 최첨단 성능을 달성했습니다. 이 https URL에서 코드를 확인할 수 있습니다. [abs|pdf]

[11/85] Semantic Computing for Organizational Effectiveness: From Organization Theory to Practice through Semantics-Based Modelling

Keywords: infrastructure_projects_ontology, ontology_formalized, projects_ontology
Abstract: 조직의 중요한 기능은 목표를 달성하는 데 필요한 통합(조정 및 협력)의 수준을 높이는 것입니다. 조율의 필요성과 협력에 대한 동기는 조직 구성원과 업무 간의 무수한 의존성에서 비롯됩니다. 따라서 조정 및 협력 문제에 대한 해결책을 추론하려면 근본적인 종속성을 포함하는 강력한 표현이 필요합니다. 하지만 공식적인 조직 모델에는 이러한 표현이 빠져 있다는 사실을 발견하고 의미론을 활용하여 이 간극을 메웁니다. 잘 정립된 조직 연구와 북미 최대 지자체 중 한 곳과의 광범위한 현장 연구를 바탕으로 (1) 결과, 보상, 인식적 의존성과 같은 개념과 잠재적 통합 위험과의 연관성을 운영하는 1차 논리로 형식화된 온톨로지를 소개하고, (2) 복잡한 정부 인프라 프로젝트의 통합을 분석하고 지원하기 위해 이 온톨로지의 실제 적용 사례를 제시합니다. 저희의 온톨로지는 Z3와 OWL 모두에서 구현되고 검증되었습니다. 이 모델의 주요 특징으로는 추론 가능한 종속성, 설명 가능한 조정 및 협력 위험, 위험을 완화하기 위해 조직 내 종속성 구조를 변경할 수 있는 방법에 대한 실행 가능한 인사이트가 있습니다. 인센티브 불균형, 무임승차, 하위 목표 최적화 등 현실의 문제를 의존성 구조의 관점에서 개념화한 의미론 기반 접근 방식은 조정과 협력을 모델링하고 개선하는 새로운 방법을 제시합니다. 의사결정 지원 시스템에 통합된 이 모델은 조직 설계와 효율성에 큰 도움이 될 수 있습니다. 보다 광범위하게는 기존의 조직 이론에서 가시적이고 실제적인 가치를 도출하는 데 있어 의미론의 혁신적 잠재력을 강조하는 접근 방식입니다. [abs|pdf]

[12/85] Hybrid Modeling Design Patterns

Keywords: patterns_hybrid_modeling, design_patterns_hybrid, models_design_pattern
Abstract: 디자인 패턴은 반복되는 모델링 문제에 대한 해결책을 체계적으로 전달할 수 있는 방법을 제공합니다. 이 백서에서는 첫 번째 원칙에 기반한 모델링과 데이터 기반 모델링 기술을 결합하는 접근 방식인 하이브리드 모델링을 위한 디자인 패턴을 소개합니다. 두 접근 방식 모두 상호 보완적인 장점이 있지만, 하이브리드 모델로 결합하는 방법은 여러 가지가 있으며, 당면한 문제에 따라 적절한 솔루션이 달라집니다. 이 백서에서는 데이터 기반 구성 요소와 도메인 지식을 하이브리드 접근 방식으로 결합하기 위한 청사진 역할을 할 수 있는 네 가지 기본 패턴을 제공합니다. 또한 기본 패턴을 보다 복잡한 하이브리드 모델로 결합하는 데 적용되는 두 가지 구성 패턴도 제시합니다. 각 디자인 패턴은 기후 모델링, 엔지니어링, 물리학 등의 애플리케이션 영역의 일반적인 사용 사례를 통해 설명합니다. [abs|pdf]

[13/85] AI-driven platform for systematic nomenclature and intelligent knowledge acquisition of natural medicinal materials

Keywords: nmm_knowledge_ai, knowledge_acquisition_nomenclature, nmm_knowledge_stemming
Abstract: 천연 의약 소재(NMM)는 광범위한 정보 기록과 함께 전 세계적으로 임상 적용의 오랜 역사를 가지고 있습니다. 천연 의약 소재가 의료에 미치는 영향이 지대함에도 불구하고, 이 분야는 역사적 복잡성에서 비롯된 NMM 지식의 비표준화로 인해 광범위한 적용에 한계가 있다는 큰 과제에 직면해 있습니다. 이러한 문제를 해결하기 위해 지능형 지식 습득을 위해 설계된 AI 기반 플랫폼인 셴농알파를 기반으로 한 체계적인 NMM 명명법을 소개합니다. 이 명명 체계를 통해 NMM을 정확하게 식별하고 차별화할 수 있습니다. 셴농알파는 표준화된 이중 언어 정보로 1만 개 이상의 NMM을 분류하여 지식 관리 및 응용 기능을 향상시킴으로써 기존의 장벽을 극복합니다. 또한 AI 기반 대화형 지식 습득과 표준화된 기계 번역을 선도하고 있습니다. 이러한 시너지 혁신은 도메인별 NMM 지식을 AI와 통합하는 최초의 주요 진전으로, NMM과 AI 분야 모두에서 연구와 애플리케이션을 촉진하는 동시에 이 중요한 분야에서 획기적인 선례를 수립했습니다. [abs|pdf]

[14/85] Turing's Test, a Beautiful Thought Experiment

Keywords: turing_tests, practical_turing_tests, turing_tests_ai
Abstract: 대규모 언어 모델의 등장 이후, 수십 년에 걸친 실제 '튜링' 테스트를 연상시키는 튜링 테스트와 AI에 대한 튜링 테스트의 가치에 대한 주장과 의문이 다시금 제기되고 있습니다. AI가 양자 물리학이었다면 지금쯤 '슈뢰딩거의 고양이' 몇 마리가 죽었을지도 모릅니다. 늦었지만 이제라도 튜링의 아름다운 사고 실험을 역사적으로 재구성할 때가 되었습니다. 이 논문에서 저는 새로운 기록 자료를 포함한 풍부한 증거를 제시하고, 튜링의 1950년 논문에 대한 몇 가지 공개 질문에 대한 독창적인 답변을 제공하며, 튜링 테스트의 가치에 대한 핵심 질문을 다룹니다. [abs|pdf]

[15/85] Modeling arousal potential of epistemic emotions using Bayesian information gain: Inquiry cycle driven by free energy fluctuations

Keywords: expected_information_gain, arousal_potential_theory, bayesian_surprise
Abstract: 호기심과 흥미와 같은 인식론적 감정은 탐구 과정을 주도합니다. 이 연구에서는 자유 에너지 최소화 원리에 의해 생성되는 두 가지 유형의 정보 이득을 이용해 호기심과 흥미와 같은 인식적 감정의 새로운 공식화를 제안합니다: 인식의 자유 에너지 감소를 나타내는 베이지안 사후에서 사전으로의 쿨백-라이블러 발산(KLD)과 베이지안 사전 업데이트에 의한 기대 정보 이득을 나타내는 베이지안 서프라이즈(BS)가 그것입니다. 균일 확률을 추가한 가우스 생성 모델을 적용하여 KLD와 BS가 벌린의 각성 전위 함수 또는 분트 곡선과 유사한 상향 볼록한 놀라움 함수(자유 에너지 및 예측 오차 최소화)를 형성한다는 사실을 발견했습니다. 우리는 BS와 KLD를 교대로 최대화하면 놀라움의 변동에 따라 최적의 각성 수준에 접근하는 이상적인 탐구 주기가 생성되고, 호기심과 흥미가 이 순환 과정을 촉진한다고 생각합니다. 우리는 예측 불확실성(사전 분산)과 관찰 불확실성(가능성 분산)이 최적의 놀라움으로서 정보 획득 함수의 정점에 미치는 영향을 철저하게 분석했습니다. 그 결과, 개방적인 태도를 의미하는 예측 불확실성이 클수록, 주의를 기울여 정밀하게 관찰하는 것을 의미하는 관찰 불확실성이 작을수록 더 넓은 범위의 탐험을 통해 더 큰 정보 이득을 얻을 수 있을 것으로 예상됩니다. 제안된 수학적 프레임워크는 뇌의 자유 에너지 원리와 각성 전위 이론을 통합하여 분트 곡선을 정보 획득 함수로 설명하고 인식적 감정에 의해 주도되는 이상적인 탐구 과정을 제시합니다. [abs|pdf]

[16/85] Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation

Keywords: learning_agents_involves, learning_agents, agent_trained_opencontra
Abstract: 개방형 학습 에이전트를 구축하려면 사전 학습된 언어 모델(LLM)과 강화 학습(RL) 접근 방식에 어려움이 따릅니다. LLM은 상황에 따른 실시간 상호작용에 어려움을 겪고, RL 방식은 탐색의 효율성 문제에 직면합니다. 이를 위해 유니티는 LLM과 GRL을 협력하여 인간의 임의의 지시를 이해할 수 있는 개방형 에이전트를 구축하는 공동 학습 프레임워크인 OpenContra를 제안합니다. 구현은 두 단계로 구성됩니다. (1) 인간의 지시를 구조화된 목표로 변환하기 위해 LLM을 미세 조정하고 임의의 목표를 실행하기 위해 목표 조건부 RL 정책을 교육하는 커리큘럼, (2) LLM과 RL 정책이 각각 적응하도록 학습하여 지시 공간에서 개방성을 달성하기 위한 협업 훈련으로 이루어집니다. 복잡하고 방대한 목표 공간을 가진 배틀로얄 FPS 게임인 콘트라를 대상으로 실험을 진행했습니다. 그 결과, 오픈콘트라로 훈련된 에이전트가 사람의 임의의 지시를 이해하고 높은 완료율로 목표를 달성하는 것을 확인했으며, 이는 오픈콘트라가 개방형 구현 에이전트를 구축하기 위한 최초의 실용적인 솔루션이 될 수 있음을 증명했습니다. [abs|pdf]

[17/85] Consciousness as a logically consistent and prognostic model of reality

Keywords: brain_natural_concepts, natural_categories_causal, notions_natural_classification
Abstract: 이 연구는 뇌가 외부 세계의 인과 관계를 논리적으로 일관되고 예측 가능한 현실 모델의 형태로 반영할 수 있으며, 이것이 의식으로 나타날 수 있음을 보여줍니다. 이 논문은 통계적 모호성의 문제를 분석하고 해결하며 인과 관계의 공식적인 모델을 확률론적 최대 특정 규칙으로 제공합니다. 우리는 뇌가 인과관계로부터 가능한 모든 추론을 한다고 가정합니다. 우리는 제안된 형식적 모델이 모호하지 않은 추론의 속성을 가지고 있음을 증명합니다. 즉, 일관된 전제에서 일관된 결론을 추론합니다. 이를 통해 모든 추론의 집합이 인식된 세계에 대한 일관된 모델을 형성할 수 있습니다. 인과 관계는 주기적으로 상호 예측 가능한 속성의 고정점을 만들 수 있습니다. 우리는 존 스튜어트 밀이 도입한 "자연적" 분류를 고려하고, 대상 속성의 다양한 고정점이 외부 세계의 "자연적" 분류를 형성한다는 것을 증명합니다. 그런 다음 엘리너 로쉬와 밥 레더가 소개한 '자연적' 범주의 개념과 범주의 인과적 모델을 살펴보고, 우리가 인식하는 대상 속성 간의 인과 관계의 고정점이 이러한 개념을 형식화한다는 것을 증명합니다. "자연적" 분류가 외부 세계의 대상을 설명하고 "자연적" 개념이 이러한 대상에 대한 지각을 설명한다면, G. 토노니가 소개한 통합 정보 이론은 "자연적" 분류를 반영하는 "자연적" 개념 형성을 위한 뇌의 정보 과정을 설명합니다. 우리는 통합 정보가 물체 식별의 높은 정확도를 제공한다고 주장합니다. 코드화된 숫자에 대한 고정점 형성을 설명하는 컴퓨터 기반 실험이 제공됩니다. [abs|pdf]

[18/85] Informational non-reductionist theory of consciousness that providing maximum accuracy of reality prediction

Keywords: information_theory_brain, information_theory_consciousness, theory_consciousness
Abstract: 이 논문은 현실 이론과 생리적 또는 심리적 이론으로 환원 할 수없는 비 환원주의 의식 이론을 고려합니다. "마음-뇌 문제"에 대한 D.I. 두브로프스키의 "정보적 접근"에 따라, 우리는 관찰 된 현상에 대한 정보의 프리즘을 통해 현실을 고려하고, 이는 차례로 감각, 지각, 감정 등을 통해 주관적인 현실로 인식되며, 이는 차례로 해당 뇌 과정에 대한 정보입니다. 이 프레임워크 내에서 다음과 같은 정보 의식 이론(ITS) 개발 원리가 제시됩니다: 뇌는 외부 세계에서 가능한 모든 인과 관계를 발견하고 이를 통해 가능한 모든 추론을 수행합니다. 이 논문은 이 원리에 기반한 ITS가 (1) 외부 세계 구조의 정보 법칙에 기초하고, (2) 뇌 기능 시스템과 세포 집합체의 구조와 기능을 설명하고, (3) 예측의 정확성과 현실에 대한 예측을 최대한 보장하고, (4) 새로운 모순을 해결하며, (5) 뇌의 현실 반영에 대한 정보 이론임을 보여줍니다. [abs|pdf]

[19/85] Refining Pre-Trained Motion Models

Keywords: annotating_motion_video, self_supervised_training, manually_annotating_motion
Abstract: 동영상에 수동으로 주석을 다는 것이 어렵다는 점을 고려할 때, 현재 가장 우수한 모션 추정 방법은 합성 데이터로 훈련하기 때문에 훈련과 테스트 간 격차로 인해 다소 어려움을 겪습니다. 자체 지도 방식은 실제 비디오에서 직접 훈련할 수 있다는 장점이 있지만 일반적으로 성능이 떨어집니다. 여기에는 평활도 조건과 결합된 워프 오차(즉, 색상 불변성)로 훈련된 방법과 추정치의 주기 일관성을 장려하는 방법(즉, 뒤로 추적하면 앞으로 추적하는 것과 반대되는 궤적을 생성해야 함)이 포함됩니다. 이 연구에서는 자가 지도 학습을 통해 최첨단 지도 모델을 개선하는 데 도전합니다. 우리는 초기화가 지도 가중치일 때 대부분의 기존 자가 지도 기법이 실제로 성능을 개선하기는커녕 오히려 악화시킨다는 사실을 발견했으며, 이는 새로운 데이터를 볼 수 있다는 이점이 훈련 신호의 노이즈에 의해 가려진다는 것을 시사합니다. 라벨이 없는 실제 비디오에서 '깨끗한' 훈련 신호를 얻는 데 초점을 맞춰, 라벨 제작과 훈련을 두 단계로 분리할 것을 제안합니다. 첫 번째 단계에서는 사전 훈련된 모델을 사용하여 비디오의 움직임을 추정하고, 사이클 일관성을 통해 검증할 수 있는 움직임 추정치의 하위 집합을 선택합니다. 이렇게 하면 비디오의 희소하지만 정확한 의사 라벨링이 생성됩니다. 두 번째 단계에서는 이러한 출력을 재현하도록 모델을 미세 조정하는 동시에 입력에 증강을 적용합니다. 이 부트스트래핑 방법을 의사 라벨의 밀도를 높이고 균형을 재조정하는 간단한 기법으로 보완하여 단순히 '쉬운' 트랙에서 훈련하는 것이 아니라 '어려운' 트랙에서도 훈련할 수 있도록 합니다. 이 방법은 실제 동영상에서 단기(흐름 기반) 및 장거리(멀티프레임) 픽셀 추적 모두에서 완전 지도 방식에 비해 신뢰할 수 있는 이득을 가져다줍니다. [abs|pdf]

[20/85] Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models

Keywords: instruction_tuning_reliable, instruction_tuning, instruction_tuned
Abstract: 대규모 언어 모델(LLM)의 전체 매개변수 미세 조정(FFT)에 드는 높은 비용으로 인해 일련의 매개변수 효율적 미세 조정(PEFT) 방법이 등장했습니다. 그러나 모델 규모에 따라 어떤 방법이 비용 대비 성능이 가장 좋은지는 여전히 불분명합니다. 유니티는 7가지 튜닝 방법과 최대 160억 개의 파라미터를 지원하는 4가지 모델 규모를 사용하는 28개의 명령어 튜닝 OctoCoder 모델 제품군인 Astraios를 소개합니다. 코드 이해와 코드 생성 작업을 모두 포함하는 5가지 작업과 8가지 데이터 세트에 대한 조사를 통해 일반적으로 FFT가 모든 규모에서 최고의 다운스트림 성능을 제공하며, PEFT 방법은 모델 규모에 따라 그 효율성이 크게 다르다는 것을 발견했습니다. LoRA는 일반적으로 비용과 성능 사이에서 가장 유리한 절충안을 제공합니다. 이러한 방법이 모델 견고성과 코드 보안에 미치는 영향을 추가로 조사한 결과, 모델이 클수록 견고성이 떨어지고 보안이 취약해지는 경향이 있는 것으로 나타났습니다. 마지막으로 업데이트된 매개변수, 교차 엔트로피 손실, 작업 성능 간의 관계를 살펴봅니다. 소규모 모델에서 관찰된 튜닝 효과는 대규모 모델에도 잘 일반화되며, 명령어 튜닝의 검증 손실은 전반적인 다운스트림 성능의 신뢰할 수 있는 지표가 될 수 있음을 발견했습니다. [abs|pdf]

[21/85] Temporal Validity Change Prediction

Keywords: prediction_natural_language, validity_duration_prediction, temporal_validity_change
Abstract: 시간적 유효성은 추천 시스템, 대화형 AI 또는 스토리 이해와 같은 많은 다운스트림 애플리케이션에 유용한 텍스트의 중요한 속성입니다. 기존의 벤치마킹 작업에서는 종종 단일 문장의 시간적 유효성 기간을 식별하기 위해 모델이 필요합니다. 그러나 많은 경우, 사용 가능한 텍스트 스트림에서 스토리의 문장이나 소셜 미디어 프로필의 게시물과 같은 추가적인 문맥 정보를 수집할 수 있습니다. 이러한 문맥 정보는 문장이 유효할 것으로 예상되는 기간을 크게 변경할 수 있습니다. 이러한 변화를 유도하는 문맥적 진술을 감지하는 머신러닝 모델의 기능을 벤치마킹하는 자연어 처리 작업인 시간적 유효성 변화 예측(Temporal Validity Change Prediction)을 제안합니다. 트위터에서 가져온 시간적 목표 문장으로 구성된 데이터 세트를 만들고 샘플 문맥 문장을 크라우드소싱합니다. 그런 다음 데이터 세트에 대해 트랜스포머 기반 언어 모델 세트를 벤치마킹합니다. 마지막으로, 최첨단 모델의 성능을 개선하기 위한 보조 작업으로 시간적 유효성 기간 예측을 실험합니다. [abs|pdf]

[22/85] Edge Computing based Human-Robot Cognitive Fusion: A Medical Case Study in the Autism Spectrum Disorder Therapy

Keywords: edge_cognitive_computing, robot_assisted_therapy, new_cognitive_robotic
Abstract: 최근 몇 년 동안 엣지 컴퓨팅은 클라우드 컴퓨팅 시설과 서비스를 최종 사용자에게 연결하여 AI, 로보틱스, IoT, 고속 무선 센서 네트워크(5G 등)와 같은 다양한 미래 기술을 가능하게 하는 패러다임으로 자리 잡았습니다. 특히 의료 및 헬스케어 애플리케이션에서 원격 환자 모니터링과 대용량 멀티미디어를 제공합니다. 로봇 공학 측면에서 보면 로봇 보조 치료(RAT)는 재활 로봇 분야의 능동적 보조 로봇 기술로, 자폐 스펙트럼 장애(ASD) 아동과 같은 장애를 가진 사람들을 연구하고 혜택을 주기 위해 많은 연구자들이 관심을 갖고 있습니다. 그러나 RAT의 가장 큰 과제는 자폐성 장애인의 정서 상태를 감지할 수 있는 모델이 존재하고 개인의 선호도를 기억할 수 있어야 한다는 것입니다. 또한, 로봇이 다양한 상태와 시나리오에 적응할 수 있도록 치료 접근법을 업데이트할 때 전문가의 진단과 권장 사항을 포함시키는 것은 ASD 치료 과정에서 매우 중요한 부분입니다. 이 백서에서는 인간 전문가와 보조 로봇이 동일한 프레임워크에서 협업하여 ASD 환자의 장기적인 지원을 돕는 에지 인지 컴퓨팅의 아키텍처를 제안합니다. 제안된 아키텍처는 ASD 치료를 위한 새로운 인지 로봇 모델의 실시간 컴퓨팅 및 분석을 통합함으로써 원활한 원격 진단, 24시간 증상 모니터링, 응급 경고, 치료 변경 및 고급 지원을 달성할 수 있습니다. [abs|pdf]

[23/85] Unsupervised Outlier Detection using Random Subspace and Subsampling Ensembles of Dirichlet Process Mixtures

Keywords: unsupervised_outlier_detection, approaches_unsupervised_outlier, models_clustering_outlier
Abstract: 확률적 혼합 모델은 해석 가능성과 통계적 원리에 대한 직관적인 근거로 인해 비지도 이상값 탐지를 위한 유용한 도구로 인정받고 있습니다. 이 프레임워크 내에서 디리클레 프로세스 혼합 모델은 클러스터링과 이상값 탐지 작업 모두에서 기존의 유한 혼합 모델에 대한 강력한 대안으로 떠오르고 있습니다. 그러나 이러한 분명한 장점에도 불구하고, 비지도 이상값 검출에서 디리클레 과정 혼합 모델의 광범위한 채택은 검출기 구축 시 계산 비효율성 및 이상값에 대한 민감도와 관련된 문제로 인해 방해를 받아왔습니다. 이러한 문제를 해결하기 위해 저희는 디리클레 프로세스 가우스 혼합물의 앙상블을 기반으로 하는 새로운 이상값 탐지 방법을 제안합니다. 제안된 방법은 무작위 부분공간과 하위 샘플링 앙상블을 활용하는 완전 비지도 알고리즘으로, 효율적인 계산을 보장할 뿐만 아니라 결과 이상값 검출기의 견고성을 향상시킵니다. 또한, 제안된 방법은 디리클레 프로세스 혼합에 대한 변형 추론을 활용하여 효율적이고 빠른 계산을 보장합니다. 벤치마크 데이터 세트를 사용한 경험적 연구는 이 방법이 비지도 이상값 검출을 위한 기존 접근법보다 성능이 뛰어나다는 것을 보여줍니다. [abs|pdf]

[24/85] New Job, New Gender? Measuring the Social Bias in Image Generation Models

Keywords: bias_image_generation, assessing_bias_image, bias_image
Abstract: 이미지 생성 모델은 주어진 텍스트로부터 이미지를 생성하거나 편집할 수 있습니다. 최근 이미지 생성 기술의 발전은 DALL-E와 Midjourney로 대표되는 획기적인 발전을 이루었습니다. 이러한 고급 모델은 뛰어난 기능에도 불구하고 방대한 인터넷 데이터 세트를 기반으로 학습하는 경우가 많기 때문에 사회적 고정관념과 편견을 고착화하는 콘텐츠를 생성하기 쉬우며, 이는 심각한 결과를 초래할 수 있습니다. 이미지 생성 모델의 편향성을 평가하기 위한 기존 연구는 제한된 정확도, 광범위한 인적 노동력에 대한 의존, 종합적인 분석 부족 등 몇 가지 단점을 가지고 있습니다. 이 백서에서는 이미지 생성 모델에서 사회적 편향성을 정확하고 자동으로, 그리고 포괄적으로 트리거할 수 있는 새로운 변형 테스트 프레임워크인 BiasPainter를 제안합니다. BiasPainter는 개인의 다양한 시드 이미지를 사용하고 이미지 생성 모델에 성별, 인종, 연령 중립적인 쿼리를 사용하여 이러한 이미지를 편집하라는 메시지를 표시합니다. 이러한 쿼리는 62개의 직업, 39개의 활동, 57개의 사물 유형, 70개의 성격 특성을 포괄합니다. 그런 다음 프레임워크는 편집된 이미지를 원본 시드 이미지와 비교하여 성별, 인종, 나이와 관련된 변경 사항에 초점을 맞춥니다. BiasPainter는 중립적인 프롬프트가 주어졌을 때 이러한 특성이 수정되지 않아야 한다는 테스트 오라클을 채택합니다. 이러한 설계를 기반으로 구축된 BiasPainter는 사회적 편견을 유발하고 이미지 생성 모델의 공정성을 평가할 수 있습니다. BiasPainter의 효과를 평가하기 위해 안정적 확산, 미드저니 등 널리 사용되는 5가지 상용 이미지 생성 소프트웨어 및 모델을 테스트하기 위해 BiasPainter를 사용했습니다. 실험 결과, 생성된 테스트 케이스의 100%에서 이미지 생성 모델에 사회적 편향성을 성공적으로 유발할 수 있는 것으로 나타났습니다. [abs|pdf]

[25/85] The Earth is Flat? Unveiling Factual Errors in Large Language Models

Keywords: factual_knowledge_graph, factchecker_test_cases, factchecker_test
Abstract: ChatGPT와 같은 대규모 언어 모델(LLM)은 사전 학습과 미세 조정을 통해 얻은 광범위한 지식으로 인해 다양한 애플리케이션의 기반이 됩니다. 그럼에도 불구하고 사실과 상식적인 오류가 발생하기 쉬워 의료, 저널리즘, 교육과 같은 중요한 영역에서 사용자를 오도할 수 있다는 우려가 제기되고 있습니다. 현재 머신러닝의 진실성을 평가하는 방법은 테스트 데이터 유출이나 대규모 인력의 필요성으로 인해 효율적이고 정확한 오류 탐지에 한계가 있습니다. 이러한 문제를 해결하기 위해 저희는 LLM의 사실적 부정확성을 밝혀내기 위한 새로운 자동 테스트 프레임워크인 팩트체커를 도입했습니다. 이 프레임워크에는 세 가지 주요 단계가 포함됩니다: 먼저, 대규모 지식 데이터베이스에서 사실 삼중 항을 검색하여 사실 지식 그래프를 구축합니다. 그런 다음, 팩트체커는 지식 그래프를 활용하여 규칙 기반 접근 방식을 사용하여 정답과 함께 단일 홉 및 다중 홉 관계를 포함하는 세 가지 유형의 질문(예/아니오, 객관식, 주관식 질문)을 생성합니다. 마지막으로, 각 질문 유형에 맞는 맞춤형 매칭 전략을 사용하여 LLM의 답변이 정확한지 평가합니다. 텍스트-다빈치-002, 텍스트-다빈치-003, ChatGPT~(gpt-3.5-터보, gpt-4), 비쿠나, LLaMA-2 등 6개의 저명한 LLM에 대한 광범위한 테스트 결과, 팩트체커는 이러한 모델에서 최대 45%에 달하는 질문의 사실 오류를 트리거할 수 있는 것으로 나타났습니다. 또한, 상황에 맞는 학습과 미세 조정을 통해 사실 정확도를 향상시킬 수 있다는 사실도 입증했습니다(예: llama-2-13b-chat의 정확도가 35.3%에서 68.5%로 증가). 향후 연구를 위해 모든 코드, 데이터, 결과를 공개하고 있습니다. [abs|pdf]

[26/85] A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models

Keywords: improves_logical_reasoning, llms_reasoning_abilities, reasoning_abilities_llms
Abstract: 최근 대규모 언어 모델(LLM)의 발전은 인공지능(AI)을 새로운 차원으로 끌어올리며 작문 지원, 코드 생성, 기계 번역과 같은 다양한 작업에서 획기적인 발전을 이루었습니다. ChatGPT와 같은 고급 LLM의 중요한 차별점은 "추론" 능력이 입증되었다는 점입니다 그러나 대부분의 기존 평가는 추론 프로세스를 직접 평가하기보다는 다운스트림 작업에 대한 정확도에 초점을 맞추기 때문에 LLM의 추론 능력을 평가하는 것은 여전히 어려운 과제입니다. LLM의 추론 능력을 평가하기 위한 벤치마크와 지표를 개발하려는 노력이 있었지만, 데이터 유출이나 범위의 제한으로 인해 어려움을 겪고 있습니다. 이 백서에서는 명제 및 술어 논리에 기반한 일련의 원자적 추론 기술 하에서 LLM의 논리적 추론 능력을 종합적으로 평가하고 개선하는 자동 접근 방식인 LogicAsker를 소개합니다. 결과는 학습자의 추론 능력에 대한 인사이트를 제공하고 학습자가 잘 학습하지 못한 논리적 규칙을 밝혀냅니다. GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco 등 널리 배포된 6개의 LLM을 대상으로 LogicAsker를 평가했습니다. 그 결과, LogicAsker의 테스트 케이스는 25% - 94%의 비율로 다양한 LLM에서 논리적 추론 오류를 찾아낼 수 있는 것으로 나타났습니다. 또한 LogicAsker의 테스트 사례는 상황 내 학습을 위한 데모 예제를 설계하는 데 추가로 사용될 수 있으며, 이를 통해 LLM의 논리적 추론 능력을 효과적으로 향상시킬 수 있습니다(예: GPT-4의 경우 10%). 우리가 아는 한, 테스트 결과를 기반으로 프롬프트를 생성하여 LLM의 형식적 추론 능력을 효과적으로 향상시키는 것은 우리의 연구가 처음입니다. 모든 코드, 데이터, 결과는 재생산과 향후 연구를 위해 공개될 예정입니다. [abs|pdf]

[27/85] MPRE: Multi-perspective Patient Representation Extractor for Disease Prediction

Keywords: patient_representation_learning, patient_representation_extractor, features_time_frequency
Abstract: 전자 의료 기록(EHR)을 기반으로 한 환자 표현 학습은 질병 예측을 위한 중요한 작업입니다. 이 과제는 동적 특징에 대한 유용한 정보를 효과적으로 추출하는 것을 목표로 합니다. 기존의 다양한 연구들이 괄목할 만한 성과를 거두었지만, 동적 특징의 추세와 변화, 추세와 변화 간의 상관관계를 충분히 추출해야 모델 성능을 더욱 향상시킬 수 있습니다. 또한 희박한 방문 기록은 딥러닝 모델의 성능을 제한합니다. 이러한 문제를 해결하기 위해 질병 예측을 위한 다중 관점 환자 대표 추출기(MPRE)를 제안합니다. 특히, 시간-주파수 영역에서 동적 특징의 추세와 변화 정보를 추출하여 특징 표현력을 향상시킬 수 있는 주파수 변환 모듈(FTM)을 제안합니다. 2D 다중 추출 네트워크(2D MEN)에서는 추세와 변화를 기반으로 2D 시간 텐서를 형성합니다. 그런 다음 제안된 확장 연산을 통해 추세와 변동 사이의 상관관계를 포착합니다. 또한, 인접한 변이의 차이가 질병 진단에 기여하는 정도를 적응적으로 계산하기 위해 일차 차이 주의 메커니즘(FODAM)을 제안합니다. MPRE와 기준 방법의 성능을 평가하기 위해 두 가지 실제 공개 데이터 세트에 대한 광범위한 실험을 수행합니다. 실험 결과, MPRE는 AUROC 및 AUPRC 측면에서 최첨단 기준 방법보다 우수한 성능을 보였습니다. [abs|pdf]

[28/85] ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios

Keywords: tool_learning_findings, tool_learning_capabilities, evaluations_tool_learning
Abstract: 도구 학습에 대한 기존의 평가는 주로 대규모 언어 모델(LLM)을 위해 선택된 도구가 예상 결과와 일치하는지 검증하는 데 중점을 둡니다. 그러나 이러한 접근 방식은 답을 미리 결정할 수 있는 제한된 시나리오에 의존하기 때문에 실제 요구 사항과는 차이가 있습니다. 또한 결과만을 강조하다 보면 LLM이 도구를 효과적으로 활용하기 위해 필수적인 복잡한 기능을 무시하게 됩니다. 이 문제를 해결하기 위해 Lionbridge는 실제 시나리오에서 LLM의 도구 학습 능력을 평가하기 위해 맞춤화된 세분화된 시스템인 ToolEyes를 제안합니다. 이 시스템은 7가지 실제 시나리오를 면밀히 검토하여 도구 학습에서 LLM에게 중요한 5가지 차원, 즉 형식 정렬, 의도 이해, 행동 계획, 도구 선택, 답변 구성을 분석합니다. 또한 ToolEyes는 약 600개의 도구로 구성된 도구 라이브러리를 통합하여 LLM과 실제 세계 사이의 중개자 역할을 합니다. 세 가지 범주에 걸쳐 10명의 LLM을 대상으로 한 평가 결과, 도구 학습에서 특정 시나리오에 대한 선호도와 제한된 인지능력이 드러났습니다. 흥미롭게도 모델 크기를 확장하면 도구 학습의 장애가 더욱 악화되는 것으로 나타났습니다. 이러한 연구 결과는 도구 학습 분야를 발전시키기 위한 유익한 인사이트를 제공합니다. 데이터는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[29/85] DiffMorph: Text-less Image Morphing with Diffusion Models

Keywords: composition_image_generation, ai_image_synthesis, sketches_generate
Abstract: 텍스트 조건부 이미지 생성 모델은 AI 이미지 합성에서 널리 사용되고 있지만, 아티스트가 안내하는 결과물을 직관적으로 제어하는 것은 여전히 어려운 과제입니다. 현재 방식은 하나의 맞춤형 이미지를 생성하기 위해 여러 개의 이미지와 각 객체에 대한 텍스트 프롬프트를 개념으로 지정해야 합니다.
반면에 우리의 작업인 DiffMorph는 텍스트 프롬프트를 사용하지 않고 개념을 혼합한 이미지를 합성하는 새로운 접근 방식을 도입했습니다. 이 작업은 스케치-이미지 모듈을 통합하여 사용자 스케치를 입력으로 통합합니다. DiffMorph는 초기 이미지에 아티스트가 그린 스케치를 컨디셔닝하여 변형된 이미지를 생성합니다.
사전 학습된 텍스트-이미지 확산 모델을 사용하여 각 이미지를 충실하게 재구성하도록 미세 조정합니다. 스케치의 이미지와 콘셉트를 일관성 있는 구성으로 매끄럽게 병합합니다. 이러한 작업의 이미지 생성 능력은 결과와 프롬프트 기반 이미지 생성과의 비교를 통해 입증됩니다. [abs|pdf]

[30/85] Searching, fast and slow, through product catalogs

Keywords: sku_search_provides, search_making, search_making_use
Abstract: 재고 관리 단위(SKU) 제품 카탈로그와 같이 약어가 있는 경우의 문자열 매칭 알고리즘은 상대적으로 미개척 분야로 남아 있습니다. 이 백서에서는 사용자가 검색 프로세스를 명시적으로 시작하는 실시간 제안 시스템(트라이 데이터 구조 기반)과 지연 시간이 짧은 검색 시스템(언어 모델 벡터 임베딩과 함께 문자 수준 TF-IDF를 사용)을 모두 제공하는 SKU 검색을 위한 통합 아키텍처를 제시합니다. 저희는 속도와 정확도 사이의 미묘한 균형을 해결하기 위해 여러 구성 요소로 구성된 복잡한 검색 시스템을 설계하는 것을 정당화하는 제거 연구를 수행합니다. Dynamics CRM의 SKU 검색을 예로 들어, 기본 검색 엔진이 제공하는 결과보다 모든 면에서 훨씬 뛰어난 성능을 발휘하는 시스템을 보여줍니다. 마지막으로, 검색 결과의 소비자에게 더 많은 컨텍스트와 일반적으로 더 나은 경험을 제공하기 위해 생성 텍스트 모델(gpt-3.5-turbo 사용)을 통해 SKU 설명을 향상시킬 수 있는 방법을 보여줍니다. [abs|pdf]

[31/85] Diffusion Models, Image Super-Resolution And Everything: A Survey

Keywords: image_quality_closely, image_quality_survey, image_super_resolution
Abstract: 확산 모델(DM)은 기술적 이미지 품질을 사람의 선호도에 더 가깝게 맞추고 SR 애플리케이션을 확장하는 이미지 슈퍼 레졸루션(SR)의 중요한 발전을 나타냅니다. DM은 이전 방법의 중요한 한계를 해결하여 SR 이미지의 전반적인 사실감과 디테일을 향상시킵니다. 그러나 DM은 색상 변화 문제로 어려움을 겪고 있으며, 높은 컴퓨팅 비용으로 인해 효율적인 샘플링 대안이 필요하기 때문에 컴퓨팅 효율성과 이미지 품질 간의 균형을 맞춰야 하는 과제를 안고 있습니다. 이 설문조사는 이미지 SR에 적용된 DM에 대한 개요를 제공하고, 이 분야의 광범위한 기존 리뷰와는 차별화된 이 영역의 고유한 특성과 방법론을 강조하는 상세한 분석을 제공합니다. 또한 DM의 기본에 대한 통합된 관점을 제시하고 대체 입력 영역, 컨디셔닝 전략, 가이드, 손상 공간, 제로 샷 방법 등의 연구 방향을 탐구합니다. 이 설문조사는 빠르게 진화하는 이 분야의 현재 동향, 과제, 미래 방향을 다루면서 DM을 통한 이미지 SR의 진화에 대한 인사이트를 제공합니다. [abs|pdf]

[32/85] Depth Map Denoising Network and Lightweight Fusion Network for Enhanced 3D Face Recognition

Keywords: depth_map_denoising, facial_depth_images, 3d_face_recognition
Abstract: 소비자 심도 센서의 가용성이 증가함에 따라 3D 얼굴 인식(FR)이 점점 더 많은 관심을 받고 있습니다. 그러나 이러한 센서로 수집한 데이터는 거칠고 노이즈가 많아 직접 사용하기에는 실용적이지 않은 경우가 많습니다. 이 논문에서는 노이즈 제거 암시적 이미지 함수(DIIF)를 기반으로 노이즈를 줄이고 저품질 3D FR의 얼굴 깊이 이미지 품질을 향상시키는 혁신적인 뎁스 맵 노이즈 제거 네트워크(DMDNet)를 소개합니다. DMDNet을 사용하여 깨끗한 깊이 얼굴을 생성한 후, 다중 분기 융합 블록을 통합하여 깊이 및 일반 이미지와 같은 서로 다른 모달리티 간의 고유하고 상호 보완적인 특징을 학습하는 경량 깊이 및 일반 융합 네트워크(LDNFNet)라는 강력한 인식 네트워크를 추가로 설계합니다. 4개의 서로 다른 저품질 데이터베이스를 대상으로 실시한 종합적인 실험을 통해 제안된 방법의 효과와 견고성을 입증했습니다. 또한 DMDNet과 LDNFNet을 결합하면 Lock3DFace 데이터베이스에서 최첨단 결과를 얻을 수 있습니다. [abs|pdf]

[33/85] Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven Body Controllable Attribute

Keywords: 3d_human_avatar, human_avatar_generation, realistic_3d_avatars
Abstract: 텍스트에서 직접 3D 휴먼 모델을 생성하면 캐릭터 모델링에 드는 비용과 시간을 줄일 수 있습니다. 그러나 여러 속성을 제어할 수 있고 사실적인 3D 인간 아바타를 생성하는 것은 특징 결합과 사실적인 3D 인간 아바타 데이터 세트의 부족으로 인해 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해 유니티는 결합된 텍스트 프롬프트를 기반으로 사실적인 스타일의 3D 아바타를 생성할 수 있는 Text2Avatar를 제안합니다. 텍스트2아바타는 텍스트와 아바타 사이의 연결을 설정하는 중간 기능으로 개별 코드북을 활용하여 기능의 연결을 해제할 수 있습니다. 또한, 사실적인 스타일의 3D 휴먼 아바타 데이터의 희소성을 완화하기 위해 사전 학습된 무조건 3D 휴먼 아바타 생성 모델을 활용하여 대량의 3D 아바타 의사 데이터를 확보하고, 이를 통해 Text2Avatar가 사실적인 스타일의 생성을 달성할 수 있도록 합니다. 실험 결과는 이 분야의 다른 기존 방법으로는 어려운 결합된 텍스트 데이터로부터 사실적인 3D 아바타를 생성할 수 있음을 보여줍니다. [abs|pdf]

[34/85] An attempt to generate new bridge types from latent space of generative adversarial network

Keywords: generate_new_bridge, low_dimensional_bridge, human_original_bridge
Abstract: 생성적 인공 지능 기술을 사용하여 새로운 교량 유형을 생성해 봅니다. 3경간 빔 교량, 아치 교량, 사장교 및 현수교의 대칭 구조 이미지 데이터 세트가 사용됩니다. 파이썬 프로그래밍 언어, 텐서플로우, 케라스 딥러닝 플랫폼 프레임워크와 바서스타인 손실 함수, 립시츠 제약 조건을 기반으로 생성적 적대 네트워크를 구축하고 학습시킵니다. 이렇게 얻은 저차원 브리지형 잠재 공간 샘플링을 통해 비대칭 구조를 가진 새로운 브리지 유형을 생성할 수 있습니다. 생성적 적대 신경망은 인간의 원래 교량 유형을 기반으로 다양한 구조적 구성 요소를 유기적으로 결합하여 새로운 교량 유형을 생성할 수 있습니다. 그것은 어느 정도의 인간 독창적 인 능력을 가지고 있습니다. 생성적 인공 지능 기술은 상상의 공간을 열고 인류에게 영감을 줄 수 있습니다. [abs|pdf]

[35/85] Large Language Models aren't all that you need

Keywords: named_entity_recognition, large_language_model, entity_recognition
Abstract: 이 백서에서는 SemEval 2023 과제 2: MultiCoNER II(다국어 복합 명명 엔티티 인식)[1]를 해결하기 위해 구축된 아키텍처와 시스템에 대해 설명합니다. (a) 기존의 조건부 랜덤 필드 모델과 (b) 맞춤형 헤드로 미세 조정된 대규모 언어 모델(LLM)의 두 가지 접근 방식을 평가하고 두 가지 접근 방식을 비교합니다. 탐구한 새로운 아이디어는 다음과 같습니다: 1) 감쇠 보조 손실(잔여 포함) - 거친 입자 NER의 보조 작업에 대해 모델을 훈련하고 이 작업을 손실 함수의 일부로 포함 2) 트리플 토큰 블렌딩 - 예측 전에 최종 NER 계층에서 이웃 토큰의 임베딩을 블렌딩하는 방법을 탐색 3) 작업 최적화 헤드 - LLM의 최종 계층을 위한 다양한 맞춤형 헤드와 학습 속도를 탐색합니다. 또한 GPT-3을 포함한 여러 LLM을 탐색하고 다양한 드롭아웃 및 기타 하이퍼파라미터 설정을 실험한 결과, 테스트 데이터에서 0.85/0.84(개발 시) 및 0.67/0.61의 마이크로 및 매크로 F1을 달성하는 최종 모델을 도출했습니다. 사전 학습된 LLM은 그 자체로도 기존 모델에 비해 점수가 크게 향상되지만, 위에서 설명한 추가 기능/손실/모델 엔지니어링 기법으로 LLM을 보강하면 매크로 F1 점수를 크게 향상시킬 수 있다는 것을 보여줍니다. [abs|pdf]

[36/85] Large language model for Bible sentiment analysis: Sermon on the Mount

Keywords: religion_sentiment_analysis, reviewing_translations_sermon, translations_sermon
Abstract: 대규모 언어 모델을 통한 자연어 처리의 혁명은 사회과학과 인문학, 특히 비교종교학을 포함한 다학제적 영역에서 자연어 처리를 사용하도록 동기를 부여했습니다. 감성 분석은 텍스트에 표현된 감정을 연구할 수 있는 메커니즘을 제공합니다. 최근에는 힌두교의 근본적이고 신성한 텍스트인 바가바드 기타의 번역본을 연구하고 비교하는 데 감성 분석이 사용되었습니다. 이 연구에서는 성경의 일부 챕터를 연구하기 위해 감성 분석을 사용했습니다. 이 장은 산상수훈으로 알려져 있습니다. 우리는 산상수훈의 킹 제임스 버전, 뉴 인터내셔널 버전, 뉴 개정 표준 버전, 람사 버전, 기본 영어 버전 등 다섯 가지 번역본을 검토하여 사전 학습된 언어 모델을 활용하여 감성 분석을 수행합니다. 정서 및 의미 분석을 통해 장별 및 구절별 비교를 제공하고, 표현된 주요 정서를 검토합니다. 그 결과 장과 구절에 따라 다양한 정서가 나타나고 있음을 알 수 있습니다. 각 번역본의 어휘가 상당히 다르다는 것을 발견했습니다. 예수님이 메시지를 전달하기 위해 사용한 각 장에서 유머, 낙관주의, 공감의 수준이 서로 다른 것을 발견했습니다. [abs|pdf]

[37/85] Communication-Efficient Federated Learning for LEO Constellations Integrated with HAPs Using Hybrid NOMA-OFDM

Keywords: learning_fl_satellite, satellites_collaboratively_train, satellite_communications
Abstract: 우주 AI는 정부, 기업, 사회에서 점점 더 중요해지고 있으며 때로는 필수적인 요소가 되었습니다. 이 임무에서 활발히 연구되고 있는 주제는 연합 학습(FL)을 위성 통신(SatCom)과 통합하여 수많은 저궤도(LEO) 위성이 공동으로 머신러닝 모델을 훈련할 수 있도록 하는 것입니다. 하지만 위성 통신의 특수한 통신 환경으로 인해 FL 훈련 과정이 최대 수일에서 수주까지 매우 느리게 진행됩니다. 이 백서에서는 (1) 고고도 플랫폼(HAP)을 분산 파라미터 서버(PS)로 활용하여 위성 가시성을 향상시키고, (2) 비직교 다중 액세스(NOMA)를 LEO에 도입하여 빠르고 대역폭 효율적인 모델 전송을 가능하게 하는 LEO 위성에 맞춘 새로운 FL-SatCom 접근 방식인 NomaFedHAP을 제안합니다. 또한, (3) HAP를 활용하여 서로 다른 궤도 간 위성을 연결하여 도플러 이동을 완화하는 새로운 통신 토폴로지와 (4) 서로 다른 궤도 및 셸 간 모델 균형을 최적으로 맞추는 새로운 FL 모델 집계 체계가 NomaFedHAP에 포함됩니다. 또한 (5) 근거리 및 원거리 쉘에 있는 위성과 전체 시스템에 대한 중단 확률의 폐쇄형 식을 도출합니다. 광범위한 시뮬레이션을 통해 수학적 분석을 검증하고, 최신 기술에 비해 높은 정확도로 빠르고 효율적인 FL 모델 수렴을 달성하는 NomaFedHAP의 우수한 성능을 입증했습니다. [abs|pdf]

[38/85] 1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation

Keywords: object_segmentation_vos, video_object_segmentation, object_segmentation_rvos
Abstract: 최근의 트랜스포머 기반 모델은 뛰어난 성능으로 인해 참조 비디오 오브젝트 세그멘테이션(RVOS) 작업을 지배하고 있습니다. 대부분의 선행 연구는 쿼리-투-인스턴스 방식으로 세그멘테이션 마스크를 생성하기 위해 통합된 DETR 프레임워크를 채택하고 있습니다. 이 연구에서는 이러한 선도적인 RVOS 모델의 강점을 통합하여 효과적인 패러다임을 구축합니다. 먼저 RVOS 모델에서 바이너리 마스크 시퀀스를 얻습니다. 마스크의 일관성과 품질을 향상시키기 위해 2단계 다중 모델 융합 전략을 제안합니다. 각 단계는 프레임워크 설계와 학습 전략을 기반으로 RVOS 모델을 합리적으로 조합하고, 서로 다른 비디오 객체 분할(VOS) 모델을 활용하여 객체 전파 메커니즘에 따라 마스크 일관성을 향상시킵니다. 이 방법은 Ref-Youtube-VOS 검증 세트에서 75.7%, 테스트 세트에서 70%의 J&F를 달성하여 제5회 대규모 비디오 객체 세분화 챌린지(ICCV 2023) 트랙 3에서 1위를 차지했습니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[39/85] Coordinated Deep Neural Networks: A Versatile Edge Offloading Algorithm

Keywords: dnns_offload_computations, workload_code_dnn, coordination_dnn_services
Abstract: 인공지능(AI) 애플리케이션이 계속 확장됨에 따라 심층 신경망(DNN) 모델에 대한 필요성이 커지고 있습니다. 엣지에 배포된 DNN 모델은 지연 시간이 짧은 서비스로서의 AI를 제공할 수 있을 것으로 기대되지만, 아직 그 협력 방안이 모색되지 않고 있습니다. 이 백서에서는 DNN 서비스 제공업체가 컴퓨팅 리소스와 모델 매개변수를 공유하고 다른 DNN이 미러링 없이 계산을 오프로드할 수 있도록 허용하는 것을 고려합니다. 우리는 개별 모델에서 멀티태스크 DNN을 생성하여 DNN 서비스 간의 조정을 용이하게 하는 조정된 엣지 DNN(CoDE)이라는 새로운 알고리즘을 제안합니다. CoDE는 가능한 한 가장 낮은 비용을 초래하는 최적의 경로를 찾는 것을 목표로 하며, 여기서 비용은 추론 지연, 모델 정확도, 로컬 계산 워크로드를 반영합니다. CoDE를 통해 DNN 모델은 자체 또는 다른 모델의 매개변수를 사용하여 추론을 위한 새로운 경로를 만들 수 있습니다. 그런 다음 수치 실험을 통해 CoDE의 성능을 평가합니다. 그 결과, 로컬 서비스 계산 워크로드는 75% 감소한 반면 정확도는 2%만 저하되고 부하가 균형 잡힌 조건에서 추론 시간은 동일하게 유지되는 것으로 나타났습니다. 과부하 상태에서는 정확도가 4%만 감소하면서 추론 시간을 30% 더 줄일 수 있습니다. [abs|pdf]

[40/85] A Compact Representation for Bayesian Neural Networks By Removing Permutation Symmetry

Keywords: trained_explicit_bayesian, inference_weights_bnn, uncertainties_deep_learning
Abstract: 베이지안 신경망(BNN)은 딥러닝에서 예측 불확실성을 모델링하기 위한 원칙적인 접근 방식으로, 안전이 중요한 애플리케이션에서 중요합니다. BNN의 가중치에 대한 정확한 베이지안 추론은 어렵기 때문에 다양한 근사 추론 방법이 존재하며, 그 중 해밀턴 몬테카를로(HMC)와 같은 샘플링 방법이 종종 황금 표준으로 간주됩니다. HMC는 고품질 샘플을 제공하지만, 순열 대칭으로 인해 신경망에서 샘플 평균과 분산이 무의미하기 때문에 해석 가능한 요약 통계가 부족합니다. 이 논문에서는 먼저 순열의 역할이 여러 전치 메트릭을 통해 의미 있게 정량화될 수 있음을 보여줍니다. 그런 다음 최근에 제안된 재기준 방법을 사용하면 신경망의 각 가중치에 대해 의미 있는 명시적 불확실성 추정치를 제공하는 간결한 표현으로 HMC 샘플을 요약할 수 있으므로 샘플링 방법을 변형 추론과 통합할 수 있음을 보여 줍니다. 이 간결한 표현을 사용하면 샘플링 방법과 변동 추론에 걸쳐 훈련된 BNN을 가중치 공간에서 직접 비교할 수 있으며, 명시적인 베이지안 프레임워크 없이 훈련된 신경망을 HMC의 불확실성 추정치를 활용하여 효율적으로 가지치기를 할 수 있음을 보여줍니다. [abs|pdf]

[41/85] A Survey of Personality, Persona, and Profile in Conversational Agents and Chatbots

Keywords: chatbots_define_personality, personality_neural_conversational, neural_conversational_agents
Abstract: 챗봇이라고도 불리는 신경 대화형 에이전트(CA)의 성격에 대해 살펴봅니다. 먼저 성격, 페르소나, 프로필을 정의합니다. 그리고 CA에 사용된 모든 성격 체계를 설명하고 해당 체계에 따라 사용되는 모델을 나열합니다. 둘째, 최근 CA 성격 연구에서 개발된 21개의 데이터 세트를 설명합니다. 셋째, CA에서 성격을 구현하는 데 사용되는 방법을 정의하고 이를 사용하는 최근 모델을 검토합니다. 넷째, CA, 성격 및 관련 주제에 대한 몇 가지 관련 리뷰를 조사합니다. 마지막으로, 결론을 도출하고 이 중요한 신흥 분야에 대한 몇 가지 연구 과제를 파악합니다. [abs|pdf]

[42/85] Bringing Back the Context: Camera Trap Species Identification as Link Prediction on Multimodal Knowledge Graphs

Keywords: multimodal_knowledge_graph, photo_wild_animal, recognizing_represented_species
Abstract: 카메라 트랩은 동물 생태학에서 생물 다양성 모니터링과 보존을 위한 유용한 도구입니다. 하지만 보이지 않는 새로운 장소에 설치하기에는 일반화가 어렵다는 문제가 있어 실제 적용에 한계가 있습니다. 이미지는 자연스럽게 서로 다른 양식의 이질적인 맥락과 연관되어 있습니다. 이 연구에서는 카메라 트랩 이미지와 관련된 구조화된 컨텍스트를 활용하여 카메라 트랩에서 종을 식별하는 작업의 분포 외 일반화를 개선합니다. 예를 들어, 야생동물의 사진은 촬영 장소와 시간에 대한 정보뿐만 아니라 동물 종에 대한 구조화된 생물학적 지식과도 연관될 수 있습니다. 기존 작업에서는 이러한 맥락을 간과하는 경우가 많지만, 데이터 부족 문제를 해결하고 일반화를 강화하는 등 이미지를 더 잘 이해할 수 있는 몇 가지 잠재적 이점을 제공합니다. 그러나 이러한 이질적인 컨텍스트를 시각적 영역에 효과적으로 통합하는 것은 어려운 문제입니다. 이 문제를 해결하기 위해 멀티모달 지식 그래프(KG)에서 종 분류를 링크 예측으로 재구성하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 시각적 인식을 위해 다양한 형태의 멀티모달 컨텍스트를 원활하게 통합합니다. 우리는 이 프레임워크를 iWildCam2020-WILDS 및 Snapshot Mountain Zebra 데이터 세트의 분포 외 종 분류에 적용하여 최첨단 접근 방식을 통해 경쟁력 있는 성능을 달성했습니다. 또한, 이 프레임워크는 생물학적 분류법을 성공적으로 통합하여 일반화를 개선하고 과소 대표되는 종을 인식하기 위한 샘플 효율성을 향상시킵니다. [abs|pdf]

[43/85] Brain Tumor Segmentation Based on Deep Learning, Attention Mechanisms, and Energy-Based Uncertainty Prediction

Keywords: mris_deep_learning, helpful_segmenting_gliomas, annotation_segmentation_brain
Abstract: 뇌종양은 사망률이 80%가 넘는 가장 치명적인 암 중 하나입니다. 생존 가능성을 높이기 위해서는 빠르고 정확한 진단이 중요합니다. 그러나 의료 분석에서 뇌종양을 수동으로 주석 처리하고 분할하는 것은 복잡한 작업이 될 수 있습니다. 일반적으로 종양 부위에 대한 고유한 정보를 제공하기 때문에 여러 가지 MRI 양식을 분석합니다. 이러한 MRI 양식은 신경교종을 분할하는 데 도움이 되지만, 과적합과 계산을 증가시키는 경향이 있습니다. 이 논문에서는 데이터 전처리 과정에서 구현되어 두드러진 특징을 찾아내고 불필요한 MRI 데이터를 제거하는 관심 영역 탐지 알고리즘을 제안합니다. 이를 통해 입력 크기를 줄여 보다 적극적인 데이터 증강과 심층적인 신경망을 구현할 수 있습니다. MRI 양식의 전처리 후, 소프트 어텐션이 포함된 완전 컨볼루션 자동 인코더가 다양한 뇌 MRI를 세그먼트화합니다. 이러한 딥러닝 알고리즘이 실제로 구현되면 분석가와 의사는 정확한 예측과 부정확한 예측을 구분할 수 없습니다. 그 후, 복셀 기반 불확실성 예측을 위해 테스트 시간 증강과 에너지 기반 모델을 사용했습니다. BraTS 벤치마크에서 실험을 수행하여 최첨단 세분화 성능을 달성했습니다. 또한 세분화 모델과 불확실성 예측을 평가하기 위해 정성적 결과를 사용했습니다. [abs|pdf]

[44/85] Exploring the Effectiveness of Instruction Tuning in Biomedical Language Processing

Keywords: biomedical_nlp_tasks, tuning_biomedical_language, biomedical_nlp
Abstract: 대규모 언어 모델(LLM), 특히 ChatGPT와 유사한 모델은 자연어 처리(NLP) 분야에 큰 영향을 미쳤습니다. 이러한 모델은 일반적인 언어 작업에서는 탁월한 성능을 발휘하지만, 생물 의학 및 임상 명명된 개체 인식(NER), 관계 추출(RE), 의료 자연어 추론(NLI)과 같은 도메인별 다운스트림 작업에서의 성능은 여전히 발전하고 있습니다. 이러한 맥락에서 본 연구에서는 생물 의학 언어 처리를 위한 명령어 튜닝의 잠재력을 조사하여 이 기법을 상당한 규모의 두 가지 일반 LLM에 적용했습니다. 우리는 약 20만 달러 규모의 명령어 중심 샘플로 구성된 데이터셋에서 훈련된 포괄적인 명령어 기반 모델을 제시합니다. 이 데이터 세트는 명령어 기반 작업의 특정 요구사항에 맞게 세심하게 조정 및 재구성된 기존 데이터를 엄선하여 편집한 것입니다. 이 이니셔티브는 이러한 모델을 활용하여 다양한 고전적인 생물의학 NLP 작업을 위해 BioBERT 및 BioClinicalBERT와 같은 특수 인코더 전용 모델과 동등한 수준의 결과를 얻기 위한 중요한 단계입니다. 데이터 세트의 구성과 모델 성능에 미치는 영향을 분석하여 명령어 튜닝의 복잡성에 대한 인사이트를 제공합니다. 코드, 모델, 독특하게 조합된 명령어 기반 데이터 세트를 공유함으로써 이 분야에 대한 지속적인 연구 개발을 장려하고자 합니다. [abs|pdf]

[45/85] KernelGPT: Enhanced Kernel Fuzzing via Large Language Models

Keywords: enhanced_kernel_fuzzing, kernel_fuzzing_basic, kernel_fuzzing_automatically
Abstract: 운영 체제 커널의 버그는 전 세계 수십억 대의 디바이스와 사용자에게 영향을 미칠 수 있습니다. 따라서 커널 퍼징, 즉 잠재적인 커널 버그나 취약점을 탐지하기 위해 시스템 호출 시퀀스를 자동으로 생성하는 커널 퍼징에 대한 많은 연구가 진행되어 왔습니다. 가장 널리 연구되고 있는 커널 퍼저 중 하나인 시즈콜러는 시스콜과 그 인수, 시스콜 간의 관계를 정의하기 위한 도메인 전용 언어인 시즈랭(syzlang)으로 작성된 사전 정의된 사양을 기반으로 유효한 시스콜 시퀀스를 생성하는 것을 목표로 합니다. 시즈콜러 명세서 생성을 자동화하려는 기존 연구가 있었지만, 여전히 대부분 수작업으로 이루어지고 있으며 중요한 시스콜의 상당수가 아직 발견되지 않고 있습니다. 이 백서에서는 향상된 커널 퍼징을 위해 대규모 언어 모델(LLM)을 통해 Syzkaller 사양을 자동으로 추론하는 첫 번째 접근 방식인 KernelGPT를 제안합니다. 우리의 기본 인사이트는 LLM이 사전 학습 과정에서 방대한 커널 코드, 문서, 사용 사례를 확인했기 때문에 유효한 시스콜을 만드는 데 필요한 정보를 자동으로 추출할 수 있다는 것입니다. 좀 더 구체적으로 설명하자면, KernelGPT는 반복적인 접근 방식을 활용하여 필요한 모든 사양 구성 요소를 자동으로 추론하고, 검증 피드백을 활용하여 초기 사양을 수정/보완합니다. 예비 결과에 따르면 KernelGPT는 Syzkaller가 더 높은 커버리지를 달성하고 이전에 알려지지 않은 여러 버그를 발견하는 데 도움이 되는 것으로 나타났습니다. 또한 Syzkaller 팀으로부터 KernelGPT가 추론한 사양을 업스트림해 달라는 요청도 받았습니다. [abs|pdf]

[46/85] A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions

Keywords: speech_emotion_recognition, emotion_recognition_ser, speech_emotion
Abstract: 최근 몇 년 동안 자연스러운 대화의 맥락에서 음성 감정 인식(SER)이 많은 주목을 받고 있습니다. 잘 알려진 자연주의 이원 대화 말뭉치인 IEMOCAP과 같은 데이터 세트에서 범주형 감정과 차원적 감정의 경우 주목할 만한 결과가 있었지만, 두 가지 패러다임을 동시에 예측하려는 논문은 거의 없습니다. 따라서 본 연구에서는 범주형 및 차원형 감정을 예측하는 멀티태스크, 멀티모달 시스템을 제안함으로써 멀티태스크 학습의 성능 기여도를 강조하고자 합니다. 연구 결과는 두 가지 감정 유형 간의 교차 규칙화의 중요성을 강조합니다. 우리의 접근 방식은 각 양식의 특징에 대한 자체 주의를 통해 병렬적인 특징 개선을 사용하는 멀티태스크, 멀티모달 아키텍처로 구성됩니다. 이러한 특징을 융합하기 위해 우리 모델은 교차 주의의 도움으로 청각적 특징과 언어적 특징을 병합하는 학습 가능한 브리지 토큰 세트를 도입합니다. 10배의 검증을 거친 범주형 감정에 대한 실험 결과, 현재의 최신 기술과 비슷한 수준의 결과를 얻었습니다. 우리의 구성에서 멀티태스크 접근 방식은 각 패러다임을 개별적으로 학습하는 것보다 더 나은 결과를 제공합니다. 또한, 가장 성능이 좋은 모델은 이전의 멀티태스크 실험에 비해 원자가에 대해 높은 결과를 얻었습니다. [abs|pdf]

[47/85] On the Necessity of Metalearning: Learning Suitable Parameterizations for Learning Processes

Keywords: inductive_biases_learning, models_learned, data_necessary_learn
Abstract: 이 백서에서는 메탈러닝과 현재의 고전적 학습 패러다임을 뛰어넘는 방법에 대해 논의합니다. 먼저 학습 과정에서 귀납적 편향의 중요성과 학습에 필요한 데이터의 양이 얼마나 중요한지 살펴볼 것입니다. 그다음에는 잘 정의된 학습 프로세스를 완성하기 위해 적절한 매개변수화를 선택하는 것이 얼마나 중요한지 살펴볼 것입니다. 특히 실제 애플리케이션의 맥락에서는 센서의 특수성, 데이터 소스의 이질성, 다양한 관점 등으로 인해 수많은 편견에 직면하게 됩니다. 이를 통해 우리는 이전에 발표한 학습 과정을 체계화하기 위해 학습할 개념의 구조화를 활용하는 아이디어를 떠올릴 수 있습니다. 마지막으로 매개변수 연결 체계에 대한 관점과 이렇게 학습된 모델에서 보편적인 측면의 출현에 대해 논의하면서 마무리합니다. [abs|pdf]

[48/85] GraphGPT: Graph Learning with Generative Pre-trained Transformers

Keywords: graphgpt_model_supervised, model_graph_learning, graph_learning_self
Abstract: 자가 지도 생성적 사전 훈련 트랜스포머를 통한 그래프 학습을 위한 새로운 모델인 GraphGPT를 소개합니다. 이 모델은 먼저 오일러 경로를 사용해 각 그래프 또는 샘플링된 하위 그래프를 노드, 에지, 속성을 나타내는 토큰 시퀀스로 가역적으로 변환합니다. 그런 다음 토큰을 표준 트랜스포머 디코더에 공급하고 다음 토큰 예측(NTP) 작업을 통해 사전 훈련합니다. 마지막으로, 감독 작업을 통해 GraphGPT 모델을 미세 조정합니다. 이 직관적이면서도 효과적인 모델은 대규모 분자 데이터 세트인 PCQM4Mv2, 단백질-단백질 연관 데이터 세트인 ogbl-ppa, 오픈 그래프 벤치마크(OGB)의 ogbn-proteins 데이터 세트에서 그래프, 에지, 노드 수준 작업을 위한 최신 방법보다 우수하거나 비슷한 결과를 달성합니다. 또한, 생성적 사전 학습을 통해 지속적으로 증가하는 성능으로 최대 4억 개 이상의 파라미터를 GraphGPT에 학습시킬 수 있으며, 이는 GNN과 이전 그래프 트랜스포머의 성능을 뛰어넘는 수치입니다. 소스 코드와 사전 훈련된 체크포인트는 곧 공개될 예정이며 그래프 기초 모델 연구의 기반을 마련하고 제약, 화학, 재료, 생물 정보학 등의 분야에서 과학적 발견을 지원할 수 있도록 지원할 것입니다. [abs|pdf]

[49/85] Pack and Measure: An Effective Approach for Influence Propagation in Social Networks

Keywords: maximum_influence_propagation, influence_maximization, influence_propagation
Abstract: 독립 캐스케이드 모델(IC)에서의 영향력 최대화 문제를 고려합니다. 이 문제는 최대 영향력 전파를 기대할 수 있는 '시드 세트' 역할을 할 최소한의 정점 집합을 요구합니다. 새로운 시드 세트 선택 방법은 $d$-패킹과 정점 중심성의 개념을 기반으로 도입되었습니다. 특히, 멀리 떨어져 있고 해당 지역 커뮤니티에서 영향력 값이 가장 높은 시드 정점을 선택하는 데 중점을 둡니다. 최상의 결과를 얻기 위해서는 먼저 $d$-패킹을 계산한 다음, 각각의 닫힌 이웃에서 높은 차수 또는 높은 중심성을 가진 정점을 선택해야 합니다. 이러한 전반적인 "팩 앤 메저" 접근 방식은 시드 선택 방법으로 매우 효과적인 것으로 입증되었습니다. [abs|pdf]

[50/85] Multi-spatial Multi-temporal Air Quality Forecasting with Integrated Monitoring and Reanalysis Data

Keywords: air_quality_forecasting, forecasting_spatial_temporal, forecasting_spatial
Abstract: 정확한 대기질 예측은 공중 보건, 환경 모니터링 및 보호, 도시 계획에 매우 중요합니다. 하지만 기존 방식은 공간적, 시간적으로 다양한 규모의 정보를 효과적으로 활용하지 못합니다. 공간적으로는 개별 모니터링 스테이션과 도시 전체 규모 간의 통합이 부족합니다. 시간적으로는 대기질 변화의 주기적 특성을 간과하거나 부적절하게 고려하는 경우가 많습니다. 이러한 한계를 해결하기 위해 우리는 그래프 컨볼루션 네트워크와 게이트 반복 단위(M2G2)를 기반으로 한 새로운 다공간 다시간 대기질 예측 방법을 제시하여 공간적, 시간적 규모에 걸친 대기질 예측의 격차를 해소합니다. 제안된 프레임워크는 두 가지 모듈로 구성됩니다: 공간 정보 융합을 위한 다중 스케일 공간 GCN(MS-GCN)과 시간 정보 통합을 위한 다중 스케일 시간 GRU(MT-GRU)입니다. 공간적 차원에서는 양방향 학습 가능 구조와 잔존 구조를 채택한 MS-GCN 모듈을 통해 개별 모니터링 스테이션과 도시 규모 그래프 간의 포괄적인 정보 교환이 가능합니다. 시간적 차원과 관련하여 MT-GRU 모듈은 병렬 숨겨진 상태를 통해 서로 다른 시간적 스케일의 정보를 적응적으로 결합합니다. 기상 지표와 4개의 대기질 지표를 활용하여 종합적인 비교 분석과 제거 실험을 통해 현재 사용 가능한 9개의 고급 접근 방식과 비교하여 M2G2의 정확도가 모든 측면에서 더 높다는 것을 보여줍니다. 24시간/48시간/72시간의 RMSE에 대한 M2G2의 차상위 방법 대비 개선 사항은 다음과 같습니다: PM2.5: (7.72%, 6.67%, 10.45%); PM10: (6.43%, 5.68%, 7.73%); NO2: (5.07%, 7.76%, 16.60%); O3: (6.46%, 6.86%, 9.79%). 또한, 절제 연구를 통해 M2G2의 각 모듈의 효과를 입증했습니다. [abs|pdf]

[51/85] Generating High-Precision Force Fields for Molecular Dynamics Simulations to Study Chemical Reaction Mechanisms using Molecular Configuration Transformer

Keywords: molecular_dynamics_simulations, molecular_modeling, fields_molecular_modeling
Abstract: 화학 반응 메커니즘에 대한 이론적 연구는 유기 화학에서 매우 중요합니다. 전통적으로 양자 화학 계산을 사용하여 화학 반응에 필요한 전이 상태의 분자 형태를 수동으로 구성하는 것이 가장 일반적으로 사용되는 방법입니다. 그러나 이 방법은 개인의 경험과 화학적 직관에 크게 의존합니다. 이전 연구에서 우리는 화학 반응을 연구하기 위해 QM/MM 분자 역학 시뮬레이션에서 향상된 샘플링을 사용하는 연구 패러다임을 제안했습니다. 이 접근법은 화학 반응의 전체 과정을 직접 시뮬레이션할 수 있습니다. 하지만 계산 속도 때문에 시뮬레이션에 고정밀 위치 에너지 함수를 사용하는 데 한계가 있습니다. 이 문제를 해결하기 위해 저희는 자체 개발한 그래프 신경망 기반 분자 모델인 분자 구성 변환기를 사용하여 분자 모델링을 위한 고정밀 힘장을 훈련하는 방법을 제시합니다. 이 포텐셜 에너지 함수는 낮은 계산 비용으로 매우 정확한 시뮬레이션을 가능하게 하여 화학 반응의 메커니즘을 보다 정밀하게 계산할 수 있게 해줍니다. 우리는 이 접근법을 사용하여 코프 재배열 반응과 망간에 의해 촉매되는 카르보닐 삽입 반응을 연구했습니다. 이러한 'AI+물리' 기반 시뮬레이션 접근법은 유기 화학 반응 메커니즘의 이론적 연구에 새로운 트렌드가 될 것으로 기대됩니다. [abs|pdf]

[52/85] SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge

Keywords: surgical_action_recognition, dataset_surgical_action, action_recognition_tool
Abstract: 수술 도구 세분화 및 동작 인식은 수술 술기 평가부터 의사 결정 지원 시스템에 이르기까지 다양한 컴퓨터 보조 개입 애플리케이션의 기본 구성 요소입니다. 오늘날 학습 기반 동작 인식 및 세분화 접근 방식은 주석이 달린 대규모 데이터 세트에 의존하는 기존 방식보다 성능이 뛰어납니다. 또한 작업 인식 및 도구 세분화 알고리즘은 잠재적인 교차 작업 관계를 활용하지 않고 서로 분리된 채로 학습되어 예측을 하는 경우가 많습니다. 엔도비스 2022 SAR-RARP50 챌린지를 통해 로봇 보조 근치적 전립선 절제술(RARP)의 50개 봉합 비디오 세그먼트를 포함하는 수술 동작 인식 및 시맨틱 기기 세분화를 위한 최초의 멀티모달 공개 생체 내 데이터 세트를 출시합니다. 이 챌린지의 목표는 두 가지입니다. 첫째, 연구자들이 제공된 데이터 세트의 규모를 활용하여 수술 영역에서 강력하고 매우 정확한 단일 작업 동작 인식 및 도구 세분화 접근법을 개발할 수 있도록 지원하는 것입니다. 둘째, 멀티태스크 기반 학습 접근법의 잠재력을 더욱 탐구하고 단일 태스크에 비해 비교 우위를 파악하기 위해서입니다. 총 12개 팀이 참가하여 7개의 동작 인식 방법, 9개의 기구 세분화 기법, 동작 인식과 기구 세분화를 모두 통합한 4개의 멀티태스크 접근법을 제출했습니다. [abs|pdf]

[53/85] Coding for Gaussian Two-Way Channels: Linear and Learning-Based Approaches

Keywords: joint_encoder_decoder, rnn_based_coding, channel_coding_schemes
Abstract: 사용자 협력은 독립 잡음이 있는 가우시안 양방향 채널(GTWC)의 용량을 향상시킬 수는 없지만 통신 신뢰도를 향상시킬 수 있습니다. 본 연구에서는 사용자가 인코더와 디코더를 공동으로 설계하여 오류 확률의 합을 최소화함으로써 GTWC의 통신 신뢰도를 향상시키고 균형을 맞추는 것을 목표로 합니다. 먼저 사용자 인코딩 프로세스의 결합을 통해 사용자 협력을 포착하는 일반적인 인코딩/디코딩 함수를 공식화합니다. 커플링 효과는 인코더/디코더 설계를 단순하게 만들지 않으며, 이 효과를 포착하기 위해서는 효과적인 디코딩과 전력 제약 내에서 인코더의 효율적인 전력 관리가 필요합니다. 이러한 과제를 해결하기 위해 유니티는 선형 코딩과 학습 기반 코딩이라는 두 가지 양방향 코딩 전략을 제안합니다. 선형 코딩의 경우, 최적의 선형 디코딩을 제안하고 신뢰성의 균형을 맞추기 위한 사용자 협력에 관한 인코딩에 대한 새로운 인사이트를 논의합니다. 그런 다음 공동 인코더/디코더 설계를 위한 효율적인 알고리즘을 제안합니다. 학습 기반 코딩을 위해 새로운 순환신경망(RNN) 기반 코딩 아키텍처를 소개하며, 인코딩을 위한 대화형 RNN과 전력 제어 계층을 제안하고, 디코딩을 위한 주의 메커니즘과 양방향 RNN을 통합합니다. 시뮬레이션을 통해 양방향 코딩 방법론이 사용자 협력을 활용하지 않는 기존 채널 코딩 방식보다 합계 오류 성능에서 월등히 뛰어나다는 것을 보여줍니다. 또한 선형 코딩은 높은 신호 대 잡음비(SNR)에서 탁월한 성능을 발휘하는 반면, RNN 기반 코딩은 낮은 SNR에서 최고의 성능을 발휘한다는 사실도 입증했습니다. 또한 전력 분배, 양방향 코딩의 이점, 다양한 코딩 속도 및 블록 길이 이득 측면에서 양방향 코딩 전략을 조사합니다. [abs|pdf]

[54/85] Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition

Keywords: training_leveraging_bidirectional, expression_recognition_hmer, bidirectional_training_methods
Abstract: 필기 수학적 표현 인식(HMER) 작업은 OCR 분야에서 매우 중요한 분야입니다. 최근 연구에 따르면 양방향 문맥 정보를 통합하면 HMER 모델의 성능이 크게 향상되는 것으로 나타났습니다. 하지만 기존 방식은 추론 단계에서 양방향 문맥 정보를 효과적으로 활용하지 못합니다. 또한, 현재의 양방향 학습 방법은 주로 문자열 디코더를 위해 설계되어 일반화 능력과 구조 분석 능력이 뛰어난 트리 디코더에는 적절히 일반화할 수 없습니다. 이러한 한계를 극복하기 위해 본 논문에서는 미러-플립 심볼 레이아웃 트리(MF-SLT)와 양방향 비동기 훈련(BAT) 구조를 제안합니다. 이 방법은 양방향 훈련 전략을 트리 디코더까지 확장하여 양방향 정보를 활용하여 보다 효과적인 훈련이 가능합니다. 또한, HMER 모델의 시각적 인식과 언어적 인식의 영향을 별도로 분석하여 공유 언어 모델링(SLM) 메커니즘을 도입합니다. SLM을 통해 특히 훈련 데이터가 풍부한 시나리오에서 시각적 모호성을 처리할 때 모델의 견고성과 일반화를 향상시킵니다. 이러한 접근 방식은 광범위한 실험을 통해 검증되었으며, CROHME 2014, 2016, 2019 데이터 세트와 HME100K 데이터 세트에서 새로운 최첨단 결과를 얻을 수 있는 능력을 입증했습니다. 실험에 사용된 코드는 공개적으로 사용할 수 있습니다. [abs|pdf]

[55/85] Training towards significance with the decorrelated event classifier transformer neural network

Keywords: event_classifier_transformer, classifier_transformer, classifier_transformer_proposed
Abstract: 실험 입자 물리학에서는 많은 작업에 머신 러닝을 사용하는데, 그 중 하나가 신호와 배경 이벤트를 분류하는 것입니다. 이 분류는 질량 공명 검색에서 예상되는 중요도를 높이기 위해 분석 영역을 구간으로 분류하는 데 사용할 수 있습니다. 자연어 처리에서 대표적인 신경망 아키텍처 중 하나는 트랜스포머입니다. 이 연구에서는 분석 영역을 이진화하기 위해 이벤트 분류기 트랜스포머를 제안하고, 이를 통해 네트워크가 특수 기법으로 훈련됩니다. 여기서 개발된 기법은 네트워크의 출력과 재구성된 질량 간의 상관관계를 줄이고 유의성을 높일 수 있습니다. 이렇게 훈련된 네트워크는 부스트된 의사 결정 트리와 피드 포워드 네트워크보다 더 나은 성능을 발휘할 수 있다는 것이 밝혀졌습니다. [abs|pdf]

[56/85] keqing: knowledge-based question answering is a nature chain-of-thought mentor of LLM

Keywords: question_answering_keqing, question_answering, based_question_answering
Abstract: 대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업, 특히 질문에 대한 답변에서 놀라운 성능을 보여 왔습니다. 그러나 지식의 범위를 벗어난 문제에 직면하면 이러한 LLM은 무표정한 얼굴로 말도 안 되는 말을 하는 경향이 있는데, 이때 정보 검색(IR) 모듈을 통합하고 검색된 지식을 기반으로 답변을 생성하는 것이 잠재적인 해결책이 될 수 있습니다. 이 백서에서는 ChatGPT와 같은 LLM이 지식 그래프에서 질문과 관련된 구조화된 정보를 검색할 수 있도록 지원하는 새로운 프레임워크를 제시하고, 지식 기반 질문 답변(Keqing)이 해석 가능한 논리 체인을 통해 복잡한 질문의 답변 개체를 순차적으로 찾도록 LLM을 안내하는 본질적인 생각의 사슬(CoT) 멘토가 될 수 있음을 입증합니다. 구체적으로 케칭의 워크플로는 사전 정의된 템플릿에 따라 복잡한 질문을 분해하고, 지식 그래프에서 후보 개체를 검색하고, 하위 질문의 답변을 추론하고, 마지막으로 추론 경로를 통해 답변을 생성하는 과정을 실행하여 LLM의 응답 신뢰도를 크게 향상시킵니다. KBQA 데이터 세트에 대한 실험 결과는 케칭이 경쟁력 있는 성능을 달성하고 각 질문에 대한 답변의 로직을 설명할 수 있음을 보여줍니다. [abs|pdf]

[57/85] SynCDR : Training Cross Domain Retrieval Models with Synthetic Data

Keywords: cross_domain_retrieval, similarity_human_annotations, domain_retrieval
Abstract: 교차 도메인 검색에서는 두 개의 시각적 도메인에서 동일한 의미 범주의 이미지를 식별하기 위해 모델이 필요합니다. 예를 들어, 어떤 사물의 스케치가 주어지면 모델은 온라인 상점의 카탈로그에서 그 사물의 실제 이미지를 검색해야 합니다. 이러한 문제에 대한 표준 접근 방식은 유클리드 거리가 유사성을 반영하는 이미지의 특징 공간을 학습하는 것입니다. 비용이 많이 드는 사람의 주석이 없더라도, 이전의 방법은 라벨이 없는 이미지를 훈련에 사용하면 상당히 잘 작동합니다. 문제 제약 조건은 두 영역이 훈련 데이터에서 공통 카테고리를 공유하지 않는 시나리오로 확장됩니다. 이는 문제의 두 도메인이 서로 다른 사람의 신원을 기록하는 일부 생체 인식 센서의 서로 다른 버전에서 비롯된 경우 발생할 수 있습니다. 이에 대한 간단한 해결책은 두 도메인 간에 누락된 카테고리 예시를 채울 수 있는 합성 데이터를 생성하는 것입니다. 이 작업은 한 시각적 영역에서 다른 영역으로 이미지를 번역할 때 카테고리를 보존하는 방식으로 수행됩니다. 우리는 한 쌍의 도메인에 대해 이 번역을 위해 특별히 훈련된 접근 방식과 프롬프트를 통해 사전 훈련된 대규모 텍스트-이미지 확산 모델을 사용할 수 있는 접근 방식을 비교했으며, 후자가 더 나은 대체 합성 데이터를 생성하여 더 정확한 도메인 간 검색 모델로 이어질 수 있다는 것을 발견했습니다. 이 작업의 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[58/85] A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human Interaction Recognition

Keywords: multi_branch_cnn, specificity_cnn, branch_cnn
Abstract: 휴먼 인터랙션 인식은 특정 상황에서 여러 참가자 간의 대화형 행동을 식별하는 프로세스입니다. 여러 개체 간의 행동 상호작용과 그 의미를 인식하는 것이 목표입니다. 많은 단일 컨볼루션 신경망은 글로벌 인스턴스 상호 작용 특징을 포착하지 못하거나 학습이 어려워 동작 의미가 모호해지는 등의 문제를 안고 있습니다. 또한 트랜스포머의 계산 복잡성도 무시할 수 없으며, 이미지의 로컬 정보 및 동작 특징을 캡처하는 능력도 떨어집니다. 이 연구에서는 CNN의 지역적 특수성을 활용하고 트랜스포머를 통해 글로벌 종속성을 모델링하는 2스트림 하이브리드 CNN-트랜스포머 네트워크(THCT-Net)를 제안합니다. CNN과 트랜스포머는 각각 인터랙티브 엔티티 간의 엔티티, 시간 및 공간 관계를 동시에 모델링합니다. 특히, 트랜스포머 기반 스트림은 3D 컨볼루션과 멀티 헤드 셀프 어텐션을 통합하여 토큰 간 상관관계를 학습하고, 스켈레톤 시퀀스에서 시공간적 특징을 자동으로 학습하는 CNN 기반 스트림을 위한 새로운 멀티 브랜치 CNN 프레임워크를 제안합니다. 컨볼루션 레이어는 각 조인트 이웃의 로컬 특징을 독립적으로 학습하고 모든 조인트의 특징을 집계합니다. 그리고 원시 골격 좌표와 그 시간적 차이를 이중 분기 패러다임과 통합하여 골격의 움직임 특징을 융합합니다. 또한 훈련 융합 속도를 높이기 위해 잔여 구조가 추가됩니다. 마지막으로 두 분기의 인식 결과는 병렬 접합을 통해 융합됩니다. 다양하고 까다로운 데이터 세트에 대한 실험 결과, 제안된 방법이 다양한 동작의 의미와 맥락을 더 잘 이해하고 추론할 수 있으며 최첨단 방법보다 성능이 뛰어나다는 것을 입증했습니다. [abs|pdf]

[59/85] Generative Model-Driven Synthetic Training Image Generation: An Approach to Cognition in Rail Defect Detection

Keywords: visual_defect_classification, cnn_visual_defect, data_augmentation_models
Abstract: 최근 딥러닝 기술이 통합된 인지 컴퓨팅의 발전으로 지능형 인지 시스템(ICS)의 개발이 촉진되었습니다. 이는 특히 철도 결함 감지의 맥락에서 유용하며, ICS는 결함 패턴에 대한 이미지 데이터의 인간과 유사한 분석을 모방할 수 있습니다. 시각적 결함 분류에서 컨볼루션 신경망(CNN)의 성공에도 불구하고, 철도 결함 감지를 위한 대규모 데이터 세트의 부족은 결함 부품과 이미지를 초래할 수 있는 사고의 빈번한 발생으로 인해 여전히 과제로 남아 있습니다. 최근의 연구자들은 규칙 기반 및 생성형 데이터 증강 모델을 연구하여 이러한 데이터 부족 문제를 해결했습니다. 이 중 변형 자동 인코더(VAE) 모델은 노이즈 모델링을 위한 광범위한 기준 데이터 세트 없이도 사실적인 데이터를 생성할 수 있습니다. 본 연구에서는 과적합을 방지하기 위해 가중치 감쇠 정규화와 이미지 재구성 손실을 통합한 VAE 기반 레일 결함 합성 이미지 생성 기법을 제안합니다. 제안된 방법은 5개 클래스에 걸쳐 50개의 실제 샘플만으로 캐나다 태평양 철도(CPR)의 합성 데이터 세트를 생성하는 데 적용되었습니다. 놀랍게도 0.021의 최소 재구성 손실로 500개의 합성 샘플이 생성됩니다. 이 합성 CPR 데이터 세트를 사용하여 시각적 변압기(ViT) 모델을 미세 조정한 결과, 5가지 결함 등급을 분류하는 데 있어 높은 정확도(98%~99%)를 달성했습니다. 이 연구는 철도 결함 감지의 데이터 부족 문제에 대한 유망한 해결책을 제시하며, 이 분야에서 강력한 ICS 개발의 잠재력을 보여줍니다. [abs|pdf]

[60/85] Controllable Safety-Critical Closed-loop Traffic Simulation via Guided Diffusion

Keywords: critical_scenarios_adversarial, simulate_safety, simulate_safety_critical
Abstract: 자율 주행 차량 계획 알고리즘의 성능을 평가하려면 롱테일 교통 시나리오를 시뮬레이션해야 합니다. 안전에 중요한 시나리오를 생성하는 기존의 방법은 현실감과 제어 가능성이 부족한 경우가 많습니다. 또한 이러한 기법은 일반적으로 에이전트 상호 작용의 역학을 무시합니다. 이러한 한계를 완화하기 위해 유니티는 유도 확산 모델에 기반한 새로운 폐루프 시뮬레이션 프레임워크를 도입했습니다. 이러한 접근 방식은 두 가지 뚜렷한 이점을 제공합니다: 1) 실제 상황을 가깝게 모방한 현실적인 롱테일 시나리오 생성, 2) 향상된 제어 기능으로 보다 포괄적이고 인터랙티브한 평가가 가능하다는 점입니다. 이를 위해 도로 진행률을 높이는 동시에 충돌 및 오프로드 비율을 낮추는 새로운 안내 목표를 설정합니다. 유니티는 노이즈 제거 프로세스에서 적대적 용어를 통해 안전에 중요한 시나리오를 시뮬레이션하는 새로운 접근 방식을 개발하여, 적대적 에이전트가 그럴듯한 기동으로 계획자에게 도전하는 동시에 장면의 모든 에이전트가 반응적이고 현실적인 동작을 보이도록 합니다. 유니티는 뉴스센스 데이터 세트를 사용하여 프레임워크를 실증적으로 검증하여 사실성과 제어성이 모두 개선되었음을 입증했습니다. 이러한 결과를 통해 안내 확산 모델이 안전에 필수적인 인터랙티브 교통 시뮬레이션을 위한 강력하고 다재다능한 기반을 제공하며, 자율 주행의 더 넓은 영역으로 그 활용도를 확장할 수 있음을 확인할 수 있습니다. 추가 리소스 및 데모를 보려면 프로젝트 페이지(https URL)를 방문하세요. [abs|pdf]

[61/85] Horizontal Federated Computer Vision

Keywords: federated_faster_cnn, recognition_using_federated, federated_fully_convolutional
Abstract: 현대 사회에서 기록되는 시각적 데이터의 양은 급속도로 증가하고 있습니다. 많은 경우 데이터가 지리적으로 서로 다른 위치에 저장되어 있기 때문에 통합하는 데 많은 시간과 공간이 필요합니다. 때로는 개인정보 보호를 위한 규제가 데이터 통합을 방해하기도 합니다. 이 연구에서는 연합된 고속 R-CNN(FRCNN)을 사용한 객체 감지 및 인식과 연합된 완전 컨볼루션 네트워크(FCN)를 사용한 이미지 분할을 위한 연합 구현을 제시합니다. FRCNN은 COCO2017 데이터 세트의 5000개 예제로 훈련되었고, FCN은 CamVid 데이터 세트의 전체 훈련 세트에 대해 훈련되었습니다. 제안된 연합 모델은 시각적 데이터의 증가하는 양과 분산된 특성으로 인해 발생하는 문제를 해결하여 개인정보 보호 규정을 준수하는 효율적인 솔루션을 제공합니다. [abs|pdf]

[62/85] DREAM: Debugging and Repairing AutoML Pipelines

Keywords: bug_automl_systems, efficiently_repair_automl, learning_automl_systems
Abstract: 딥러닝 모델은 최신 소프트웨어 시스템의 통합 구성 요소가 되었습니다. 모델 설계의 어려움에 대응하기 위해 연구원들은 주어진 작업에 대한 모델 아키텍처와 하이퍼파라미터를 자동으로 검색하는 자동화된 머신러닝(AutoML) 시스템을 제안했습니다. 다른 소프트웨어 시스템과 마찬가지로 기존 AutoML 시스템도 버그로 인해 어려움을 겪고 있습니다. 우리는 AutoML에서 성능 버그(즉, 원하는 모델을 검색하는 데 부당하게 오랜 시간이 걸림)와 비효율적인 검색 버그(즉, AutoML 시스템이 충분히 정확한 모델을 찾지 못함)라는 두 가지 일반적이고 심각한 버그를 확인했습니다. AutoML의 워크플로우를 분석한 결과, 기존 AutoML 시스템은 검색 공간, 검색 방법, 검색 피드백에서 잠재적인 기회를 간과하여 성능과 비효율적인 검색 버그가 발생한다는 사실을 발견했습니다. 이러한 분석을 바탕으로 AutoML 시스템을 위한 자동 디버깅 및 복구 시스템인 DREAM을 설계하고 구현했습니다. 이 시스템은 AutoML의 프로세스를 모니터링하여 상세한 피드백을 수집하고, 검색 공간을 확장하고 피드백 기반 검색 전략을 활용하여 버그를 자동으로 복구합니다. 평가 결과, DREAM은 AutoML 버그를 효과적이고 효율적으로 복구할 수 있는 것으로 나타났습니다. [abs|pdf]

[63/85] HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes

Keywords: quantized_variational_autoencoder, variational_autoencoder, hierarchically_quantized_variational
Abstract: 벡터 양자화(VQ)는 이산 코드북 표현으로 특징을 결정론적으로 학습하는 기법입니다. 이 기법은 일반적으로 변형 자동 인코딩 모델인 VQ-VAE로 수행되며, 이를 계층적 구조로 확장하여 고충실도 재구성을 수행할 수 있습니다. 그러나 이러한 계층적 확장은 코드북이 데이터를 표현하는 데 효율적으로 사용되지 않아 재구성 정확도가 저하되는 코드북/레이어 붕괴 문제가 종종 발생합니다. 이러한 문제를 완화하기 위해 유니티는 변형 베이즈 프레임워크를 기반으로 계층적 이산 표현을 확률적으로 학습하는 새로운 통합 프레임워크, 즉 계층적으로 양자화된 변형 자동 인코더(HQ-VAE)를 제안합니다. HQ-VAE는 VQ-VAE-2 및 잔여 정량화 VAE(RQ-VAE)와 같은 VQ-VAE의 계층적 변형을 자연스럽게 일반화하여 베이지안 훈련 체계를 제공합니다. 이미지 데이터 세트에 대한 종합적인 실험을 통해 HQ-VAE가 코드북 사용을 개선하고 재구성 성능을 향상시키는 것으로 나타났습니다. 또한 오디오 데이터 세트를 통해 다른 모달리티에 대한 적용 가능성 측면에서도 HQ-VAE를 검증했습니다. [abs|pdf]

[64/85] Efficient Two-Phase Offline Deep Reinforcement Learning from Preference Feedback

Keywords: actions_second_learning, phase_learning_offline, preference_based_reinforcement
Abstract: 이 연구에서는 오프라인 선호도 기반 강화 학습 문제를 고려합니다. 우리는 기존의 인간 선호도 연구에서 널리 사용되는 2단계 학습 접근 방식에 초점을 맞춥니다. 오프라인 PBRL 환경에서 2단계 학습을 적용할 때 학습된 효용 모델이 두 번째 학습 단계에서 학습 에이전트가 최적화하기에는 너무 어려울 수 있다는 문제점을 발견했습니다. 이 문제를 극복하기 위해 액션 클리핑을 통한 행동 정규화 하에서 2단계 학습 접근법을 제안합니다. 데이터 세트에서 제대로 다루지 않는 상태 동작은 두 번째 학습 단계에서 제한된 정보만 제공하고 문제의 복잡성을 증가시킬 수 있다는 점에 착안한 것입니다. 우리의 방법은 두 번째 학습 단계에서 이러한 상태 동작을 무시하여 학습 효율성을 높입니다. 우리는 로봇 제어 환경의 다양한 데이터 세트에서 우리의 방법이 높은 학습 효율을 보인다는 것을 실증적으로 검증합니다. [abs|pdf]

[65/85] Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks

Keywords: calculations_reasoning_tasks, reasoning_tasks_red, reasoning_tasks
Abstract: 우리는 다양한 프롬프트 기법이 출력의 품질에 어떤 영향을 미치는지 평가하기 위해 기본 계산 및 대수 작업에 대한 LLM의 레드팀화 문제를 고려합니다. 수치 문제와 퍼즐을 절차적으로 생성하는 프레임워크를 제시하고, 여러 가지 레드팀 기법을 적용했을 때와 적용하지 않았을 때의 결과를 비교합니다. 연구 결과에 따르면 구조화된 추론과 연습 문제 제공이 답변의 품질 저하를 늦추기는 하지만, gpt-3.5-turbo 및 gpt-4 모델은 레드팀으로 구성된 경우에도 기본 계산 및 추론 작업에 적합하지 않은 것으로 나타났습니다. [abs|pdf]

[66/85] Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit

Keywords: deep_learning_code, learning_code_intelligence, existing_code_intelligence
Abstract: 코드 인텔리전스는 컴퓨터 프로그래밍의 품질과 생산성을 향상시키는 지능형 도구를 개발하기 위해 머신러닝 기술을 활용하여 광범위한 코드 코퍼라에서 지식을 추출합니다. 현재 소프트웨어 엔지니어링, 머신러닝, 데이터 마이닝, 자연어 처리, 프로그래밍 언어 등 다양한 분야에서 코드 인텔리전스에 초점을 맞춘 연구 커뮤니티가 이미 활발히 진행되고 있습니다. 이 백서에서는 코드 표현 학습, 딥러닝 기술 및 응용 작업 측면에서 코드 인텔리전스를 위한 딥러닝에 대한 포괄적인 문헌 검토를 수행합니다. 또한 코드 인텔리전스를 위한 여러 가지 최신 신경 모델을 벤치마킹하고 딥러닝 기반 코드 인텔리전스 모델의 신속한 프로토타이핑을 위한 오픈소스 툴킷을 제공합니다. 특히 코드 표현 학습을 기반으로 기존 코드 인텔리전스 모델을 점검하고, 코드 인텔리전스 현황에 대한 이해도를 높일 수 있도록 종합적인 개요를 제공합니다. 또한 커뮤니티에 즉시 사용 가능한 벤치마크를 제공하기 위해 소스 코드와 데이터 리소스를 공개하여 기존 및 미래 코드 인텔리전스 모델의 평가와 비교를 용이하게 합니다(이 https URL). 마지막으로, 향후 연구를 위한 몇 가지 도전적이고 유망한 방향을 제시합니다. [abs|pdf]

[67/85] BusReF: Infrared-Visible images registration and fusion focus on reconstructible area using one set of features

Keywords: image_registration_fusion, image_fusion, registration_fusion
Abstract: 멀티 모달 카메라가 함께 작동하는 시나리오에서는 정렬되지 않은 이미지로 작업하는 문제를 피할 수 없습니다. 하지만 기존의 이미지 융합 알고리즘은 다운스트림 고급 비전 작업의 성능을 개선하기 위해 엄격하게 등록된 입력 이미지 쌍에 크게 의존하여 보다 정밀한 융합 결과를 생성합니다. 이 가정을 완화하기 위해 이미지를 먼저 등록하는 방법을 시도할 수 있습니다. 그러나 여러 모달리티를 등록하는 기존의 방법은 복잡한 구조와 중요한 의미 정보에 의존하는 등의 한계가 있습니다. 이 백서에서는 이미지 등록 및 융합 문제를 BusRef라는 단일 프레임워크에서 해결하는 것을 목표로 합니다. 우리는 적외선-가시 이미지 등록 및 융합 작업(IVRF)에 초점을 맞춥니다. 이 프레임워크에서 입력된 정렬되지 않은 이미지 쌍은 세 단계를 거치게 됩니다: 거친 등록, 미세 등록, 융합의 세 단계를 거칩니다. 통합된 접근 방식이 보다 강력한 IVRF를 가능하게 한다는 것을 보여줄 것입니다. 또한 마스크를 사용하여 복원 불가능한 영역이 손실 함수에 미치는 영향을 줄여 융합 작업의 정확성과 견고성을 크게 향상시키는 새로운 훈련 및 평가 전략을 제안합니다. 마지막으로, 그라데이션 인식 융합 네트워크는 보완 정보를 보존하도록 설계되었습니다. 이 알고리즘의 고급 성능은 다음과 같이 입증됩니다 [abs|pdf]

[68/85] Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation

Keywords: dichotomous_image_segmentation, intelligence_segment_model, image_segmentation
Abstract: 모든 물체를 분할하는 것은 인공 일반 지능을 달성하기 위한 중요한 단계이며, '무엇이든 분할 모델(SAM)'은 컴퓨터 비전의 기초 모델 개발을 크게 발전시켰습니다. 저희는 SAM이 매우 정확한 이분법적 이미지 분할을 향상시킬 수 있을지에 대해 큰 기대를 걸고 있습니다. 실제로 이 글에서 제시된 증거는 간단한 프롬프트 박스로 SAM을 입력하고 SAM이 출력한 결과를 IS5Net의 입력으로 활용함으로써 고정밀 이분법 이미지 분할의 효과를 크게 향상시킬 수 있음을 보여줍니다. [abs|pdf]

[69/85] How to Evaluate Coreference in Literary Texts?

Keywords: textual_coreference_limitations, textual_coreference, evaluate_textual_coreference
Abstract: 이 짧은 백서에서는 텍스트 핵심 참조를 평가하는 데 사용되는 주요 지표를 살펴보고 그 한계에 대해 자세히 설명합니다. 고유한 점수가 문제의 복잡성을 모두 나타낼 수 없으며, 따라서 정보가 없거나 심지어 오해의 소지가 있음을 보여줍니다. 우리는 맥락을 고려하여 핵심 선호도를 평가하는 새로운 방법을 제안합니다(우리의 경우 소설, 특히 소설 분석). 보다 구체적으로, 우리는 긴 코어퍼런스 체인(주요 인물에 해당)과 짧은 코어퍼런스 체인(보조 인물에 해당), 그리고 싱글톤(고립된 요소)을 구분할 것을 제안합니다. 이렇게 하면 평가를 통해 더 해석하기 쉽고, 따라서 더 많은 정보를 얻을 수 있을 것으로 기대합니다. [abs|pdf]

[70/85] Transformer Multivariate Forecasting: Less is More?

Keywords: transformer_forecasting_framework, novel_transformer_forecasting, forecasting_transformer_models
Abstract: 다변량 예측 영역에서 트랜스포머 모델은 실제 상황의 복잡한 데이터 세트를 처리하는 데 탁월한 능력을 발휘하는 강력한 도구로 각광받고 있습니다. 그러나 수많은 변수와 긴 시간적 시퀀스로 특징지어지는 이러한 데이터 세트의 고유한 복잡성으로 인해 노이즈 증가와 모델 런타임 연장 등의 문제가 발생합니다. 이 백서에서는 중복 정보를 줄여 예측 정확도를 높이는 동시에 런타임 효율성을 최적화하는 데 중점을 둡니다. 이 문제를 해결하기 위해 주성분 분석(PCA)으로 강화된 새로운 변압기 예측 프레임워크를 제안합니다. 이 프레임워크는 5개의 최신(SOTA) 모델과 4개의 다양한 실제 데이터 세트를 통해 평가됩니다. 실험 결과는 프레임워크가 모든 모델과 데이터 세트에서 예측 오류를 최소화하는 동시에 런타임을 크게 단축하는 능력을 입증했습니다. 모델 관점에서 보면, PCA가 강화된 모델 중 하나입니다: PCA+크로스포머는 평균제곱오차(MSE)를 33.3% 줄이고 런타임을 평균 49.2% 단축합니다. 데이터 세트 관점에서 보면, 이 프레임워크는 전기 데이터 세트에서 14.3%의 MSE와 76.6%의 런타임을 줄이고, 교통 데이터 세트에서 4.8%의 MSE와 86.9%의 런타임을 줄입니다. 이 연구는 다양한 SOTA 모델을 발전시키고 복잡한 데이터에 대한 변압기 기반 시계열 예측을 향상시키는 것을 목표로 합니다. [abs|pdf]

[71/85] Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform

Keywords: transform_dysarthria_speech, algorithm_dysarthria_speech, linearity_dysarthric_speech
Abstract: 구음장애 음성에는 성대와 성대의 병리학적인 특성이 포함되어 있지만, 지금까지는 전통적인 음향학적 특징 세트에 포함되지 않았습니다. 또한 음성의 비선형성과 비정형성은 무시되어 왔습니다. 이 논문에서는 구음장애 음성을 위한 특징 향상 알고리즘인 WHFEMD를 제안합니다. 이 알고리즘은 경험적 모드 분해(EMD)와 빠른 월시-하다마드 변환(FWHT)을 결합하여 특징을 향상시킵니다. 제안된 알고리즘을 사용하면 먼저 구음 장애 음성의 고속 푸리에 변환을 수행한 다음 EMD를 수행하여 고유 모드 함수(IMF)를 얻습니다. 그런 다음 FWHT를 사용하여 새로운 계수를 출력하고 IMF, 전력 스펙트럼 밀도 및 향상된 감마 톤 주파수 세프스트랄 계수를 기반으로 통계적 특징을 추출합니다. 제안된 접근 방식을 평가하기 위해 UA Speech와 TORGO를 포함한 두 개의 공개 병리 음성 데이터베이스를 대상으로 실험을 수행했습니다. 그 결과, 우리의 알고리즘은 분류에서 기존 특징점보다 더 나은 성능을 보였습니다. 각각 13.8%(UA Speech), 3.84%(TORGO)의 개선 효과를 달성했습니다. 또한 데이터 불균형 문제를 해결하기 위해 불균형 분류 알고리즘을 통합한 결과 인식 정확도가 12.18% 향상되었습니다. 이 알고리즘은 불균형한 데이터 세트와 구음 장애의 비선형성 문제를 효과적으로 해결하는 동시에 성대 및 기관의 국소적인 병리학적 특징을 강력하게 표현할 수 있습니다. [abs|pdf]

[72/85] AI and Tempo Estimation: A Review

Keywords: ai_based_tempo, tempo_perception_ai, creativity_musical_tempo
Abstract: 이 백서에서 저자의 목표는 인공지능(AI)이 음악적 창의성의 중요한 측면인 음악적 템포를 이해하고 규모를 추정하는 데 어떻게 활용되었는지를 살펴보는 것입니다. 음악적 창의성에서 템포의 중요성은 특정 감정을 표현하는 데 템포가 어떻게 사용되는지(Eerola and Vuoskoski 2013), 특정 음악 스타일을 제안하는 데(Li and Chan 2011), 표현에 대한 인식에 영향을 미치는지(Webster와 Weir 2005), 음악에 맞춰 몸을 움직이고 싶은 충동을 중재하는 데(Burger 외 2014) 등을 통해 알 수 있습니다. 전통적인 템포 추정 방법은 일반적으로 음악의 기본 리듬 구조를 반영하는 신호 주기성을 감지하며, 종종 진폭 엔벨로프의 일종의 자기 상관 관계를 사용합니다(Lartillot and Toiviainen 2007). 최근에는 오디오 신호의 스펙트럼 표현에 컨볼루션 또는 순환 신경망(CNN, RNN)을 활용하는 AI 기반 방법이 정확도를 크게 향상시켰습니다(Aarabi and Peeters 2022). 일반적인 AI 기반 기술에는 확률 기반 기술(예: 베이지안 접근법, 숨겨진 마르코프 모델(HMM)), 분류 및 통계 학습(예: 서포트 벡터 머신(SVM)), 인공 신경망(ANN)(예: 자기 조직화 지도(SOM), CNN, RNN, 딥러닝(DL))이 포함됩니다. 이 글의 목적은 몇 가지 일반적인 AI 기반 템포 추정 알고리즘에 대한 개요를 제공하고 각 알고리즘의 주목할 만한 장점과 잠재적인 단점을 조명하는 것입니다. 또한 템포 인식에 내재된 특수성, 즉 AI 기반 접근 방식이 인간처럼 생각하고 행동하는 능력을 얼마나 잘 설명할 수 있는지에 대한 이러한 방법의 능력과 함께 일반적으로 이 분야에서 AI의 한계도 고려합니다. [abs|pdf]

[73/85] DiffHybrid-UQ: Uncertainty Quantification for Differentiable Hybrid Neural Modeling

Keywords: neural_differentiable_models, deep_ensemble_bayesian, uncertainties_modeled_hybrid
Abstract: 하이브리드 신경 미분 모델은 과학적 머신러닝 분야에서 중요한 진전을 이루었습니다. 알려진 물리학의 수치적 표현을 심층 신경망에 통합하는 이러한 모델은 향상된 예측 기능을 제공하며 복잡한 물리 시스템의 데이터 기반 모델링에 큰 잠재력을 보여줍니다. 그러나 아직까지 해결되지 않은 중요한 과제는 다양한 출처에서 비롯된 내재적 불확실성을 정량화하는 것입니다. 이러한 격차를 해소하기 위해 유니티는 딥 앙상블 베이지안 학습과 비선형 변환의 강점을 활용하여 하이브리드 신경 미분 가능 모델에서 효과적이고 효율적인 불확실성 전파 및 추정을 위한 새로운 방법인 DiffHybrid-UQ를 도입했습니다. 특히, 우리의 접근 방식은 데이터 노이즈로 인해 발생하는 알레토릭 불확실성과 모델 형식 불일치 및 데이터 희소성으로 인해 발생하는 인식적 불확실성을 효과적으로 식별하고 정량화합니다. 이는 베이지안 모델 평균화 프레임워크 내에서 이루어지며, 베이지안 모델 평균화 프레임워크는 하이브리드 신경 모델을 통해 비선형 불확실성을 모델링합니다. 무향 변환은 하이브리드 모델 내의 비선형 함수를 통해 이러한 불확실성의 흐름을 가능하게 하는 데 중추적인 역할을 합니다. 이와는 대조적으로, 인식적 불확실성은 확률적 경사 하강(SGD) 궤적의 앙상블을 사용하여 추정됩니다. 이 접근 방식은 네트워크 매개변수와 물리적 매개변수 모두의 사후 분포에 대한 실용적인 근사치를 제공합니다. 특히 DiffHybrid-UQ 프레임워크는 구현이 간단하고 확장성이 뛰어나 병렬 컴퓨팅 환경에 적합하도록 설계되었습니다. 제안된 방법의 장점은 일반 및 부분 미분 방정식이 적용되는 문제를 통해 입증되었습니다. [abs|pdf]

[74/85] ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained Language Models for Question Answering over Knowledge Graph

Keywords: answering_knowledge_graph, question_graph_neural, knowledge_graph_kgqa
Abstract: 지식 그래프를 통한 질의응답(KGQA)은 대규모 지식 그래프(KG)에서 자연어 질문에 대한 답변 개체를 찾는 것을 목표로 합니다. KG에 대한 추론을 더 잘 수행하기 위해 최근 연구에서는 일반적으로 사전 학습된 언어 모델(PLM)을 사용하여 질문을 모델링하고, 그래프 신경망~(GNN) 기반 모듈을 사용하여 KG에서 멀티홉 추론을 수행하는 방식을 채택하고 있습니다. 이러한 효과에도 불구하고 모델 아키텍처의 차이로 인해 PLM과 GNN이 긴밀하게 통합되지 않아 지식 공유와 세분화된 기능 상호 작용에 한계가 있습니다. 이를 해결하기 위해 위의 두 모듈 접근 방식을 단순화하고, KGQA를 위한 하위 그래프 추론을 직접 지원할 수 있는 보다 강력한 PLM, 즉 ReasoningLM을 개발하는 것을 목표로 합니다. 이 접근 방식에서는 구조화된 추론을 수행하기 위해 GNN을 모방하는 하위 그래프 인식 자가 주의 메커니즘을 제안하고, 합성 질문이 포함된 20,000개의 하위 그래프로 모델 파라미터를 조정하는 적응 튜닝 전략을 채택합니다. 적응 조정 후에는 다운스트림 작업에서 파라미터를 효율적으로 미세 조정할 수 있습니다. 실험 결과, ReasoningLM은 업데이트되는 파라미터와 학습 데이터의 수가 적은 경우에도 최신 모델을 큰 차이로 능가하는 것으로 나타났습니다. 코드와 데이터는 공개적으로 사용할 수 있습니다. [abs|pdf]

[75/85] Contrastive learning-based agent modeling for deep reinforcement learning

Keywords: learning_existing_agent, agent_adaptive_policy, learning_based_agent
Abstract: 멀티에이전트 시스템에서는 에이전트가 다양한 목표, 행동 또는 전략을 가진 다른 에이전트와 협업하거나 경쟁해야 하는 경우가 많습니다. 에이전트 모델링은 에고 에이전트가 다른 에이전트의 행동을 이해하고 의미 있는 정책 표현을 추출하는 수단이기 때문에 멀티에이전트 시스템에서 지능형 머신 에이전트를 위한 적응형 정책을 설계할 때 필수적입니다. 이러한 표현은 강화 학습으로 학습된 자아 에이전트의 적응형 정책을 강화하는 데 사용할 수 있습니다. 하지만 기존의 에이전트 모델링 접근 방식은 일반적으로 훈련 중에 다른 에이전트(모델링된 에이전트)의 로컬 관찰이 가능하거나 정책 적응을 위한 긴 관찰 궤적을 가정합니다. 이러한 제약적인 가정을 없애고 에이전트 모델링 성능을 개선하기 위해 유니티는 훈련 및 실행 중에 자아 에이전트의 로컬 관찰에만 의존하는 대조 학습 기반 에이전트 모델링(CLAM) 방법을 고안했습니다. 이러한 관찰을 통해 CLAM은 각 에피소드가 시작될 때부터 일관된 고품질 정책 표현을 실시간으로 생성할 수 있습니다. 우리는 협력적 환경과 경쟁적 다중 에이전트 환경 모두에서 접근 방식의 효율성을 평가했습니다. 실험을 통해 우리의 접근 방식이 협력 및 경쟁 작업 모두에서 최신 기술을 달성하며 강화 학습을 향상시키기 위한 대조 학습 기반 에이전트 모델링의 잠재력을 보여줬습니다. [abs|pdf]

[76/85] Diffusion Model with Perceptual Loss

Keywords: loss_diffusion_training, diffusion_models_trained, perceptual_loss_diffusion
Abstract: 평균 제곱 오차 손실로 훈련된 확산 모델은 비현실적인 샘플을 생성하는 경향이 있습니다. 현재의 최신 모델은 샘플 품질을 개선하기 위해 분류자 없는 안내에 의존하지만, 그 놀라운 효과는 완전히 이해되지 않았습니다. 이 논문에서는 분류기 없는 안내의 효과가 부분적으로 암묵적 지각 안내의 한 형태에서 기인한다는 것을 보여줍니다. 그 결과, 확산 훈련에 지각 손실을 직접 통합하여 샘플 품질을 개선할 수 있습니다. 확산 훈련에 사용되는 점수 매칭 목표는 지각 네트워크의 비지도 훈련에 사용되는 노이즈 제거 자동 인코더 목표와 매우 유사하기 때문에 확산 모델 자체가 지각 네트워크이며 의미 있는 지각 손실을 생성하는 데 사용할 수 있습니다. 우리는 보다 사실적인 샘플을 생성할 수 있는 확산 모델을 생성하는 새로운 자기 지각 목표를 제안합니다. 조건부 생성의 경우, 우리의 방법은 조건부 입력과 얽힘 없이 샘플 품질만 개선하므로 샘플의 다양성을 희생하지 않습니다. 또한, 기존 분류기 없는 가이드에서는 불가능했던 무조건 생성을 위한 샘플 품질도 개선할 수 있습니다. [abs|pdf]

[77/85] Causal State Distillation for Explainable Reinforcement Learning

Keywords: explanations_agent_action, reward_decomposition, explanations_agent
Abstract: 강화 학습(RL)은 지능형 에이전트를 훈련하는 강력한 기술이지만, 이러한 에이전트가 특정 결정을 내리는 이유를 이해하는 것은 상당히 어려울 수 있습니다. RL 모델의 투명성 부족은 오랫동안 제기되어 온 문제로, 사용자가 에이전트 행동의 이유를 파악하기 어렵게 만듭니다. 이 문제를 해결하기 위해 다양한 접근 방식이 모색되어 왔으며, 그 중 유망한 방법 중 하나는 보상 분해(RD)입니다. RD는 상담원의 행동을 사후적으로 합리화하려는 다른 방법과 관련된 몇 가지 우려를 피할 수 있다는 점에서 매력적입니다. RD는 훈련 중에 에이전트의 목표에 기여하는 보상의 다양한 측면을 노출하는 방식으로 작동합니다. 하지만 RD만으로는 주로 하위 보상에 기반한 인사이트를 제공하고 RL 에이전트의 신경 모델 내에서 발생하는 복잡한 원인과 결과 관계를 탐구하지 못한다는 한계가 있습니다. 이 백서에서는 보다 유익한 설명을 제공하기 위해 하위 보상을 뛰어넘는 RD의 확장을 제시합니다. 우리의 접근 방식은 인과적 요인의 세 가지 중요한 속성(인과적 충분성, 인과적 희소성, 인과적 직교성)을 장려하는 설명 목표를 위해 정보 이론적 측정을 활용하는 인과적 학습 프레임워크에 중점을 둡니다. 이러한 속성은 에이전트의 상태와 행동 또는 보상 간의 인과 관계를 추출하여 의사 결정 과정을 더 깊이 이해할 수 있도록 도와줍니다. 유니티의 프레임워크는 로컬 설명을 생성하도록 설계되었으며, 다양한 보상 채널이 있는 광범위한 RL 작업에 적용할 수 있습니다. 일련의 실험을 통해 유니티의 접근 방식이 에이전트의 행동 선택에 대해 더 의미 있고 통찰력 있는 설명을 제공한다는 것을 입증했습니다. [abs|pdf]

[78/85] Messenger and Non-Coding RNA Design via Expected Partition Function and Continuous Optimization

Keywords: rnas_discrete_optimization, rna_design_problem, mrna_design_problem
Abstract: 메신저 RNA와 비코딩 RNA를 설계하는 작업은 이산 최적화 문제이며, 이러한 문제의 여러 버전은 NP-하드입니다. 일반적으로 사용되는 로컬 검색 방법의 대안으로, 우리는 이러한 문제를 연속 최적화로 공식화하고 "예상 분할 함수"라는 새로운 개념을 기반으로 이러한 최적화를 위한 일반적인 프레임워크를 개발합니다. 기본 아이디어는 가능한 모든 후보 수열에 대한 분포로 시작하여 목적 함수를 수열에서 분포로 확장하는 것입니다. 그런 다음 경사 하강 기반 최적화 방법을 사용하여 확장된 목적 함수를 개선하면 분포가 점차 하나의 핫 시퀀스(즉, 단일 시퀀스)를 향해 축소됩니다. 우리는 이 프레임워크 내에서 파티션 함수(즉, 앙상블 자유 에너지)를 최적화하는 mRNA 설계 문제와 조건부(즉, 볼츠만) 확률을 최적화하는 비코딩 RNA 설계 문제라는 두 가지 중요한 사례 연구를 고려합니다. 두 경우 모두에서 우리의 접근 방식은 유망한 예비 결과를 보여줍니다. 이 https URL에서 코드를 확인할 수 있습니다. [abs|pdf]

[79/85] Self-supervised Pretraining for Decision Foundation Model: Formulation, Pipeline and Challenges

Keywords: self_supervised_pretraining, supervised_pretraining_downstream, pretraining_downstream_inference
Abstract: 의사 결정은 지각, 기억, 추론을 통해 선택을 내리고 최적의 정책을 찾는 역동적인 과정입니다. 의사 결정에 대한 기존의 접근 방식은 표본의 효율성과 일반화에 어려움을 겪는 반면, 대규모 자기 지도 사전 훈련은 언어와 시각에 대한 미세 조정 또는 단발성 학습을 통해 빠른 적응을 가능하게 했습니다. 따라서 우리는 일반적인 대규모 자기 지도 사전 훈련에서 얻은 지식을 다운스트림 의사 결정 문제에 통합해야 한다고 주장합니다. 사전 훈련 후 적응 파이프라인을 제안하고 의사 결정 사전 훈련 및 다운스트림 추론을 위한 데이터 수집, 사전 훈련 목표 및 적응 전략에 대한 최근 연구를 조사합니다. 마지막으로, 일반적이고 유연한 자가 감독 사전 학습을 통해 의사 결정 기반 모델을 개발하기 위한 중요한 과제와 향후 방향을 파악합니다. [abs|pdf]

[80/85] Distributional Reinforcement Learning-based Energy Arbitrage Strategies in Imbalance Settlement Mechanism

Keywords: distributional_reinforcement_learning, reinforcement_learning_drl, energy_arbitrage_imbalance
Abstract: 재생 에너지원의 보급이 증가함에 따라 공급의 불확실성이 커지고 시스템 불균형이 증가합니다. 이러한 추세는 단일 불균형 가격 책정과 함께 균형 책임자(BRP)가 불균형 정산 메커니즘에서 에너지 차익거래를 수행할 수 있는 기회를 열어줍니다. 이를 위해 저희는 분산 강화 학습(DRL)에 기반한 배터리 제어 프레임워크를 제안합니다. 우리가 제안하는 제어 프레임워크는 위험에 민감한 관점을 취하여 BRP가 위험 선호도를 조정할 수 있도록 합니다. 우리는 배터리의 일일 사이클 수를 제한하면서 차익거래 수익과 위험 측정값의 가중치 합을 최적화하는 것을 목표로 합니다. 2022년 벨기에 불균형 가격을 사용하여 제안한 통제 프레임워크의 성능을 평가하고 딥 Q 러닝과 소프트 액터 크리틱이라는 두 가지 최신 RL 방법을 비교합니다. 그 결과, 분포형 소프트 액터 크리티컬 방법이 다른 방법보다 성능이 뛰어나다는 것을 알 수 있었습니다. 또한, 완전 위험 회피 에이전트는 에이전트가 가격에 대해 더 확신할 때만 배터리를 충전함으로써 미지의 불균형 가격과 관련된 위험을 헤지하는 방법을 적절히 학습한다는 사실에 주목합니다. [abs|pdf]

[81/85] Explainable Identification of Hate Speech towards Islam using Graph Neural Networks

Keywords: hate_speech_islam, islam_using_graph, identifying_explaining_hate
Abstract: 이슬람 혐오 표현은 온라인 소셜 교류 플랫폼에서 만연한 문제입니다. 이러한 혐오를 식별하고 제거하는 것은 화합과 평화의 미래를 향한 중요한 단계입니다. 이 연구는 그래프 신경망을 사용하여 이슬람에 대한 혐오 표현을 식별하고 설명하는 새로운 패러다임을 제시합니다. 서로 다른 데이터 포인트 간의 관계를 찾고, 추출하고, 사용하는 그래프 신경망의 고유한 능력을 활용하여 이 모델은 근본적인 상관관계와 인과관계에 대한 설명을 제공하면서 지속적으로 뛰어난 성능을 달성합니다. [abs|pdf]

[82/85] Hybrid spreading mechanisms and T cell activation shape the dynamics of HIV-1 infection

Keywords: cell_hiv_spread, hiv_pathogenenesis_model, hiv_progression_vivo
Abstract: HIV-1은 두 가지 메커니즘, 즉 비리온의 유체상 확산에 따른 무세포 감염과 면역 세포 접촉에서 매우 효율적인 세포 간 직접 전파를 통해 감수성 세포 사이로 전파될 수 있습니다. 일부 중요한 컴퓨터 웜 발생의 특징이기도 한 이 하이브리드 확산 메커니즘이 생체 내 HIV-1 진행에 기여하는 바는 아직 알려지지 않았습니다. 여기에서는 HIV-1이 하이브리드 확산 메커니즘을 사용하는 능력을 명시적으로 통합하고 HIV-1 발병에 대한 결과를 평가하는 새로운 수학적 모델을 제시합니다. 이 모델은 치료 경험이 없는 환자 코호트의 HIV-1 감염 과정의 주요 단계를 포착하고 혈청 전환 시 단펄스 항레트로바이러스 치료(SPARTAC) 임상시험의 결과를 정확하게 예측합니다. 이 모델을 사용하면 하이브리드 확산이 감염의 씨앗을 뿌리고 확립하는 데 중요하며, 세포 간 확산과 CD4+ T 세포 활성화 증가가 HIV-1 진행에 중요하다는 것을 알 수 있습니다. 특히, 이 모델은 감염이 진행됨에 따라 세포 간 전파가 점점 더 효과적이므로 상당한 치료 장벽이 될 수 있다고 예측합니다. 다양한 치료법이 HIV-1 진행에 미치는 영향에 대한 예측을 도출함으로써 조기 개입의 중요성을 강조하고, 세포 간 HIV-1 확산을 효과적으로 표적으로 삼는 치료법이 에이즈로의 진행을 지연시킬 수 있음을 시사합니다. 이 연구는 하이브리드 확산이 HIV 감염의 근본적인 특징임을 시사하며, 향후 치료 전략을 평가하기 위해 이 특징을 통합하는 수학적 프레임워크를 제공합니다. [abs|pdf]

[83/85] LeoTask: a fast, flexible and reliable framework for computational research

Keywords: leotask_java, leotask_java_library, leotask
Abstract: LeoTask는 계산 집약적이고 시간이 많이 소요되는 연구 작업을 위한 Java 라이브러리입니다. 이 라이브러리는 컴퓨팅 시설의 여러 CPU 코어에서 작업을 자동으로 병렬로 실행합니다. 구성 파일을 사용해 매개변수 공간을 자동으로 탐색하고 결과를 유연하게 집계할 수 있으므로 연구자는 컴퓨팅 작업의 핵심 로직을 프로그래밍하는 데 집중할 수 있습니다. 또한 중단 시 안정적인 복구, 동적 및 복제 가능한 네트워크, 플로팅 소프트웨어인 Gnuplot과의 통합을 지원합니다. [abs|pdf]

[84/85] Optimizing Hybrid Spreading in Metapopulations

Keywords: hybrid_epidemics_spreading, epidemics_spreading_mechanism, viruses_epidemics_spread
Abstract: 전염병 확산 현상은 자연과 사회에서 어디에나 존재합니다. 질병, 정보, 컴퓨터 바이러스의 확산이 그 예입니다. 전염병은 감염된 노드가 제한된 범위의 직접 대상 노드만 감염시키는 로컬 확산과 감염된 노드가 다른 모든 노드를 감염시키는 글로벌 확산으로 확산될 수 있습니다. 실제로 많은 전염병은 두 가지 유형의 확산이 혼합된 방식으로 확산됩니다. 이 연구에서는 하이브리드 전염병을 연구하기 위한 이론적 틀을 개발하고, 최대 확산 규모를 달성하는 측면에서 확산 메커니즘 간의 최적 균형을 검토합니다. 우리는 어느 한 가지 확산 메커니즘만으로는 눈에 띄는 확산을 일으키지 못하지만 두 가지 확산 메커니즘이 결합하면 엄청난 확산을 일으킬 수 있는 치명적인 하이브리드 전염병의 존재를 보여줍니다. 우리의 연구 결과는 유익한 전염병을 극대화하고 피해를 주는 잡종 전염병의 최악의 결과를 예측하기 위한 새로운 전략을 제공합니다. [abs|pdf]

[85/85] Hybrid Epidemics - A Case Study on Computer Worm Conficker

Keywords: conficker_epidemic, capture_worm_spreading, worm_spreading_behaviour
Abstract: 컨피커는 2008년에 인터넷에서 발생한 컴퓨터 웜입니다. 이 웜은 로컬 프로빙, 이웃 프로빙, 글로벌 프로빙이라는 세 가지 확산 전략을 결합한 것이 특징입니다. 저희는 이 웜의 확산 양상을 파악하기 위해 로컬, 이웃, 글로벌의 세 가지 확산 모드를 결합한 수학적 모델을 제안합니다. 이 모델의 매개변수는 코니프커 유행 첫날에 얻은 네트워크 데이터에서 직접 추론합니다. 그런 다음 이 모델을 사용하여 웜의 효과를 결정할 때 확산 모드 간의 절충점을 탐색합니다. 연구 결과에 따르면 컨피커 전염병은 서로 다른 확산 방식이 분리되어서는 성공적인 전염병으로 이어지지 않는 매우 하이브리드적인 전염병의 한 예입니다. 이러한 하이브리드 확산 전략은 많은 사람들에게 정보를 전파하는 데 가장 효과적인 전략을 제공하는 데 유용하게 사용될 수 있습니다. 그러나 악의적으로 사용될 경우 현재의 인터넷 보안 프로토콜에 위험한 도전이 될 수 있습니다. [abs|pdf]