프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-17]

다각 2024. 2. 16. 19:50

[1/200] GATS: Gather-Attend-Scatter

Keywords: larger_multimodal_networks, games_robotics_multimodal, multimodal_networks_gats
Abstract: AI 커뮤니티에서 대규모 모델을 점점 더 많이 채택함에 따라 이를 통합할 수 있는 일반적이고 유연한 도구를 개발하는 것이 매우 중요해졌습니다. 유니티는 학습 가능 및 고정된 사전 학습된 기반 모델을 대규모 멀티모달 네트워크에 원활하게 결합할 수 있는 새로운 모듈인 GATS(Gather-Attend-Scatter)를 소개합니다. GATS는 AI 시스템이 여러 모달리티에서 다양한 속도로 정보를 처리하고 생성할 수 있도록 지원합니다. 기존의 미세 조정과 달리 GATS를 사용하면 원래의 구성 요소 모델을 고정된 상태로 유지할 수 있으므로 사전 학습 단계에서 획득한 중요한 지식을 잃을 위험을 피할 수 있습니다. 유니티는 게임, 로보틱스, 멀티모달 입출력 시스템 전반에 걸친 몇 가지 실험을 통해 GATS의 유용성과 다용도성을 입증합니다. [abs|pdf]

[2/200] Supporting Student Decisions on Learning Recommendations: An LLM-Based Chatbot with Knowledge Graph Contextualization for Conversational Explainability and Mentoring

Keywords: mentor_capabilities_chatbots, chatbots_conversational_explainability, chatbots_offer_potential
Abstract: 학습 추천에 대한 학생의 헌신은 학습 추천이 이루어진 이유에 대한 이해와 그러한 이해를 바탕으로 학습 추천을 수정할 수 있는 능력과 분리할 수 없습니다. 설명 가능성 접근 방식 중 챗봇은 동료나 멘토와의 토론과 유사하게 학생을 대화에 참여시킬 수 있는 잠재력을 제공합니다. 그러나 챗봇의 기능은 생성적 AI(GenAI)와 대규모 언어 모델(LLM)의 발전에도 불구하고 아직 인간 멘토를 대체하기에는 충분하지 않습니다. 따라서 본 연구에서는 챗봇을 대화의 중재자이자 제한적이고 통제된 설명 생성의 원천으로 활용하여 LLM의 잠재력을 활용하는 동시에 잠재적 위험을 줄이는 접근 방식을 제안합니다. 제안된 LLM 기반 챗봇은 학생들이 학습 경로 추천을 이해할 수 있도록 지원합니다. 사람이 큐레이션한 정보 소스로 지식 그래프(KG)를 사용하여 프롬프트의 컨텍스트를 정의함으로써 LLM의 출력을 조절합니다. 그룹 채팅 접근 방식은 필요에 따라 또는 챗봇의 사전 정의된 작업을 초과하는 경우 학생과 인간 멘토를 연결하기 위해 개발되었습니다. 사용자 연구를 통해 챗봇을 평가하여 개념 증명을 제공하고 대화형 설명 기능에서 챗봇을 활용하기 위한 잠재적인 요구 사항과 한계를 강조합니다. [abs|pdf]

[3/200] Decentralised Emergence of Robust and Adaptive Linguistic Conventions in Populations of Autonomous Agents Grounded in Continuous Worlds

Keywords: agents_establish_linguistic, concept_representations_agent, observe_environment_linguistic
Abstract: 이 백서에서는 자율 에이전트 집단이 환경에서 관찰되는 임의의 개체를 참조할 수 있는 언어 규칙을 설정할 수 있는 방법론을 소개합니다. 이 언어 규칙은 집단에서 추출된 에이전트 쌍 간의 로컬 커뮤니케이션 상호 작용을 통해 분산된 방식으로 나타납니다. 이 규칙은 연속적인 특징 공간에 기반을 둔 개념 표현(단어 의미)과 관련된 상징적 레이블(단어 형태)로 구성됩니다. 각 에이전트의 개념 표현은 개별적으로 구성되지만 의사소통 수준에서는 호환됩니다. 다양한 실험을 통해 (i) 이 방법론을 통해 집단이 의사소통적으로 효과적이고 일관되며 사람이 해석할 수 있는 언어 규칙으로 수렴할 수 있다는 점, (ii) 개별 에이전트의 센서 결함에 대해 자연적으로 견고하다는 점, (iii) 잡음이 많은 관찰, 보정되지 않은 센서 및 이질적인 집단을 효과적으로 처리할 수 있다는 점, (iv) 이 방법이 지속적인 학습에 적합하다는 점, (v) 규칙이 환경의 변화와 에이전트의 의사소통 요구에 스스로 적응한다는 점을 보여줬습니다. [abs|pdf]

[4/200] Reinforcement Learning for Conversational Question Answering over Knowledge Graph

Keywords: conversational_question_answering, answer_law_knowledge, answers_law_knowledge
Abstract: 법률 지식 베이스(KB)를 통한 대화형 질문 답변(ConvQA)은 법률에 관한 여러 차례의 자연어 질문에 답변하고 법률 지식 베이스에서 답을 찾기를 희망하는 작업입니다. 많은 방법이 제안되었지만 기존의 법률 지식 베이스 ConvQA 모델은 입력된 질문이 명확하고 사용자의 의도를 완벽하게 반영할 수 있다고 가정합니다. 그러나 현실에서는 입력된 질문이 불명확하고 노이즈가 많습니다. 따라서 이 모델은 법률 지식 기반에서 정답을 찾기가 어렵습니다. 이 논문에서는 이 문제를 해결하기 위해 강화 학습을 사용하려고 합니다. 강화학습 에이전트는 입력된 질문이 불명확한 경우에도 입력된 질문과 대화 내역을 기반으로 답을 찾는 방법을 자동으로 학습할 수 있습니다. 여러 실제 데이터 세트에 대해 제안된 방법을 테스트하고 그 결과 제안된 모델의 효과를 보여줍니다. [abs|pdf]

[5/200] PRewrite: Prompt Rewriting with Reinforcement Learning

Keywords: efficient_generated_prompts, manually_crafted_prompts, prompt_engineering_automation
Abstract: 신속한 엔지니어링은 LLM 기반 애플리케이션을 개발하는 데 매우 중요합니다. 그러나 일반적으로 '시행착오' 방식으로 수동으로 수행됩니다. 이러한 수동 절차는 시간이 많이 걸리고 비효율적일 수 있으며, 생성된 프롬프트는 많은 경우 최적이 아닌 경우가 많습니다. 잘 작동하는 것처럼 보이는 프롬프트의 경우에도 추가 수정을 통해 프롬프트를 개선할 수 없을까 하는 의문이 항상 남아 있습니다
이 백서에서는 이러한 의문을 해결하기 위해 프롬프트 엔지니어링 자동화에 대해 살펴봅니다. 개발자/사용자가 초기 프롬프트 초안을 작성했지만 이를 최적화할 시간이나 전문 지식이 부족한 특정 사용 사례 시나리오를 고려합니다. 이러한 초안을 다시 작성하고 매우 효과적인 새 프롬프트를 생성할 수 있는 자동화 도구인 PRewrite를 제안합니다. PRewrite는 엔드투엔드 최적화를 가능하게 하는 강화 학습(RL) 프레임워크를 기반으로 하며, 대규모 작업 공간에서 RL 검색을 수행할 수 있도록 설계되었습니다. 이 자동화된 도구는 수동으로 작성된 프롬프트를 시작점으로 활용하여 재작성 절차를 보다 안내적이고 효율적으로 만듭니다. 생성된 프롬프트는 이전 작업의 일부 프롬프트와 달리 사람이 읽을 수 있고 자명하게 설명되어 있습니다. 다양한 데이터 세트에 대한 광범위한 실험을 수행한 결과, 이 새로운 방법으로 생성된 프롬프트가 전문적으로 제작된 프롬프트뿐만 아니라 이전에 제안된 다른 방법으로 생성된 프롬프트보다 성능이 뛰어나다는 사실을 발견했습니다. [abs|pdf]

[6/200] Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination

Keywords: vision_language_models, vision_language_model, question_image_approach
Abstract: 복잡한 텍스트 기반 문제를 처리할 때, 특히 이러한 문제가 시각적 표현의 도움을 받을 수 있는 경우, 시각 언어 모델(VLM})의 잠재력은 종종 제대로 활용되지 못하고 있습니다. (1) 문제에서 시각적 다이어그램을 만들고 (2) 문제를 해결하기 위해 어떤 단계를 거쳐야 하는지 추론함으로써 복잡한 텍스트 기반 문제를 해결하는 인간의 능력에 착안하여, 우리는 Self-Imagine을 제안합니다. 우리는 단일 시각 언어 모델(VLM)을 활용하여 HTML을 사용하여 문제의 구조화된 표현을 생성한 다음, HTML을 이미지로 렌더링하고, 마지막으로 동일한 VLM을 사용하여 문제와 이미지를 모두 사용하여 문제에 답합니다. 우리의 접근 방식에는 추가적인 학습 데이터나 훈련이 필요하지 않습니다. 저희는 최첨단 VLM을 사용하여 3개의 수학 과제와 9개의 범용 추론 과제에서 접근 방식을 평가했습니다. 우리의 접근 방식은 모든 수학 과제(GSM8K: +4.62%; ASDIV: +4.49%; SVAMP: +9.30%)와 대부분의 범용 추론 과제의 성능을 0.4%에서 13.20%까지 향상시키는 동시에 다른 과제에서도 비슷한 성능을 달성합니다.
코드와 데이터는 이 https URL에 있습니다. [abs|pdf]

[7/200] Analysing the Needs of Homeless People Using Feature Selection and Mining Association Rules

Keywords: collected_homeless_data, surveys_homeless_people, homeless_data
Abstract: 노숙자는 유럽에서 큰 영향을 미치는 사회 및 보건 문제입니다. 많은 비정부기구가 노숙인에 대한 방대한 양의 정보를 수집하고 분석하여 노숙인을 돕고 있습니다. 하지만 이러한 작업은 항상 쉬운 일이 아니며, 조직의 다른 업무에 방해가 되기도 합니다. 이 문제를 해결하기 위해 SINTECH 프로젝트는 데이터를 빠르고 쉽게 수집할 수 있는 모바일 애플리케이션과 수집된 데이터에서 흥미로운 정보를 얻을 수 있는 인공지능 기반 소프트웨어라는 두 가지 도구를 제안했습니다. 첫 번째 도구는 스페인의 일부 단체에 배포되어 노숙자 설문조사에 사용되고 있습니다. 두 번째 도구는 다양한 특징 선택 및 연관 규칙 마이닝 방법을 구현합니다. 이러한 인공지능 기술을 통해 이전에 수집된 노숙자 데이터에서 가장 관련성이 높은 특징과 몇 가지 흥미로운 연관 규칙을 식별할 수 있었습니다. [abs|pdf]

[8/200] AI-as-exploration: Navigating intelligence space

Keywords: ai_exploration, exploring_intelligence_space, ai_exploration_creating
Abstract: 인공 지능은 많은 사람들의 삶에 영향을 미치는 분야이며, 이 용어는 다양한 과학적, 상업적 노력을 포괄하게 되었습니다. 이 논문에서 저는 인공지능이 수행해야 하는 다소 소홀하지만 핵심적인 과학적 역할의 윤곽을 '탐구로서의 인공지능'이라고 명명하며, 탐구로서의 인공지능의 기본 추동력은 우리가 익히 알고 있는 인간 및 동물 지능의 형태와는 다른 지능의 후보 구성요소를 밝혀낼 수 있는 시스템을 만들고 연구하는 것입니다. 다시 말해, 저는 AI가 지능 공간, 즉 가능한 지능형 시스템의 공간을 탐색하는 데 있어 우리가 가진 최고의 도구 중 하나라고 생각합니다. 저는 구체적인 사례 연구, 즉 인간과 대규모 언어 모델에서 새롭게 발명된 개념을 결합하는 능력에 대한 최근의 연구에 초점을 맞춰 탐험으로서의 AI의 가치를 설명합니다. 저는 후자가 그러한 작업에서 인간 수준의 정확도를 보임에도 불구하고 인간을 위해 가설된 것과는 근본적으로 다르지만 지능 연구와 관련이 없는 방식으로 문제를 해결할 가능성이 높다는 것을 보여줍니다. [abs|pdf]

[9/200] A Strategy for Implementing description Temporal Dynamic Algorithms in Dynamic Knowledge Graphs by SPIN

Keywords: reasoning_actions_embedded, reasoning_actions_processes, dl_action_formalisms
Abstract: 명제에 대한 추론뿐만 아니라 행동과 과정에 대한 계획과 추론은 최근 논리 및 컴퓨터 과학 연구에서 중요한 이슈입니다. IoT, 시맨틱 웹 서비스 등 일상 생활에서 액션이 널리 사용되는 것과 액션 형식주의의 한계와 문제점은 액션을 표현하는 방법에 대해 연구하게 하는 두 가지 요인입니다.
2007년부터 정적 지식과 동적 지식을 모두 표현하기 위해 설명 논리(DL)와 행동 형식주의를 통합하자는 아이디어가 나왔습니다. 한편 동적 상황에서는 시간이 중요한 요소이며, 행동은 시간이 지남에 따라 상태가 변합니다. 본 연구에서는 한편으로는 설명 논리(DL)의 확장, 시간 형식주의, 행동 형식주의 등 관련 논리 구조를 살펴보았습니다. 다른 한편으로는 지식 및 행동 기반(KAB)을 설계하고 개발하기 위한 가능한 도구를 분석했습니다.
액션에 대한 표현과 추론을 위해 액션을 DL(예: Dynamic-ALC 및 그 확장)에 포함시켰습니다. 우리는 액션의 예측, 계획, 만족도, 일관성, 실현 가능성, 실행 가능성 확인, 그리고 KAB로부터의 쿼리를 위한 종료 가능한 알고리즘을 제안합니다. 이 프레임워크의 액션은 SPIN으로 모델링되어 상태 공간에 추가되었습니다. 이 프레임워크는 프로토제 온톨로지 에디터를 위한 플러그인으로도 구현되었습니다.
지난 20년 동안 다양한 알고리즘이 제시되었지만 계산 복잡성이 높아 동적 온톨로지를 구현하는 데 많은 문제에 직면해 있습니다. 또한, 동작 효과의 불일치를 감지하는 알고리즘이 명시적으로 제시되지 않았습니다. 제안하는 전략에서는 모델링된 지식의 다른 부분과 액션의 상호작용, 그리고 액션의 효과 간의 일관성을 확인하는 방법을 제시합니다. 이러한 프레임워크를 통해 향후 연구에서 파급력 문제를 잘 처리할 수 있습니다. [abs|pdf]

[10/200] Explainable Predictive Maintenance: A Survey of Current Methods, Challenges and Opportunities

Keywords: explainable_predictive_maintenance, predictive_maintenance, predictive_maintenance_studied
Abstract: 예측 유지보수는 인공 지능과 머신 러닝을 사용하여 유지보수를 수행할 최적의 시간을 예측함으로써 기계 시스템의 수명을 연장하는 것을 목표로 하는 잘 연구된 기술 모음입니다. 이 방법을 통해 시스템과 하드웨어의 유지 관리자는 유지 관리에 드는 재정적, 시간적 비용을 절감할 수 있습니다. 이러한 방법은 생명을 위협할 수 있는 심각한 애플리케이션에 채택되기 때문에 운영자는 예측 시스템을 신뢰해야 합니다. 이러한 이유로 예측 시스템에 설명 가능성과 해석 가능성을 도입하기 위해 설명 가능한 AI(XAI) 분야가 주목받고 있습니다. XAI는 우수한 성능의 시스템을 유지하면서 사용자에 대한 신뢰를 증폭시킬 수 있는 방법을 예측 유지보수 분야에 제공합니다. 설명 가능한 예측 유지보수(XPM)에 관한 이 설문조사에서는 PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses) 2020 가이드라인을 준수하면서 예측 유지보수에 적용되는 현재 XAI의 방법에 대해 논의하고 제시합니다. 다양한 XPM 방법을 XAI 문헌을 따르는 그룹으로 분류합니다. 또한 현재 당면 과제와 향후 XPM 연구 방향에 대한 논의도 포함되어 있습니다. [abs|pdf]

[11/200] When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and Alignment

Keywords: agents_6g_networks, mobile_edge_llm, llm_agents_6g
Abstract: 멀티모달 대규모 언어 모델(LLM) 기반의 AI 에이전트는 인간과 컴퓨터의 상호작용을 혁신하고 의료, 교육, 제조, 엔터테인먼트 등 다양한 영역에서 보다 개인화된 비서 서비스를 제공할 것으로 기대됩니다. 6G 네트워크에 LLM 에이전트를 배포하면 사용자가 모바일 디바이스를 통해 이전에는 고가였던 AI 비서 서비스에 민주적으로 액세스할 수 있으므로 상호 작용 지연 시간을 줄이고 사용자 개인 정보를 더 잘 보호할 수 있습니다. 하지만 모바일 디바이스의 제한된 용량으로 인해 로컬 LLM을 배포하고 실행하는 데 제약이 따르기 때문에 장거리 상호 작용 시에는 복잡한 작업을 엣지 서버에서 실행되는 글로벌 LLM으로 오프로드해야 합니다. 이 글에서는 모바일 디바이스와 엣지 서버 간의 협업을 활용하여 6G 네트워크에서 LLM 에이전트를 위한 분할 학습 시스템을 제안합니다. 이 시스템은 서로 다른 역할을 가진 여러 개의 LLM이 모바일 디바이스와 엣지 서버에 분산되어 사용자-에이전트 간 대화형 작업을 공동으로 수행합니다. 제안된 시스템에서 LLM 에이전트는 인식, 접지, 정렬 모듈로 나뉘어 통합 감지 및 통신, 디지털 트윈, 작업 중심 통신 등 6G 네트워크 기능에 대한 확장된 사용자 요구 사항을 충족하기 위해 모듈 간 통신을 용이하게 합니다. 또한, 제안된 시스템 내에서 LLM을 위한 새로운 모델 캐싱 알고리즘을 도입하여 컨텍스트에서 모델 활용도를 개선함으로써 협업 모바일 및 에지 LLM 에이전트의 네트워크 비용을 절감합니다. [abs|pdf]

[12/200] Combining Machine Learning and Ontology: A Systematic Literature Review

Keywords: machine_learning_ontologies, ontologies_artificial_intelligence, learning_deductive_reasoning
Abstract: 귀납적 추론과 연역적 추론을 결합하는 과정을 탐구하고 싶다는 동기에 따라 머신러닝과 온톨로지의 통합을 연구하는 논문에 대한 체계적인 문헌 검토를 수행했습니다. 머신러닝에 의해 수행되는 귀납적 추론과 온톨로지에 의해 수행되는 연역적 추론을 인공지능 시스템에 통합하는 다양한 기법을 파악하는 것이 목표였습니다. 128개의 연구를 분석한 결과, 머신러닝과 온톨로지 간의 하이브리드화에는 학습 강화 온톨로지, 시맨틱 데이터 마이닝, 학습 및 추론 시스템이라는 세 가지 주요 범주가 있음을 확인할 수 있었습니다. 이 모든 카테고리에 대한 종합적인 검토를 통해 연구에 활용된 다양한 머신러닝 알고리즘을 강조했습니다. 또한, 하이브리드 AI 및 신경 기호학적 접근법 분야의 유사한 최근 연구와 우리의 분류를 비교했습니다. [abs|pdf]

[13/200] Inferring Preferences from Demonstrations in Multi-Objective Residential Energy Management

Keywords: infer_preferences_energy, preferences_energy_consumption, demonstration_based_preference
Abstract: 다목적 의사 결정 문제에서 사용자가 자신의 선호도를 정확하게 표현하는 것은 종종 어려운 일입니다. 데모 기반 선호도 추론(DemoPI)은 이러한 문제를 완화할 수 있는 유망한 접근 방식입니다. 에너지 고객의 행동과 가치를 이해하는 것은 선호도 추론을 사용하여 비용과 편안함 등 여러 목표를 가진 에너지 고객의 가치에 대한 인사이트를 얻을 수 있는 시나리오의 한 예입니다. 이 연구에서는 다중 목표 주거용 에너지 소비 환경에서 최첨단 DemoPI 방법, 즉 동적 가중치 기반 선호도 추론(DWPI) 알고리즘을 적용하여 규칙 기반 접근 방식에 따라 시뮬레이션된 사용자의 에너지 소비 데모로부터 선호도를 추론했습니다. 실험 결과에 따르면, DWPI 모델은 세 가지 시나리오에서 정확한 데모 기반 선호도 추론을 달성했습니다. 이러한 발전은 에너지 관리에서 다목적 강화 학습(MORL)의 유용성과 효과를 향상시켜 보다 직관적이고 사용자 친화적인 선호도 사양을 가능하게 하고, DWPI가 실제 환경에 적용될 수 있는 가능성을 열어줍니다. [abs|pdf]

[14/200] Go-Explore for Residential Energy Management

Keywords: reinforcement_learning, reinforcement_learning_algorithms, rewards_energy_control
Abstract: 강화 학습은 주거용 에너지 관리, 특히 에너지 비용 최적화를 위해 일반적으로 적용됩니다. 그러나 RL 에이전트는 에너지 제어 영역에서 특히 확률적 보상을 통해 기만적이고 희박한 보상을 처리할 때 종종 어려움에 직면합니다. 이러한 상황에서는 최적의 정책을 학습하기 위해 철저한 탐색이 매우 중요합니다. 하지만 안타깝게도 탐색 메커니즘은 기만적인 보상 신호에 의해 오도될 수 있어 철저한 탐색을 어렵게 만듭니다. Go-Explore는 효율적인 탐색을 위해 계획 방법과 강화 학습 방법을 결합한 알고리즘 제품군입니다. 우리는 주거용 에너지 관리 문제에서 비용 절감 과제를 해결하기 위해 Go-Explore 알고리즘을 사용하여 잘 알려진 강화 학습 알고리즘에 비해 최대 19.84%의 개선을 달성했습니다. [abs|pdf]

[15/200] Learning Explainable and Better Performing Representations of POMDP Strategies

Keywords: strategy_resulting_automaton, automaton_directly_pomdp, automaton_representation_strategy
Abstract: 부분적으로 관측 가능한 마르코프 결정 과정(POMDP)을 위한 전략은 일반적으로 메모리를 필요로 합니다. 이 메모리를 표현하는 한 가지 방법은 오토마타를 이용하는 것입니다. 여기서는 L* 알고리즘을 사용하여 전략의 오토마톤 표현을 학습하는 방법을 소개합니다. 전략을 표로 표현하는 것과 비교했을 때, 오토마타의 결과물은 훨씬 더 작고 설명하기 쉽습니다. 게다가 학습 과정에서 휴리스틱이 전략의 성능을 향상시킬 수도 있습니다. POMDP에서 직접 오토마톤을 합성하여 문제를 푸는 접근 방식과 달리, 우리의 접근 방식은 비교할 수 없을 정도로 확장성이 뛰어납니다. [abs|pdf]

[16/200] Formal Logic Enabled Personalized Federated Learning Through Property Inference

Keywords: temporal_logic_reasoning, symbolic_reasoning_capabilities, reasoning_capabilities
Abstract: 최근 연합 학습(FL)의 발전으로 특히 사물 인공지능(AIoT) 영역에서 분산형 협업 애플리케이션의 개발이 크게 촉진되었습니다. 그러나 현재 연구 환경에서 누락된 중요한 측면은 기호적 추론 기능을 갖춘 데이터 기반 클라이언트 모델을 구현하는 능력입니다. 특히, 각 클라이언트가 고유한 논리 추론 속성을 나타내기 때문에 참여하는 클라이언트 디바이스의 고유한 이질성은 중요한 과제를 제기합니다. 이러한 디바이스별 사양을 고려하지 않으면 클라이언트 예측에서 중요한 속성이 누락되어 성능이 최적화되지 않을 수 있습니다. 이 연구에서는 이 문제를 해결하기 위해 시간적 논리 추론을 활용하는 새로운 학습 패러다임을 제안합니다. 이 접근 방식은 각 FL 클라이언트에 대해 기계적으로 생성된 논리 표현식을 통합하여 훈련 프로세스를 개선하는 것입니다. 또한 집계 클러스터의 개념을 도입하고 시간적 추론 속성의 정렬에 따라 클라이언트를 효과적으로 그룹화하기 위한 파티셔닝 알고리즘을 개발합니다. 15개 주의 센싱 데이터로 구성된 실제 교통량 예측 과제와 합성 데이터를 활용한 스마트시티 멀티태스크 예측 과제 두 가지를 대상으로 제안한 방법을 평가합니다. 평가 결과, 모든 순차적 예측 모델에서 최대 54%까지 성능 정확도가 향상되는 등 뚜렷한 개선 효과가 나타났습니다. [abs|pdf]

[17/200] Generalized Planning for the Abstraction and Reasoning Corpus

Keywords: planning_abstract_reasoning, abstraction_reasoning_corpus, planning_abstract
Abstract: 추상화 및 추론 코퍼스(ARC)는 추론과 추상화에 중점을 둔 유동적인 지능을 요구하기 때문에 순수한 머신러닝 방법에는 어려움을 주는 일반적인 인공 지능 벤치마크입니다. 이 작업에서는 ARC 솔버인 일반화된 추론 계획(GPAR)을 소개합니다. 이 솔루션은 ARC 문제를 일반화된 계획(GP) 문제로 캐스팅하며, 여기서 솔루션은 포인터가 있는 계획 프로그램으로 형식화됩니다. 객체 중심 추상화를 나타내는 외부 함수와 결합된 표준 계획 도메인 정의 언어(PDDL)를 사용하여 각 ARC 문제를 표현합니다. 우리는 액션 모델, 술어, 인수 및 계획 프로그램의 유효한 구조에 대한 제한의 형태로 ARC에 특정한 도메인 지식을 통해 GP 솔버를 확장하는 방법을 보여줍니다. 실험을 통해 GPAR이 ARC의 객체 중심 작업에서 최첨단 솔버보다 성능이 뛰어나다는 것을 입증하고, ARC 문제를 모델링하는 데 있어 GP의 효과와 PDDL의 표현력을 보여줍니다. ARC 벤치마크가 제공하는 과제는 기존 GP 솔버를 발전시키고 다른 계획 계산 모델과의 새로운 관계를 이해하기 위한 연구에 동기를 부여합니다. 코드는 이 http URL에서 확인할 수 있습니다. [abs|pdf]

[18/200] Reliability and Interpretability in Science and Deep Learning

Keywords: epistemic_complexity_dnn, model_epistemic_complexity, epistemic_complexity_interpretability
Abstract: 최근 몇 년 동안 머신 러닝(ML) 방법의 신뢰성에 대한 문제가 중요해지면서 관련 불확실성에 대한 분석에 대한 연구가 활발히 진행되고 있습니다. 그러나 이러한 연구의 대부분은 표준 오차 분석을 ML 모델, 특히 심층 신경망(DNN) 모델에 적용했으며, 이는 표준 과학 모델링에서 다소 벗어난 것입니다. 따라서 표준오차 분석을 DNN 모델과 표준 과학 모델 간의 가능한 차이점과 이러한 차이가 신뢰성 평가에 미칠 수 있는 영향에 대한 보다 심층적인 인식론적 분석과 통합할 필요가 있습니다. 이 글은 몇 가지 공헌을 합니다. 첫째, 이론이 없는 과학이라는 환상에 맞서 모델 가정(ML과 전통 과학 모두에서)의 편재적 역할을 강조합니다. 둘째, 모델 가정은 (인식론적) 복잡성의 관점에서 분석되며, 이는 언어와 무관한 것으로 나타났습니다. DNN 모델의 높은 인식적 복잡성은 모델의 신뢰성 추정과 장기적인 발전 전망을 방해한다고 주장합니다. 이에 대한 몇 가지 잠재적인 개선 방안을 제시합니다. 셋째, 이 글에서는 책임감 있는 AI의 맥락에서 소개된 것처럼 모델의 인식적 복잡성과 해석 가능성 사이의 밀접한 관계를 확인합니다. 이를 통해 모델에 대한 이해 부족(블랙박스 문제)이 개인의 기술과 무관한 방식으로 해석 가능성에 어떤 의미와 어느 정도 영향을 미치는지 명확히 설명합니다. 또한 해석 가능성이 통계적 분석만으로는 평가할 수 없는 모델의 신뢰성을 평가하기 위한 전제 조건임을 명확히 합니다. 이 글에서는 전통적인 과학 모델과 DNN 모델의 비교에 초점을 맞춥니다. 하지만 랜덤 포레스트와 로지스틱 회귀 모델도 간략하게 살펴봅니다. [abs|pdf]

[19/200] Small LLMs Are Weak Tool Learners: A Multi-LLM Agent

Keywords: large_language_model, planner_caller_summarizer, language_model_llm
Abstract: 대규모 언어 모델(LLM) 에이전트는 독립형 LLM의 기능을 크게 확장하여 외부 도구(예: API, 함수)와 상호 작용하고 자기 주도적인 방식으로 복잡한 작업을 완료할 수 있도록 지원합니다. 도구 사용의 어려움으로 인해 LLM은 사용자 쿼리를 이해하고 답변을 생성할 뿐만 아니라 작업 계획, 메모리 관리, 도구 호출 및 결과 요약에 있어서도 탁월한 능력을 발휘해야 합니다. 기존의 접근 방식은 이러한 모든 기능을 갖춘 단일 LLM을 학습시키는 데 중점을 두지만, 특히 규모가 작은 모델에서는 성능의 한계가 분명해집니다. 또한 도구가 업데이트되면 전체 LLM을 다시 학습시켜야 할 수도 있습니다. 이러한 문제를 극복하기 위해 앞서 언급한 기능을 플래너, 호출자, 요약자로 분해하는 새로운 전략을 제안합니다. 각 구성 요소는 특정 기능에 초점을 맞추고 다른 구성 요소와 협업하여 작업을 수행하는 단일 LLM으로 구현됩니다. 이 모듈식 프레임워크는 개별적인 업데이트와 각 기능을 구축하기 위한 더 작은 LLM의 잠재적 사용을 용이하게 합니다. 이 프레임워크를 효과적으로 훈련하기 위해 2단계 훈련 패러다임을 도입했습니다. 먼저, 하위 작업을 구분하지 않고 전체 데이터 세트에 대해 백본 LLM을 미세 조정하여 모델에 작업에 대한 포괄적인 이해를 제공합니다. 둘째, 미세 조정된 LLM은 플래너, 호출자, 요약자를 각각 인스턴스화하는 데 사용되며, 각 서브 태스크에 대해 지속적으로 미세 조정됩니다. 다양한 도구 사용 벤치마크에 대한 평가 결과, 우리가 제안한 다중 LLM 프레임워크는 기존의 단일 LLM 접근 방식을 능가하며 도구 학습에서 그 효율성과 이점을 강조합니다. [abs|pdf]

[20/200] MapGPT: Map-Guided Prompting for Unified Vision-and-Language Navigation

Keywords: guided_global_exploration, encourage_map_guided, thinking_path_planning
Abstract: GPT를 두뇌로 탑재한 구현 에이전트는 다양한 작업에서 뛰어난 사고력과 의사결정 능력을 보여 왔습니다. 그러나 기존의 시각-언어 내비게이션(VLN)을 위한 제로 샷 에이전트는 에이전트가 전체 환경을 이해할 수 있는 효과적인 '글로벌 뷰'(예: 일반적으로 사용되는 지도)를 구축하지 않고 GPT에게 과도한 환경 정보를 처리하고 국지적인 환경 내에서 잠재적 위치를 선택하도록 유도합니다. 이 연구에서는 제로 샷 VLN 작업을 위한 새로운 지도 안내 GPT 기반 경로 계획 에이전트인 MapGPT를 소개합니다. 구체적으로, 온라인에서 구축된 토폴로지 맵을 프롬프트로 변환하여 맵 가이드 글로벌 탐색을 장려하고, 에이전트가 로컬 탐색에 갇히지 않도록 다단계 경로 계획을 명시적으로 출력하고 업데이트하도록 요구합니다. 광범위한 실험을 통해 MapGPT가 효과적이라는 것이 입증되었으며, R2R 및 REVERIE 데이터 세트에서 각각 38.8%와 28.4%의 성공률을 기록하며 GPT 모델의 새로운 글로벌 사고 및 경로 계획 기능을 선보였습니다. 여러 데이터 세트의 다양한 명령어 스타일을 수용하기 위해 별도의 매개변수 미세 조정이나 특정 프롬프트 설계가 필요했던 기존 VLN 에이전트와 달리, 유니티의 MapGPT는 이 분야 최초로 다양한 명령어 스타일에 원활하게 적응할 수 있어 통합성이 더욱 강화되었습니다. [abs|pdf]

[21/200] Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models

Keywords: personality_traits_open, personalities_using_open, emulate_human_personalities
Abstract: 대규모 언어 모델(LLM)에서 인간과 유사한 행동을 보이는 에이전트가 등장하면서 자연어 처리와 인간 심리가 더욱 밀접하게 연결되었고, 이는 컴퓨터 에이전트의 확산으로 이어졌습니다. 학자들은 LLM 에이전트가 보여주는 고유한 성격을 연구하고 인간의 특성과 행동을 에이전트에 통합하려는 시도를 해왔습니다. 그러나 이러한 노력은 주로 상업적으로 라이선스가 부여된 LLM에 집중되어 왔으며, 오픈 LLM의 광범위한 사용과 주목할 만한 발전은 무시되어 왔습니다. 이 연구는 개방형 LLM을 사용하여 에이전트가 인간의 성격을 모방하는 능력에 대한 포괄적인 조사를 수행함으로써 이러한 격차를 해소하는 것을 목표로 합니다. 이를 위해 가장 대표적인 개방형 모델을 기반으로 10개의 LLM 에이전트 세트를 생성한 후, 마이어스-브릭스 유형 지표(MBTI) 테스트와 관련된 일련의 평가를 실시합니다. 우리의 접근 방식은 개방형 LLM 에이전트의 내재적 성격 특성을 평가하고 특정 성격과 역할에 따라 이러한 에이전트가 인간의 성격을 어느 정도 모방할 수 있는지 파악하는 것입니다. 연구 결과는 다음과 같습니다: (i)$ 각 Open LLM 에이전트는 고유한 인간 성격을 보여줍니다. (ii)$ 성격 조건부 프롬프트는 에이전트에게 다양한 영향을 미치며, 부과된 성격을 성공적으로 반영하는 에이전트는 소수에 불과하고 대부분은 '폐쇄적'(즉, 고유한 특성을 유지)입니다. (iii)$ 역할과 성격 조건을 결합하면 에이전트의 인간 성격 모방 능력이 향상될 수 있으며 (iv)$ 일반적으로 교사 역할과 관련된 성격이 더 정확하게 모방되는 경향이 있습니다. 이번 연구는 오픈 러닝 머신의 렌즈를 통해 NLP와 인간 심리 사이의 밀접한 관계를 이해하는 데 한 걸음 더 나아간 것입니다. [abs|pdf]

[22/200] Aquarium: A Comprehensive Framework for Exploring Predator-Prey Dynamics through Multi-Agent Reinforcement Learning Algorithms

Keywords: learning_environment_predator, multiple_prey_agents, multi_agent_reinforcement
Abstract: 최근 다중 에이전트 강화 학습의 발전으로 시뮬레이션 환경에서 에이전트 간의 복잡한 상호 작용을 모델링하는 것이 가능해졌습니다. 특히 포식자와 먹이 간의 역학 관계에 대한 관심이 높아지면서 다양한 시뮬레이션이 고유한 요구사항에 맞게 조정되고 있습니다. 이에 유니티는 포식자-먹이 상호작용을 위한 종합적인 다중 에이전트 강화 학습 환경인 Aquarium을 도입하여 돌발 행동을 연구할 수 있도록 지원합니다. Aquarium은 오픈 소스이며 PettingZoo 프레임워크와 원활하게 통합되어 있어 검증된 알고리즘 구현으로 빠르게 시작할 수 있습니다. 2차원 에지 래핑 평면에서 물리 기반 에이전트 이동이 특징입니다. 에이전트와 환경 간의 상호 작용(관찰, 행동, 보상) 및 환경 설정(에이전트 속도, 먹이 번식, 포식자 굶주림 등)을 완벽하게 사용자 지정할 수 있습니다. 리소스를 효율적으로 사용하는 시각화 외에도 Aquarium은 비디오 파일 녹화를 지원하여 에이전트의 행동을 시각적으로 이해할 수 있습니다. 환경의 기능을 입증하기 위해 유니티는 PPO를 사용하여 다수의 먹이 에이전트가 포식자를 피하도록 훈련하는 예비 연구를 수행했습니다. 문헌에 따르면 개별 학습은 조정 및 샘플 효율을 크게 개선하는 매개변수 공유보다 성능이 떨어지는 것으로 나타났습니다. [abs|pdf]

[23/200] Distance-aware Attention Reshaping: Enhance Generalization of Neural Solver for Large-scale Vehicle Routing Problems

Keywords: solvers_based_attention, neural_solver_trained, neural_solvers_large
Abstract: 주의집중 메커니즘에 기반한 신경망 솔버는 차량 경로 탐색 문제 해결에 뛰어난 효과를 보여왔습니다. 그러나 소규모에서 대규모로 일반화하는 과정에서 기존 신경 솔버에서 주의점수가 분산되는 현상이 발견되어 성능이 저하되는 문제가 있습니다. 이 문제를 해결하기 위해 본 논문에서는 신경 솔버가 대규모 차량 경로 문제를 해결할 수 있도록 지원하는 거리 인식 주의 재구성 방법을 제안합니다. 특히 추가 학습 없이도 현재 노드 간의 유클리드 거리 정보를 활용하여 주의 점수를 조정합니다. 이를 통해 소규모 인스턴스로 훈련된 신경 솔버가 대규모 문제를 해결할 때 합리적인 선택을 할 수 있도록 합니다. 실험 결과, 제안한 방법은 대규모 CVRPLib 데이터 세트에서 기존의 최신 신경 솔버보다 훨씬 뛰어난 성능을 보였습니다. [abs|pdf]

[24/200] Modeling Latent Selection with Structural Causal Models

Keywords: latent_selection_causal, causal_models_latent, causal_inference_generalized
Abstract: 선택 편향은 실제 데이터에서 어디에나 존재하며, 적절히 처리하지 않으면 잘못된 결과를 초래할 수 있습니다. 인과적 관점에서 잠재적 선택을 모델링하기 위해 구조적 인과 모델(SCM)에 조건부 연산을 도입합니다. 이 조건부 연산을 통해 명시적인 잠재 선택 메커니즘이 있는 SCM을 그러한 선택 메커니즘이 없는 SCM으로 변환하고, 원래 SCM에 따라 선택된 하위 모집단의 인과적 의미를 부분적으로 인코딩할 수 있음을 보여줍니다. 또한 이러한 컨디셔닝 연산이 SCM의 단순성, 비주기성, 선형성을 유지하며 한계화와 조화를 이룬다는 것을 보여줍니다. 이러한 특성 덕분에 주변화 및 개입과 결합된 조건부 연산은 잠재적 세부 사항이 추상화된 인과 모델 내에서 인과적 추론 작업을 수행하는 데 유용한 도구를 제공합니다. 인과 추론의 고전적인 결과를 선택 편향을 포함하도록 일반화할 수 있는 방법과 조건부 연산이 실제 문제를 모델링하는 데 어떻게 도움이 되는지 예시를 통해 보여드립니다. [abs|pdf]

[25/200] TONE: A 3-Tiered ONtology for Emotion analysis

Keywords: emotion_based_ontology, emotions_addition_ontology, emotions_classified_using
Abstract: 감정은 심리학, 의학, 정신 건강, 컴퓨터 과학 등 여러 분야에서 중요한 역할을 해왔으며, 감정을 분류하는 것은 한 감정을 다른 감정과 구분하는 데 매우 유용하다는 것이 입증되었습니다. 감정은 다음 두 가지 방법을 사용하여 분류할 수 있습니다. (1) 감독 방법의 효율성은 수집된 데이터의 크기와 영역에 따라 크게 달라집니다. 한 도메인의 관련 데이터를 사용하여 설정한 분류가 다른 도메인에서는 잘 작동하지 않을 수 있습니다. (2) 도메인 전문 지식이나 감정 유형에 대한 지식 기반을 사용하는 비지도 방식이 이미 존재합니다. 이 두 번째 접근 방식은 적절하고 일반적인 감정 분류를 제공하고 비용 효율적이지만, 감정 분류 관련 작업에 직접 적용할 수 있는 공개적으로 이용 가능한 지식 기반이 없습니다. 따라서 여러 도메인에 걸쳐 감정 분류에 사용할 수 있는 지식 기반을 만들어야 하며, 이를 위해 온톨로지가 자주 사용됩니다. 본 연구에서는 제로드 패럿 박사의 감정 그룹을 기반으로 감정 계층구조를 효과적으로 생성하는 감정 기반 온톨로지인 TONE을 제공합니다. 온톨로지 개발과 더불어 반자동 어휘 구성 프로세스를 도입하여 계층 구조의 각 계층에서 감정에 대한 세부적인 용어 모음을 생성합니다. 또한 서로 다른 감정 간의 연결을 개발하기 위해 세 가지 종류의 종속성을 설정하는 자동화된 방법을 시연합니다. 수작업 및 자동 평가 결과는 온톨로지의 품질을 보여줍니다. 또한 온톨로지의 적용 가능성을 보여주는 세 가지 사용 사례를 설명합니다. [abs|pdf]

[26/200] Graph-of-Thought: Utilizing Large Language Models to Solve Complex and Dynamic Business Problems

Keywords: workflow_automation_enhances, model_workflow_automation, workflow_automation
Abstract: 이 백서에서는 복잡한 작업을 실행할 때 대규모 언어 모델(LLM)의 유연성과 효율성을 향상시키는 새로운 워크플로 자동화 모델인 생각 그래프(Graph-of-Thought, GoT)를 소개합니다. GoT는 동적 경로 선택을 가능하게 하는 그래프 구조로 기존의 선형 및 트리형 인지 모델을 뛰어넘습니다. 오픈 소스 엔진인 GoTFlow는 다양한 영역에서 데이터 기반의 자동화된 의사결정을 촉진하는 GoT의 실제 적용 사례를 보여줍니다. 복잡성과 투명성의 문제에도 불구하고 비즈니스 프로세스를 개선할 수 있는 GoTFlow의 잠재력은 상당하며, 지속적인 개발을 통해 효율성과 의사 결정 품질이 모두 향상될 것으로 예상됩니다. [abs|pdf]

[27/200] Greedy Algorithm for Inference of Decision Trees from Decision Rule Systems

Keywords: converting_decision_trees, decision_trees, decision_trees_systems
Abstract: 의사 결정 트리와 의사 결정 규칙 시스템은 분류기, 지식 표현 도구, 알고리즘으로서 중요한 역할을 합니다. 의사 결정 트리와 의사 결정 규칙 시스템은 데이터 분석을 위해 쉽게 해석할 수 있는 모델이기 때문에 컴퓨터 과학 분야에서 널리 사용되고 연구되고 있습니다. 이 두 모델 간의 관계를 이해하는 것은 이 분야에서 중요한 작업입니다. 의사 결정 트리를 의사 결정 규칙 시스템으로 변환하는 잘 알려진 방법이 있습니다. 이 논문에서는 그렇게 간단하지 않은 역변환 문제를 고려합니다. 본 연구에서는 전체 의사결정 트리를 구성하는 대신 주어진 속성 값의 튜플에 대한 의사결정 트리의 작동을 시뮬레이션하는 탐욕스러운 다항식 시간 알고리즘에 초점을 맞춥니다. [abs|pdf]

[28/200] PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas Hold'em via Large Language Model

Keywords: information_poker_games, textual_information_poker, poker_games
Abstract: 텍사스 홀덤으로도 알려진 포커는 불완전 정보 게임(IIG)의 대표적인 연구 대상이 되어 왔습니다. IIG는 오랫동안 인공 지능(AI) 개발의 척도로 사용되어 왔습니다. 딥스택과 리브라투스와 같은 대표적인 선행 연구들은 헤드업 노리미 포커를 해결하기 위해 역사실 후회 최소화(CFR)에 크게 의존하고 있습니다. 그러나 후속 연구자들이 이전 모델에서 CFR을 학습하여 다른 실제 애플리케이션에 적용하는 것은 CFR 반복에 따른 고가의 계산 비용으로 인해 어렵습니다. 또한 게임 트리 크기가 기하급수적으로 증가하기 때문에 멀티플레이어 게임에는 CFR을 적용하기 어렵습니다. 본 연구에서는 임의의 수의 플레이어와 함께 텍사스 홀덤을 플레이하고 높은 승률을 얻기 위한 엔드투엔드 솔버로, 경량 대규모 언어 모델(LLM)에 구축된 PokerGPT를 소개합니다. PokerGPT는 의사 결정 조언을 생성하기 위해 포커 게임에 대한 간단한 텍스트 정보만 필요하므로 AI와 인간 간의 편리한 상호 작용을 보장합니다. 주로 실제 게임에서 획득한 텍스트 기록 세트를 프롬프트로 변환하고, 강화 학습 휴먼 피드백 기법을 사용하여 사전 학습된 경량 LLM을 미세 조정하는 데 사용합니다. 미세 조정 성능을 향상시키기 위해 유용한 정보를 필터링하고 승률이 높은 플레이어의 행동을 선별한 후 여러 프롬프트 엔지니어링 기법을 사용하여 텍스트 명령어로 추가 처리하는 등 원시 데이터에 대한 프롬프트 엔지니어링을 수행합니다. 실험을 통해 PokerGPT가 승률, 모델 크기, 훈련 시간, 응답 속도 측면에서 기존 접근 방식보다 뛰어난 성능을 보여줌으로써 IIG를 해결하는 데 있어 LLM의 잠재력이 크다는 것을 입증했습니다. [abs|pdf]

[29/200] MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

Keywords: multisensory_embodied, multisensory_embodied_large, embodied_large_language
Abstract: 인간은 3D 세계를 능동적으로 탐색하고 상호작용하면서 다양한 다감각적 단서를 복합적으로 활용할 수 있는 능력을 가지고 있습니다. 그러나 현재의 다중 모드 대규모 언어 모델은 수동적으로 감각 데이터를 입력으로 흡수하기 때문에 3D 환경의 사물과 능동적으로 상호작용하고 다감각 정보를 동적으로 수집할 수 있는 능력이 부족합니다. 이에 본 연구에서는 시각, 청각, 촉각, 열 정보를 포함한 다감각 인터랙티브 데이터를 대형 언어 모델에 통합하여 말, 행동, 지각 간의 상관관계를 규명할 수 있는 다감각 구현 대형 언어 모델인 멀티플라이(MultiPLY)를 제안합니다. 이를 위해 먼저 3D 환경과 상호작용할 수 있는 LLM 기반의 구현 에이전트를 배포하여 50만 개의 데이터로 구성된 대규모 멀티센서 인터랙션 데이터 세트인 멀티센서 유니버스(Multisensory Universe)를 수집합니다. 이렇게 생성된 데이터에 대해 사전 학습된 LLM으로 인스트럭션 튜닝을 수행하기 위해 먼저 3D 장면을 추상화된 객체 중심 표현으로 인코딩한 다음, 구현된 에이전트가 환경 내에서 특정 동작을 수행함을 나타내는 액션 토큰과 각 시간 단계에서 에이전트의 멀티센서 상태 관찰을 나타내는 상태 토큰을 도입합니다. 추론 시간에는 멀티플라이가 액션 토큰을 생성하여 에이전트가 환경에서 해당 액션을 취하고 다음 멀티센스 상태 관찰을 얻도록 지시할 수 있습니다. 그런 다음 관찰은 상태 토큰을 통해 LLM에 다시 추가되어 후속 텍스트 또는 액션 토큰을 생성합니다. 멀티플라이는 객체 검색, 도구 사용, 멀티센서 캡션, 작업 분해 등 다양한 구현 작업을 통해 기준선보다 큰 폭으로 성능이 향상되었음을 입증했습니다. [abs|pdf]

[30/200] Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data

Keywords: cross_modal_learning, trained_multi_modal, improves_cross_modal
Abstract: 크로스 모달 애플리케이션을 구축하는 것은 쌍을 이루는 멀티 모달 데이터가 제한되어 있기 때문에 어렵습니다. 최근 연구에 따르면 사전 학습된 다중 모달 대비 표현 공간을 활용하면 단일 모달 데이터에서 크로스 모달 작업을 학습할 수 있는 것으로 나타났습니다. 이는 대비 최적화를 통해 서로 다른 모달리티의 임베딩을 상호 교환할 수 있다는 가정을 기반으로 합니다. 그러나 이 가정은 모달리티 갭이 존재하는 다중 모달 대비 공간의 기하학적 구조에 대한 이해가 부족하기 때문에 제대로 연구되지 않았습니다. 본 연구에서는 이 공간의 기하학에 대한 이론적 설명을 제공하고, 3단계 방법인 $C^3$(연결, 축소, 손상)을 도입하여 모달리티 갭을 해소하고 임베딩의 상호 교환성을 향상시킵니다. 유니티의 $C^3$ 방법은 단일 모달 데이터에서 크로스 모달 학습을 크게 개선하여 제로 샷 이미지/오디오/비디오 캡션 및 텍스트-대-이미지 생성에서 최첨단 결과를 달성합니다. [abs|pdf]

[31/200] Explaining Time Series via Contrastive and Locally Sparse Perturbations

Keywords: datasets_contralsp_outperforms, datasets_contralsp, world_datasets_contralsp
Abstract: 다변량 시계열을 설명하려면 시계열에서 중요한 위치를 파악하고 복잡한 시간적 패턴을 일치시켜야 하므로 복잡한 문제가 발생합니다. 이전의 중요도 기반 방법은 이러한 문제를 해결했지만, 특히 이질적인 샘플에서 피할 수 없는 분포 이동 문제를 완화하지 못할 수 있습니다. 이 글에서는 사실과 다른 샘플을 도입하여 비정보적인 섭동을 구축하지만 대조 학습을 사용하여 분포를 유지하는 국소 희소 모델인 ContraLSP를 소개합니다. 또한, 샘플별 희소 게이트를 통합하여 시간적 추세를 쉽게 통합하고 두드러진 특징을 간결하게 선택할 수 있는 보다 이분법적으로 왜곡되고 매끄러운 마스크를 생성합니다. 합성 데이터 세트와 실제 데이터 세트에 대한 경험적 연구에 따르면 ContraLSP는 최신 모델보다 성능이 뛰어나 시계열 데이터에 대한 설명 품질이 크게 개선된 것으로 나타났습니다. 코드 검토는 https://anonymous.4open.science/r/ContraLSP-1146/ 에서 가능합니다 [abs|pdf]

[32/200] DiConStruct: Causal Concept-based Explanations through Black-Box Distillation

Keywords: advances_ai_explainability, ai_explainability, ai_explainability_recent
Abstract: 모델 해석 가능성은 인간과 인공지능의 의사결정 시스템에서 핵심적인 역할을 합니다. 이상적으로 설명은 인간이 해석할 수 있는 의미적 개념을 사용하여 표현되어야 합니다. 또한 설명자가 설명에 대한 추론을 할 수 있도록 이러한 개념 간의 인과 관계를 파악할 수 있어야 합니다. 마지막으로, 설명 방법은 효율적이어야 하며 예측 작업의 성능을 저하시키지 않아야 합니다. 최근 몇 년 동안 AI 설명 능력이 급속도로 발전했지만, 현재까지 이 세 가지 특성을 모두 충족하는 방법은 없습니다. 실제로 국부적 개념 설명성을 위한 주류 방법은 인과적 설명을 생성하지 못하며 설명성과 예측 성능 사이에 상충 관계가 발생합니다. 저희는 구조적 인과 모델과 개념 속성의 형태로 보다 해석 가능한 국소적 설명을 생성하는 것을 목표로 개념 기반이면서 인과적인 설명 방법인 DiConStruct를 제시합니다. 설명자는 각각의 설명을 생성하면서 예측을 근사화하여 모든 블랙박스 머신러닝 모델의 증류 모델 역할을 합니다. 따라서 DiConStruct는 블랙박스 예측 작업에 영향을 주지 않으면서도 효율적으로 설명을 생성합니다. 이미지 데이터 세트와 표 형식의 데이터 세트에 대한 검증을 통해 DiConStruct가 다른 개념 설명성 기준선보다 더 높은 충실도로 블랙박스 모델을 근사화하면서 개념 간의 인과 관계를 포함하는 설명을 제공한다는 것을 보여줍니다. [abs|pdf]

[33/200] MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level Image-Concept Alignment

Keywords: human_interpretable_concepts, interpretable_concepts, explainable_artificial_intelligence
Abstract: 블랙박스 딥러닝 접근 방식은 의료 이미지 분석 분야에서 상당한 잠재력을 보여주었습니다. 하지만 의료 분야에 내재된 엄격한 신뢰성 요건으로 인해 설명 가능한 인공 지능(XAI)의 활용에 대한 연구가 촉발되었으며, 특히 개념 기반 방식에 중점을 두고 있습니다. 기존의 개념 기반 방법은 주로 단일 관점(예: 글로벌 수준)에서 개념 주석을 적용하기 때문에 의료 이미지에 포함된 하위 영역과 개념 간의 미묘한 의미 관계를 무시합니다. 이로 인해 귀중한 의료 정보가 제대로 활용되지 못하고, 개념 병목 현상과 같이 본질적으로 해석 가능한 아키텍처를 사용할 때 모델이 해석 가능성과 성능의 균형을 조화롭게 맞추지 못할 수 있습니다. 이러한 단점을 완화하기 위해 이미지 수준, 토큰 수준, 개념 수준을 아우르는 여러 계층에서 의료 이미지와 임상 관련 개념을 의미론적으로 세심하게 정렬하는 다중 모드 설명 가능한 질병 진단 프레임워크를 제안합니다. 또한, 이 방법은 모델 개입을 허용하고 사람이 해석할 수 있는 개념에 대해 텍스트와 시각적 설명을 모두 제공합니다. 세 가지 피부 이미지 데이터 세트에 대한 실험 결과는 우리의 방법이 모델 해석 가능성을 유지하면서 개념 감지 및 질병 진단을 위한 높은 성능과 라벨 효율성을 달성한다는 것을 보여줍니다. [abs|pdf]

[34/200] Harnessing Orthogonality to Train Low-Rank Neural Networks

Keywords: svd_weights_training, orthogonality_neural_networks, decomposition_svd_weights
Abstract: 이 연구는 훈련 과정에서 가중치의 특이값 분해(SVD)를 분석하여 신경망의 학습 역학을 탐구합니다. 연구 결과, 각 다차원 가중치의 SVD 표현 내 직교 기반이 훈련 중에 안정화된다는 사실이 밝혀졌습니다. 이를 바탕으로 유니티는 신경망의 내재적 직교성을 활용하는 새로운 훈련 방법인 직교 정보 기반 적응형 로우랭크(OIALR) 훈련을 도입했습니다. 다양한 데이터 세트와 잘 정립된 네트워크 아키텍처에 대한 벤치마킹을 통해 입증된 바와 같이, OIALR은 정확도 손실을 최소화하면서 기존 훈련 워크플로우에 원활하게 통합됩니다. 적절한 하이퍼파라미터 튜닝을 통해 OIALR은 최첨단 모델을 포함한 기존의 훈련 설정을 뛰어넘을 수 있습니다. [abs|pdf]

[35/200] Solving Continual Offline Reinforcement Learning with Decision Transformer

Keywords: offline_continuous_learner, offline_reinforcement_learning, task_learning_replay
Abstract: 지속적 오프라인 강화 학습(CORL)은 지속적 강화 학습과 오프라인 강화 학습을 결합하여 상담원이 이전 작업을 잊지 않고 정적 데이터 세트에서 여러 작업을 학습할 수 있도록 합니다. 하지만 CORL은 안정성과 가소성의 균형을 맞추는 데 어려움이 있습니다. 액터-크리틱 구조와 경험 재생(ER)을 사용하는 기존 방식은 분포 변화, 낮은 효율성, 약한 지식 공유 등의 문제를 안고 있습니다. 본 연구에서는 또 다른 오프라인 RL 패러다임인 의사결정 트랜스포머(DT)가 이러한 문제를 해결하는 데 더 적합한 오프라인 지속적 학습자 역할을 할 수 있는지 살펴보고자 합니다. 먼저 CORL 프레임워크에서 AC 기반 오프라인 알고리즘과 DT를 비교합니다. DT는 학습 효율성, 분포 편차 완화, 제로 샷 일반화 등의 이점을 제공하지만 감독된 파라미터 업데이트 중 망각 문제를 악화시킵니다. DT의 망각 문제를 완화하기 위해 멀티헤드 DT(MH-DT)와 로우랭크 적응 DT(LoRA-DT)를 도입했습니다. MH-DT는 여러 개의 헤드를 사용하여 작업별 지식을 저장하여 공통 구성 요소와의 지식 공유를 용이하게 합니다. 리플레이 버퍼를 사용할 수 있는 경우 증류 및 선택적 리허설을 사용하여 현재 작업 학습을 향상시킵니다. 버퍼를 사용할 수 없는 시나리오에서는 LoRA-DT가 영향력이 적은 가중치를 병합하고 DT의 결정적인 MLP 레이어를 미세 조정하여 현재 작업에 맞게 조정합니다. MoJuCo 및 Meta-World 벤치마크에 대한 광범위한 실험을 통해 유니티의 방법이 SOTA CORL 기준선을 능가하고 향상된 학습 기능과 뛰어난 메모리 효율성을 보여줬음을 입증했습니다. [abs|pdf]

[36/200] Security and Privacy Issues and Solutions in Federated Learning for Digital Healthcare

Keywords: federated_learning_enabled, federated_learning, advent_federated_learning
Abstract: 연합 학습의 등장으로 마치 상당한 양의 데이터로 학습한 것처럼 고성능 모델을 만들 수 있게 되었습니다. 데이터를 공개하거나 수집할 필요 없이 다수의 참여자와 서버가 협력하여 모델을 훈련할 수 있습니다. 엄격한 데이터 정책으로 인해 데이터 수집이 더 이상 불가능하기 때문에 보안과 개인정보 보호가 가장 중요한 의료 산업은 이 새로운 학습 패러다임의 이점을 크게 누릴 수 있습니다. 그럼에도 불구하고 해결되지 않은 과제와 불충분한 공격 완화 기능으로 인해 도입이 저해되고 있습니다. 공격 표면은 서버와 클라이언트가 각 학습 라운드 사이에서 통신한다는 점에서 기존의 중앙 집중식 학습과 다릅니다. 따라서 이 백서에서는 확장된 공격 표면을 기반으로 취약점, 공격, 방어에 대해 설명하고 보다 강력한 FL을 위한 유망한 새로운 연구 방향을 제시합니다. [abs|pdf]

[37/200] CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models

Keywords: lifelong_cognitive_dynamics, cognitive_simulation_llm, cognitive_dynamics_empirical
Abstract: 인지 역학은 세계에 대한 인간의 이해를 발전시키는 데 핵심적인 역할을 합니다. 최근 대규모 언어 모델(LLM)의 발전으로 인지 시뮬레이션에 대한 잠재력이 드러나고 있습니다. 하지만 이러한 LLM 기반 인지 연구는 주로 정적 모델링에 초점을 맞추고 있어 인지의 동적 특성을 간과하고 있습니다. 이러한 간극을 좁히기 위해 본 논문에서는 종단 연구에서 영감을 받아 LLM의 인지 역학 개념을 제안하고 그에 상응하는 과제를 제시합니다. 이 과제를 수행하기 위해 우리는 LLM의 인지 역학을 평가하는 새로운 벤치마크인 CogBench를 개발하고 참여자 설문조사를 통해 이를 검증합니다. 또한 진정성과 합리성이라는 두 가지 평가 지표를 설계합니다. LLM의 고유한 정적 특성을 인식하고, 평생 인지 역학을 향상시키기 위한 혁신적인 반복적 인지 메커니즘을 특징으로 하는 CogGPT를 과제에 도입했습니다. 경험적 결과는 특히 지속적인 정보 흐름 하에서 역할별 인지 역학을 촉진하는 능력에서 기존 방법보다 CogGPT의 우수성을 입증합니다. [abs|pdf]

[38/200] Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions

Keywords: model_machine_translation, machine_translation, machine_translation_tools
Abstract: 생성형 대규모 언어 모델(LLM)은 기계 번역, 질의응답, 텍스트 요약, 자연어 이해 등 다양한 자연어 처리(NLP) 작업에서 탁월한 능력을 입증해 왔습니다.
기계 번역에서 LLM의 성능을 더욱 향상시키기 위해 페르시아어, 영어, 러시아어의 언어 간 조합에 초점을 맞춰 널리 사용되는 두 가지 프롬프트 방법과 그 조합에 대한 조사를 실시했습니다. 이를 위해 엔샷 피딩과 맞춤형 프롬프트 프레임워크를 사용했습니다. 연구 결과에 따르면 PaLM과 같은 다국어 LLM은 스타일 가이드라인과 언어적 고려 사항에 따라 원하는 번역 뉘앙스를 탁월하게 미세 조정할 수 있어 인간과 유사한 기계 번역 결과물을 보여줍니다. 이러한 모델은 프롬프트 처리 및 적용에도 탁월합니다. 그러나 프롬프트 프레임워크를 채택하고 엔샷 인컨텍스트 학습을 활용할 때는 언어 모델, 기계 번역 작업, 특정 소스 및 대상 언어의 선택에 따라 특정 사항을 고려해야 합니다.
또한 기계 번역 도구로서 널리 사용되는 LLM에 내재된 오류와 한계를 파악하고 다양한 언어 메트릭을 기반으로 분류했습니다. 이러한 오류 유형화는 LLM을 효과적으로 활용하기 위한 귀중한 인사이트를 제공하고 문맥 내 학습을 위한 프롬프트를 설계하는 방법을 제시합니다. 이 보고서는 평가 지표의 정확성과 신뢰성을 모두 개선하여 LLM을 통한 기계 번역의 발전에 기여하는 것을 목표로 합니다. [abs|pdf]

[39/200] U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts

Keywords: document_layout_analysis, layout_analysis_dataset, truth_segmentation_maps
Abstract: 문서 페이지 내부의 다양한 의미 영역을 식별하는 작업인 문서 레이아웃 분석은 컴퓨터 과학자와 인문학자 모두에게 큰 관심을 끄는 주제입니다. 전자의 경우 추가 분석 작업을 위한 기본 단계이고 후자의 경우 문서 연구를 개선하고 용이하게 하는 강력한 도구이기 때문입니다. 그러나 현재 문헌에 존재하는 많은 저작물, 특히 이용 가능한 데이터 세트의 경우 두 분야의 요구를 모두 충족시키지 못하고 있으며, 특히 컴퓨터 과학 쪽의 요구와 일반적인 관행에 치우쳐 있어 인문학의 실제 요구를 대표하지 못하는 리소스를 제공하는 경향이 있습니다. 이러한 이유로 본 논문에서는 컴퓨터 비전과 인문학 분야의 전문가들이 긴밀히 협력하여 개발한 픽셀 단위의 정밀하고 중첩되지 않으며 노이즈가 없는 새로운 문서 레이아웃 분석 데이터셋인 U-DIADS-Bib을 소개합니다. 또한, 실측 데이터 세분화 지도를 생성하는 데 필요한 시간이 많이 소요되는 수작업 주석 처리의 부담을 덜어주기 위해 컴퓨터가 지원하는 새로운 세분화 파이프라인을 제안합니다. 마지막으로, 가능한 한 적은 수의 샘플로 이 작업을 처리할 수 있는 모델과 솔루션의 개발을 장려하여 많은 수의 세분화를 수집하는 것이 항상 가능하지 않은 실제 시나리오에서 보다 효과적으로 사용할 수 있도록 표준화된 데이터 세트의 몇 샷 버전(U-DIADS-BibFS)을 제시합니다. [abs|pdf]

[40/200] Interrogating AI: Characterizing Emergent Playful Interactions with ChatGPT

Keywords: playful_interactions_ai, technology_emergent_playful, investigating_playful_interactions
Abstract: AI의 역량과 영향력이 커지는 시대에 최근의 발전으로 인해 HCI와 CSCW는 AI를 단순한 도구로 바라보는 시각이 바뀌고 있습니다. 사용자가 끊임없이 변화하는 기술을 이해할 수 있는 방법으로 AI 시스템과의 유쾌한 상호 작용이 자연스럽게 등장했습니다. 그러나 이러한 새로운 유희적 상호작용에 대한 조사는 제대로 이루어지지 않고 있습니다. 크리테오는 최근 주목받고 있는 강력한 AI 기술인 ChatGPT의 사용자들이 보여주는 유희적 상호작용을 조사하여 이러한 격차를 해소하고자 합니다. ChatGPT 하위 레딧에서 사용자가 생성한 372개의 게시물을 주제별로 분석한 결과, 사용자 담론의 상당 부분이 유희적인 상호작용을 중심으로 이루어지고 있음을 발견했습니다. 이 분석을 통해 이러한 상호작용을 설명할 수 있는 예비 분류법을 구축할 수 있었고, 이를 반영하기, 농담하기, 모방하기, 도전하기, 속이기, 고안하기의 여섯 가지 유형으로 분류하고 각 유형에는 하위 범주를 포함시켰습니다. 전반적으로 이 연구는 AI와의 유희적 상호작용의 다면적인 특성을 조명하고 인간과 AI의 관계를 형성하는 데 있어 그 중요성을 강조함으로써 HCI 및 CSCW 분야에 기여하고 있습니다. [abs|pdf]

[41/200] A Micro Architectural Events Aware Real-Time Embedded System Fault Injector

Keywords: faults_essential_timing, fault_injection, fault_injections
Abstract: 오늘날 시스템의 복잡성이 증가함에 따라 SACRES의 신뢰성, 신뢰성 및 보안에 중대한 도전이 제기되고 있습니다. 주요 문제로는 순간 전압 스파이크, 전자기 간섭, 중성자 충돌, 범위를 벗어난 온도와 같은 현상에 대한 취약성이 있습니다. 이러한 요인들은 트랜지스터의 스위치 상태 변화를 유도하여 비트 플립, 소프트 에러, 메모리에 저장된 데이터의 일시적인 손상을 초래할 수 있습니다. 소프트 에러가 발생하면 시스템 결함으로 이어져 시스템이 위험한 상태에 빠질 수 있습니다. 특히 자동차, 항공 전자 공학, 항공 우주와 같은 중요한 분야에서는 이러한 오작동이 현실 세계에 영향을 미쳐 잠재적으로 개인에게 해를 끼칠 수 있습니다.
이 백서에서는 마이크로 아키텍처 이벤트의 모니터링, 집계, 검사를 용이하게 하도록 설계된 새로운 결함 인젝터를 소개합니다. 이는 마이크로프로세서의 PMU와 디버깅 인터페이스를 활용하여 이루어지며, 특히 결함 주입의 반복성을 보장하는 데 중점을 둡니다. 결함 주입 방법론은 메모리 시스템 내에서 CPU 레지스터와 RAM에 영향을 미치는 비트 플립을 대상으로 합니다. 이러한 결함 주입의 결과를 통해 소프트 오류의 영향을 철저히 분석하고 식별된 결함과 SACRES에서 요구하는 필수적인 타이밍 예측 가능성 간의 강력한 상관관계를 확립할 수 있습니다. [abs|pdf]

[42/200] Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine

Keywords: image_comprehension_recall, comprehension_recall_medical, rationales_image_comprehension
Abstract: 최근 연구에 따르면 Generative 사전 훈련형 트랜스포머 4 with Vision(GPT-4V)은 의료 문제 과제에서 인간 의사보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 그러나 이러한 평가는 주로 객관식 문제의 정확도에만 초점을 맞춘 것이었습니다. 이번 연구에서는 의료 전문가의 지식과 진단 능력을 테스트하기 위해 고안된 이미지 퀴즈인 뉴잉글랜드 저널 오브 메디슨(NEJM)의 이미지 챌린지를 풀 때 GPT-4V의 이미지 이해력, 의학 지식 회상, 단계별 복합 추론 능력에 대한 종합적인 분석을 수행하여 기존 범위를 확장했습니다. 평가 결과, 객관식 정답률에서 GPT-4V가 인간 의사를 능가하는 것으로 나타났습니다(88.0% 대 77.0%, p=0.034). GPT-4V는 의사가 오답을 맞힌 경우에도 80% 이상의 정확도로 우수한 성능을 보였습니다. 그러나 GPT-4V가 올바른 최종 선택을 하는 경우(27.3%)에는 종종 결함이 있는 근거를 제시하는 것으로 나타났으며, 이는 이미지 이해(21.6%)에서 가장 두드러지게 나타났습니다. 객관식 문항에서 GPT-4V의 높은 정확도에도 불구하고, 이번 연구 결과는 이러한 모델을 임상 워크플로우에 통합하기 전에 그 근거에 대한 심층적인 평가가 필요하다는 점을 강조합니다. [abs|pdf]

[43/200] Deep Learning-based Group Causal Inference in Multivariate Time-series

Keywords: networks_infer_causal, causal_inference_nonlinear, group_causality_methods
Abstract: 다변량 시계열의 비선형 시스템에서 인과 관계 추론은 변수 간의 복잡한 관계망을 풀어내는 데 중요한 역할을 하며, 이를 통해 보다 정확한 예측을 하고 실제 복잡한 시스템에 대한 심층적인 인사이트를 얻을 수 있습니다. 인과관계 방법은 일반적으로 각 변수 쌍의 인과 관계를 고려하면서 변수 그룹의 집단 효과 또는 두 개 이상의 시계열 변수와 관련된 상호작용을 무시하여 다변량 시스템의 인과 구조를 파악합니다. 이 연구에서는 기후 및 생태계, 뇌 네트워크 등과 같은 변수 그룹에서 인과 관계를 추론하기 위해 훈련된 심층 네트워크에 그룹 수준의 개입을 통해 모델 불변성을 테스트합니다. 합성 및 실제 시계열 데이터에 대한 광범위한 테스트 결과, 이 방법은 다른 그룹 인과관계 적용 방법에 비해 크게 개선되었으며 실제 시계열에 대한 인사이트를 제공합니다. 이 방법의 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[44/200] Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference

Keywords: accelerate_inference_moe, expert_parallelism_distributed, parallel_inference_distributed
Abstract: 생성적 사전 학습 트랜스포머와 같은 대규모 언어 모델에서 전문가 혼합 패러다임은 모델 표현력과 정확성을 향상시키는 강력한 기술로 부상했습니다. 그러나 분산 시스템에서 병렬 추론을 위해 GPT MoE 모델을 배포하는 데는 상당한 어려움이 따르는데, 이는 주로 전문가 라우팅 및 집계에 필요한 광범위한 올투올 통신 때문입니다. 이러한 통신 병목 현상은 이미 복잡한 컴퓨팅 환경을 더욱 악화시켜 고성능 컴퓨팅 리소스의 효율적인 활용을 방해합니다. 이 백서에서는 이러한 MoE 모델의 추론 속도를 크게 높일 수 있는 경량 최적화 기법인 ExFlow를 제안합니다. 우리는 계층 간 전문가 선호도를 활용하여 통신 오버헤드를 완화하는 새로운 관점을 취합니다. 이전 방법과 달리, 저희 솔루션은 미세 조정이나 정확도 저하 없이 사전 학습된 MoE 모델에 직접 적용할 수 있습니다. 분산 시스템에서 컨텍스트 일관성 있는 전문가 병렬화를 제안함으로써, 이전 방법에서는 모두 두 개의 올투올이 필요했던 반면, 우리의 설계는 하나의 올투올 통신만 사용하여 동일한 기능을 제공합니다. 여러 계층에 걸친 토큰 라우팅의 조건부 확률을 면밀히 검토하여 사전 학습된 GPT MoE 모델이 암묵적으로 강력한 계층 간 전문가 선호도를 나타낸다는 사실을 증명했습니다. 그런 다음 이러한 특징을 포착하기 위해 효율적인 정수 프로그래밍 모델을 설계하고 해당 GPU에 전문가를 적절히 배치함으로써 최대 67%의 GPU 간 라우팅 지연 시간을 줄일 수 있음을 보여주었습니다. 유니티의 솔루션은 추론 처리량이 최대 2.2배 향상되어 8~64명의 전문가로 구성된 최첨단 MoE 구현을 능가합니다. 또한 모델이 초기 훈련 단계에서 암묵적으로 이러한 전문가 선호도를 획득하는 방법과 이러한 선호도가 훈련 중에 어떻게 진화하고 안정화되는지에 대한 자세한 연구를 제공합니다. [abs|pdf]

[45/200] KADEL: Knowledge-Aware Denoising Learning for Commit Message Generation

Keywords: learns_commit_knowledge, learns_commit, commit_knowledge_training
Abstract: 커밋 메시지는 코드 변경 사항을 자연어로 설명하는 것으로, 코드 이해 및 유지 관리와 같은 소프트웨어 진화에 중요합니다. 그러나 기존 방법에서는 커밋 메시지의 일부는 모범 사례(즉, 모범 사례 커밋)를 따르고 나머지는 그렇지 않다는 사실을 고려하지 않고 전체 데이터 집합을 학습합니다. 경험적 연구에 따르면, 모범 사례 커밋에 대한 교육이 커밋 메시지 생성에 크게 기여한다는 사실을 발견했습니다. 이러한 발견에 착안하여 저희는 새로운 지식 인식 노이즈 제거 학습 방법인 KADEL을 제안합니다. 모범 사례 커밋이 데이터 세트의 일부에 불과하다는 점을 고려해 나머지 훈련 샘플을 모범 사례 커밋에 맞춰 조정합니다. 이를 위해 모범 사례 커밋에 대한 훈련을 통해 커밋 지식을 학습하는 모델을 제안합니다. 이 지식 모델을 사용하면 모범 사례에 부합하지 않는 훈련 샘플에 대해 더 많은 정보를 보완할 수 있습니다. 하지만 보완 정보에 노이즈나 예측 오류가 포함될 수 있기 때문에 동적 노이즈 제거 훈련 방법을 제안합니다. 이 방법은 분포 인식 신뢰 함수와 동적 분포 목록을 구성하여 훈련 과정의 효율성을 높입니다. 전체 MCMD 데이터 세트에 대한 실험 결과는 우리의 방법이 이전 방법과 비교하여 전반적으로 최첨단 성능을 달성한다는 것을 보여줍니다. 소스 코드와 데이터는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[46/200] Hallucination Detection and Hallucination Mitigation: An Investigation

Keywords: language_models_llms, literature_hallucination_detection, hallucination_detection_hallucination
Abstract: ChatGPT, Bard, Llama를 비롯한 대규모 언어 모델(LLM)은 지난 2년 동안 다양한 애플리케이션에서 괄목할 만한 성공을 거두었습니다. 이러한 성공에도 불구하고 LLM의 광범위한 적용을 제한하는 우려 사항도 존재합니다. 가장 큰 문제는 환각 문제입니다. 환각이란 올바른 응답 외에도 겉보기에는 정확하지만 사실은 잘못된 응답을 생성할 수 있다는 사실을 말합니다. 이 보고서는 환각 탐지 및 환각 완화에 관한 최신 문헌을 종합적으로 검토하는 것을 목표로 합니다. 이 보고서가 LLM에 관심을 갖고 실제 업무에 적용하려는 엔지니어와 연구자 모두에게 좋은 참고 자료가 되기를 바랍니다. [abs|pdf]

[47/200] Boosting Gradient Ascent for Continuous DR-submodular Maximization

Keywords: projected_gradient_ascent, gradient_ascent, dr_submodular_maximization
Abstract: 예상 경사 상승(PGA)은 머신러닝 및 운영 연구 분야에서 가장 일반적으로 사용되는 최적화 기법입니다. 그럼에도 불구하고 수많은 연구와 사례에 따르면 PGA 기법은 연속 DR-서브모듈 최대화 문제에서 엄격한 근사화 비율을 달성하지 못할 수 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 목적 함수를 약간만 수정하여 표준 PGA의 근사 보장을 최적으로 효율적으로 향상시킬 수 있는 부스팅 기법을 제시합니다. 부스팅 기법의 기본 아이디어는 비망각적 탐색을 활용하여 새로운 보조 함수 $F$를 유도하는 것으로, 이 보조 함수의 정지점은 원래의 DR-하위 모듈형 목적함수 $f$의 전역 최대치에 대한 우수한 근사치입니다. 구체적으로, $f$ 가 단조롭고 $\gamma$ 가 약한 DR-하위 모듈형일 때, 우리는 $f$ 자체의 정지점이 보장하는 $(\gamma^2/(1+\gamma^2))$ 근사치보다 더 나은 $(1-e^{-\gamma})$ 근사치를 제공할 수 있는 보조 함수 $F$ 를 제안할 것입니다. 마찬가지로 비단조인 경우에 대해, $C$가 볼록 제약 세트인 경우 고정점이 최적의 $\frac{1-\min _{x\in C}\parallel x\parallel _{\infty }}{4}$-근사 보장을 달성할 수 있는 또 다른 보조 함수 $F$를 고안해 냅니다. 이와 대조적으로 원래의 비단조적인 DR-하위모듈 함수의 정지점은 임의로 나쁠 수 있습니다. 또한 네 가지 문제에 대해 부스팅 기법의 확장성을 증명합니다. 이 네 가지 문제 모두에서 우리가 개발한 부스팅 PGA 알고리즘의 변형은 근사 비율과 효율성과 같은 여러 측면에서 기존의 표준 PGA를 능가했습니다. 마지막으로, 수치 실험을 통해 이론적 결과를 검증하여 부스팅 PGA 방법의 효과를 입증했습니다. [abs|pdf]

[48/200] RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning

Keywords: tool_learning_generated, tool_learning, llms_tool_learning
Abstract: 도구 학습은 대규모 언어 모델(LLM)과 실제 세계 간의 중요한 상호 작용 수단으로서 광범위한 관심을 불러일으키고 있습니다. 현재의 연구는 주로 잘 구조화된 환경에서 도구를 활용할 수 있는 LLM의 능력을 강조하는 반면, 실제 세계의 불가피한 노이즈에 직면했을 때의 안정성은 간과하고 있습니다. 이러한 격차를 해소하기 위해 유니티는 도구 학습에서 LLM의 견고성을 평가하기 위한 다단계 벤치마크인 RoTBench를 도입했습니다. 특히 각기 다른 수준의 노이즈(즉, 깨끗함, 약간, 중간, 무거움, 결합)를 특징으로 하는 5가지 외부 환경을 설정하여 도구 선택, 매개변수 식별, 콘텐츠 채우기의 세 가지 중요한 단계에서 모델의 복원력을 심층적으로 분석합니다. 널리 사용되는 6가지 모델을 대상으로 한 실험은 도구 학습에서 LLM의 견고성을 강화해야 하는 시급한 필요성을 강조합니다. 예를 들어, 수동 정확도에 큰 변화가 없는 경우 GPT-4의 성능은 80.00에서 58.10으로 크게 떨어집니다. 더 놀라운 사실은 GPT 제품군에 내재된 노이즈 보정 기능이 역설적으로 가벼운 노이즈에 대한 적응성을 저해한다는 점입니다. 이러한 결과에 비추어 유니티는 도구 학습에서 LLM의 견고성을 강화하기 위해 훈련 환경의 다양성을 강화하는 전략인 RoTTuning을 제안합니다. 코드와 데이터는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[49/200] Large Language Models are Null-Shot Learners

Keywords: question_answering, shot_prompting_incorporates, question_answering_observed
Abstract: 이 백서에서는 널 샷 프롬프트에 대해 설명합니다. 널 샷 프롬프트는 제공된 컨텍스트 내에 존재하지 않는 '예제' 섹션의 정보를 활용하여 작업을 수행하도록 LLM(대규모 언어 모델)에 지시함으로써 대형 언어 모델(LLM)의 환각성을 악용합니다. 환각을 줄이는 것은 일상적이고 중요한 LLM 사용에 있어 매우 중요하고 무시할 수 없는 일이지만, 이러한 LLM이 여전히 환각을 일으키는 현재의 환경에서는 실제로 환각을 활용하여 표준 제로 샷 프롬프트에 비해 작업 수행 성능을 높일 수 있다고 제안합니다. 6개의 LLM을 사용한 실험에서 독해력, 산술 추론, 비공개 문제 풀이 등 8개 데이터 세트의 대부분에서 성능이 향상된 것으로 나타났습니다. LLM 간 상대적 성능 향상의 불일치가 관찰된 것은 각 모델에 내재된 환각의 정도가 다르다는 것을 의미할 수도 있습니다. 이러한 차이는 기존 벤치마킹 데이터 세트를 사용하여 LLM의 환각 정도를 감지하는 방법으로 널샷 프롬프트를 활용할 수 있다는 것을 보여줍니다. 또한 제로 샷 연쇄 사고 프롬프트의 아이디어를 통합한 수정된 버전의 제로 샷 프롬프트를 실험하는 등 다양한 결과 경향을 보여주는 제거 연구도 수행했습니다. [abs|pdf]

[50/200] An Explainable Proxy Model for Multiabel Audio Segmentation

Keywords: audio_signal_segmentation, audio_indexing_consists, audio_indexing
Abstract: 오디오 신호 세그멘테이션은 자동 오디오 인덱싱의 핵심 작업입니다. 이는 신호에서 클래스 동질 세그먼트의 경계를 감지하는 것으로 구성됩니다. 많은 애플리케이션에서 설명 가능한 AI는 머신러닝을 통한 의사 결정의 투명성을 위해 필수적인 프로세스입니다. 이 백서에서는 음성 활동(SAD), 음악(MD), 잡음(ND), 중복 음성 감지(OSD)를 동시에 해결하는 설명 가능한 다중 레이블 세그먼트 모델을 제안합니다. 이 프록시는 비음수 행렬 인수분해(NMF)를 사용하여 세분화에 사용되는 임베딩을 주파수 영역에 매핑합니다. 두 데이터 세트에 대한 실험 결과, 사전 학습된 블랙박스 모델과 유사한 성능을 보이면서 강력한 설명력을 보여주었습니다. 특히, 결정에 사용된 주파수 구간은 세그먼트 수준(로컬 설명)과 글로벌 수준(클래스 프로토타입) 모두에서 쉽게 식별할 수 있습니다. [abs|pdf]

[51/200] Probabilistically Robust Watermarking of Neural Networks

Keywords: model_stealing_attacks, model_stealing, functionality_stealing_attacks
Abstract: 딥러닝(DL) 모델이 서비스형 머신러닝(MLaaS) 플랫폼에서 광범위하고 효과적으로 사용됨에 따라 특정 모델의 소유권을 확인하는 데 사용할 수 있는 DL 워터마킹 기술에 대한 관심이 빠르게 증가하고 있습니다. 하지만 안타깝게도 이러한 방법은 일반적으로 모델 도용 공격에 취약한 워터마크를 생성합니다. 이번 연구에서는 기능 탈취 공격, 특히 추출 및 증류와 관련된 공격에 대한 복원력을 입증하는 새로운 트리거 세트 기반 워터마킹 접근법을 소개합니다. 이 접근 방식은 추가적인 모델 학습이 필요하지 않으며 모든 모델 아키텍처에 적용할 수 있습니다. 이 방법의 핵심 아이디어는 소스 모델과 프록시 모델 세트 간에 높은 확률로 전송할 수 있는 트리거 세트를 계산하는 것입니다. 실험 연구에서는 트리거 집합의 이전 가능 확률이 상당히 높으면 도난당한 모델의 소유권 검증에 효과적으로 사용될 수 있음을 보여줍니다. 여러 벤치마크에서 우리의 방법을 평가한 결과, 우리의 접근 방식이 모든 실험 설정에서 현재의 최신 워터마킹 기법보다 성능이 뛰어나다는 것을 보여줍니다. [abs|pdf]

[52/200] A Generative Adversarial Attack for Multilingual Text Classifiers

Keywords: adversarial_examples_multilingual, paraphrase_model_adversarial, generate_effective_adversarial
Abstract: 공격자가 피해자 모델을 속이기 위해 텍스트를 변경하는 현재의 공격 알고리즘은 텍스트 분류기에 대해 반복적으로 효과적인 것으로 나타났습니다. 그러나 이러한 공격은 일반적으로 피해자 모델이 단일 언어라고 가정하기 때문에 다국어 피해자 모델을 표적으로 삼는 데는 사용할 수 없으며, 이러한 모델의 사용이 증가함에 따라 상당한 한계가 있습니다. 이러한 이유로 이 연구에서는 다국어 분류기에 대한 효과적인 공격 예시를 생성할 수 있도록 다국어 의역 모델을 적대적 목표로 미세 조정하는 접근 방식을 제안합니다. 훈련 목표에는 생성된 텍스트의 텍스트 품질과 언어 일관성을 보장하기 위해 사전 훈련된 모델 세트가 통합됩니다. 또한 모든 모델은 어휘 매핑 매트릭스를 통해 생성기에 적절히 연결되므로 전체 훈련 파이프라인의 완전한 종단 간 차별성을 확보할 수 있습니다. 2개의 다국어 데이터 세트와 5개 언어에 대한 실험적 검증을 통해 특히 쿼리 효율성 측면에서 기존 기준선과 비교하여 제안된 접근 방식의 효과가 입증되었습니다. 또한 생성된 공격에 대한 자세한 분석을 제공하고 향후 연구를 위한 한계와 기회에 대해 논의합니다. [abs|pdf]

[53/200] Towards Causal Relationship in Indefinite Data: Baseline Model and New Datasets

Keywords: deep_learning_causal, learning_causal_structures, learning_causal_discovery
Abstract: 딥러닝과 인과관계 발견을 통합하면서 대화와 동영상에서 인과관계 구조와 표현을 학습하는 데 어려움이 많다는 것을 알게 되었습니다. 이러한 데이터 형태를 다중 구조 데이터와 다중 값 표현을 특징으로 하는 '무기한 데이터'로 정의했습니다. 기존의 적응형 데이터 형식과 달리, 무기한 데이터는 여전히 데이터 세트와 방법의 격차에 직면해 있습니다. 데이터 세트의 격차를 해소하기 위해 각각 텍스트 대화 샘플과 인과관계 주석이 있는 비디오 액션 샘플을 포함하는 두 가지 고품질 데이터 세트, 즉 코사인로그와 코즈액션을 출시했습니다. 또한, 다중 구조 데이터와 다중 값 표현의 공존으로 인해 발생하는 방법의 격차는 현재의 모든 방법의 가정을 깨뜨리며, 무한 데이터에서는 실현 불가능하게 만듭니다. 이를 위해 1) 고정되지 않은 인과 구조 하에서 노이즈 용어의 독립성을 이용한 표현의 인과 조건 설정, 2) 인과 강도를 잠재 변수로 취급하고 상관 관계 공간에서 재구성 손실 측정, 3) 잠재 교란자의 효과 추정이라는 세 가지 설계 하이라이트를 통합한 확률론적 프레임워크를 기본으로 제안합니다. 이러한 장점 덕분에 확률론적 모델은 다중 구조 데이터와 다중 값 표현의 공존으로 인한 문제를 극복하고 잠재 교란 변수의 확장을 위한 기반을 마련할 수 있습니다. 포괄적인 실험을 통해 인과 관계 구조, 인과 관계 표현, 교란 요인에 대한 기본 결과를 평가했습니다. [abs|pdf]

[54/200] End-to-End Optimized Image Compression with the Frequency-Oriented Transform

Keywords: end_image_compression, image_compression, image_compression_constitutes
Abstract: 정보 폭증의 시대에 이미지 압축은 중요한 과제입니다. 딥러닝 방법을 사용한 최근 연구에 따르면 학습 기반 이미지 압축 방법이 기존 코덱보다 우수한 성능을 발휘하는 것으로 나타났습니다. 그러나 이러한 방법과 관련된 내재적 과제는 해석 가능성이 부족하다는 점입니다. 본 논문에서는 다양한 주파수 대역에 따른 압축 성능 저하 정도를 분석한 후, 주파수 지향 변환을 통해 엔드투엔드 최적화된 이미지 압축 모델을 제안합니다. 제안된 엔드투엔드 이미지 압축 모델은 공간 샘플링, 주파수 지향 변환, 엔트로피 추정, 주파수 인식 융합의 네 가지 구성 요소로 이루어져 있습니다. 주파수 지향 변환은 사람이 해석할 수 있는 개념에 맞춰 원본 이미지 신호를 별개의 주파수 대역으로 분리합니다. 이 모델은 비중첩 가설을 활용하여 임의의 주파수 성분을 선택적으로 전송함으로써 확장 가능한 코딩을 가능하게 합니다. 광범위한 실험을 통해 이 모델이 차세대 표준인 H.266/VVC를 포함한 모든 기존 코덱보다 MS-SSIM 지표에서 우수한 성능을 발휘한다는 것을 입증했습니다. 또한 시각적 분석 작업(예: 객체 감지 및 의미적 분할)을 수행하여 제안된 압축 방법이 신호 수준의 정밀도 외에도 의미적 충실도를 보존할 수 있음을 검증합니다. [abs|pdf]

[55/200] DPAFNet:Dual Path Attention Fusion Network for Single Image Deraining

Keywords: attention_fusion_network, fusion_image_features, attention_fusion
Abstract: 비가 오는 날씨는 이미징 시스템의 정상적인 작동에 상당한 영향을 미칩니다. 이러한 전제를 바탕으로 이미지 비 제거는 항상 저수준 시각 작업, 특히 심층 신경망을 사용하는 방법의 인기 분야였습니다. 그러나 대부분의 신경망은 컨볼루션 신경망이나 트랜스포머만 사용하는 등 분지형이어서 이미지 특징의 다차원 융합에 불리합니다. 이 문제를 해결하기 위해 본 논문에서는 이중 분기 주의 융합 네트워크를 제안합니다. 먼저, 두 개의 분기 네트워크 구조를 제안합니다. 둘째, 두 가지 분기에서 추출한 특징들을 단순히 추가하는 것이 아니라 선택적으로 융합하는 주의 융합 모듈을 제안합니다. 마지막으로, 완전한 제거 실험과 충분한 비교 실험을 통해 제안한 방법의 합리성과 효과를 증명합니다. [abs|pdf]

[56/200] LLMs for Test Input Generation for Semantic Caches

Keywords: effectiveness_semantic_cache, generated_queries, semantic_cache_results
Abstract: 대규모 언어 모델(LLM)을 사용하면 비정형 문서의 의미론적 검색 및 텍스트 생성과 같은 최첨단 의미론적 기능을 소프트웨어 시스템에 추가할 수 있습니다. 하지만 이러한 모델은 계산 비용이 많이 듭니다. 규모가 커지면 수천 명의 사용자에게 서비스를 제공하는 데 드는 비용이 크게 증가하여 사용자 경험에도 영향을 미칩니다. 이 문제를 해결하기 위해 시맨틱 캐시를 사용해 LLM 서비스를 사용하지 않고도 유사한 쿼리(문구가 다를 수 있음)에 대한 답변을 확인할 수 있습니다. 쿼리 임베딩에 의존하는 이러한 시맨틱 캐시 기술의 특성상 오류가 발생할 가능성이 높기 때문에 시스템에 대한 사용자 신뢰도에 영향을 미칠 수 있습니다. 시맨틱 캐시 기법을 채택하려면 일반적으로 시맨틱 캐시의 효과(정확한 캐시 적중 및 누락)를 테스트해야 하는데, 이를 위해서는 유사한 쿼리와 응답의 레이블이 지정된 테스트 세트가 필요하지만 이는 종종 사용할 수 없는 경우가 많습니다. 이 백서에서는 구조화되지 않은 텍스트 문서에서 유사한 질문을 생성하는 테스트 입력 생성을 위해 LLM을 사용하는 접근 방식인 VaryGen을 소개합니다. 이 새로운 접근 방식은 1) 쿼리를 도메인에 맞게 조정하고, 2) 쿼리의 미묘한 변형을 합성하고, 3) 합성된 테스트 데이터 세트를 평가하기 위해 LLM의 추론 기능을 사용합니다. 생성된 100개의 쿼리와 결과 쌍을 정성적으로 분석하고 오픈 소스 시맨틱 캐시를 사용한 실증적 사례 연구를 수행하여 학생 질의응답 시스템 영역에서 우리의 접근 방식을 평가했습니다. 그 결과 쿼리 쌍이 유사성에 대한 인간의 기대치를 충족하는 것으로 나타났으며, 생성된 데이터는 시맨틱 캐시의 실패 사례를 보여줍니다. 또한, Qasper 데이터 세트에 대한 우리의 접근 방식도 평가합니다. 이 작업은 시맨틱 애플리케이션을 위한 테스트 입력 생성의 중요한 첫 단계이며, 시맨틱 캐시를 보정할 때 실무자가 고려해야 할 사항을 제시합니다. [abs|pdf]

[57/200] CycLight: learning traffic signal cooperation with a cycle-level strategy

Keywords: adaptive_traffic, level_adaptive_traffic, traffic_signal_control
Abstract: 이 연구에서는 네트워크 수준 적응형 교통 신호 제어(NATSC) 시스템을 위한 새로운 사이클 수준 심층 강화 학습(RL) 접근 방식인 CycLight를 소개합니다. 단계별 의사 결정에 중점을 두는 대부분의 기존 RL 기반 교통 컨트롤러와 달리 CycLight는 사이클 수준 전략을 채택하여 매개변수화된 심층 Q 네트워크(PDQN) 알고리즘을 사용하여 사이클 길이와 분할을 동시에 최적화합니다. 이러한 사이클 수준 접근 방식은 빈번한 데이터 통신과 관련된 계산 부담을 효과적으로 줄이는 동시에 실제 애플리케이션의 실용성과 안전성을 향상시킵니다. 다중 에이전트 협력을 위한 분산형 프레임워크가 공식화되어 있으며, 주의 메커니즘이 통합되어 현재 교차로에 대한 주변 환경의 영향을 정확하게 평가할 수 있습니다. 사이크라이트는 미시적 교통 시뮬레이션 툴인 SUMO를 사용하여 대규모 합성 교통 그리드에서 테스트되었습니다. 실험 결과는 다른 최신 접근 방식에 비해 CycLight의 우수성을 입증할 뿐만 아니라 정보 전송 지연에 대한 견고함도 보여줍니다. [abs|pdf]

[58/200] E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning

Keywords: events_video_e2v, event_camera_datasets, inspired_event_cameras
Abstract: 생체 인식 이벤트 카메라 또는 동적 비전 센서는 높은 시간적 해상도와 높은 동적 범위에서 픽셀당 밝기 변화(이벤트 스트림이라고 함)를 비동기적으로 캡처할 수 있습니다. 하지만 비구조적인 공간-시간적 이벤트 스트림은 인간의 시각을 위한 풍부한 의미 정보를 직관적인 시각화로 제공하는 데 어려움이 있습니다. 따라서 이벤트 스트림을 입력으로 받아 직관적인 시각화를 위한 고품질 비디오 프레임을 생성하는 이벤트-투-비디오(E2V) 솔루션이 필요합니다. 그러나 현재의 솔루션은 이벤트 스트림과 비디오 프레임과 관련된 기본 통계에 대한 사전 지식을 고려하지 않고 주로 데이터 기반입니다. 또한 심층 신경망의 비선형성과 일반화 능력에 크게 의존하기 때문에 장면이 복잡할 때 세부적인 텍스처를 재구성하는 데 어려움을 겪고 있습니다. 이 연구에서는 이벤트에서 고품질 비디오 프레임을 생성하기 위해 고안된 새로운 E2V 패러다임인 E2HQV를 제안합니다. 이 접근 방식은 이벤트 카메라의 기본 이미징 원리에서 세심하게 도출된 이론에 기반한 E2V 모델로 뒷받침되는 모델 지원 딥러닝 프레임워크를 활용합니다. 또한 E2HQV의 반복 구성 요소에서 발생하는 상태 재설정 문제를 해결하기 위해 시간적 시프트 임베딩 모듈을 설계하여 비디오 프레임의 품질을 더욱 향상시킵니다. 실제 이벤트 카메라 데이터 세트에 대한 종합적인 평가 결과, E2HQV는 일부 평가 지표에서 차선책을 40% 이상 능가하는 등 최첨단 접근 방식을 능가하는 성능을 보였습니다. [abs|pdf]

[59/200] No-Clean-Reference Image Super-Resolution: Application to Electron Microscopy

Keywords: image_super_resolution, clean_high_resolution, microscopy_em_images
Abstract: 대량의 뇌 조직에서 깨끗한 고해상도(HR) 전자 현미경(EM) 이미지를 얻을 수 없기 때문에 많은 신경과학 연구가 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 딥러닝 기반 이미지 초고해상도(SR) 접근법을 제안하여 노이즈가 많은 저해상도(LR) 획득에서 넓은 시야각(FoV)의 깨끗한 HR 3D-EM을 컴퓨터로 재구성합니다. 우리의 기여는 I) $\ell_2$ 및 $\ell_1$ 손실 함수에 대한 무청정 레퍼런스를 사용한 훈련 조사, II) 고유한 노이즈를 줄이면서 LR EM 이미지의 해상도를 향상시키기 위한 새로운 네트워크 아키텍처인 EMSR의 도입, III) 획득한 LR 및 HR 이미지 쌍, 즉 실제 손상으로 오염된 무청정 레퍼런스, 합성 LR과 획득한 HR의 쌍, 획득한 LR과 노이즈 제거 HR 쌍의 사용을 포함한 다양한 훈련 전략을 비교하는 데에 있습니다. 9개의 뇌 데이터 세트를 사용한 실험 결과, 실제 쌍으로 훈련하면 고품질의 초고해상도 결과를 얻을 수 있으며, 손실 함수 모두에 대해 비청정 참조를 사용한 훈련이 가능하다는 것을 보여주었습니다. 또한 훈련에 노이즈가 제거된 레퍼런스와 노이즈가 있는 레퍼런스를 사용했을 때 시각적으로나 수치상으로도 비슷한 결과가 관찰되었습니다. 또한, 합성적으로 생성된 HR 이미지로 훈련된 네트워크를 활용하면 만족스러운 SR 결과를 얻을 수 있으며, 특정 경우에는 실제 쌍을 사용한 훈련보다 더 나은 결과를 얻을 수 있는 것으로 입증되었습니다. 제안된 SR 네트워크를 기존의 여러 SR 기법과 정량적, 정성적으로 비교하여 노이즈를 완화하고 세밀한 디테일을 복구하는 데 있어 제안된 방법의 우수성 또는 경쟁력을 보여주었습니다. [abs|pdf]

[60/200] Hardware Acceleration for Real-Time Wildfire Detection Onboard Drone Networks

Keywords: wildfire_detection_capabilities, wildfire_detection, early_wildfire_detection
Abstract: 외딴 지역과 산림 지역에서 산불을 조기에 발견하는 것은 파괴를 최소화하고 생태계를 보존하는 데 매우 중요합니다. 자율 드론은 높은 시간적 해상도와 세밀한 공간 해상도를 모두 제공하는 첨단 이미징 기술을 탑재하여 외딴 곳의 까다로운 지형에 민첩하게 접근할 수 있으므로 산불을 조기에 감지하고 모니터링하는 데 귀중한 자산이 될 수 있습니다. 그러나 무인 항공기(UAV)의 제한된 연산 능력과 배터리 자원은 강력하고 효율적인 이미지 분류 모델을 구현하는 데 상당한 어려움을 초래합니다. 이 분야의 기존 작업은 대부분 오프라인에서 작동하는 경우가 많기 때문에 UAV의 제약을 고려할 때 실시간으로 추론을 수행할 수 있는 솔루션의 필요성이 강조되고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 실시간 이미지 분류 및 화재 세분화 모델을 개발하는 것을 목표로 합니다. 이 백서에서는 젯슨 나노 P3450을 사용한 하드웨어 가속화와 NVIDIA의 고성능 딥러닝 추론 라이브러리인 텐서RT가 화재 분류 정확도와 속도에 미치는 영향에 대한 포괄적인 조사를 제시합니다. 이 연구에는 화재 세분화 및 분류를 위한 최신 기준선과 비교하는 양자화 인식 훈련(QAT), 자동 혼합 정밀도(AMP) 및 사후 훈련 메커니즘의 구현이 포함됩니다. 모든 실험은 규정된 산불이 발생하는 동안 저고도 드론으로 수집한 이미지 데이터 세트인 FLAME 데이터 세트를 활용합니다. 이 연구는 이러한 중요한 모니터링 시스템의 속도와 계산 및 에너지 제약을 해결하여 무인 항공기의 실시간 산불 감지 기능을 활성화하기 위한 지속적인 노력에 기여합니다. 그 결과 하드웨어 최적화를 하지 않은 유사한 모델에 비해 분류 속도가 13% 향상되었습니다. 이에 비해 손실과 정확도는 원래 값의 1.225% 이내입니다. [abs|pdf]

[61/200] Resolving Ethics Trade-offs in Implementing Responsible AI

Keywords: ai_ethics_principles, ai_ethics_aspects, level_ai_ethics
Abstract: 높은 수준의 AI 윤리 원칙을 실제 AI/ML 시스템에 적용하는 데는 진전이 있었지만, 근본적인 AI 윤리 측면 간의 긴장을 관리하는 데는 여전히 이론과 실무의 격차가 존재합니다. 이 글에서는 초보적인 것부터 복잡한 것까지 절충을 통해 이러한 긴장을 해소하는 다섯 가지 접근법을 다룹니다. 각 접근법은 고려하는 맥락의 유형, 범위, 맥락을 측정하는 방법, 정당성의 정도에서 차이가 있습니다. 어떤 접근법도 모든 조직, 시스템 또는 애플리케이션에 적합하지 않을 수 있습니다. 이를 해결하기 위해 다음과 같이 구성된 프레임워크를 제안합니다: (i) 갈등의 사전 식별, (ii) 윤리 측면의 우선순위와 가중치 부여, (iii) 트레이드오프 결정의 정당성 및 문서화. 제안된 프레임워크는 잠재적인 규제 요건에 적합한 균형 잡힌 AI/ML 시스템의 구현을 촉진하는 것을 목표로 합니다. [abs|pdf]

[62/200] KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain

Keywords: image_captioning_vietnamese, vietnamese_image_captioning, captioning_vietnamese
Abstract: 이미지 캡션은 의료, 교육 등 다양한 분야에서 활용되는 중요한 작업입니다. 영어 이미지 캡션 데이터셋에 대한 광범위한 연구에도 불구하고 베트남어용 데이터셋의 가용성은 여전히 제한적이며, 기존 데이터셋은 단 두 개에 불과합니다. 이 연구에서는 다양한 일상 활동을 포괄하는 생활 영역에 초점을 맞춘 종합적인 베트남어 이미지 캡션 데이터셋인 KTVIC을 소개합니다. 이 데이터셋은 4,327개의 이미지와 21,635개의 베트남어 캡션으로 구성되어 있으며, 베트남어 이미지 캡션의 발전을 위한 귀중한 리소스로 활용되고 있습니다. 데이터 세트의 기준이 되는 다양한 딥 뉴럴 네트워크를 사용하여 실험을 진행했으며, BLEU, METEOR, CIDEr, ROUGE 등 표준 이미지 캡션 메트릭을 사용하여 평가했습니다. 연구 결과는 제안된 데이터 세트의 효과와 베트남 맥락에서 이미지 캡션 분야에 대한 잠재적 기여를 강조합니다. [abs|pdf]

[63/200] Inpainting Normal Maps for Lightstage data

Keywords: adversarial_network_gan, network_gan, network_gan_normal
Abstract: 이 연구에서는 생성적 적대 신경망(GAN)을 사용해 노멀 맵을 인페인팅하는 새로운 방법을 소개합니다. 라이트스테이지에서 파생되는 노멀 맵은 퍼포먼스 캡처에 매우 중요하지만 움직임(예: 팔, 머리카락, 소품 등)으로 인해 가려진 부분이 있을 수 있습니다. 인페인팅은 이러한 누락된 영역을 그럴듯한 데이터로 채웁니다. 이 접근 방식은 기존의 일반적인 이미지 인페인팅 기법을 확장한 것으로, 나비 넥타이와 같은 제너레이터 네트워크와 판별자 네트워크를 번갈아 가며 훈련 단계에 사용합니다. 제너레이터는 기준 진실과 일치하는 이미지를 합성하고 실제 이미지와 처리된 이미지를 구분하는 판별기를 속이는 것을 목표로 합니다. 판별기는 처리된 이미지를 식별하는 능력을 향상시키기 위해 주기적으로 재훈련을 받습니다. 중요한 점은 이 방법이 노멀 맵 데이터의 고유한 특성에 맞게 조정되기 때문에 손실 함수를 수정해야 한다는 점입니다. 유니티는 제너레이터 훈련에 평균 제곱 오류 손실 대신 코사인 손실을 활용합니다. 합성 데이터 세트를 사용하더라도 훈련 데이터의 가용성이 제한적이기 때문에 입력 데이터의 특정 특성을 고려할 때 상당한 보강이 필요합니다. 여기에는 일반 벡터를 정확하게 변경하기 위한 적절한 이미지 뒤집기 및 평면 내 회전이 포함됩니다. 훈련 전반에 걸쳐 평균 손실, 구조적 유사성 지수 측정값(SSIM), 판별기의 평균 손실 및 정확도와 함께 생성기의 피크 신호 대 잡음비(PSNR)와 같은 주요 지표를 모니터링했습니다. 연구 결과, 제안된 모델이 성능 캡처 애플리케이션에 적합한 고품질의 사실적인 인페인팅 노멀 맵을 효과적으로 생성하는 것으로 나타났습니다. 이러한 결과는 노멀 맵을 생성하는 데 사용되는 소스 이미지의 인페인팅과 비교하고 더 발전된 네트워크를 포함하는 향후 연구의 토대를 마련합니다. [abs|pdf]

[64/200] A Study of Fairness Concerns in AI-based Mobile App Reviews

Keywords: detect_fairness_reviews, fairness_reviews_leveraging, fairness_concerns_ai
Abstract: 우리 삶과 사회에서 AI 기반 시스템의 활용이 증가함에 따라, AI 기반 시스템이 책임감 있는 방식으로 개발되고 사용되도록 해야 할 필요성이 커지고 있습니다. 공정성은 이러한 목적을 위해 AI 기반 시스템에서 반드시 해결해야 할 사회기술적 관심사 중 하나입니다. 불공정한 AI 기반 시스템, 특히 불공정한 AI 기반 모바일 앱은 전 세계 인구의 상당수에게 어려움을 초래할 수 있습니다. 이 백서는 AI 기반 앱 리뷰의 공정성 문제를 심층적으로 분석하는 것을 목표로 합니다. 먼저 공정성 및 비공정성 리뷰의 통계적 표본을 포함한 실측 데이터 세트를 수작업으로 구축했습니다. 그런 다음, 실측 데이터 세트를 활용하여 공정성 리뷰와 공정하지 않은 리뷰를 구분하는 머신러닝 및 딥러닝 분류기 세트를 개발하고 평가했습니다. 실험 결과, 최고 성능의 분류기는 공정성 리뷰를 94%의 정확도로 감지할 수 있는 것으로 나타났습니다. 그런 다음 108개의 AI 기반 앱에서 수집한 약 950만 건의 리뷰에 최고 성능의 분류기를 적용하여 약 9만 2천 건의 공정성 리뷰를 식별했습니다. 공정성 리뷰는 23개 앱 카테고리에서 나타났지만, '커뮤니케이션'과 '소셜' 앱 카테고리의 공정성 리뷰 비율이 가장 높은 것으로 나타났습니다. 다음으로 9만 2천 건의 공정성 리뷰에 K-평균 군집화 기법을 적용한 후 수작업으로 분석한 결과, '플랫폼과 디바이스에 따라 다른 품질의 기능과 서비스를 제공받음', '사용자 제작 콘텐츠 처리의 투명성 및 공정성 부족' 등 6가지 유형의 공정성 문제를 확인할 수 있었습니다. 마지막으로, 공정성 평가에 대한 2,248명의 앱 소유자의 응답을 수동으로 분석한 결과, 앱 소유자가 공정성 우려를 정당화하는 6가지 근본 원인(예: '저작권 문제', '외부 요인', '개발 비용')을 확인할 수 있었습니다. [abs|pdf]

[65/200] DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

Keywords: emotional_voice_conversion, parallel_speech_generation, voice_conversion
Abstract: 감정적 음성 변환(EVC)은 원래의 언어 콘텐츠와 화자의 고유한 발성 특성을 보존하면서 화자 목소리의 감정적 톤을 수정하는 것입니다. 최근 EVC의 발전은 시퀀스 투 시퀀스(seq2seq) 모델의 잠재력을 활용하여 피치와 지속 시간을 동시에 모델링하는 것과 관련이 있습니다. 이 연구에서는 변환의 신뢰성과 효율성을 높이기 위해 병렬 음성 생성에 초점을 맞춥니다. 스타일 자동 인코더와 유닛 얼라이너를 통합한 지속 시간 유연성 EVC(DurFlex-EVC)를 도입합니다. 기존 모델은 언어적 정보와 준언어적 정보를 모두 포함하는 자기 지도 학습(SSL) 표현을 통합했지만, 이러한 이중적 특성을 무시하여 제어 가능성을 떨어뜨렸습니다. 이 문제를 해결하기 위해 유니티는 이러한 표현을 다양한 감정과 동기화하는 크로스 어텐션 기능을 구현했습니다. 또한 스타일 요소를 분리하고 조작할 수 있는 스타일 자동 인코더를 개발했습니다. 이러한 접근방식의 효과는 주관적, 객관적 평가를 통해 검증되어 현업의 기존 모델보다 우수함을 입증했습니다. [abs|pdf]

[66/200] A Survey of Resource-efficient LLM and Multimodal Foundation Models

Keywords: multimodal_models_revolutionizing, large_language_models, multimodal_models
Abstract: 대규모 언어 모델(LLM), 비전 트랜스포머(ViT), 확산 및 LLM 기반 멀티모달 모델을 포함한 대규모 기반 모델은 훈련에서 배포에 이르는 전체 머신러닝 수명 주기에 혁신을 일으키고 있습니다. 하지만 이러한 모델이 제공하는 다양성과 성능의 상당한 발전은 하드웨어 리소스 측면에서 상당한 대가를 치르게 됩니다. 확장 가능하고 환경적으로 지속 가능한 방식으로 이러한 대규모 모델의 성장을 지원하기 위해 리소스 효율적인 전략을 개발하는 데 상당한 관심이 집중되고 있습니다. 이 설문조사는 알고리즘과 시스템 측면을 모두 조사하여 이러한 연구의 중요성을 심층적으로 다룹니다. 최첨단 모델 아키텍처와 교육/서비스 알고리즘부터 실제 시스템 설계 및 구현에 이르기까지 광범위한 주제를 포괄하는 기존 문헌에서 수집한 종합적인 분석과 귀중한 인사이트를 제공합니다. 이 조사의 목표는 현재의 접근 방식이 대규모 재단 모델이 제기하는 리소스 문제를 어떻게 해결하고 있는지에 대한 전반적인 이해를 제공하고 이 분야에서 잠재적으로 미래의 혁신에 영감을 불어넣는 것입니다. [abs|pdf]

[67/200] A Study on Training and Developing Large Language Models for Behavior Tree Generation

Keywords: automatically_generating_behavior, language_models_llm, generating_behavior_trees
Abstract: 이 백서에서는 복잡한 작업에 대한 행동 트리(BT)를 자동으로 생성하는 까다로운 작업을 처리하는 데 있어 대규모 언어 모델(LLM)의 적용 가능성에 대한 혁신적인 탐색을 소개합니다. 기존의 수동 BT 생성 방식은 비효율적이고 도메인 전문 지식에 크게 의존합니다. 반면에 기존의 자동 BT 생성 기술은 작업 복잡성, 모델 적응성, 신뢰성과 관련된 병목 현상이 발생합니다. 이러한 문제를 극복하기 위해 본 논문에서는 LLM의 강력한 표현 및 추론 능력을 활용하는 새로운 방법론을 제안합니다. 본 논문의 핵심은 데이터 합성 및 모델 학습에서 애플리케이션 개발 및 데이터 검증에 이르는 전 과정을 아우르는 LLM 기반의 BT 생성 프레임워크를 설계하는 데 있습니다. 합성 데이터를 도입하여 BT 생성 모델(BTGen 모델)을 학습시키고, 다양하고 복잡한 작업에 대한 이해도와 적응력을 향상시켜 전반적인 성능을 크게 향상시킵니다. 생성된 BT의 효과와 실행 가능성을 보장하기 위해 데이터 검증의 중요성을 강조하고 다단계 검증 전략을 도입합니다. 또한 LLM을 핵심 요소로 하는 다양한 에이전트 설계 및 개발 체계를 살펴봅니다. 본 논문이 LLM을 기반으로 한 BT 생성에 관심이 있는 연구자들에게 참고가 되기를 바랍니다. [abs|pdf]

[68/200] Transformer-based approach for Ethereum Price Prediction Using Crosscurrency correlation and Sentiment Analysis

Keywords: cryptocurrency_price_forecasting, sentiment_correlated_cryptocurrency, cryptocurrencies_sentiments
Abstract: 이 연구는 이더리움 암호화폐 가격 예측을 위한 트랜스포머 기반 신경망의 기능을 탐구합니다. 이 실험은 암호화폐 가격이 다른 암호화폐 및 암호화폐에 대한 감정과 밀접한 상관관계가 있다는 가설을 중심으로 진행됩니다. 이 모델은 단일 기능 시나리오부터 거래량, 감정, 상관관계가 있는 암호화폐 가격을 통합한 복잡한 구성에 이르기까지 다양한 설정을 위한 트랜스포머 아키텍처를 사용합니다. 데이터 세트가 더 작고 아키텍처가 덜 복잡함에도 불구하고 트랜스포머 모델은 일부 매개변수에서 ANN 및 MLP를 능가합니다. 결론에서는 감정에 의한 암호화폐 가격 변동에 대한 인과관계의 착각에 대한 가설을 제시합니다. [abs|pdf]

[69/200] Achieve Fairness without Demographics for Dermatological Disease Diagnosis

Keywords: training_sensitive_attributes, improve_fairness_classification, unfair_attributes_training
Abstract: 의료 영상 진단에서 공정성은 점점 더 중요해지고 있습니다. 편향성을 완화하지 않고 불공정한 AI를 배포하면 소외 계층의 이익에 해를 끼치고 잠재적으로 사회를 분열시킬 수 있습니다. 최근의 연구는 훈련 중에 인구통계학적(민감한 속성) 정보를 활용하여 인구통계학적 그룹(예: 성별, 연령, 인종)과 관련된 딥러닝 모델의 예측 편향을 해결합니다. 그러나 피부과 질환 이미지에는 많은 민감한 속성이 자연적으로 존재합니다. 학습된 모델이 특정 속성에 대해서만 공정성을 목표로 한다면 다른 속성에 대해서는 공정하지 않은 상태로 남게 됩니다. 게다가 여러 민감한 속성을 모두 수용할 수 있는 모델을 학습시키는 것은 개인정보 보호 문제로 인해 비현실적입니다. 이를 극복하기 위해 학습 단계에서 이러한 정보를 사용하지 않고도 테스트 단계에서 민감한 속성에 대한 공정한 예측을 가능하게 하는 방법을 제안합니다. 특징 얽힘이 공정성에 미치는 영향을 강조한 선행 연구에서 영감을 받아 민감 속성과 목표 속성과 관련된 특징을 캡처하고 해당 클래스 간의 특징 얽힘을 정규화하여 모델 특징을 향상시킵니다. 이렇게 하면 모델이 민감한 속성과 관련된 특징에 의존하지 않고 목표 속성과 관련된 특징만을 기반으로 분류할 수 있어 공정성과 정확도가 향상됩니다. 또한, 학습된 특징의 품질을 향상시키기 위해 세그먼트 애니띵 모델(SAM)의 질병 마스크를 사용합니다. 실험 결과는 제안된 방법이 두 가지 피부과 질환 데이터 세트에서 최첨단 방법과 비교해 분류의 공정성을 향상시킬 수 있음을 보여줍니다. [abs|pdf]

[70/200] Enhancing Robustness of LLM-Synthetic Text Detectors for Academic Writing: A Comprehensive Analysis

Keywords: large_language_models, reference_based_siamese, generative_pre_trained
Abstract: ChatGPT에서 사용하는 GPT-4(Generative Pre-trained Transformer 4)와 같은 대규모 언어 모델(LLM)의 등장은 학계와 더 넓은 커뮤니티에 큰 영향을 미쳤습니다. 이러한 모델은 업무 및 학습 방법의 혁신이라는 측면에서 많은 이점을 제공하지만, 잠재적인 부정적 결과로 인해 상당한 주목을 받기도 했습니다. 한 가지 예로 사람의 기여도가 거의 또는 전혀 없는 학술 보고서나 논문을 작성하는 것이 있습니다. 이에 따라 연구자들은 LLM의 오용을 해결하기 위한 탐지기를 개발하는 데 주력해 왔습니다. 그러나 대부분의 기존 방법은 제한된 데이터 세트에서 더 높은 정확도를 달성하는 데 우선순위를 두며, 일반화 가능성이라는 중요한 측면은 무시합니다. 이러한 한계는 신뢰성이 가장 중요한 실제 시나리오에서 실제 적용을 방해합니다. 이 백서에서는 LLM이 생성한 텍스트에 대한 프롬프트의 영향에 대한 포괄적인 분석을 제시하고, 현재 최신 GPT 검출기 중 하나에서 잠재적인 견고성 부족을 강조합니다. 학술적 글쓰기에서 LLM의 오용과 관련된 이러한 문제를 완화하기 위해, 우리는 한 쌍의 텍스트를 질문과 참조로 사용하는 Synthetic-Siamese라는 참조 기반 샴어 탐지기를 제안합니다. 이 방법은 이전 검출기(OpenAI 검출기 및 DetectGPT)의 부족한 견고성 문제를 효과적으로 해결하고 실제 학술 글쓰기 시나리오에서 기준 성능을 약 67%에서 95%까지 크게 향상시킵니다. [abs|pdf]

[71/200] Convolutional Neural Network Compression via Dynamic Parameter Rank Pruning

Keywords: reduce_cnn_parameters, cnn_compression, reduce_cnn
Abstract: 컨볼루션 신경망(CNN)은 복잡한 잠재 공간 표현을 학습하는 데 탁월하지만, 과도한 매개변수화는 특히 제한된 데이터에서 과적합과 성능 저하로 이어질 수 있습니다. 이는 높은 연산 및 메모리 요구량과 함께 엣지 배포에 대한 CNN의 적용 가능성을 제한합니다. 저순위 행렬 근사화는 CNN 매개변수를 줄이기 위한 유망한 접근법으로 부상했지만, 이를 적용할 경우 순위 선택 및 성능 손실 등의 문제가 발생합니다. 이러한 문제를 해결하기 위해 동적 매개변수 순위 가지치기를 통한 CNN 압축을 위한 효율적인 훈련 방법을 제안합니다. 이 접근 방식은 효율적인 행렬 인수분해와 새로운 정규화 기법을 통합하여 동적 순위 감소 및 모델 압축을 위한 강력한 프레임워크를 형성합니다. 우리는 특이값 분해(SVD)를 사용하여 낮은 순위의 컨볼루션 필터와 고밀도 가중 행렬을 모델링하고, 엔드투엔드 방식으로 역전파를 통해 SVD 인자를 훈련하여 모델 압축을 달성합니다. ResNet-18, ResNet-20, ResNet-32를 포함한 다양한 최신 CNN과 CIFAR-10, CIFAR-100, ImageNet(2012)과 같은 데이터 세트에서 이 방법을 평가하여 컴퓨터 비전에서의 적용 가능성을 보여줍니다. 실험 결과, 제안된 방법은 분류 성능을 유지하거나 심지어 향상시키면서 상당한 저장 공간을 절약할 수 있는 것으로 나타났습니다. [abs|pdf]

[72/200] Jewelry Recognition via Encoder-Decoder Models

Keywords: jewelry_recognition_using, jewelry_recognition, approach_jewelry_recognition
Abstract: 액세서리의 스타일과 디자인이 다양하기 때문에 주얼리 인식은 복잡한 작업입니다. 다양한 액세서리에 대한 정확한 설명은 오늘날 주얼리 분야의 전문가만이 할 수 있는 일입니다. 이 연구에서는 컴퓨터 비전 기술과 이미지 캡션을 사용하여 액세서리를 분석하는 전문가의 행동을 시뮬레이션하기 위해 주얼리 인식을 위한 접근 방식을 제안합니다. 제안된 방법론은 다양한 이미지 캡션 모델을 사용하여 이미지에서 보석을 감지하고 액세서리에 대한 자연어 설명을 생성하는 것으로 구성됩니다. 그런 다음 이 설명을 활용하여 액세서리를 다양한 세부 수준으로 분류합니다. 생성된 캡션에는 보석의 종류, 색상, 소재, 디자인 등의 세부 정보가 포함됩니다. 다양한 종류의 보석을 정확하게 인식하는 데 있어 제안된 방법의 효과를 입증하기 위해 스페인 코르도바의 보석 가게에 있는 액세서리 이미지로 구성된 데이터 세트를 만들었습니다. 설계된 다양한 이미지 캡션 아키텍처를 테스트한 결과, 최종 모델은 95%의 캡션 정확도를 달성했습니다. 제안된 방법론은 보석 전자상거래, 재고 관리 또는 사람들의 취향과 사회적 지위를 분석하기 위한 자동 보석 인식과 같은 다양한 애플리케이션에 사용될 수 있는 잠재력을 가지고 있습니다. [abs|pdf]

[73/200] Carrying over algorithm in transformers

Keywords: encoder_models_carrying, layer_encoder_models, decoder_models
Abstract: 덧셈은 우리가 생각할 수 있는 가장 간단한 산술 작업 중 하나이며 일반적으로 이월 알고리즘을 사용하여 수행됩니다. 이 알고리즘은 같은 위치에 있는 숫자를 더하고 필요할 때마다 1을 이월하는 두 가지 작업으로 구성됩니다. 우리는 트랜스포머 모델이 이 알고리즘을 구현하는 방법과 앞서 언급한 두 가지 작업이 네트워크의 다른 부분에 어떻게 할당되는지 연구합니다. 먼저 2계층 인코더 전용 모델에 초점을 맞춰 이월 알고리즘이 모듈 방식으로 구현된다는 것을 보여줍니다. 첫 번째 계층은 주로 같은 위치에 숫자를 추가하는 작업을 담당합니다. 두 번째 레이어는 먼저 어떤 위치에 이월이 필요한지 아닌지를 주의 깊게 판단한 다음 최종 MLP에서 이월을 수행합니다. 이를 통해 해당 작업을 담당하는 뉴런을 정확하게 식별할 수 있는 간단한 방법을 제공합니다. 이러한 캐리 오버 알고리즘의 구현은 2계층 모델뿐만 아니라 3계층 모델의 다양한 하이퍼파라미터에 걸쳐 이루어집니다. 소규모 디코더 전용 모델의 경우에도 동일한 구현을 관찰하고 세 개의 7B 대규모 언어 모델에서 그 존재에 대한 암시적인 증거를 제공합니다. [abs|pdf]

[74/200] Simulated Autopoiesis in Liquid Automata

Keywords: liquid_automata, liquid_automata_particle, liquid_automata_using
Abstract: 저희는 새로운 형태의 리퀴드 오토마타를 소개하며, 이를 통해 살아있는 기계가 물리적 영역에서 스스로 조직화되는 자가증식을 시뮬레이션합니다. 이 시뮬레이션은 프란시스코 바렐라가 설명한 초기 셀룰러 오토마톤을 기반으로 합니다. 리퀴드 오토마타의 기본은 입자가 다른 입자와 충돌할 때 입자가 어떻게 변형되는지에 대한 추가 규칙이 있는 입자 시뮬레이션입니다. 셀룰러 오토마타와 달리 고정된 그리드나 시간 단계가 없으며, 연속적인 공간/시간 속에서 파티클이 이동하고 서로 충돌할 뿐입니다. [abs|pdf]

[75/200] A Study on Large Language Models' Limitations in Multiple-Choice Question Answering

Keywords: answering_multiple_choice, large_language_models, language_models
Abstract: 특히 오픈 소스 모델의 등장으로 대규모 언어 모델(LLM)의 광범위한 채택이 일반화되었습니다. 더 중요한 것은 더 작은 모델이 소비자 기기에 통합하기에 적합하며, 독립형 솔루션으로 또는 다양한 AI 작업의 서브루틴으로 자주 사용된다는 점입니다. 하지만 이렇게 널리 사용되고 있음에도 불구하고 그 구체적인 기능과 한계에 대한 체계적인 분석은 없습니다. 이 연구에서는 가장 널리 사용되는 작업 중 하나인 객관식 질문(MCQ)에 대한 답변을 다룹니다. 26개의 소규모 오픈소스 모델을 분석한 결과, 65%의 모델이 과제를 이해하지 못했고, 4개 모델만이 주어진 선택지 중에서 답을 제대로 선택했으며, 이 중 5개 모델만이 선택지 순서에 독립적이라는 사실을 발견했습니다. 이러한 모델을 사용한 MCQ 테스트가 광범위하게 사용되고 있다는 점을 고려할 때 이러한 결과는 다소 우려스러운 수준입니다. 어떤 분야에서든 MCQ를 사용하여 LLM을 평가하기 전에 주의를 기울이고 과제 이해도를 테스트하는 것이 좋습니다. [abs|pdf]

[76/200] Vertical Federated Image Segmentation

Keywords: vertical_federated_learning, federated_learning, federated_learning_vfl
Abstract: 이미지 기반 문제에 대한 AI 솔루션이 대중화되면서 데이터 프라이버시와 수집에 대한 우려가 커지고 있습니다. 많은 경우 정보가 별도의 데이터 사일로에 분산되어 있어 개발자가 머신러닝 모델 개발에 적합한 방식으로 모든 정보를 통합하는 것이 어려울 수 있습니다. 또한 이러한 로컬라이즈된 데이터 영역 중 일부는 레이블이 지정된 기준 데이터에 액세스하지 못할 수도 있습니다. 이는 수치적으로 결론에 도달할 수 있는 능력은 있지만 관련 정보가 부족하여 분류를 할당할 수 없다는 것을 의미합니다. 특히 이러한 기능이 필요한 이미지 기반 솔루션을 개발하려고 할 때 이러한 판단은 종종 무시할 수 있는 경우가 많습니다. 이러한 상황에서 유니티는 이러한 일반적인 조건에서 작동할 수 있는 혁신적인 수직 연합 학습(VFL) 모델 아키텍처를 제안합니다. 이는 VFL 환경의 제약 조건에서 작동하고 명목상 정확도를 유지하면서 이미지 분할을 수행할 수 있는 시스템을 구현한 최초이자 현재 유일한 사례입니다. 우리는 라벨링된 데이터가 없는 페더레이션에서 작동하고 분류에 필요한 기능을 호스팅하는 중앙 서버와 각 가중치를 비공개로 공유할 수 있는 기능을 자랑하는 FCN을 활용하여 이를 달성했습니다. 페더레이션 간의 정보 전송에 필요한 무거운 기능 압축의 영향을 파악하고 이러한 제약 조건에서 작업할 때 전반적인 성능 지표에 대한 대략적인 결론에 도달하기 위해 CamVid 데이터 세트에 대한 테스트를 수행했습니다. [abs|pdf]

[77/200] Can Large Language Models Explain Themselves?

Keywords: self_explanations_counterfactuals, counterfactual_explanations_faithful, interpretability_faithfulness_explanations
Abstract: 인스트럭션에 맞춰 조정된 대규모 언어 모델(LLM)은 많은 작업에서 탁월한 성능을 발휘하며, 심지어 그 동작에 대한 설명도 제공합니다. 이러한 모델은 대중이 직접 접근할 수 있기 때문에 설득력이 떨어지거나 잘못된 설명으로 인해 LLM에 대한 신뢰가 뒷받침되지 않을 위험이 있습니다. 따라서 자체 설명의 해석 가능성-충실성은 AI 안전성을 위해 중요한 고려 사항입니다. 자기 설명이라고 하는 이러한 설명의 해석 가능성-충실성을 평가하는 것은 모델이 너무 복잡하여 인간이 올바른 설명에 주석을 달기 어렵기 때문에 어렵습니다. 이 문제를 해결하기 위해 자체 일관성 검사를 신빙성의 척도로 사용할 것을 제안합니다. 예를 들어, LLM이 특정 단어 집합이 예측을 하는 데 중요하다고 말하는 경우, 이 단어가 없으면 동일한 예측을 할 수 없어야 합니다. 자체 일관성 검사는 충실도에 대한 일반적인 접근 방식이지만, 이전에는 LLM의 자체 설명에 적용되지 않았습니다. 우리는 세 가지 유형의 자기 설명에 자기 일관성 검사를 적용합니다: 반박 사실, 중요도 측정, 수정. 그 결과, 감정 분류의 경우, 사실과 반대되는 설명은 라마2, 중요도 측정은 미스트랄, 리댁션은 팔콘 40B가 더 충실하다는 것을 보여줬습니다. 마지막으로, 우리의 연구 결과는 프롬프트 변형에 대해 견고합니다. [abs|pdf]

[78/200] Machine Learning Techniques to Identify Hand Gestures amidst Forearm Muscle Signals

Keywords: gesture_classification_increased, gesture_classification, improved_gesture_classification
Abstract: 이 연구에서는 10명의 참가자의 데이터에 신경망과 랜덤 포레스트 알고리즘을 사용하여 8가지 손동작을 구별하기 위해 팔뚝 근전도 데이터를 사용하는 방법을 조사했습니다. 신경망은 1000밀리초 창에서 97%의 정확도를 달성한 반면, 랜덤 포레스트는 200밀리초 창에서 85%의 정확도를 달성했습니다. 창 크기가 클수록 시간적 해상도가 높아져 제스처 분류가 개선되었습니다. 랜덤 포레스트는 92밀리초로 뉴럴 네트워크의 124밀리초보다 빠른 처리 속도를 보였습니다. 결론적으로, 이 연구에서는 1000밀리초 스트림의 신경망이 가장 정확하고(97%), 200밀리초 스트림의 랜덤 포레스트가 가장 효율적(85%)인 것으로 확인되었습니다. 향후 연구에서는 샘플 크기를 늘리고, 더 많은 손동작을 통합하고, 다양한 특징 추출 방법과 모델링 알고리즘을 탐색하여 시스템의 정확성과 효율성을 향상시키는 데 초점을 맞춰야 합니다. [abs|pdf]

[79/200] Learned Best-Effort LLM Serving

Keywords: serving_unpredictable_workloads, static_serving_learned, workloads_learned_router
Abstract: 많은 애플리케이션은 사용자에게 지연 시간이 짧은 LLM 서비스를 제공해야 하며, 그렇지 않을 경우 사용자 경험이 저하될 위험이 있습니다. 그러나 변동하는 요청 패턴을 처리하기 위해 리소스를 과도하게 프로비저닝하는 것은 종종 엄청난 비용이 소요됩니다. 이 연구에서는 심층 강화 학습을 사용하여 작업 분배와 시스템 부하에 따라 서비스 품질을 조정하는 최선의 노력 서비스 시스템을 제시합니다. 최선의 노력 시스템은 예측 불가능한 워크로드에서 정적 서비스보다 10배 이상 높은 클라이언트 요청률로 가용성을 유지하고, 최고 성능의 96% 이상을 4.1배 더 자주 서비스하며, 최고 성능의 98% 이상을 2.3배 더 자주 서비스할 수 있습니다. 학습된 라우터는 도착 및 작업 분배의 변화에도 견고합니다. 정적 서빙에 비해 학습된 최적 노력 서빙은 하드웨어 활용도를 높여 비용 효율적인 서빙을 가능하게 합니다. 또한 학습된 최적 노력 LLM 서빙은 다양한 설정에 적용할 수 있으며 애플리케이션 개발자가 특정 요구 사항을 충족할 수 있는 뛰어난 유연성을 제공합니다. [abs|pdf]

[80/200] The Chronicles of RAG: The Retriever, the Chunk and the Generator

Keywords: retrieval_augmented_generation, text_generation, retrieval_models_efficient
Abstract: 검색 증강 생성(RAG)은 LLM이 외부 데이터에 액세스할 수 있도록 하는 가장 인기 있는 패러다임 중 하나이자 환각을 완화하기 위한 근거 메커니즘으로 자리 잡았습니다. RAG를 구현할 때 검색 모델의 효과적인 통합, 효율적인 표현 학습, 데이터 다양성, 계산 효율성 최적화, 평가 및 텍스트 생성 품질과 같은 여러 가지 문제에 직면할 수 있습니다. 이러한 모든 과제를 고려할 때, 매일 RAG를 개선하기 위한 새로운 기술이 등장하기 때문에 문제에 대한 모든 조합을 실험하는 것은 불가능합니다. 이러한 맥락에서 이 백서에서는 추론 및 실험을 위한 간단한 파이프라인 구축에 중점을 두고 브라질 포르투갈어에 대한 RAG를 구현, 최적화 및 평가하는 모범 사례를 제시합니다. 우리는 해리 포터 첫 번째 책에 대한 질문에 답하기 위해 다양한 방법을 탐색했습니다. 답을 생성하기 위해 OpenAI의 gpt-4, gpt-4-1106-preview, gpt-3.5-turbo-1106 및 Google의 Gemini Pro를 사용했습니다. 리트리버의 품질에 초점을 맞춘 접근 방식은 기준선 대비 MRR@10을 35.4% 개선했습니다. 애플리케이션에서 입력 크기를 최적화할 경우 2.4%까지 더 향상시킬 수 있음을 확인했습니다. 마지막으로 권장 사항과 함께 RAG의 전체 아키텍처를 제시합니다. 그 결과 57.88%의 기준선에서 최대 98.61%의 상대 점수로 향상되었습니다. [abs|pdf]

[81/200] EMBRE: Entity-aware Masking for Biomedical Relation Extraction

Keywords: entity_recognition_ner, entity_knowledge_deep, biomedical_relation_extraction
Abstract: 명명된 개체 인식(NER) 및 관계 추출(RE)을 포함한 정보 추출 기술은 많은 분야에서 관련 정보를 식별하고 연결하여 방대한 양의 비정형 텍스트 데이터를 이해하도록 지원하는 데 매우 중요한 역할을 합니다. 이러한 기술은 연구자들이 가치 있는 인사이트를 추출하는 데 도움을 줄 수 있습니다. 이 백서에서는 사람이 주석을 단 엔티티가 입력으로 제공되는 BioRED 챌린지 과제 1의 맥락에서 적용된 생물의학 관계 추출을 위한 엔티티 인식 마스킹(Entity-aware Masking for Biomedical Relation Extraction, EMBRE) 기법을 소개합니다. 구체적으로는 엔티티 마스킹을 목표로 백본 모델을 사전 훈련하여 엔티티 지식을 심층 신경망에 통합합니다. 각 인스턴스에 대해 이름이 지정된 엔티티를 무작위로 마스킹하고 모델이 유형과 함께 마스킹된 엔티티를 식별하도록 합니다. 이러한 방식으로 모델은 더 구체적인 지식과 더 강력한 표현을 학습할 수 있습니다. 그런 다음 사전 학습된 모델을 백본으로 활용하여 언어 표현을 인코딩하고 이러한 표현을 두 개의 다층 퍼셉트론(MLP)에 공급하여 각각 관계성과 신규성에 대한 로짓을 예측합니다. 실험 결과는 우리가 제안한 방법이 기준선보다 엔티티 쌍, 관계 및 신규성 추출의 성능을 향상시킬 수 있음을 보여줍니다. [abs|pdf]

[82/200] JumpCoder: Go Beyond Autoregressive Coder via Online Modification

Keywords: code_generation, code_necessary_generation, generation_augment_code
Abstract: 기존의 코드 대규모 언어 모델(코드 LLM)은 코드 생성에 있어 인상적인 기능을 제공하지만, 자동 회귀적 순차 생성에는 본질적으로 가역성이 결여되어 있습니다. 이러한 한계로 인해 코딩 중에 누락된 문장을 사람처럼 적시에 수정하지 못해 오류가 전파되고 성능이 최적화되지 않는 경우가 많습니다. 코드 LLM을 보강하기 위해 온라인 수정 및 비순차 생성을 가능하게 하는 새로운 모델 애그노스틱 프레임워크인 JumpCoder를 소개합니다. JumpCoder의 핵심 아이디어는 생성 중에 필요할 때 현재 생성된 코드에 새 코드를 삽입하는 것으로, 이는 코드 LLM과 함께 작동하는 보조 인필 모델을 통해 이루어집니다. 최적의 인필 위치를 미리 파악하는 것은 쉽지 않기 때문에 선 인필, 후 판단 전략을 채택하여 각 줄을 생성한 후 가장 중요한 $k$ 위치에 인필하는 실험을 하고, 생성 모델 스코어링과 함께 추상 구문 트리(AST) 파서를 사용하여 각 잠재적 인필의 유효성을 효과적으로 판단합니다. 여러 벤치마크에 걸쳐 6개의 최신 코드 LLM을 사용한 광범위한 실험 결과, 모든 기준선 대비 상당한 개선이 일관되게 나타났습니다. 특히, 점프코더는 다국어 휴먼에벌 벤치마크에서 코드 LLM을 통해 파이썬의 경우 최대 3.6%, 자바는 6.3%, C++는 3.7%의 Pass@1 증가를 달성할 수 있도록 지원합니다. 코드는 이 https URL에서 공개되어 있습니다. [abs|pdf]

[83/200] Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability

Keywords: robotic_task_plans, plan_executable_robot, task_plans_trees
Abstract: 대규모 언어 모델(LLM)의 내재된 확률적 특성은 예측 불가능성의 요소를 도입하여 결과의 잠재적 불일치에 대한 우려를 불러일으킵니다. 이 백서에서는 다양한 현실 세계의 요구와 시나리오에 맞는 정확하고 최적의 로봇 작업 계획을 생성하는 것을 목표로 하는 혁신적인 접근 방식을 소개합니다. 작업 계획을 생성하는 데 LLM이 사용되어 왔지만 신뢰성이 떨어지고 잘못되거나 의심스러운 단계 또는 비용이 많이 드는 단계가 포함될 수 있습니다. 제안된 접근 방식은 LLM을 사용하여 여러 작업 계획을 트리로 생성하고 의심스러운 경로를 제거하여 그래프로 통합합니다. 그런 다음 의심스러운 노드와 고비용 노드를 우회하는 최적의 작업 트리를 검색하여 계획의 정확성과 실행 효율성을 개선할 수 있습니다. 이 접근 방식은 대규모 지식 네트워크를 통합함으로써 더욱 개선됩니다. GPT-4를 더욱 활용하면 높은 수준의 작업 계획이 로봇이 실행할 수 있는 낮은 수준의 계획 도메인 정의 언어(PDDL) 계획으로 변환됩니다. 평가 결과는 작업 계획 분야의 이전 방법론과 비교하여 우리의 접근 방식이 정확성과 효율성이 뛰어나다는 것을 강조합니다. [abs|pdf]

[84/200] Adaptive Neural-Operator Backstepping Control of a Benchmark Hyperbolic PDE

Keywords: adaptive_pde_control, adaptive_control_pdes, pde_control_estimation
Abstract: PDE를 안정화하려면 피드백 컨트롤러에 게인 커널 함수가 필요하며, 이 커널 함수는 자체적으로 PDE에 의해 제어됩니다. 또한 이러한 게인 커널 PDE는 PDE 플랜트의 기능 계수에 따라 달라집니다. PDE 플랜트의 기능 계수는 종종 알려지지 않았습니다. 따라서 PDE 제어에 대한 적응형 접근 방식, 즉 제어와 동시에 수행되는 플랜트 계수 추정이 필요하며, 플랜트 계수 함수 추정치가 업데이트될 때마다 이득 커널에 대한 별도의 PDE를 각 타임스텝에서 풀어야 합니다. 각 타임스텝에서 PDE를 푸는 것은 계산 비용이 많이 들고 실시간 적응형 제어를 구현하는 데 장애가 됩니다. 최근에는 이득 커널의 계산을 오프라인에서 학습된 신경망으로 대체하고, 이를 실시간으로 재사용하여 PDE를 빠르게 풀기 위해 기능 매핑의 신경 연산자(NO) 근사치를 PDE 제어에 도입하고 있습니다. 이 백서에서는 재순환이 있는 벤치마크 1-D 쌍곡선 PDE에 대해 적응형 PDE 제어에 NO를 적용한 첫 번째 결과를 제시합니다. 플랜트 및 파라미터 오류 상태에서 리아푸노프 분석을 통해 전역 안정화를 확립하고, 커널 차별성에 대한 강력한 가정을 피하는 수동 식별자를 통한 대안적 접근 방식을 제시합니다. 그런 다음 안정성을 입증하는 수치 시뮬레이션을 제시하고 최대 3배의 속도 향상을 관찰하여 적응형 제어에서 신경 연산자의 실시간 효율성을 강조합니다. 코드(Github)는 미래의 연구자들을 위해 공개적으로 제공됩니다. [abs|pdf]

[85/200] The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise

Keywords: stochastic_approximation, stochastic_gradient_descent, stochastic_approximation_class
Abstract: 확률적 근사화는 벡터를 반복적, 점진적, 확률적으로 업데이트하는 알고리즘의 한 종류로, 확률적 경사 하강과 시간 차 학습 등이 여기에 포함됩니다. 확률론적 근사 알고리즘을 분석할 때 근본적인 문제 중 하나는 안정성을 확립하는 것, 즉 확률론적 벡터 반복이 거의 확실하게 경계가 있음을 증명하는 것입니다. 이 논문에서는 안정성에 대한 유명한 보르카-마인 정리를 마틴차 노이즈 설정에서 마르코비안 노이즈 설정으로 확장하여 강화 학습, 특히 선형 함수 근사 및 적격성 추적을 사용하는 비정책 강화 학습 알고리즘에서 적용 가능성을 크게 향상시킵니다. 분석의 핵심은 몇 가지 함수의 점근 점근 변화율 감소인데, 이는 일종의 강력한 큰 수의 법칙과 일반적으로 사용되는 V4 리아푸노프 드리프트 조건에 의해 암시되며 마르코프 체인이 유한하고 환원 불가능할 경우 간단하게 유지됩니다. [abs|pdf]

[86/200] Two Types of AI Existential Risk: Decisive and Accumulative

Keywords: decisive_ai_risk, ai_risks_manifesting, ai_risks_implications
Abstract: 인공지능으로 인한 실존적 위험(X-리스크)에 대한 기존의 담론은 일반적으로 첨단 인공지능 시스템, 특히 인간 수준의 지능을 달성하거나 능가할 수 있는 인공지능 시스템으로 인한 갑작스럽고 끔찍한 사건에 초점을 맞추고 있습니다. 이러한 사건은 인류의 멸종으로 이어지거나 인류 문명을 돌이킬 수 없을 정도로 파괴하는 심각한 결과를 초래할 수 있습니다. 그러나 이러한 담론은 시간이 지남에 따라 점차적으로 임계점을 넘어서는 일련의 작지만 서로 연결된 혼란을 통해 점진적으로 나타날 수 있는 심각한 AI X-리스크의 가능성을 간과하는 경우가 많습니다. 이 논문은 기존의 "결정적 AI 위험 가설"과 "누적적 AI 위험 가설"을 대조합니다 전자가 통제할 수 없는 초지능과 같은 시나리오를 특징으로 하는 명백한 AI 장악 경로를 상정하는 반면, 후자는 실존적 재앙에 이르는 다른 인과적 경로를 제시합니다. 여기에는 심각한 취약성과 경제 정치 구조의 체계적 침식 등 AI로 인한 중대한 위협이 점진적으로 축적되는 것이 포함됩니다. 누적 가설은 점진적으로 증가하는 AI 위험이 서서히 수렴하면서 회복력을 약화시켜 돌이킬 수 없는 붕괴를 초래할 때까지 회복력을 약화시키는 끓는 개구리 시나리오를 제시합니다. 이 백서에서는 시스템 분석을 통해 이 두 가설을 구분하는 뚜렷한 가정을 살펴봅니다. 그런 다음 누적적 관점이 AI 위험에 대한 양립할 수 없어 보이는 관점을 조화롭게 조정한다고 주장합니다. 결정적 인과 경로와 누적적 인과 경로를 구분하는 것이 AI 위험의 거버넌스와 장기적인 AI 안전에 미치는 영향에 대해 논의합니다. [abs|pdf]

[87/200] Consolidating Strategies for Countering Hate Speech Using Persuasive Dialogues

Keywords: arguments_countering_hate, arguments_hateful_comments, counter_arguments_hateful
Abstract: 혐오성 댓글은 소셜 미디어 플랫폼에서 만연해 있습니다. 최근 온라인에서 이러한 허위, 모욕적, 유해한 콘텐츠를 자동으로 감지, 신고, 차단하는 도구가 발전하고 있지만, 이러한 사후 대응적이고 무차별적인 방법만으로는 가해자가 지속되는 동안 단기적이고 피상적인 해결책을 제공할 뿐입니다. 명료하고 매력적인 합성 콘텐츠를 대규모로 생성할 수 있는 대규모 언어 모델이 공개됨에 따라 웹에서 이러한 악성 콘텐츠의 유포가 빠르게 증가하고 있다는 우려가 제기되고 있습니다. 이제 콘텐츠의 배후에 있는 가해자와 소통하여 그들의 관점을 바꾸거나 최소한 설득력 있는 수단을 사용하여 수사를 중단시키는 등 보다 심층적이고 장기적인 해결책에 집중해야 할 필요성이 있습니다. 이를 위해 온라인 대화에서 혐오 발언에 대한 반론을 생성하기 위한 통제 가능한 전략을 정의하고 실험해 볼 것을 제안합니다. 우리는 (i) 논증 구조와 추론에 기반한 월튼 논증 체계, (ii) 반론의 언어 행위, (iii) 빅 5 성격 특성 및 인간 가치관과 같은 인간 특성 기반 자질에 기반한 기능을 사용하여 반응 생성을 제어하는 실험을 진행합니다. 자동 평가와 인간 평가를 통해 혐오에 대응하기 위한 유창하고 논증적이며 논리적으로 건전한 주장을 생성하는 최적의 특징 조합을 결정합니다. 또한 이러한 특징으로 텍스트에 자동으로 주석을 달기 위해 개발된 계산 모델과 기존 혐오 발언 대화 코퍼스의 실버 표준 주석 버전을 공유합니다. [abs|pdf]

[88/200] Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification

Keywords: cardiac_function_descriptors, descriptors_echocardiographic_sequences, descriptors_echocardiographic
Abstract: 이제 딥러닝을 통해 심초음파 시퀀스에서 박출률이나 변형률과 같은 심장 기능 설명자를 자동으로 강력하게 추출할 수 있습니다. 이러한 설명자는 의사가 임상 기록의 더 많은 전역 변수와 함께 환자의 상태를 평가할 때 고려할 수 있는 세분화된 정보를 제공합니다. 표 형식 데이터(예: 전자 의료 기록의 변수)에 적용된 새로운 변환기 모델을 바탕으로 의료 기록과 심초음파에서 추출한 모든 설명자를 고려하여 고혈압과 같은 특성화하기 어려운 심혈관 병리의 표현을 학습하는 방법을 제안합니다. 먼저 모달리티별 접근 방식을 사용하여 각 변수를 고유한 표현 공간에 투영합니다. 이렇게 표준화된 멀티모달 데이터의 표현은 트랜스포머 인코더에 전달되고, 트랜스포머 인코더는 임상 등급을 예측하는 사전 작업을 통해 환자의 종합적인 표현으로 병합하는 방법을 학습합니다. 이 구실 작업은 표현 공간에 병리학적인 연속체를 적용하기 위해 서수 분류로 공식화됩니다. 우리는 239명의 고혈압 환자 코호트를 대상으로 이 연속체를 따라 주요 경향을 관찰하여 고혈압이 여러 심장 기능 설명 변수에 미치는 영향을 전례 없는 그라데이션으로 설명합니다. 분석 결과, i) 기초 모델에서 사전 훈련된 가중치를 사용하면 제한된 데이터(200개 미만의 훈련 샘플)로도 우수한 성능(83%의 정확도)에 도달할 수 있고, ii) 집단 전체의 추세가 훈련 간에 재현 가능하며, iii) 고혈압과의 상호작용이 잘 문서화된 설명자의 경우 패턴이 사전 생리적 지식과 일치한다는 것을 알 수 있었습니다. [abs|pdf]

[89/200] SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction

Keywords: interaction_prediction_propose, predictions_interactive_scenes, interaction_prediction
Abstract: 이 백서에서는 자율 주행 차량의 안전을 보장하는 데 핵심적인 역할을 하는 다중 에이전트 환경에서의 모션 예측을 다룹니다. 전통적인 방법과 최근의 데이터 기반 한계 궤적 예측 방법은 비선형 에이전트 간 상호작용을 제대로 학습하는 데 어려움을 겪습니다. 궤적 예측을 위한 인터랙션 모델링을 향상시키기 위한 사전 작업을 제안하는 SSL-Interactions를 소개합니다. 에이전트 간 상호작용의 다양한 측면을 캡슐화하기 위한 네 가지 상호작용 인식 구실 과제를 소개합니다: 범위 간격 예측, 최단 거리 예측, 이동 방향 예측, 상호작용 유형 예측. 또한 데이터 세트에서 상호작용이 많은 시나리오를 큐레이팅하는 접근 방식을 제안합니다. 이렇게 큐레이션된 데이터는 상호작용 모델에 더 강력한 학습 신호를 제공하고, 상호작용 중심의 구실 작업을 위한 의사 레이블 생성을 용이하게 한다는 두 가지 장점이 있습니다. 또한 인터랙티브 장면에서 예측을 평가하기 위해 특별히 고안된 세 가지 새로운 지표를 제안합니다. 경험적 평가에 따르면 SSL-Interactions는 인터랙션이 많은 시나리오의 경우 정량적으로 최대 8% 향상된 성능으로 최첨단 모션 예측 방법을 능가하며, 정성적으로도 우수한 것으로 나타났습니다. [abs|pdf]

[90/200] Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

Keywords: diffusion_based_editing, diffusion_editing, instant_diffusion_editing
Abstract: 확산 기반 이미지 편집(DIE)은 새롭게 떠오르는 연구 분야로, 확산 기반 편집을 위해 대상 영역을 제어하기 위해 시맨틱 마스크를 적용하는 경우가 많습니다. 그러나 대부분의 기존 솔루션은 수동 작업이나 오프라인 처리를 통해 이러한 마스크를 얻으므로 효율성이 크게 떨어집니다. 본 논문에서는 텍스트-대-이미지(T2I) 확산 모델을 위한 새롭고 효율적인 이미지 편집 방법인 인스턴트 확산 편집(InstDiffEdit)을 제안합니다. 특히 InstDiffEdit는 기존 확산 모델의 교차 모드 주의 능력을 활용하여 확산 단계 중에 즉각적인 마스크 안내를 달성하는 것을 목표로 합니다. 주의도 맵의 노이즈를 줄이고 완전한 자동화를 실현하기 위해 InstDiffEdit에 훈련이 필요 없는 개선 체계를 탑재하여 주의도 분포를 적응적으로 집계하여 자동적이면서도 정확한 마스크를 생성할 수 있도록 합니다. 한편, DIE의 기존 평가를 보완하기 위해 기존 방법의 마스크 정확도와 로컬 편집 능력을 검사하기 위해 Editing-Mask라는 새로운 벤치마크를 제안합니다. 또한 InstDiffEdit의 검증을 위해 ImageNet과 Imagen에서 광범위한 실험을 수행하여 여러 가지 SOTA 방법과 비교합니다. 실험 결과, InstDiffEdit는 이미지 품질과 편집 결과 모두에서 SOTA 메서드보다 성능이 뛰어날 뿐만 아니라 추론 속도도 +5~+6배 정도 훨씬 빠른 것으로 나타났습니다. 코드 사용 가능: https://anonymous.4open.science/r/InstDiffEdit-C306/ [abs|pdf]

[91/200] MLAD: A Unified Model for Multi-system Log Anomaly Detection

Keywords: learnable_semantic_vectors, log_anomaly_detection, novel_anomaly_detection
Abstract: 비지도 로그 이상 징후 탐색 기법의 급속한 발전에도 불구하고, 현재 주류 모델은 여전히 개별 시스템 데이터 세트에 대한 특정 학습이 필요하기 때문에 비용이 많이 들고 데이터 세트 크기로 인해 확장성이 제한되어 성능 병목 현상이 발생합니다. 또한, 많은 모델이 인지적 추론 기능이 부족하여 효과적인 이상 징후 탐지를 위해 유사한 시스템으로 직접 이전하는 데 어려움이 있습니다. 또한, 재구성 네트워크와 마찬가지로 이러한 모델은 대부분의 시스템 로그를 정상으로 분류하여 재구성 오류로 인해 드문 이상 징후 로그에 직면했을 때 정상 클래스를 잘못 예측하는 '동일한 지름길' 문제에 종종 직면합니다.
앞서 언급한 문제를 해결하기 위해 여러 시스템에 걸쳐 의미론적 관계 추론을 통합하는 새로운 이상 징후 탐지 모델인 MLAD를 제안합니다. 구체적으로, Sentence-bert를 사용해 로그 시퀀스 간의 유사성을 포착하고 이를 고차원의 학습 가능한 의미 벡터로 변환합니다. 그 후, 주의 계층의 공식을 개선하여 시퀀스에서 각 키워드의 중요성을 식별하고 적절한 벡터 공간 확산을 통해 다중 시스템 데이터 세트의 전체 분포를 모델링합니다. 마지막으로 가우시안 혼합 모델을 사용하여 '동일한 바로 가기' 문제와 관련된 희귀 단어의 불확실성을 강조하고 최대 기대 모델을 사용하여 샘플의 벡터 공간을 최적화합니다. 세 가지 실제 데이터 세트에 대한 실험을 통해 MLAD의 우수성을 입증합니다. [abs|pdf]

[92/200] Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications

Keywords: prompt_injection_attacks, ai_security, prompt_injection_attack
Abstract: 대규모 언어 모델(LLM) 통합 애플리케이션의 프롬프트 인젝션 공격은 인공 지능(AI) 분야에서 점점 더 큰 문제로 대두되고 있습니다. 자연어 입력을 통해 LLM을 조작하는 이러한 공격은 이러한 애플리케이션의 보안에 심각한 위협이 됩니다. 출력 및 입력 필터링과 구분 기호 사용을 포함한 기존의 방어 전략은 부적절한 것으로 입증되었습니다. 이 백서에서는 새로운 솔루션으로 '서명 프롬프트' 방법을 소개합니다. 이 연구는 권한이 부여된 사용자가 명령 세그먼트 내의 민감한 명령어에 서명함으로써 LLM이 신뢰할 수 있는 명령어 소스를 식별할 수 있도록 합니다. 이 백서에서는 프롬프트 인젝션 공격 패턴에 대한 포괄적인 분석과 함께 기본 아키텍처와 프롬프트 엔지니어링 및 LLM의 미세 조정을 통한 구현을 포함한 Signed-Prompt 개념에 대한 자세한 설명을 제공합니다. 실험을 통해 다양한 유형의 프롬프트 인젝션 공격에 대한 상당한 저항력을 보여줌으로써 서명-프롬프트 방식의 효과를 입증하여 AI 보안의 강력한 방어 전략으로서의 잠재력을 검증합니다. [abs|pdf]

[93/200] Multi-task robot data for dual-arm fine manipulation

Keywords: robotic_manipulation_deep, dual_action_attention, diverse_object_manipulations
Abstract: 로봇 조작 분야에서 심층 모방 학습은 조작 기술을 습득하기 위한 유망한 접근법으로 인정받고 있습니다. 또한 다양한 로봇 데이터 세트로부터 학습하는 것은 다목적성과 적응성을 달성하기 위한 실행 가능한 방법으로 간주됩니다. 이러한 연구에서 로봇은 다양한 작업을 학습함으로써 여러 대상에 대한 일반성을 달성했습니다. 그러나 이러한 멀티태스크 로봇 데이터셋은 주로 상대적으로 부정확한 단일 팔 작업에 초점을 맞춰 왔으며, 실제 세계에서 로봇이 수행해야 하는 세밀한 물체 조작을 다루지 못했습니다. 이 백서에서는 양팔 작업 및/또는 세밀한 조작이 필요한 작업을 포함하는 다양한 물체 조작 데이터 세트를 소개합니다. 이를 위해 양팔로 그릇 옮기기, 필통 열기, 바나나 껍질 벗기기 등의 미세한 작업을 포함하는 22만 4천 개의 에피소드(150시간, 1,104개 언어 명령어)가 포함된 데이터 세트를 생성했으며, 이 데이터는 공개적으로 사용할 수 있습니다. 또한 이 데이터 세트에는 시각적 주의 신호뿐만 아니라 동작을 강력한 도달 궤적과 물체와의 정확한 상호작용으로 구분하는 신호인 이중 동작 레이블과 강력하고 정확한 물체 조작을 위한 언어 명령어도 포함되어 있습니다. 유니티는 이 데이터 세트를 세분화된 양팔 조작 작업을 위해 설계되고 공변량 변화에 강하도록 설계된 모델인 듀얼 액션 앤 어텐션(DAA)에 적용했습니다. 이 모델은 실제 로봇 조작 작업에서 총 7천 회 이상의 테스트를 거쳐 세밀한 조작 능력을 입증했습니다. [abs|pdf]

[94/200] E3x: $E(3)$-Equivariant Deep Learning Made Easy

Keywords: neural_networks_equivariant, equivariance_neural_networks, mathrm_equivariance_neural
Abstract: 이 글에서는 3차원 공간의 이동, 회전, 반사로 구성된 유클리드 군 $E(3)$에 대해 등변수인 신경망을 구축하기 위한 소프트웨어 패키지인 E3x를 소개합니다. 일반 신경망과 비교했을 때, $E(3)$ 등변량 모델은 입력 및/또는 출력 데이터가 3차원 물체와 관련된 수량일 때 이점을 제공합니다. 이러한 수량(예: 위치)의 수치 값은 일반적으로 선택한 좌표계에 따라 달라지기 때문입니다. 참조 프레임의 변형에 따라 값은 예측 가능하게 변하지만 기본 규칙은 일반 머신 러닝 모델에서 학습하기 어려울 수 있습니다. 내장된 $E(3)$ 공분산을 통해 신경망은 관련 변환 규칙을 정확히 충족하도록 보장되어 데이터 효율성과 정확성이 향상됩니다. E3x의 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[95/200] Multimodal Crowd Counting with Pix2Pix GANs

Keywords: crowd_counting_models, accuracy_crowd_counting, crowd_datasets
Abstract: 대부분의 최신 군중 집계 방법은 컬러(RGB) 이미지를 사용하여 군중의 밀도 맵을 학습합니다. 그러나 이러한 방법은 조명이 좋지 않고 사람이 밀집된 장면에서 정확도를 높이는 데 어려움을 겪는 경우가 많습니다. 최근 일부 연구에서는 RGB 이미지와 열화상 이미지를 조합하여 군중 수 계산 모델의 정확도를 개선했다는 보고가 있습니다. 멀티모달 데이터를 사용하면 더 나은 예측을 할 수 있지만, 멀티모달 데이터를 항상 미리 구할 수 있는 것은 아닙니다. 이 백서에서는 생성적 적대 신경망(GAN)을 사용하여 컬러(RGB) 이미지에서 열적외선(TIR) 이미지를 자동으로 생성하고, 두 이미지를 모두 사용하여 군중 집계 모델을 훈련하여 정확도를 높이는 방법을 제안합니다. 먼저 Pix2Pix GAN 네트워크를 사용하여 RGB 이미지를 TIR 이미지로 변환합니다. 여러 가지 최신 군중 집계 모델과 벤치마크 군중 데이터 세트에 대한 실험을 통해 정확도가 크게 향상되었음을 확인했습니다. [abs|pdf]

[96/200] Curriculum for Crowd Counting -- Is it Worthy?

Keywords: learning_crowd_counting, curriculum_learning_crowd, learning_crowd
Abstract: 최근 딥러닝 기술의 발전으로 여러 컴퓨터 비전 문제에서 괄목할 만한 성과를 거뒀습니다. 최근 딥러닝 모델 학습을 위해 커리큘럼 학습(CL)이라는 매우 직관적인 기법이 도입되었습니다. 놀랍게도 커리큘럼 학습은 일부 작업에서는 상당히 향상된 결과를 얻었지만 다른 작업에서는 미미하거나 전혀 개선되지 않았습니다. 따라서 지도 학습 모델을 훈련하는 표준 방법으로 채택하는 것에 대해서는 여전히 논쟁이 계속되고 있습니다. 이 연구에서는 밀도 추정 방법을 사용하여 군중 수 계산에서 커리큘럼 학습이 미치는 영향을 조사했습니다. 8가지 군중 모델을 사용하여 6가지 CL 설정으로 112개의 실험을 수행하여 상세한 조사를 수행했습니다. 실험 결과, 커리큘럼 학습이 모델 학습 성능을 향상시키고 수렴 시간을 단축하는 것으로 나타났습니다. [abs|pdf]

[97/200] Must: Maximizing Latent Capacity of Spatial Transcriptomics Data

Keywords: data_transcriptomic_spatial, spatial_transcriptomics, transcriptomics_identify_modality
Abstract: 공간 전사체학(ST) 기술은 전사체학, 공간 및 형태학적 다중 모달리티 데이터를 제공함으로써 조직 내 유전자 발현 패턴 연구에 혁명을 일으켰고, 전사체학을 넘어 조직 생물학을 이해할 수 있는 기회를 제공했습니다. 그러나 ST 데이터 종에서 모달리티 편향 현상, 즉 서로 다른 모달리티가 라벨에 일관성 있게 기여하지 못하면 분석 방법이 지배적인 모달리티의 정보를 유지하는 경향이 있음을 확인했습니다. 다양한 다운스트림 작업을 만족시키기 위해 모달리티 편향의 부작용을 완화하는 방법은 근본적인 과제로 남아 있습니다. 이 백서에서는 이 문제를 해결하기 위한 새로운 방법론인 다중 모달리티 구조 변환(MuST)을 소개합니다. MuST는 ST 데이터에 포함된 다중 모달리티 정보를 균일한 잠재 공간으로 효과적으로 통합하여 모든 다운스트림 작업의 기반을 제공합니다. 또한 토폴로지 검색 전략과 토폴로지 융합 손실 함수를 통해 고유한 로컬 구조를 학습하여 서로 다른 모달리티 간의 불일치를 해결합니다. 따라서 이러한 토폴로지 기반 및 딥러닝 기술은 다양한 분석 작업을 위한 견고한 기반을 제공하는 동시에 서로 다른 모달리티를 조정합니다. MuST의 효과는 성능 지표와 생물학적 중요도를 통해 평가됩니다. 그 결과 조직과 바이오마커의 구조를 정확하게 식별하고 보존하는 데 있어 기존의 최첨단 방법보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. MuST는 복잡한 생물학적 시스템의 복잡한 분석을 위한 다용도 툴킷을 제공합니다. [abs|pdf]

[98/200] Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation

Keywords: neural_symbolic_music, track_symbolic_music, symbolic_music_generation
Abstract: 변형 자동 인코더(VAE)는 신경 심볼 음악 생성의 중요한 구성 요소이며, 그 중 일부 작업은 뛰어난 결과를 도출하여 상당한 주목을 받고 있습니다. 그럼에도 불구하고 기존 VAE는 지나치게 긴 피처 시퀀스와 생성된 결과의 문맥적 일관성이 부족하여 긴 멀티 트랙 기호 음악을 모델링하는 과제가 여전히 해결되지 않고 있습니다. 이를 위해 소니는 긴 멀티 트랙 심볼 음악을 효과적으로 모델링하고 생성하는 VAE 방법의 선구자 중 하나인 멀티뷰 미디브이(Multi-view MidiVAE)를 제안합니다. 멀티뷰 미디VAE는 2차원(2-D) 표현인 OctupleMIDI를 활용하여 음표 간의 관계를 포착하는 동시에 피처 시퀀스 길이를 줄입니다. 또한 하이브리드 변형 인코딩-디코딩 전략을 사용해 트랙뷰와 바뷰 MidiVAE 기능을 모두 통합함으로써 악기 특성 및 하모니는 물론 음악 구성에 대한 글로벌 및 로컬 정보에 중점을 둡니다. 코코코랄레스 데이터 세트에 대한 객관적이고 주관적인 실험 결과에 따르면, 기준선에 비해 멀티뷰 MidiVAE는 긴 멀티트랙 기호 음악을 모델링하는 데 있어 상당한 개선이 이루어졌습니다. [abs|pdf]

[99/200] Editing Arbitrary Propositions in LLMs without Subject Labels

Keywords: neural_network_editing, editing_arbitrary_propositions, editing_modifies_factual
Abstract: 대규모 언어 모델(LLM) 편집은 LLM의 사실 정보를 수정합니다. 찾기 및 편집(L&E) 방법은 신경망 내에서 관련 정보가 저장된 위치를 찾아 해당 위치의 가중치를 편집하는 방식으로 이를 수행합니다. 편집의 목표는 명제에 대한 LLM의 응답을 명제의 문구와 독립적으로 수정하는 동시에 다른 관련 명제에 대한 응답은 수정하지 않는 것입니다. 기존 방법은 주어와 목적어 사이의 단순한 이진 관계를 나타내는 이진 명제로 제한됩니다. 또한, 기존 방법들은 실제로 사용할 수 없거나 잘 정의되지 않은 의미론적 주제 레이블에 의존합니다. 이 논문에서는 그라디언트 트레이싱(GT)이라는 간단하고 빠른 로컬라이제이션 방법을 사용하여 이 두 가지 문제를 효과적으로 해결할 수 있음을 보여줍니다. 이 로컬라이제이션 방법을 사용하면 이진 명제 대신 임의의 명제를 편집할 수 있으며, 주제 레이블 없이도 편집할 수 있습니다. 명제는 항상 진리 값을 갖기 때문에, 우리의 실험은 부울 분류기로서 LLM을 프롬프트하고 명제에 대한 T/F 응답을 편집합니다. 우리의 방법은 위치 추적을 위해 GT를 적용한 다음, ROME(Rank-One Model Editing)의 가벼운 변형을 사용하여 해당 위치에서 모델을 편집합니다. CounterFact 데이터 세트에서 파생된 이진 명제 데이터 세트에서, 주제 레이블에 액세스하지 않는 우리의 방법이 주제 레이블에 액세스하는 최첨단 L&E 방법에 근접한 성능을 발휘한다는 것을 보여줍니다. 그런 다음 비이진 명제를 포함하고 주제 레이블이 일반적으로 적용되지 않아 기존 L&E 방법의 범위를 벗어나는 새로운 데이터 세트인 사실 정확도 분류 테스트(FACT)를 소개합니다. 그럼에도 불구하고, 우리는 우리의 방법을 통해 FACT에서 편집이 가능하다는 것을 보여줍니다. [abs|pdf]

[100/200] TAROT: A Hierarchical Framework with Multitask Co-Pretraining on Semi-Structured Data towards Effective Person-Job Fit

Keywords: profiles_job_descriptions, text_profiles_jobs, structured_text_profiles
Abstract: 직무 적합도는 온라인 채용 플랫폼에서 구직 및 후보자 추천과 같은 다양한 다운스트림 애플리케이션을 제공하는 데 있어 필수적인 요소입니다. 최근에는 사전 학습된 대규모 언어 모델이 사용자 행동 특징과 직무 메타데이터 외에도 사용자 프로필과 직무 설명의 풍부한 텍스트 정보를 활용하여 그 효과를 더욱 높이고 있습니다. 그러나 일반적인 도메인 중심 설계는 사용자 프로필과 직무 설명에 포함된 고유한 구조적 정보를 포착하는 데 어려움을 겪고 있으며, 이로 인해 잠재된 의미적 상관관계를 놓치게 됩니다. 우리는 정보성 텍스트 임베딩에 구조적 및 의미론적 정보를 더 잘 활용하기 위해 계층적 멀티태스크 공동 사전 학습 프레임워크인 TAROT을 제안합니다. TAROT는 프로필과 작업의 반구조화된 텍스트를 대상으로 하며, 획득한 의미 정보를 각 수준에서 제약하기 위해 다단계 사전 학습 작업과 함께 유지됩니다. 실제 LinkedIn 데이터 세트에 대한 실험에서 상당한 성능 향상을 보여줌으로써 개인-직무 적합성 작업에서 그 효과가 입증되었습니다. [abs|pdf]

[101/200] InstantID: Zero-shot Identity-Preserving Generation in Seconds

Keywords: image_generation_instantid, personalized_image_synthesis, id_embedding
Abstract: 텍스트 반전, 드림부스, LoRA와 같은 방법을 통해 개인화된 이미지 합성에 상당한 진전이 있었습니다. 하지만 이러한 방법들은 높은 스토리지 요구량, 긴 미세 조정 프로세스, 여러 개의 참조 이미지가 필요하다는 점 때문에 실제 적용에 어려움이 있습니다. 반대로 기존의 ID 임베딩 기반 방식은 단 한 번의 순방향 추론만 필요하지만, 수많은 모델 파라미터에 걸쳐 광범위한 미세 조정이 필요하거나 커뮤니티의 사전 학습 모델과의 호환성이 부족하거나 높은 얼굴 충실도를 유지하지 못하는 등의 문제에 직면해 있습니다. 이러한 한계를 해결하기 위해 유니티는 강력한 확산 모델 기반 솔루션인 InstantID를 도입했습니다. 당사의 플러그 앤 플레이 모듈은 하나의 얼굴 이미지만으로 다양한 스타일의 이미지 개인화를 능숙하게 처리하는 동시에 높은 충실도를 보장합니다. 이를 위해 강력한 의미론적 조건과 약한 공간적 조건을 부과하고 얼굴 및 랜드마크 이미지를 텍스트 프롬프트와 통합하여 이미지 생성을 유도하는 새로운 IdentityNet을 설계합니다. InstantID는 탁월한 성능과 효율성을 보여주며, 신원 보존이 가장 중요한 실제 애플리케이션에서 매우 유용하다는 것이 입증되었습니다. 또한, 당사의 작업은 SD1.5 및 SDXL과 같이 사전 학습된 인기 있는 텍스트-이미지 확산 모델과 원활하게 통합되어 적응 가능한 플러그인 역할을 합니다. 코드와 사전 학습된 체크포인트는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[102/200] Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends

Keywords: processing_nlp, natural_language_processing, nlp_applied_education
Abstract: 자연어 처리(NLP)는 컴퓨터 과학 분야의 기술을 통해 텍스트를 분석하는 것을 목표로 합니다. 의료, 커머스, 교육 분야에서 활용되고 있습니다. 특히 교육 분야에서는 교수와 학습을 돕기 위해 NLP를 적용하고 있습니다. 이번 설문조사에서는 교육 분야와 관련된 문제 해결에 초점을 맞춰 최근 NLP의 발전상을 살펴봅니다. 세부적으로는 관련 배경을 소개하는 것으로 시작합니다. 그런 다음 교육 영역에서 NLP의 분류법을 제시합니다. 다음으로, 위의 분류에 기반한 작업 정의, 과제 및 해당 기술을 설명합니다. 그 후, 이 영역에서 상용화된 몇 가지 데모를 보여주고 향후 방향성을 제시하며 마무리합니다. [abs|pdf]

[103/200] Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering

Keywords: medical_question_answering, question_answering_image, multimodal_paradigms_medical
Abstract: ChatGPT는 의료 진단, 치료 권장 사항 및 기타 의료 지원을 제공하는 데 있어 질문 답변(QA)에 대한 전략적 청사진을 모색합니다. 이는 자연어 처리(NLP)와 멀티모달 패러다임을 통한 의료 분야 데이터의 통합을 확대함으로써 달성할 수 있습니다. 이러한 기술은 텍스트, 이미지, 비디오 및 기타 양식의 배포를 일반 도메인에서 의료 도메인으로 전환함으로써 의료 도메인 질의응답(MDQA)의 발전을 가속화했습니다. 이러한 기술은 인간의 자연어와 정교한 의료 분야 지식 또는 전문가 수동 주석 사이의 간극을 메워 의료 상황에서 대규모의 다양하고 불균형하거나 심지어 레이블이 없는 데이터 분석 시나리오를 처리합니다. Lionbridge는 의학 질문 답변에 언어 모델과 다중 모드 패러다임을 활용하여 연구 커뮤니티가 특정 의학 연구 요구사항에 적합한 메커니즘을 선택할 수 있도록 안내하는 데 중점을 두고 있습니다. 단일 모드 관련 질문 답변, 독해, 추론, 진단, 관계 추출, 확률 모델링 등과 같은 전문 작업과 시각 질문 답변, 이미지 캡션, 교차 모드 검색, 보고서 요약 및 생성과 같은 다중 모드 관련 작업에 대해 자세히 설명합니다. 각 섹션에서는 고려 중인 각 방법의 복잡한 세부 사항을 자세히 살펴봅니다. 이 백서에서는 일반 도메인 방법과 비교하여 의료 도메인 탐색의 구조와 발전을 강조하고, 다양한 작업과 데이터 세트에 대한 적용을 강조합니다. 또한 빠르게 진화하는 이 분야에서 지속적인 혁신과 응용을 위한 길을 열어주는 미래의 의료 도메인 연구에 대한 현재의 과제와 기회를 개괄적으로 설명합니다. [abs|pdf]

[104/200] The Principle of Minimum Pressure Gradient: An Alternative Basis for Physics-Informed Learning of Incompressible Fluid Mechanics

Keywords: learning_field_fluid, variational_methods, minimum_pressure_gradient
Abstract: 유체 역학 분야에 물리학 기반 학습을 적용하는 최근의 발전은 주로 뉴턴 프레임워크에 기반을 두고 있으며, 주로 나비에-스토크스 방정식 또는 그 다양한 도함수 중 하나를 활용하여 신경망을 훈련합니다. 여기서는 변형 방법에 기반한 대안적인 접근 방식을 제안합니다. 제안된 접근 방식은 최소 압력 구배의 원리와 연속성 제약 조건을 결합하여 신경망을 훈련하고 비압축성 유체의 유동장을 예측합니다. 제안된 접근법의 기본 원리를 설명한 다음 데모 예제를 사용하여 구현을 설명하고 기존 접근법과 비교할 때 훈련 에포크당 계산 시간이 단축됨을 보여줍니다. [abs|pdf]

[105/200] Utilizing deep learning models for the identification of enhancers and super-enhancers based on genomic and epigenomic features

Keywords: tweets_used_analysis, content_associated_cryptocurrencies, cryptocurrency_community_examining
Abstract: 이 백서에서는 널리 알려진 9개의 암호화폐, 특히 카르다노, 바이낸스, 비트코인, 도지코인, 이더리움, 팬텀, 매틱, 시바, 리플에 초점을 맞춘 방대한 양의 영어 트윗 데이터 세트를 조사했습니다. 우리의 주요 목표는 이러한 암호화폐와 관련된 소셜 미디어 콘텐츠에 대한 심리언어학적 및 감정 분석을 수행하는 것이었습니다. 조사자들이 더 많은 정보에 입각한 결정을 내릴 수 있도록 하기 위해서였습니다. 이 연구에서는 다양한 디지털 코인의 언어적 특성을 비교하여 각 코인의 커뮤니티 내에서 나타나는 독특한 언어적 패턴을 조명했습니다. 이를 위해 고급 텍스트 분석 기법을 활용했습니다. 또한, 이 연구를 통해 암호화폐 커뮤니티 내에서 이러한 디지털 자산 간의 상호 작용에 대한 흥미로운 이해가 밝혀졌습니다. 데이터 세트에서 어떤 코인 쌍이 가장 자주 함께 언급되는지 조사하여 서로 다른 암호화폐 간의 상관관계를 파악했습니다. 조사 결과의 신뢰성을 확보하기 위해 먼저 트위터에서 총 832,559건의 트윗을 수집했습니다. 이러한 트윗은 엄격한 사전 처리 단계를 거쳐 115,899개의 트윗으로 정제된 데이터 세트를 만들어 분석에 사용했습니다. 전반적으로, 이번 연구는 다양한 디지털 코인의 온라인 커뮤니티의 언어적 뉘앙스에 대한 귀중한 인식을 제공하고 암호화폐 공간에서의 상호 작용에 대한 더 깊은 이해를 제공합니다. [abs|pdf]

[106/200] CarSpeedNet: A Deep Neural Network-based Car Speed Estimation from Smartphone Accelerometer

Keywords: carspeednet_effectively_learns, dnn_architecture_carspeednet, car_speed_estimation
Abstract: 이 연구에서는 스마트폰의 3축 가속도계 데이터를 사용하여 자동차 속도를 추정하는 새로운 심층신경망(DNN) 아키텍처인 CarSpeedNet을 소개합니다. 이스라엘의 여러 지역을 주행하는 차량에 장착된 스마트폰에서 13시간 동안 수집한 데이터를 활용하여 CarSpeedNet은 측정된 스마트폰 가속도와 자동차 속도 간의 관계를 효과적으로 학습합니다. 실측 속도 데이터는 스마트폰의 GPS 수신기로부터 1[Hz]로 얻었습니다. 제안된 모델은 과거 입력을 통합하여 고주파 속도 추정이 가능합니다. 훈련된 모델은 차량과의 연결 없이 스마트폰 가속도계 데이터에만 의존하여 장거리 주행 테스트에서 0.72[m/s] 미만의 정밀도를 달성하는 등 차량 속도 추정에서 탁월한 정확도를 보였습니다. [abs|pdf]

[107/200] Your Instructions Are Not Always Helpful: Assessing the Efficacy of Instruction Fine-tuning for Software Vulnerability Detection

Keywords: vulnerabilities_crucial_deep, deep_learning_vulnerability, learning_vulnerability_detection
Abstract: 소프트웨어는 유익하지만 내재된 취약점으로 인해 잠재적인 사이버 보안 위험을 초래할 수 있습니다. 이러한 취약점을 탐지하는 것은 매우 중요하며, 딥러닝은 광범위한 기능 엔지니어링 없이도 뛰어난 성능을 발휘할 수 있기 때문에 이 작업에 효과적인 도구로 가능성을 보여 왔습니다. 그러나 취약점 탐지를 위해 딥러닝을 배포하는 데 있어 어려운 점은 학습 데이터의 가용성이 제한적이라는 점입니다. 최근의 연구는 다양한 작업에서 딥러닝의 효과를 강조합니다. 이러한 성공은 취약점 탐지의 맥락에서 아직 충분히 연구되지 않은 기술인 명령어 미세 조정에 기인합니다. 이 백서에서는 모델, 특히 최신 언어 모델이 학습 데이터에 사용된 프로그래밍 언어를 넘어 일반화할 수 있는 능력을 조사합니다. 또한 이러한 일반화를 향상시키는 데 있어 자연어 명령어의 역할에 대해서도 살펴봅니다. 이 연구에서는 실제 데이터 세트에 대한 모델 성능을 평가하여 취약한 코드를 예측합니다. 이를 통해 얻은 주요 인사이트와 교훈을 제시하여 소프트웨어 취약점 탐지에 딥러닝을 적용하는 방법을 이해하는 데 기여합니다. [abs|pdf]

[108/200] Only Send What You Need: Learning to Communicate Efficiently in Federated Multilingual Machine Translation

Keywords: neural_machine_translation, multilingual_nmt_training, machine_translation_nmt
Abstract: 연합 학습(FL)은 다국어 작업을 해결하기 위한 유망한 접근 방식으로, 자체 언어별 데이터를 보유한 클라이언트가 고품질 신경망 기계 번역(NMT) 모델을 공동으로 구축할 수 있는 잠재력을 가지고 있습니다. 그러나 실제 네트워크 시스템의 통신 제약으로 인해 FL 당사자 간에 대규모 NMT 엔진을 교환하는 데 어려움이 있습니다. 이 백서에서는 FL 기반 다국어 NMT 학습 중 클라이언트에서 모델 전송의 통신 효율성을 개선하는 메타러닝 기반 적응형 파라미터 선택 방법론인 메타센드(MetaSend)를 제안합니다. 이 접근 방식은 서로 다른 FL 라운드 간 클라이언트의 텐서 편차를 기반으로 NMT 모델 품질에 영향을 주지 않으면서 전송 전에 파라미터를 필터링하기 위한 동적 임계값을 학습합니다. 언어 분포가 서로 다른 두 개의 NMT 데이터 세트에 대한 실험을 통해 MetaSend가 제한된 통신 예산 하에서 번역 품질을 기준선보다 크게 향상시킬 수 있음을 입증했습니다. [abs|pdf]

[109/200] Model Editing at Scale leads to Gradual and Catastrophic Forgetting

Keywords: model_editing_effective, editing_knowledge_large, editing_knowledge
Abstract: 대규모 언어 모델에서 지식을 편집하는 것은 사전 학습 중에 잘못 학습된 사실을 수정할 수 있을 뿐만 아니라 계속 늘어나는 새로운 사실 목록으로 모델을 업데이트할 수 있는 매력적인 기능입니다. 기존의 모델 편집 기술은 가능성을 보였지만, 일반적으로 한 번 또는 몇 번의 편집을 통해 신뢰성, 특이성 및 일반화에 대한 메트릭을 사용하여 평가됩니다. 모델 편집이 실질적인 유용성을 가지려면 동일한 모델을 여러 번 편집할 수 있어야 한다고 주장합니다. 이를 염두에 두고 두 가지 최신 방법을 중심으로 현재의 모델 편집 방법을 대규모로 평가합니다: ROME과 MEMIT. 여러 사실을 순차적으로 편집할 때 모델이 이전에 편집한 사실과 다운스트림 작업을 수행할 수 있는 기능을 지속적으로 잊어버리는 것을 발견했습니다. 이러한 망각은 점진적이지만 점진적인 초기 망각 단계와 갑작스럽거나 치명적인 망각 단계의 두 단계로 진행됩니다. 점진적 망각과 치명적 망각 모두 대규모 모델 편집 방법의 유용성을 제한하는데, 전자는 모델을 여러 번 편집할수록 모델 편집의 효율성이 떨어지고, 후자는 모델 편집 방법의 확장성을 제한합니다. 또한 이번 분석을 통해 대규모에서 ROME과 MEMIT의 다른 주요 한계점을 확인할 수 있었습니다. 이번 연구를 통해 확장성을 염두에 둔 모델 편집 방법의 개발과 평가를 추진하고 있습니다. [abs|pdf]

[110/200] Hierarchical Fashion Design with Multi-stage Diffusion Models

Keywords: fashion_synthesis_editing, clothing_controlling_editing, fashion_synthesis
Abstract: 다단계 패션 합성 및 편집은 디자인 초안의 자동 생성 및 로컬 수정을 가능하게 함으로써 패션 디자이너에게 지능적인 지원을 제공합니다.현재의 확산 모델은 이미지 합성에서 뛰어난 안정성과 제어 가능성을 보여 주지만 추상적 인 디자인 요소로부터 패션 디자인을 생성하고 세분화 된 편집에 여전히 상당한 도전에 직면 해 있습니다.사무실, 비즈니스 및 파티와 같은 추상적 인 감각 표현은 높은 수준의 디자인 개념을 형성하는 반면 소매 길이, 칼라 유형 및 바지 길이와 같은 측정 가능한 측면은 의류의 낮은 수준의 속성으로 간주됩니다.긴 텍스트 설명을 사용하여 패션 이미지를 제어하고 편집하는 것은 본 논문에서는 상위 수준의 디자인 컨셉과 하위 수준의 의류 속성을 계층적 구조로 포괄하는 공유 다단계 확산 모델을 이용한 새로운 패션 디자인 방법인 HieraFashDiff를 제안하며, 구체적으로 입력 텍스트를 전문 의류 디자이너의 기준에 따라 여러 단계로 분류하고 이를 확산 모델에 시간 단계별로 공급하는 방법을 제안한다.히에라패시디프는 디자이너가 대화형 편집을 위한 상위 수준의 프롬프트 후에 하위 수준의 속성을 추가할 수 있게 해줍니다. 또한, 샘플링 과정에서 비편집 영역을 유지하기 위한 마스크를 사용하여 차별적인 손실 함수를 설계했습니다.새롭게 수행한 계층적 패션 데이터 세트에 대한 포괄적인 실험을 통해 제안한 방법이 다른 최첨단 경쟁 방법보다 성능이 뛰어나다는 것을 입증했습니다. [abs|pdf]

[111/200] Taec: a Manually annotated text dataset for trait and phenotype extraction and entity linking in wheat breeding literature

Keywords: traits_phenotypes_wheat, wheat_trait_phenotype, phenotypes_wheat
Abstract: 밀 품종은 매우 다양한 형질과 표현형을 보여줍니다. 이러한 특성을 유전적 다양성과 연결하는 것은 더 짧고 효율적인 밀 육종 프로그램을 위해 필수적입니다. 새롭게 바람직한 밀 품종 특성으로는 농약 사용을 줄이기 위한 질병 저항성, 기후 변화에 대한 적응성, 더위 및 가뭄 스트레스에 대한 저항성, 곡물의 낮은 글루텐 함량 등이 있습니다. 밀 육종 실험은 현장과 통제된 조건에서 얻은 방대한 과학 문헌과 관찰 데이터에 의해 문서화되어 있습니다. 문헌과 관찰 데이터의 상호 보완적인 정보를 상호 참조하는 것은 유전자형-표현형 관계를 연구하고 밀 선발을 개선하는 데 필수적입니다. 유전자 마커를 이용한 선발에 관한 과학 문헌은 유전자형-표현형 관계에 대한 많은 정보를 설명합니다. 그러나 과학 논문에서 형질과 표현형 값을 지칭하는 데 사용되는 다양한 표현은 정보를 찾고 상호 참조하는 데 방해가 됩니다. 주석이 달린 예시로 적절히 훈련된 최신 텍스트 마이닝 방법은 과학 영역에서 명명된 개체 인식 및 연결에서 높은 성능을 발휘합니다. 몇몇 말뭉치에는 인간과 동물의 표현형에 대한 주석이 포함되어 있지만, 현재 식물 표현형 문헌에서 명명된 개체 인식 및 개체 연결 방법을 훈련하고 평가할 수 있는 말뭉치는 없습니다. 트리티쿰 에스티붐 형질 코퍼스는 밀의 형질과 표현형에 대한 새로운 표준입니다. 이 코퍼스는 밀 특성 및 표현형 온톨로지와 국립생명공학정보센터의 종 분류학을 사용하여 특성, 표현형 및 종 이름 엔티티에 대해 완전히 주석이 달린 540개의 PubMed 참조로 구성되어 있습니다. 밀 특성 코퍼스에 대해 훈련된 도구의 성능에 대한 연구에 따르면 이 코퍼스는 명명된 개체 인식 및 연결의 훈련과 평가에 적합하다고 합니다. [abs|pdf]

[112/200] GACE: Learning Graph-Based Cross-Page Ads Embedding For Click-Through Rate Prediction

Keywords: ads_embedding_generation, page_ads_embedding, ads_embedding
Abstract: 클릭률(CTR)을 예측하는 것은 많은 광고 온라인 추천 시스템의 핵심 작업으로, 사용자 경험을 개선하고 플랫폼 수익을 높이는 데 도움이 됩니다. 이러한 유형의 추천 시스템에서는 여러 페이지에 걸친 과거 광고 데이터의 공동 사용과 새로운 광고의 콜드 스타트라는 두 가지 주요 문제에 종종 직면하게 됩니다. 본 논문에서는 그래프 기반의 크로스 페이지 광고 임베딩 생성 방법인 GACE를 제안합니다. 이 방법은 여러 페이지에 걸쳐 콜드 스타트 광고와 기존 광고의 표현 임베딩을 워밍업하고 생성할 수 있습니다. 특히, 시맨틱 및 페이지 유형 속성을 고려한 링크와 가중치가 부여된 비지시형 그래프 모델을 정교하게 구축하여 기능 융합 및 생성의 방향을 제시합니다. 사전 학습 모듈로 변형 자동 인코딩 작업을 설계하고 이를 기반으로 신규 및 기존 광고에 대한 임베딩 표현을 생성했습니다. RecBole의 공개 데이터 세트인 AliEC와 알리페이의 실제 산업 데이터 세트에서 평가한 결과, GACE 방식이 SOTA 방식보다 훨씬 우수한 것으로 나타났습니다. 온라인 A/B 테스트에서 Alipay의 실제 페이지 3개에 대한 클릭률은 각각 3.6%, 2.13%, 3.02% 증가했습니다. 특히 콜드 스타트 작업에서는 CTR이 각각 9.96%, 7.51%, 8.97% 증가했습니다. [abs|pdf]

[113/200] Harnessing the Power of Beta Scoring in Deep Active Learning for Multi-Label Text Classification

Keywords: deep_active_learning, label_text_classification, active_learning
Abstract: 자연어 처리의 범위 내에서 다중 레이블 텍스트 분류 영역은 광범위하고 고르지 않은 레이블 분포로 인해 매우 까다롭습니다. 특히 라벨링 작업이 노동 집약적이고 종종 도메인별 지식이 필요한 전문 분야에서는 고급 딥러닝 모델을 훈련하기 위해 광범위한 주석이 달린 데이터 세트가 필요하기 때문에 복잡성이 더욱 심화됩니다. 이러한 문제를 해결하기 위해 본 연구에서는 기대 손실 감소 프레임워크 내에서 적절한 점수 규칙의 베타 제품군을 활용하는 새로운 딥 액티브 러닝 전략을 소개합니다. 이 전략은 베타 채점 규칙을 사용하여 점수의 예상 증가를 계산한 다음 샘플 벡터 표현으로 변환합니다. 이러한 벡터 표현은 다양한 정보 샘플을 선택하도록 안내하며, 이 과정을 모델의 예상 적정 점수와 직접 연결합니다. 합성 데이터 세트와 실제 데이터 세트에 대한 종합적인 평가 결과, 멀티라벨 텍스트 분류에서 기존 수집 기법을 능가하는 성능을 보여줌으로써 다양한 아키텍처 및 데이터 세트 시나리오에서 고무적인 결과를 제시했습니다. [abs|pdf]

[114/200] A Rapid Review of Clustering Algorithms

Keywords: clustering_algorithms_classify, clustering_algorithms_identified, numerous_clustering_algorithms
Abstract: 클러스터링 알고리즘은 데이터에 내재된 패턴과 유사성을 기반으로 데이터를 그룹 또는 클러스터로 구성하는 것을 목표로 합니다. 클러스터링 알고리즘은 마케팅과 전자상거래, 의료, 데이터 정리 및 분석, 소셜 미디어 등 오늘날의 삶에서 중요한 역할을 합니다. 수많은 클러스터링 알고리즘이 존재하며, 새로운 알고리즘이 계속 개발되고 있습니다. 각 알고리즘은 고유한 장단점을 가지고 있으며, 현재로서는 모든 작업에 보편적으로 적용할 수 있는 알고리즘은 존재하지 않습니다. 이 연구에서는 기존의 클러스터링 알고리즘을 분석하여 기본 원칙과 특성, 클러스터에 대한 데이터 포인트 할당, 데이터 세트 용량, 사전 정의된 클러스터 수, 적용 영역 등 다섯 가지 차원으로 주요 알고리즘을 분류했습니다. 이러한 분류는 연구자들이 다양한 관점에서 클러스터링 알고리즘을 이해하고 특정 작업을 해결하는 데 적합한 알고리즘을 식별하는 데 도움이 됩니다. 마지막으로 클러스터링 알고리즘의 현재 동향과 향후 발전 방향에 대해 논의했습니다. 또한 해당 분야의 미해결 과제와 미해결 이슈를 파악하고 논의했습니다. [abs|pdf]

[115/200] Optimising network interactions through device agnostic models

Keywords: physically_implemented_neural, physical_neural_network, neural_stochastic_differential
Abstract: 물리적으로 구현된 신경망은 계산 도구로서 기기의 고유한 물리적 특성을 활용하여 딥 러닝 모델의 성능을 달성할 수 있는 잠재력을 가지고 있습니다. 계산을 위한 이러한 물리적 프로세스의 탐색은 정보를 처리하는 데 중요한 자원이 될 수 있는 고유한 동역학도 고려해야 합니다. 그러나 기존의 계산 방법으로는 딥러닝 기법의 성공을 디바이스 동역학에 영향을 미치는 파라미터로 확장할 수 없으며, 이러한 파라미터는 정확한 수학적 설명이 부족한 경우가 많습니다. 이 연구에서는 완전한 데이터 기반 방식으로 동적 물리 시스템과의 상호 작용을 최적화하는 범용 프레임워크를 공식화합니다. 이 프레임워크는 신경 확률 미분 방정식을 미분 가능한 디지털 트윈으로 채택하여 디바이스의 결정론적 및 확률론적 동작을 모두 효과적으로 포착합니다. 훈련된 모델을 통해 미분화를 사용하면 물리적 노드의 고유한 시간적 계산 능력을 활용하여 물리적 신경망을 최적화하는 데 필수적인 수학적 추정치를 얻을 수 있습니다. 실제 기기의 동작을 정확하게 모델링하기 위해 다양한 실험 설정에서 작동할 수 있는 신경망-SDE 변형을 공식화했습니다. 이 연구는 상호 작용하는 동적 장치의 시뮬레이션과 물리적 구현을 통해 프레임워크의 적용 가능성을 입증하는 한편, 물리적으로 정의된 신경망을 성공적으로 배포하기 위해서는 시스템 확률성을 정확하게 포착하는 것이 중요하다는 점을 강조합니다. [abs|pdf]

[116/200] DRLC: Reinforcement Learning with Dense Rewards from LLM Critic

Keywords: dense_rewards_learning, critic_language_model, critic_language
Abstract: 강화 학습(RL)은 인간의 선호도와 같이 차별화할 수 없는 보상 신호에 맞춰 언어 모델을 조정할 수 있습니다. 그러나 이러한 보상 신호의 희소성(일반적으로 전체 세대에 대해 하나의 보상만 존재)으로 인해 큰 문제가 발생합니다. 이러한 보상의 희소성은 비효율적이고 불안정한 학습으로 이어질 수 있습니다. 이 백서에서는 학습 과정 전반에 걸쳐 밀도 높은 보상을 생성하기 위해 LLM의 비평 능력을 활용하는 새로운 프레임워크를 소개합니다. 우리의 접근 방식은 정책 모델과 함께 비평가 언어 모델을 통합합니다. 이 비평 언어 모델은 작업 설명, 질문, 정책 모델의 출력, 환경의 보상 신호를 입력으로 제시하고, 출력의 각 세그먼트의 품질을 반영하는 토큰 또는 스팬 수준의 밀도 높은 보상을 제공합니다. 감정 제어, 언어 모델 해독, 요약의 세 가지 텍스트 생성 작업에 대한 접근 방식을 평가합니다. 실험 결과에 따르면 훈련에 인위적인 고밀도 보상을 통합하면 총체적 보상을 사용하는 PPO 기준선보다 일관된 성능 향상을 얻을 수 있습니다. 또한 동일한 모델이 정책과 비평의 역할을 동시에 수행하는 환경에서 '자기 비평' 보상이 학습 효율성을 높인다는 사실도 입증했습니다. [abs|pdf]

[117/200] Inference of dynamical gene regulatory networks from single-cell data with physics informed neural networks

Keywords: gene_regulatory_networks, regulatory_networks_grns, predictive_dynamical_grns
Abstract: 발달 생물학의 주요 목표 중 하나는 다능성 전구세포가 정확하게 지정된 세포 유형으로 강력하게 분화할 수 있는 기반이 되는 유전자 조절 네트워크(GRN)를 밝히는 것입니다. 실험 데이터로부터 GRN을 추론하는 대부분의 기존 방법은 유전자 발현 유사성이나 상관관계만을 반영하기 때문에 예측력이 제한적입니다. 이 글에서는 물리학 정보 신경망(PINN)을 사용하여 생물학적 과정에 대한 기계적인 이해를 제공하는 예측적이고 동적인 GRN의 매개변수를 추론하는 방법을 설명합니다. 특히 분기 행동을 보이는 GRN을 연구하여 세포 분화를 모델링할 수 있습니다. 우리는 PINN이 매개변수 추론 작업에서 일반 피드 포워드 신경망보다 성능이 뛰어나다는 것을 보여주고 두 가지 관련 실험 시나리오를 분석합니다: 1. 유전자 발현 궤적을 확인할 수 있는 세포 통신이 가능한 시스템과 2. 세포 통신이 없는 세포 집단의 스냅샷 측정. 이러한 분석은 향후 PINN으로 분석할 실험의 설계에 정보를 제공하고, 이 강력한 신경망 모델을 더 깊이 탐구할 수 있는 출발점이 될 것입니다. [abs|pdf]

[118/200] Efficient approximation of Earth Mover's Distance Based on Nearest Neighbor Search

Keywords: earth_mover_distance, emd_vectorization_gpu, nearest_neighbor_search
Abstract: 지구 이동자 거리(EMD)는 컴퓨터 비전 및 기타 여러 응용 분야에서 사용되는 두 분포 간의 중요한 유사성 척도입니다. 그러나 정확한 계산은 계산과 메모리 집약적이기 때문에 대규모 문제에 대한 확장성과 적용성에 장애가 됩니다. 계산 비용을 줄이기 위해 다양한 근사 EMD 알고리즘이 제안되었지만, 정확도가 낮고 추가적인 메모리 사용이나 수동 파라미터 튜닝이 필요할 수 있습니다. 이 논문에서는 높은 정확도, 낮은 시간 복잡도, 높은 메모리 효율성을 달성하기 위해 근사 이웃 검색(NNS)을 사용하여 EMD를 근사화하는 새로운 접근 방식인 NNS-EMD를 소개합니다. NNS 연산은 각 NNS 반복에서 비교되는 데이터 포인트의 수를 줄이고 병렬 처리의 기회를 제공합니다. 특히 대규모 데이터 세트에 유리한 GPU의 벡터화를 통해 NNS-EMD를 더욱 가속화합니다. 이미지 분류 및 검색 작업에서 NNS-EMD를 정확한 EMD 및 최첨단 근사 EMD 알고리즘과 비교합니다. 또한 전송 매핑을 계산하고 이미지 간 색상 전송을 실현하는 데도 NNS-EMD를 적용합니다. NNS-EMD는 정확한 EMD 구현보다 44배에서 135배 더 빠를 수 있으며, 기존의 근사 EMD 방식보다 뛰어난 정확도, 속도, 메모리 효율성을 달성합니다. [abs|pdf]

[119/200] PDE Generalization of In-Context Operator Networks: A Study on 1D Scalar Nonlinear Conservation Laws

Keywords: operator_learning_framework, context_operator_learning, context_operator_networks
Abstract: 다양한 PDE 관련 과학 학습 과제를 위한 하나의 큰 모델을 구축할 수 있을까요? 이 모델을 미세 조정 없이 새로운 형태의 새로운 PDE에 일반화할 수 있을까요? 상황 내 연산자 학습과 이에 대응하는 모델인 상황 내 연산자 네트워크(ICON)[1]는 이러한 질문에 대한 초기 탐색을 나타냅니다. 첫 번째 질문에 대한 ICON의 능력은 [1]에서 입증되었습니다. 이 논문에서는 시간적 진화를 갖는 편미분 방정식의 일종인 보존법칙에 대한 ICON의 일반화 능력을 조사하여 두 번째 질문을 탐구합니다. 우리는 두 번째 질문에 대한 긍정적 인 대답, 즉 ICON이 미세 조정없이 새로운 형태의 일부 PDE에 잘 일반화 할 수 있음을 보여줍니다. 또한 함수와 방정식을 아이콘의 기능 범위로 변환하여 아이콘이 해결할 수 있는 문제의 범위를 넓히는 방법도 보여줍니다. 이 백서의 진전은 상황 내 연산자 학습 프레임워크 하에서 PDE 관련 작업을 위한 기초 모델을 훈련한다는 목표를 향한 중요한 단계라고 생각합니다. [abs|pdf]

[120/200] Towards Engineering Fair and Equitable Software Systems for Managing Low-Altitude Airspace Authorizations

Keywords: faa_developing_uas, developing_uas_traffic, flight_authorization_decisions
Abstract: 소형 무인 항공기 시스템(sUAS)은 다양한 분야에서 광범위하게 채택되고 있습니다. 이로 인해 공유 공역 내에서 운영이 복잡해지고 사고 보고가 증가하면서 안전 문제가 제기되고 있습니다. 이에 따라 미국 연방항공청(FAA)은 sUAS가 안전하게 임무를 완수할 수 있을 것으로 예측되는 능력을 기반으로 영공에 대한 접근을 통제하기 위해 UAS 교통 관리(UTM) 시스템을 개발 중입니다. 그러나 비행 요청을 신속하게 승인하거나 거부할 수 있는 완전 자동화된 시스템은 편견에 빠지기 쉬우므로 다양한 이해관계자에 대한 안전, 투명성, 공정성을 고려해야 합니다. 이 백서에서는 자동화된 시스템에서 고려해야 할 요소에 대한 이해관계자의 관점을 살펴보는 초기 연구를 소개합니다. 연구 결과, 비행 특성과 환경 조건이 가장 중요하게 인식되었지만 파일럿과 드론의 역량도 고려해야 한다고 답했습니다. 또한, 몇몇 응답자는 AI가 지원하는 자동화에 대한 거부감을 드러내며 자동화된 의사 결정에 있어 완전한 투명성의 필요성을 강조했습니다. 설문조사 결과는 UTM 비행 승인 결정 자동화의 과제에 대한 사회적 관점을 제공하며, 광범위한 sUAS 커뮤니티가 수용할 수 있는 솔루션의 지속적인 설계에 도움이 됩니다. [abs|pdf]

[121/200] Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity

Keywords: challenges_predictability_legal, ai_llms_european, generative_ai_llms
Abstract: 특히 ChatGPT와 그 후속 모델과 같은 대규모 언어 모델(LLM)을 통한 생성형 AI의 등장은 AI 환경의 패러다임 전환을 의미합니다. 고급 LLM은 다양한 데이터 형식을 처리하는 멀티 모달리티를 보여줌으로써 적용 범위가 넓어졌습니다. 그러나 이러한 모델의 복잡성과 새로운 자율성으로 인해 예측 가능성과 법률 준수에 어려움이 있습니다. 이 백서에서는 책임, 개인정보 보호, 지적 재산권, 사이버 보안의 측면을 분석하여 유럽연합의 맥락에서 생성적 AI와 LLM의 법적 및 규제적 의미를 살펴봅니다. 이 백서는 인공지능법(AIA) 초안을 포함하여 기존 및 제안된 EU 법률의 적절성을 비판적으로 검토하여 일반적으로 생성적 AI와 특히 LLM이 제기하는 고유한 과제를 해결합니다. 이 백서는 입법 프레임워크의 잠재적 격차와 단점을 파악하고, 제너레이티브 모델의 안전하고 규정을 준수하는 배포를 보장하여 EU의 진화하는 디지털 환경 및 법적 표준에 부합하도록 보장하기 위한 권장 사항을 제안합니다. [abs|pdf]

[122/200] Construction and Evaluation of Mandarin Multimodal Emotional Speech Database

Keywords: dimensional_emotion_labels, emotional_speech_mandarin, emotional_speech_analysis
Abstract: 조음 운동학, 음향학, 성문 및 얼굴 미세 표정을 포함한 다중 모드 감정 음성 중국어 데이터베이스가 설계 및 구축되었으며, 코퍼스 설계, 피험자 선택, 녹음 세부 사항 및 데이터 처리 측면에서 자세히 설명되어 있습니다. 신호에는 이산 감정 레이블(중립, 행복, 유쾌, 무관심, 분노, 슬픔, 슬픔)과 차원 감정 레이블(즐거움, 각성, 우위)로 레이블이 지정됩니다. 본 논문에서는 차원 주석 데이터의 통계적 분석을 통해 차원 주석의 타당성을 검증합니다. 주석자의 SCL-90 척도 데이터를 검증하고 PAD 주석 데이터와 결합하여 분석함으로써 주석의 이상 현상과 주석자의 심리 상태 사이의 내적 관계를 탐색합니다. 본 논문에서는 데이터베이스의 음성 품질과 감정 변별력을 검증하기 위해 SVM, CNN, DNN의 3가지 기본 모델을 사용하여 7가지 감정에 대한 인식률을 계산했습니다. 그 결과, 음향 데이터만 사용했을 때 7가지 감정의 평균 인식률은 약 82%에 달했습니다. 성문 데이터만 사용할 경우 평균 인식률은 약 72%입니다. 운동학 데이터만 사용하면 평균 인식률도 55.7%에 달합니다. 따라서 데이터베이스는 고품질이며 음성 분석 연구, 특히 다중 모달 감정 음성 분석 작업에 중요한 소스로 사용할 수 있습니다. [abs|pdf]

[123/200] ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering

Keywords: shot_text_speech, zero_shot_audio, shot_audio_generation
Abstract: VALL-E와 같이 음향 및 언어적 프롬프트에 기반한 언어 모델(LM) 접근 방식은 제로 샷 오디오 생성 분야에서 괄목할 만한 발전을 이루었습니다. 하지만 기존 방법에는 여전히 몇 가지 한계가 있습니다: 1) 오디오와 음소 토큰 간의 제한된 정렬 제약으로 인한 출력 합성 음성의 반복, 전치, 생략, 2) 자동 회귀(AR) 언어 모델을 사용한 합성 음성에 대한 세밀한 제어의 어려움, 3) AR 기반 디코딩의 특성으로 인한 무한한 침묵 생성, 특히 욕심 전략 하에서 발생하는 문제 등이 있습니다. 이러한 문제를 완화하기 위해 유니티는 음소 수준에서 합성 음성을 세밀하게 제어할 수 있는 단순하지만 효율적인 LM 기반 제로 샷 텍스트 음성 변환(TTS) 프레임워크인 ELLA-V를 제안합니다. ELLA-V의 핵심은 음향 토큰과 음소 토큰의 시퀀스를 인터리빙하여 음소 토큰이 해당 음향 토큰보다 먼저 나타나는 것입니다. 실험 결과에 따르면 이 모델은 정확도 측면에서 VALL-E보다 성능이 뛰어나며, 욕심 기반 및 샘플링 기반 디코딩 전략을 모두 사용하여 더 안정적인 결과를 제공합니다. ELLA-V의 코드는 정리 작업을 거쳐 오픈 소스화될 예정입니다. 오디오 샘플은 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[124/200] Small Language Model Can Self-correct

Keywords: generative_language_models, isc_generative_language, generative_language
Abstract: ChatGPT와 같은 생성형 언어 모델(LM)은 다양한 다운스트림 작업에서 놀라운 성능을 보여 왔습니다. 그럼에도 불구하고 가장 두드러진 단점 중 하나는 자신감 넘치는 어조로 부정확하거나 잘못된 정보를 생성한다는 것입니다. 이전 연구에서는 대규모 LM이 스스로 수정할 수 있는 능력을 발휘하도록 유도하기 위해 정교한 파이프라인과 프롬프트를 고안했습니다. 그러나 대형 LM은 사람처럼 모든 단계를 자연스럽게 완료하는 것이 아니라 답변을 개별적으로 확인하고 수정하라는 메시지를 명시적으로 표시합니다. 게다가 이러한 복잡한 프롬프트는 작은 LM이 따라가기에는 매우 어렵습니다. 본 논문에서는 생성 언어 모델에 Intrinsic-Self-Correction (ISC, 내재적 셀프 수정)을 도입하여 60억 개의 파라미터를 가진 작은 LM의 경우에도 자체 트리거 방식으로 LM의 초기 출력을 수정하는 것을 목표로 합니다. 특히 자가 교정 데이터를 구축하기 위한 파이프라인을 고안하고, 미세 조정을 통해 모델에 내재적 자가 교정 기능을 부여하는 것을 목표로 부분 답변 마스킹(PAM)을 제안합니다. 상식 추론과 사실 지식 추론 등 두 가지 과제에서 60억 개에서 130억 개에 이르는 매개변수 크기의 LM을 사용하여 실험을 수행합니다. 실험 결과, ISC를 사용하여 생성된 결과물이 자가 보정 없이 생성된 결과물보다 더 우수한 성능을 보였습니다. 우리는 작은 LM에도 내재적 자가 교정 기능을 부여함으로써 출력 품질을 더욱 향상시킬 수 있다고 믿습니다. [abs|pdf]

[125/200] Semi-supervised Semantic Segmentation using Redesigned Self-Training for White Blood Cel

Keywords: self_training_pipeline, annotate_large_dataset, deeplab
Abstract: 의료 분야, 특히 백혈구 암 진단 분야의 인공지능(AI)은 백혈구(WBC) 세분화를 위한 대규모 라벨이 지정된 데이터 세트의 부족과 오래된 세분화 방법이라는 두 가지 주요 과제로 인해 방해를 받고 있습니다. 첫 번째 과제를 해결하려면 대규모 데이터 세트에 효율적으로 주석을 달 수 있는 준지도 학습 프레임워크를 도입해야 합니다. 이 연구에서는 FixMatch를 통합한 새로운 자가 학습 파이프라인을 제안함으로써 이 문제를 해결합니다. 우리는 자가 학습 파이프라인에 FixMatch를 통합함으로써 대부분의 경우 성능이 향상된다는 것을 발견했습니다. 딥랩-V3 아키텍처와 ResNet-50에서 일관성 있는 자가 훈련 체계로 최고의 성능을 달성했으며, Zheng 1, Zheng 2, LISC 데이터 세트에서 각각 90.69%, 87.37%, 76.49%의 성능을 기록했습니다. [abs|pdf]

[126/200] SpineCLUE: Automatic Vertebrae Identification Using Contrastive Learning and Uncertainty Estimation

Keywords: vertebrae_localization_segmentation, vertebrae_localization, vertebrae_identification_arbitrary
Abstract: 임의의 시야각에서 척추 뼈를 식별하는 것은 척추 질환을 진단하는 데 중요한 역할을 합니다. 대부분의 척추 CT에는 목, 가슴, 복부와 같은 국소 부위만 포함되어 있습니다. 따라서 특정 척추뼈나 특정 수의 척추뼈가 보이는지에 따라 식별이 달라져서는 안 됩니다. 척추 수준의 기존 방법으로는 이러한 과제를 해결할 수 없습니다. 이 논문에서는 척추 수준에서 3D CT 척추 식별의 과제를 해결하기 위한 3단계 방법을 제안합니다. 척추의 국소화, 분할, 식별 작업을 순차적으로 수행함으로써 이 과정에서 척추의 해부학적 사전 정보를 효과적으로 활용합니다. 특히, 이중 요소 밀도 클러스터링 알고리즘을 도입하여 개별 척추의 국소화 정보를 획득함으로써 후속 세분화 및 식별 프로세스를 용이하게 합니다. 또한 클래스 간 유사성 및 클래스 내 가변성 문제를 해결하기 위해 지도 대조 학습 방법을 사용하여 식별 네트워크를 사전 학습합니다. 식별 결과를 더욱 최적화하기 위해 분류 네트워크의 불확실성을 추정하고 메시지 융합 모듈을 활용하여 불확실성 점수를 결합하는 동시에 척추에 대한 글로벌 정보를 집계했습니다. 이 방법은 VerSe19 및 VerSe20 챌린지 벤치마크에서 최첨단 결과를 달성했습니다. 또한 이 접근 방식은 다양한 비정상 사례가 포함된 수집된 데이터 세트에서 뛰어난 일반화 성능을 보여줍니다. [abs|pdf]

[127/200] BET: Explaining Deep Reinforcement Learning through The Error-Prone Decisions

Keywords: explanations_agents_starcraft, deep_reinforcement, deep_reinforcement_learning
Abstract: 딥러닝 에이전트는 여러 까다로운 시나리오에서 인상적인 성능을 발휘하지만, 블랙박스 의사 결정 프로세스로 인해 안전에 민감한 도메인에 배포하는 데 상당한 제약이 있습니다. 이전의 몇몇 자가 해석 가능 연구는 에이전트 결정의 중요한 상태를 밝히는 데 중점을 두었습니다. 하지만 오류가 발생하기 쉬운 상태를 정확히 파악할 수는 없습니다. 이 문제를 해결하기 위해 저희는 오류가 발생하기 쉬운 상태를 식별하여 에이전트의 행동을 더 잘 설명할 수 있는 새로운 자가 해석 가능 구조인 백본 추출 트리(BET)를 제안합니다. BET는 에이전트가 일관된 의사 결정을 일관되게 실행하는 상태에서는 오류 발생 경향이 감소한다는 가설을 세웁니다. 이 현상을 효과적으로 모델링하기 위해 BET는 이러한 상태를 각각 엄선된 대표 상태 집합으로 정의된 이웃으로 표현합니다. 따라서 이러한 대표 벤치마크에서 먼 거리에 위치한 상태는 오류가 발생하기 쉽습니다. 우리는 다양한 대중적인 RL 환경에서 BET를 평가하고 설명 충실도 측면에서 기존의 자체 해석 가능 모델보다 우월함을 보여줍니다. 또한 정교한 멀티 에이전트 협동 게임인 스타크래프트 II에서 에이전트에게 설명을 제공하는 사용 사례를 시연합니다. 우리가 아는 한, 이렇게 복잡한 시나리오를 완전히 투명한 구조로 설명한 것은 이번이 처음입니다. [abs|pdf]

[128/200] Stabilizing Sharpness-aware Minimization Through A Simple Renormalization Strategy

Keywords: gradient_descent_sgd, convex_optimization_learning, sharpness_aware_minimization
Abstract: 최근 선명도 인식 최소화(SAM)는 일반화 성능을 향상시키는 놀라운 효과로 인해 많은 주목을 받고 있지만, SAM으로 신경망을 훈련하면 현재 지점의 정확한 기울기 방향을 따라 손실이 감소하는 것이 아니라 근처의 다른 지점에서 평가한 대리 기울기 방향을 따르기 때문에 매우 불안정할 수 있습니다. 이 문제를 해결하기 위해, 우리는 대리 기울기의 규범이 정확한 기울기의 규범과 동일하게 유지되도록 하는 간단한 재노멀라이제이션 전략인 StableSAM을 제안합니다. 이 전략은 구현하기 쉽고 유연하여 계산 비용이 거의 들지 않고 SAM 및 그 변형과 통합할 수 있습니다. 또한 볼록 최적화 및 학습 이론의 기본 도구를 사용하여 선명도 인식 훈련에 대한 이론적 분석을 수행하여 확률적 경사 하강(SGD)에 비해 SAM의 효과는 제한된 학습 속도 범위에서만 보장된다는 사실을 밝혀냈습니다. 이와는 대조적으로, StableSAM이 이러한 학습 속도 영역을 확장하는 방법과 약간의 수정만으로 SAM보다 일관되게 더 나은 성능을 낼 수 있는 경우를 보여줍니다. 마지막으로 몇 가지 대표적인 데이터 세트와 작업에서 StableSAM의 향상된 성능을 시연합니다. [abs|pdf]

[129/200] Distilling Event Sequence Knowledge From Large Language Models

Keywords: event_sequence_generation, generate_event_sequences, event_sequence_models
Abstract: 이벤트 시퀀스 모델은 이벤트 분석 및 예측에 매우 효과적인 것으로 밝혀졌습니다. 이러한 모델을 구축하려면 고품질의 이벤트 시퀀스 데이터를 풍부하게 확보할 수 있어야 합니다. 그러나 특정 애플리케이션에서는 깔끔하게 구조화된 이벤트 시퀀스를 사용할 수 없으며, 자동화된 시퀀스 추출은 너무 노이즈가 많고 불완전한 데이터를 생성합니다. 이 연구에서는 확률론적 이벤트 모델 구축에 효과적으로 사용할 수 있는 이벤트 시퀀스를 생성하기 위해 대규모 언어 모델(LLM)을 사용하는 방법을 살펴봅니다. 이것은 LLM에서 이벤트 시퀀스 지식을 추출하는 메커니즘으로 볼 수 있습니다. 우리의 접근 방식은 부분적인 인과 관계를 가진 이벤트 개념의 지식 그래프(KG)를 사용하여 인과적 이벤트 시퀀스 생성을 위한 생성 언어 모델을 안내합니다. 우리의 접근 방식이 입력 KG의 지식 격차를 메우면서 고품질의 이벤트 시퀀스를 생성할 수 있음을 보여줍니다. 또한, 생성된 시퀀스를 활용하여 패턴 마이닝과 확률론적 이벤트 모델에서 유용하고 보다 복잡한 구조적 지식을 발견하는 방법을 살펴봅니다. 시퀀스 생성 코드와 평가 프레임워크, 이벤트 시퀀스 데이터 코퍼스를 공개합니다. [abs|pdf]

[130/200] The Effects of Data Imbalance Under a Federated Learning Approach for Credit Risk Forecasting

Keywords: distributed_machine_learning, learning_credit_risk, known_federated_learning
Abstract: 신용 위험 예측은 상업 은행과 기타 금융 기관이 고객에게 대출을 제공하고 잠재적 손실을 최소화하는 데 중요한 역할을 합니다. 하지만 기존의 머신러닝 방식은 글로벌 모델을 구축하기 위해 민감한 고객 정보를 외부 서버와 공유해야 하므로 보안 위협과 개인정보 유출의 위험이 있습니다. 새로 개발된 프라이버시 보호 분산 머신러닝 기법인 연합 학습(FL)을 사용하면 개인 로컬 데이터에 직접 액세스하지 않고도 글로벌 모델을 학습할 수 있습니다. 이 조사는 신용 위험 평가에서 연합 학습의 타당성을 조사하고 데이터 불균형이 모델 성능에 미치는 영향을 보여주었습니다. 클라이언트 수와 데이터 배포 구성이 다른 다양한 시나리오에서 두 가지 신경망 아키텍처인 다층 퍼셉트론(MLP)과 장단기 메모리(LSTM), 하나의 트리 앙상블 아키텍처인 익스트림 그라디언트 부스팅(XGBoost)을 세 가지 데이터 세트에 걸쳐 살펴보았습니다. 그 결과, 데이터 세트가 적은 비주요 클라이언트에서 연합 모델이 로컬 모델보다 지속적으로 더 나은 성능을 발휘하는 것으로 나타났습니다. 이러한 경향은 특히 데이터 불균형이 심한 시나리오에서 두드러지게 나타나며, 모델 성능이 평균 17.92% 향상되는 놀라운 결과를 낳았습니다. 그러나 우세한 클라이언트(더 많은 데이터를 보유한 클라이언트)의 경우 연합 모델이 우수한 성능을 보이지 않을 수 있으므로 이러한 유형의 클라이언트의 참여를 장려하기 위해 특별한 인센티브가 필요함을 시사합니다. [abs|pdf]

[131/200] Application of 2D Homography for High Resolution Traffic Data Collection using CCTV Cameras

Keywords: traffic_cameras, traffic_cameras_implications, transforms_cctv_view
Abstract: 교통 카메라는 교통 혼잡 및 사고 모니터링과 같은 감시 활동을 위한 주요 소스 데이터로 남아 있습니다. 현재까지 주 정부 기관은 복잡한 카메라 보정 요구 사항과 고해상도 데이터 생성 불가 등 현재 자동 비전 시스템의 한계로 인해 네트워크에 연결된 카메라에서 데이터를 추출하기 위해 수작업에 계속 의존하고 있습니다. 이 연구는 인프라에 장착된 CCTV 카메라에서 차량 수, 속도, 가속도 등의 고해상도 교통 데이터를 추출하기 위한 3단계 비디오 분석 프레임워크를 구현합니다. 이 프레임워크의 핵심 구성 요소에는 교통 데이터 수집을 위한 객체 인식, 원근 변환, 차량 궤적 재구성이 포함됩니다. 먼저, 최첨단 차량 인식 모델을 구현하여 차량을 감지하고 분류합니다. 다음으로 카메라 왜곡을 보정하고 부분적인 오클루전을 줄이기 위해 2점 선형 원근법에서 영감을 얻은 알고리즘을 사용하여 관심 영역(ROI)을 자동으로 추출하고, 2D 호모그래피 기법을 통해 CCTV 뷰를 조감도(BEV)로 변환합니다. 카메라는 2계층 매트릭스 시스템으로 보정되어 이미지 좌표를 실제 측정값으로 변환하여 속도와 가속도를 추출할 수 있습니다. 개별 차량 궤적은 두 가지 시공간 특징 기반 객체 추적기, 즉 Motpy와 BYTETrack을 사용하여 BEV에서 구성되고 비교됩니다. 현재 연구 결과, 방향성 교통량 집계에서 약 +/- 4.5%의 오차율을 보였으며, 프로브 데이터 소스의 추정치와 비교했을 때 카메라 추정치 간의 속도 편향은 10% 미만의 MSE를 보였습니다. 교통 카메라에서 고해상도 데이터를 추출하면 교통 관리를 개선하고 위험한 운전 행동, 사고 위험이 높은 지역 및 기타 안전 문제를 파악하여 사고와 사망자를 줄이기 위한 사전 조치를 취할 수 있는 등 여러 가지 시사점을 얻을 수 있습니다. [abs|pdf]

[132/200] Forecasting GDP in Europe with Textual Data

Keywords: sentiment_indicators_forecasting, news_based_sentiment, sentiment_indicators
Abstract: 우리는 유럽 주요 5개국의 국내총생산(GDP) 및 기타 거시경제 변수를 예측하기 위해 뉴스 기반 감정 지표의 정보 내용을 평가합니다. 데이터 세트에는 5개 언어로 된 26개 주요 신문의 2,700만 개 이상의 기사가 포함되어 있습니다. 그 결과, 이러한 감정 지표가 거시경제 변수를 예측하는 데 유의미한 예측 변수이며, 예측 내용이 예측자들이 실시간으로 사용할 수 있는 다른 지표를 통제해도 견고하다는 것을 알 수 있었습니다. [abs|pdf]

[133/200] Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models

Keywords: finetuning_typically_memory, large_language_models, memory_efficient_fast
Abstract: 대규모 언어 모델(LLM)을 미세 조정하는 것은 다양한 다운스트림 작업에서 경험적으로 효과적이었습니다. LLM을 미세 조정하는 기존의 접근 방식은 소수의 학습 가능한 매개변수만 업데이트하는 매개변수 효율적 미세 조정에 초점을 맞추거나 미세 조정의 학습 단계에서 메모리 사용량을 줄이려고 시도합니다. 일반적으로 미세 조정 중 메모리 사용량은 모델 가중치, 최적화 상태, 중간 활성화의 세 가지 요인에서 비롯됩니다. 그러나 기존 작업은 여전히 상당한 메모리를 필요로 하며, 세 가지 소스 모두에 대한 메모리 사용량을 동시에 줄일 수 있는 방법은 없습니다. 이 백서에서는 이중 단계 프로세스를 통해 메모리 효율적이고 빠르게 LLM을 미세 조정할 수 있는 양자화된 측면 튜닝(QST)을 소개합니다. 먼저, QST는 LLM의 모델 가중치를 4비트로 정량화하여 LLM의 원래 가중치의 메모리 사용량을 줄이고, LLM과 분리된 사이드 네트워크를 도입하여 LLM의 숨겨진 상태를 활용하여 작업별 예측을 수행합니다. 별도의 사이드 네트워크를 사용하면 LLM을 통한 역전파를 수행하지 않아도 되므로 중간 활성화에 필요한 메모리 요구량이 줄어듭니다. 또한 QST는 여러 개의 낮은 순위 어댑터와 그라데이션 없는 다운샘플 모듈을 활용하여 학습 가능한 파라미터를 크게 줄임으로써 최적화 상태의 메모리 사용량을 절약할 수 있습니다. 실험 결과, QST는 총 메모리 사용량을 최대 2.3 배까지 줄이고 미세 조정 프로세스를 최대 3배$까지 가속화하면서 최신 기술과 비교하여 유능한 성능을 달성할 수 있는 것으로 나타났습니다. 전체 미세 조정의 경우, QST는 총 메모리 공간을 최대 7 배까지 줄일 수 있습니다. [abs|pdf]

[134/200] Scalable and Efficient Methods for Uncertainty Estimation and Reduction in Deep Learning

Keywords: neural_networks_nns, inference_accuracy_energy, robustness_nn_implementations
Abstract: 신경망(NN)은 컴퓨터 비전, 자연어 처리 등 다양한 분야에서 고성능을 달성할 수 있습니다. 하지만 리소스의 제약이 있는 안전이 중요한 시스템에 NN을 배포하는 데는 분산되지 않은 데이터로 인한 예측의 불확실성, 하드웨어의 비이상성 등으로 인해 어려움이 있습니다. 이 백서에서는 리소스 제약이 있는 안전이 중요한 시스템에 NN을 배포할 때 발생하는 문제를 해결하기 위해 새로운 저항성 비휘발성 메모리를 사용하는 메모리 내 계산(CIM)을 중심으로 딥러닝의 불확실성 추정 및 감소를 위한 확장 가능하고 효율적인 방법을 탐구하는 박사 학위 논문(4년차)을 요약합니다. 유니티는 자동화된 의사결정 시스템의 기능적 안전성을 유지하는 데 중요한 분포 외 입력과 하드웨어의 비이상성에서 발생하는 내재적 불확실성을 해결합니다. 이러한 접근 방식에는 문제 인식 훈련 알고리즘, 새로운 NN 토폴로지, 드롭아웃 기반 바이너리 베이지안 신경망을 포함한 하드웨어 공동 설계 솔루션이 포함됩니다 스핀트로닉 장치와 변형 추론 기법을 활용하는 베이지안 신경망을 포함한 하드웨어 공동 설계 솔루션을 포함합니다. 이러한 혁신은 OOD 데이터 감지, 추론 정확도, 에너지 효율을 크게 향상시켜 NN 구현의 신뢰성과 견고성에 기여합니다. [abs|pdf]

[135/200] Deep Blind Super-Resolution for Satellite Video

Keywords: blur_kernel_estimation, blur_kernel, pixel_wise_blur
Abstract: 최근 위성 비디오 초해상도(SVSR) 분야에서 괄목할 만한 발전이 있었습니다. 하지만 대부분의 SVSR 방법은 일반적으로 바이큐빅 다운샘플링과 같이 화질 저하가 고정되어 있고 알려진 것으로 가정하기 때문에, 알 수 없는 여러 가지 화질 저하가 있는 실제 장면에서는 취약합니다. 따라서 이 문제를 완화하기 위해 블라인드 SR이 연구 분야로 떠오르고 있습니다. 그럼에도 불구하고 기존의 접근 방식은 주로 블러 커널 추정에만 집중한 나머지 VSR 작업의 또 다른 중요한 측면인 시간적 보상, 특히 심하게 저하된 위성 비디오에서 선명도가 중요한 흐릿하고 매끄러운 픽셀을 보정하는 것을 놓치고 있습니다. 따라서 이 백서에서는 픽셀 단위의 블러 레벨을 거칠게 또는 세밀하게 고려하여 보다 선명한 단서를 탐색할 수 있는 실용적인 블라인드 SVSR 알고리즘(BSVSR)을 제안합니다. 특히 멀티스케일 변형 컨볼루션을 사용하여 창 슬라이드 프로그레시브 퓨전을 통해 시간적 중복성을 인접 프레임으로 거칠게 집계했습니다. 그런 다음 픽셀의 블러 레벨을 측정하고 정보를 제공하는 픽셀에 더 많은 가중치를 할당하는 변형 가능한 주의력을 사용하여 인접한 피처를 중간 피처로 미세하게 병합하여 선명도를 표현합니다. 또한 피라미드 공간 변환 모듈을 고안하여 선명한 중간 피처의 솔루션 공간을 조정함으로써 다단계 영역에서 피처를 유연하게 조정할 수 있습니다. 시뮬레이션 및 실제 위성 영상에 대한 정량적, 정성적 평가를 통해 BSVSR이 최첨단 비블라인드 및 블라인드 SR 모델에 비해 우수한 성능을 발휘한다는 것을 입증했습니다. 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[136/200] EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records

Keywords: autonomous_code_generation, answering_task_tool, ehr_question_answering
Abstract: 대규모 언어 모델(LLM)은 자율 에이전트로서 계획 및 도구 활용에 있어 탁월한 역량을 보여 왔지만 의료 문제 해결을 위해 개발된 사례는 거의 없습니다. 저희는 코드 인터페이스를 갖춘 LLM 에이전트로서 전자 의료 기록(EHR) 내에서 복잡한 임상 작업을 위한 코드를 자율적으로 생성하고 실행할 수 있는 EHRAgent1을 제안합니다. 먼저 EHR 질문-답변 작업을 도구 사용 계획 프로세스로 공식화하여 복잡한 작업을 관리 가능한 일련의 작업으로 효율적으로 분해합니다. 대화형 코딩과 실행 피드백을 통합함으로써 EHRAgent는 오류 메시지를 통해 학습하고 반복을 통해 원래 생성된 코드를 개선합니다. 또한 장기 메모리를 통합하여 LLM 에이전트를 향상시킴으로써 과거 경험에서 가장 관련성이 높은 성공 사례를 효과적으로 선택하고 이를 기반으로 구축할 수 있습니다. 두 개의 실제 EHR 데이터 세트에 대한 실험 결과, EHRAgent는 가장 강력한 LLM 에이전트 베이스라인보다 각각 36.48%, 12.41% 더 뛰어난 성능을 보였습니다. EHRAgent는 LLM의 새로운 소수 학습 기능을 활용하여 최소한의 데모만으로 복잡한 임상 작업을 처리할 수 있는 자율적인 코드 생성 및 실행을 지원합니다. [abs|pdf]

[137/200] Exploring of Discrete and Continuous Input Control for AI-enhanced Assistive Robotic Arms

Keywords: assistive_robotics, settings_assistive_robotics, assistive_robotics_thoroughly
Abstract: 로봇 팔은 운동 장애가 있는 사람들을 위한 가정 간호에 필수적인 요소로, 이들이 독립적으로 일상 생활 활동(ADL)을 수행할 수 있게 하여 간병인에 대한 의존도를 낮춰줍니다. 이러한 협동 로봇을 사용하려면 사용자는 물체를 잡거나 조작하는 등의 작업을 위해 여러 자유도(DoF)를 관리해야 합니다. 일반적으로 두 개의 DoF로 제한되는 기존의 입력 장치는 개별 DoF를 제어하기 위해 빈번하고 복잡한 모드 전환을 필요로 합니다. 피드 포워드 멀티모달 피드백을 지원하는 최신 적응형 컨트롤은 전체 작업 완료 시간, 모드 전환 횟수, 인지 부하를 줄여줍니다. 다양한 입력 장치를 사용할 수 있음에도 불구하고 보조 로봇을 사용한 적응형 환경에서의 효과는 아직 철저히 평가되지 않았습니다. 이 연구에서는 세 가지 입력 장치를 기존의 보조 로봇을 위한 XR 프레임워크에 통합하여 살펴보고, 이를 평가하며, 향후 개발을 위한 예비 연구를 통해 경험적 인사이트를 제공합니다. [abs|pdf]

[138/200] Graph Language Models

Keywords: language_model_graph, graph_language_model, model_graph_language
Abstract: 언어 모델이 자연어 처리의 핵심으로 자리 잡으면서 일반 지식이나 도메인 지식의 구조화된 메모리인 텍스트 지식 그래프(KG)와의 상호 작용에 대한 연구도 활발히 진행되고 있습니다. 이러한 그래프에 대한 현재의 임베딩 방법론은 일반적으로 (i) 구조적 정보를 제대로 활용하지 못하는 순차적 언어 모델(LM)을 사용해 그래프를 선형화하여 임베딩하거나 (ii) 그래프 신경망(GNN)을 사용해 그래프 구조를 보존하지만, GNN은 사전 학습된 LM처럼 텍스트 특징을 잘 표현할 수 없습니다. 이번 연구에서는 두 가지 접근 방식의 강점을 통합하는 동시에 약점을 완화하는 새로운 언어 모델인 그래프 언어 모델(GLM)을 소개합니다. GLM 매개변수는 사전 학습된 LM에서 초기화되어 개별 개념과 삼중 항에 대한 미묘한 이해를 용이하게 합니다. 동시에 그래프 편향성을 고려한 아키텍처 설계를 통해 그래프 내에서 효과적인 지식 분배를 촉진합니다. ConceptNet 하위 그래프에 대한 관계 분류 작업에 대한 경험적 평가에 따르면 GLM 임베딩은 감독 및 제로 샷 설정에서 LM 및 GNN 기반 기준선을 모두 능가하는 것으로 나타났습니다. [abs|pdf]

[139/200] Evolving Code with A Large Language Model

Keywords: llm_genetic_programming, genetic_programming_gp, arrived_genetic_programming
Abstract: 대규모 언어 모델(LLM)을 사용해 코드를 진화시키는 알고리즘이 유전자 프로그래밍(GP) 분야에 등장한 것은 아주 최근의 일입니다. 코드 진화를 위해 설계된 공식화된 LLM 기반 진화 알고리즘인 LLM GP를 소개합니다. GP와 마찬가지로 진화 연산자를 사용하지만, 프롬프트와 LLM의 사전 학습된 패턴 매칭 및 시퀀스 완성 기능을 사용해 LLM을 사용한다는 점에서 GP와 설계 및 구현 방식이 근본적으로 다릅니다. 또한 데모 수준의 LLM GP 변형을 소개하고 해당 코드를 공유합니다. 공식적인 알고리즘부터 실습까지 다양한 알고리즘을 다루면서 유전자 프로그래밍에 LLM을 사용할 때 발생하는 과학적 과제뿐만 아니라 설계 및 LLM 사용 고려 사항을 다룹니다. [abs|pdf]

[140/200] When Does Feature Learning Happen? Perspective from an Analytically Solvable Model

Keywords: feature_learning_phase, phase_feature_learning, feature_learning_happens
Abstract: 우리는 임의의 유한 폭에서 분석적으로 추적 가능하고 커널 단계와 특징 학습 단계를 모두 나타내는 한계를 갖는 숨겨진 계층 모델을 식별하고 해결합니다. 폭, 레이어별 학습 속도, 출력 규모, 초기화 규모 등 일반적인 하이퍼파라미터의 가능한 모든 한계에서 이 모델의 위상 다이어그램을 분석합니다. 이 결과를 적용하여 무한 폭 모델과 유한 폭 모델 모두에서 특징 학습이 언제 어떻게 일어나는지 분석합니다. 특징 학습의 세 가지 프로토타입 메커니즘이 확인되었습니다: (1) 정렬에 의한 학습, (2) 정렬 해제에 의한 학습, (3) 스케일 재조정에 의한 학습이 그것입니다. 대조적으로, 모델이 커널 체제에 있을 때는 이러한 메커니즘 중 어느 것도 존재하지 않습니다. 이 발견은 대규모 초기화가 종종 성능 저하로 이어지는 이유를 설명합니다. 마지막으로, 이 분석 모델에서 발견한 사실이 실제 작업의 비선형 네트워크에서도 나타난다는 사실을 실증적으로 증명했습니다. [abs|pdf]

[141/200] InterEvo-TR: Interactive Evolutionary Test Generation With Readability Assessment

Keywords: testers_test_generation, test_generation, test_generation_tool
Abstract: 자동화된 테스트 케이스 생성은 일반적으로 높은 소프트웨어 테스트 비용을 절감하는 데 유용한 것으로 입증되었습니다. 그러나 여러 연구에서 테스터가 수동으로 설계한 테스트 스위트와 비교했을 때 생성된 테스트 스위트의 이해도에 대해 회의적인 반응을 보인다는 점을 지적했습니다. 이러한 사실은 테스트 생성 프로세스에 테스터를 참여시키면 자동으로 생성된 테스트 스위트의 수용도를 높이는 데 도움이 될 수 있음을 시사합니다. 이 백서에서는 테스터의 대화형 가독성 평가를 널리 알려진 진화적 테스트 생성 도구인 EvoSuite에 통합할 것을 제안합니다. 우리의 접근 방식인 InterEvo-TR은 검색 중 다양한 순간에 테스터와 상호 작용하며 주관적인 평가를 위해 동일한 커버리지 대상을 다루는 다양한 테스트 사례를 보여줍니다. 이러한 대화형 접근 방식의 설계에는 상호 작용 일정, 선택한 대상을 다양화하는 방법, 가독성 값을 저장하고 처리하는 계획, 개정에 대한 참여 수준을 사용자 지정하는 메커니즘 등이 포함됩니다. 제안의 잠재력과 실행 가능성을 분석하기 위해 학계, 전문 개발자, 학생 공동 작업자 등 39명의 참가자가 InterEvo-TR과 상호작용하는 통제 실험을 실시했습니다. 실험 결과, 중간 결과를 선별하여 제시하는 전략이 가독성 평가의 목적에 효과적이라는 것을 알 수 있었습니다. 또한 설문지에 대한 참가자들의 행동과 응답을 통해 테스트 코드 가독성에 영향을 미치는 측면과 테스트 케이스 생성의 맥락에서 대화형 접근 방식의 장점과 한계를 분석하여 향후 대화형 기반의 개발을 위한 기반을 마련할 수 있었습니다. [abs|pdf]

[142/200] Tensor Graph Convolutional Network for Dynamic Graph Representation Learning

Keywords: tensor_graph_convolutional, graph_convolutional_network, propose_tensor_graph
Abstract: 동적 그래프(DG)는 많은 실제 시나리오에서 개체 간의 동적 상호 작용을 설명합니다. 기존의 대부분의 DG 표현 학습 모델은 그래프 컨볼루션 네트워크와 시퀀스 신경망을 결합하여 두 가지 다른 유형의 신경망을 통해 공간적-시간적 종속성을 모델링합니다. 그러나 이러한 하이브리드 설계는 DG의 공간적-시간적 연속성을 제대로 포착하지 못합니다. 본 논문에서는 텐서 곱에 기반한 하나의 컨볼루션 프레임워크에서 DG 표현을 학습하는 텐서 그래프 컨볼루션 네트워크를 제안합니다: a) DG의 정보를 텐서 형태로 표현하고, b) 텐서 곱을 채택하여 공간-시간적 특징을 동시에 모델링하는 텐서 그래프 컨볼루션 네트워크를 설계하는 두 가지 아이디어를 제시합니다. 실제 DG 데이터 세트에 대한 실험을 통해 이 모델이 최첨단 성능을 발휘한다는 것을 입증했습니다. [abs|pdf]

[143/200] Dirichlet-Based Prediction Calibration for Learning with Noisy Labels

Keywords: evidence_deep_learning, calibrated_softmax, softmax
Abstract: 노이즈가 있는 레이블을 사용한 학습은 심층 신경망(DNN)의 일반화 성능을 크게 저해할 수 있습니다. 기존 접근 방식은 손실 보정이나 예제 선택 방법을 통해 이 문제를 해결합니다. 그러나 이러한 방법은 종종 소프트맥스 함수에서 얻은 모델의 예측에 의존하기 때문에 지나치게 자신감이 넘치고 신뢰성이 떨어질 수 있습니다. 본 연구에서는 이러한 문제의 근본적인 원인으로 소프트맥스 함수의 번역 불변성을 파악하고, 이에 대한 해결책으로 텍스트잇{디리클레 기반 예측 보정}(DPC) 방법을 제안합니다. 이 방법은 지수 항에 적절한 상수를 포함시켜 변환 불변성을 깨는 보정된 소프트맥스 함수를 도입하여 보다 안정적인 모델 예측을 가능하게 합니다. 안정적인 모델 학습을 위해 디리클레 분포를 활용하여 예측된 레이블에 확률을 할당하고 새로운 증거 딥러닝(EDL) 손실을 도입합니다. 제안된 손실 함수는 주어진 레이블에 대해 양수이고 충분히 큰 로그를 장려하는 반면, 다른 레이블에 대해 음수이고 작은 로그를 불이익을 주어 더 뚜렷한 로그를 유도하고 큰 마진 기준에 따라 더 나은 예제를 선택할 수 있도록 합니다. 다양한 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 DPC가 최첨단 성능을 달성한다는 것을 입증했습니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[144/200] Does More Advice Help? The Effects of Second Opinions in AI-Assisted Decision Making

Keywords: human_ai_collaboration, ai_collaboration, peer_ai
Abstract: 의사 결정에 있어 AI의 지원은 대중화되었지만, 사람들이 AI에 부적절하게 의존하면 인간과 AI의 협업 성과가 만족스럽지 않은 경우가 많습니다. 이 백서에서는 사전 등록된 무작위 인간 피험자 실험 3건을 통해 {두 번째 의견}의 제공이 AI 지원 의사결정에서 의사결정자의 행동과 성과에 어떤 영향을 미치는지, 그리고 어떻게 영향을 미치는지 살펴봅니다. 그 결과, AI 모델의 의사결정 추천과 세컨드 오피니언이 항상 함께 제시되면 의사결정권자는 세컨드 오피니언이 동료 또는 다른 AI 모델에 의해 생성되었는지 여부에 관계없이 AI에 대한 과도한 의존도를 낮추고 과소 의존도를 높인다는 사실을 발견했습니다. 그러나 의사결정권자가 동료의 세컨드 오피니언을 요청할 시기를 결정할 수 있는 통제권이 있다면, 적극적으로 세컨드 오피니언을 요청하는 것이 경우에 따라서는 과소 의존도를 증가시키지 않으면서도 AI에 대한 과잉 의존도를 완화할 수 있는 잠재력을 가지고 있음을 발견했습니다. 마지막으로 이번 연구 결과가 의사 결정에서 효과적인 인간과 AI의 협업을 촉진하는 데 주는 시사점을 논의하며 글을 마무리합니다. [abs|pdf]

[145/200] A Reinforcement Learning Environment for Directed Quantum Circuit Synthesis

Keywords: optimizing_quantum_circuits, quantum_circuits_selection, quantum_circuit_synthesis
Abstract: 최근 양자 컴퓨팅 기술이 발전함에 따라 양자 회로를 최적화하고 안정적인 양자 상태 준비를 보장하는 것이 점점 더 중요해지고 있습니다. 기존 방식은 광범위한 전문 지식과 수작업 계산을 필요로 하는 경우가 많아 양자 회로의 큐비트 및 게이트 수가 증가함에 따라 어려움을 겪고 있습니다. 따라서 머신러닝 기술을 활용하여 점점 더 다양해지는 게이트-큐비트 조합을 처리하는 것이 유망한 접근 방식입니다. 이 연구에서는 양자 회로 합성을 위한 포괄적인 강화 학습 환경을 도입하여 클리포드+T 게이트 세트의 게이트를 활용하여 회로를 구성하고 특정 목표 상태를 준비합니다. 우리의 실험은 합성된 양자 회로의 깊이와 목표 초기화에 사용되는 회로 깊이 및 큐비트 수 사이의 관계를 탐구하는 데 중점을 둡니다. 환경 구성을 여러 평가 수준으로 구성하고 벤치마킹을 위해 잘 알려진 다양한 양자 상태를 포함합니다. 또한 근거리 정책 최적화를 사용하여 환경을 평가하기 위한 기준선을 마련합니다. 훈련된 에이전트를 벤치마크 테스트에 적용하여 2큐비트 벨 상태의 선택에 대해 최소한의 양자 회로를 안정적으로 설계할 수 있는 능력을 입증했습니다. [abs|pdf]

[146/200] COIN: Chance-Constrained Imitation Learning for Uncertainty-aware Adaptive Resource Oversubscription Policy

Keywords: learning_adaptive_policies, imitation_learning_framework, constrained_imitation_learning
Abstract: 우리는 자원 과잉이라는 실제 과학적 문제와 관련하여 불확실성이 존재하는 상황에서 안전하고 강력한 의사 결정 정책을 학습하여 자원 효율성을 높이는 동시에 자원 혼잡 위험에 대한 안전성을 보장해야 하는 과제를 해결합니다.
기존의 지도 예측 또는 예측 모델은 적응형 정책을 학습하는 데 효과적이지 않은 반면, 표준 온라인 최적화 또는 강화 학습은 실제 시스템에 배포하기 어렵습니다. 모방 학습(IL)과 같은 오프라인 방법은 과거 리소스 사용량 원격 측정을 직접 활용할 수 있기 때문에 이상적입니다. 하지만 이러한 원격 측정의 근본적인 불확실성은 중요한 병목 현상입니다.
유니티는 리소스 혼잡 위험에 대한 확률적(우연적) 제약과 앙상블 값 함수의 조합을 통해 원칙적인 방식으로 불확실성에 대한 암묵적 안전성을 보장하는 새로운 확률 제약 모방 학습 프레임워크를 제안하여 이 문제를 해결합니다. 이를 통해 클라우드 서비스의 리소스 관리를 비롯한 많은 초과 구독 시나리오에서 리소스 효율성과 안전성을 크게(약 3~4배) 개선할 수 있습니다. [abs|pdf]

[147/200] Quantum Advantage Actor-Critic for Reinforcement Learning

Keywords: quantum_reinforcement_learning, novel_quantum_reinforcement, quantum_reinforcement
Abstract: 양자 컴퓨팅은 고차원 상태의 효율적인 캡슐화를 제공합니다. 이 연구에서는 기존 구성 요소의 일부를 대체하여 어드밴티지 액터-크리틱 알고리즘과 가변 양자 회로를 결합하는 새로운 양자 강화 학습 접근 방식을 제안합니다. 이 접근 방식은 강화 학습의 확장성 문제를 해결하면서 높은 성능을 유지합니다. 우리는 연속 상태 공간의 제어 작업에서 우리의 접근 방식을 평가하기 위해 잘 알려진 카트 폴 환경에서 여러 가지 퀀텀 어드밴티지 액터-크리틱 구성을 경험적으로 테스트합니다. 그 결과, 양자 액터 또는 양자 크리틱을 클래식 후처리와 함께 사용하는 하이브리드 전략이 매개변수 수가 비슷한 순수 클래식 및 순수 양자 변형에 비해 상당한 성능 향상을 가져온다는 것을 알 수 있었습니다. 또한 잡음이 많은 중간 규모의 양자 컴퓨터의 하드웨어적 제약으로 인해 현재 양자 접근법의 한계를 드러내며, 더 크고 복잡한 제어 작업을 위해 하이브리드 접근법을 확장하기 위한 추가 연구를 제안합니다. [abs|pdf]

[148/200] GEML: A Grammar-based Evolutionary Machine Learning Approach for Design-Pattern Detection

Keywords: predict_new_code, classifier_built, software_properties_diverse
Abstract: 디자인 패턴(DP)은 소프트웨어 개발의 모범 사례로 인정받고 있습니다. 하지만 적절한 문서화가 부족하면 추적성을 방해하는 경우가 많고, 수천 줄의 코드 사이에서 그 이점이 모호해지는 경우가 많습니다. DP 감지를 위한 자동화된 방법들이 등장했지만 일반적으로 소프트웨어 메트릭이나 소스 코드의 특정 속성에 대한 엄격한 분석을 기반으로 합니다. 저희는 다양한 성격의 소프트웨어 속성을 사용하는 진화적 머신 러닝을 기반으로 하는 새로운 탐지 접근 방식인 GEML을 제안합니다. 첫째, GEML은 진화 알고리즘을 사용하여 문맥에 구애받지 않는 문법을 준수하는 사람이 읽을 수 있는 규칙으로 공식화된 DP를 더 잘 설명하는 특성을 추출합니다. 둘째, 새 코드에 숨겨진 DP 구현이 포함되어 있는지 여부를 예측하기 위해 규칙 기반 분류기가 구축됩니다. GEML은 머신 러닝 연구에서 반복적으로 채택되는 공개 저장소에서 가져온 5개의 DP를 통해 검증되었습니다. 그런 다음 이 수를 최대 15개의 다양한 DP로 늘려 탐지 기능의 효과와 견고성을 입증했습니다. 초기 매개변수 연구는 복잡한 매개변수를 특정 패턴에 맞게 조정할 필요 없이 이 접근법의 일반적인 적용 가능성을 보장하는 성능을 가진 매개변수 설정을 조정하는 역할을 합니다. 마지막으로 데모 도구도 제공됩니다. [abs|pdf]

[149/200] xCoT: Cross-lingual Instruction Tuning for Cross-lingual Chain-of-Thought Reasoning

Keywords: enhance_multilingual_reasoning, multilingual_reasoning_ability, multilingual_instruction_training
Abstract: 연쇄 사고(CoT)는 대규모 언어 모델에서 추론을 유도하고 다양한 다운스트림 작업을 개선하는 강력한 기술로 부상했습니다. CoT는 주로 영어에서 뛰어난 성능을 보이지만, 언어 일반화가 잘 이루어지지 않아 리소스가 부족한 언어에서는 사용이 제한적입니다. 서로 다른 언어 간의 격차를 해소하기 위해 고자원 언어에서 저자원 언어로 지식을 전달하기 위한 교차 언어 명령어 미세 조정 프레임워크(xCOT)를 제안합니다. 특히 다국어 명령어 훈련 데이터(xCOT-INSTRUCT)를 생성하여 여러 언어의 의미적 정렬을 촉진합니다. 명령어 튜닝에서 다국어 일치를 가속화하기 위해 예제에서 소스 언어의 일부 조각을 대상 언어의 해당 번역으로 무작위로 대체하는 교차 언어 인-컨텍스트 소수 샷 학습(xICL)을 도입합니다. 다국어 인스트럭션 튜닝 시에는 먼저 쿼리를 다른 언어로 번역한 다음 영어로 답변함으로써 대규모 언어 모델의 다국어 추론 능력을 향상시키기 위해 무작위 온라인 CoT 전략을 채택합니다. 언어 전환을 더욱 용이하게 하기 위해 고자원 CoT를 활용하여 언어 간 증류를 통해 저자원 언어의 학습을 감독합니다. 이전 벤치마크의 실험 결과에 따르면 xCoT는 서로 다른 언어 간의 격차를 줄이는 데 있어 우수한 성능을 보여줌으로써 언어 간 격차를 줄일 수 있는 잠재력을 입증했습니다. [abs|pdf]

[150/200] Code Security Vulnerability Repair Using Reinforcement Learning with Large Language Models

Keywords: generate_code_repair, code_repair_supervised, security_code_generation
Abstract: 최근 대규모 언어 모델(LLM)의 발전으로 다양한 개발자들이 기능적으로 올바른 코드를 생성하는 것이 덜 복잡해졌습니다. LLM을 사용하면 기능 개발 프로세스의 속도가 빨라졌지만 코드 보안에는 큰 위험이 따릅니다. LLM을 사용하여 적절한 보안 조치를 취한 코드를 생성하는 것은 기능적 코드를 생성하는 것보다 훨씬 더 까다로운 작업입니다. 보안 조치에는 원본 코드에 널 포인터 검사 또는 SQL 인젝션 방지를 위한 준비된 문으로 구성된 한 쌍의 코드 줄을 추가하는 것이 포함될 수 있습니다. 현재 사용 가능한 코드 복구 LLM은 모델이 교차 엔트로피 손실을 살펴보는 감독 미세 조정을 통해 코드 복구를 생성합니다. 그러나 원본 코드와 복구된 코드는 보안 조치 역할을 하는 몇 줄(1~2줄)을 제외하고는 기능적으로나 구문적으로 대부분 유사합니다. 보안 조치에 필요한 줄과 기능 코드 사이의 이러한 불균형은 감독된 미세 조정 모델이 적절한 보안 조치를 추가하지 않고 기능 코드를 우선적으로 생성하도록 강제하며, 이는 손실을 최소화하여 모델에도 이득이 됩니다. 따라서 본 연구에서는 LLM에서 생성된 코드의 보안 강화 및 강화를 위해 각각 코드의 보안 및 기능적 조치 추가에 중점을 둔 의미론적 보상 메커니즘과 구문론적 보상 메커니즘을 결합한 강화학습 기반 프로그램별 복구 방법을 제안합니다. [abs|pdf]

[151/200] Edge-Enabled Anomaly Detection and Information Completion for Social Network Knowledge Graphs

Keywords: knowledge_graph_completion, knowledge_graph_embedding, distributed_knowledge_graph
Abstract: 빠르게 발전하는 정보화 시대에는 신원 정보, 범죄 기록, 통신 데이터 등 인간의 다양한 행동이 데이터 형태로 정밀하게 기록되고 있습니다. 법 집행 기관은 앞서 언급한 데이터를 분석하여 사회 치안을 효과적으로 유지하고 범죄 행위에 정확하게 대처할 수 있습니다. 기존의 데이터 분석 방법에 비해 클라우드 센터의 강력한 컴퓨팅 성능을 활용하는 딥러닝 모델은 데이터 특징을 추출하고 데이터를 추론하는 데 있어 더 높은 정확도를 보여줍니다. 하지만 클라우드 센터의 아키텍처 내에서는 최종 디바이스에서 데이터를 전송할 때 상당한 지연 시간이 발생하여 실시간 데이터 추론에 방해가 됩니다. 또한 지연 시간이 짧은 엣지 컴퓨팅 아키텍처는 노드의 컴퓨팅 및 스토리지 용량이 상대적으로 약하기 때문에 직접 배포하는 데 한계가 있습니다. 이러한 문제를 해결하기 위해 경량 분산 지식 그래프 완성 아키텍처를 제안합니다. 먼저, 데이터 분석에 지식그래프 임베딩을 활용하는 경량 분산 지식그래프 완성 아키텍처를 소개합니다. 이어서, 불량 데이터를 걸러내기 위해 PDQA라는 인사 데이터 품질 평가 방법을 제안합니다. 마지막으로 모델 크기를 대폭 줄이면서도 성능을 극대화하여 경량화가 가능한 모델 가지치기 알고리즘을 제시합니다. 실험을 통해 11개의 고급 모델이 공안 인사 정보의 지식 그래프를 완성하는 데 미치는 영향을 비교합니다. 그 결과, 가지치기된 모델 크기가 70% 감소하고 히트@10이 86.97%에 달하는 등 지식 그래프 완성도가 다른 모델보다 월등히 뛰어난 것으로 나타났습니다.} [abs|pdf]

[152/200] Weak Labeling for Cropland Mapping in Africa

Keywords: global_cropland_maps, cropland_mapping, cropland_maps
Abstract: 경작지 매핑은 환경, 농업, 식량 안보 문제를 해결하는 데 중요한 역할을 할 수 있습니다. 하지만 아프리카의 경우, 고해상도 경작지 지도의 가용성이 제한되어 있어 실제 활용에 어려움을 겪는 경우가 많습니다. 이러한 지도는 일반적으로 광범위한 수작업 라벨링이 필요하기 때문에 확장성에 병목현상이 발생합니다. 이 문제를 해결하기 위해, 전 세계 경작지 지도에서 얻은 것과 같이 기존의 약한 라벨을 개선하기 위해 비지도 객체 클러스터링을 활용하는 접근 방식을 제안합니다. 이렇게 정제된 라벨은 희박한 인간 주석과 함께 농경지 영역을 식별하도록 설계된 의미론적 세분화 네트워크의 학습 데이터로 사용됩니다. 저희는 이 방법으로 생성된 개선된 약한 레이블의 이점을 입증하기 위해 실험을 진행했습니다. 사람이 주석을 단 33개의 라벨로만 모델을 훈련하는 시나리오에서, 마이닝된 네거티브 라벨을 추가하면 경작지 카테고리의 F_1 점수가 0.53에서 0.84로 증가합니다. [abs|pdf]

[153/200] Joint Extraction of Uyghur Medicine Knowledge with Edge Computing

Keywords: medical_knowledge_extraction, entity_recognition, entity_relation_extraction
Abstract: 엣지 컴퓨팅에 기반한 의료 지식 추출 방법은 엣지 디바이스에 딥러닝 모델을 배포하여 현지화된 개체 및 관계 추출을 달성합니다. 이 접근 방식은 상당한 양의 민감한 데이터를 클라우드 데이터 센터로 전송하지 않으므로 의료 서비스의 개인정보를 효과적으로 보호할 수 있습니다. 하지만 기존의 관계 추출 방식은 주로 엔티티 인식 후 결정된 엔티티 간의 관계를 분류하는 순차적 파이프라인 접근 방식을 사용합니다. 이 방식은 작업 간 오류 전파, 두 하위 작업 간의 종속성 고려 부족, 문장 내 서로 다른 관계 간의 상호 관계 무시 등의 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 엣지 컴퓨팅에서 매개변수 공유를 통한 공동 추출 모델인 CoEx-Bert가 제안되었습니다. 이 모델은 두 모델 간의 공유 매개변수화를 활용하여 엔티티와 관계를 공동으로 추출합니다. 구체적으로 CoEx-Bert는 각각 개별적으로 숨겨진 계층 매개변수를 공유하는 두 개의 모델을 사용하고, 이 두 개의 손실 함수를 결합하여 공동 역전파를 수행하여 모델 매개변수를 최적화합니다. 또한 문맥 관계를 고려하여 구조화되지 않은 위구르어 의학 텍스트에서 지식을 추출할 때 엔티티가 겹치는 문제를 효과적으로 해결합니다. 마지막으로, 이 모델은 위구르어 의료 지식을 실시간으로 추출하고 추론하기 위해 엣지 디바이스에 배포됩니다. 실험 결과, Coex-Bert는 위구르 전통 의학 문헌 데이터 세트에서 각각 90.65%, 92.45%, 91.54%의 정확도, 리콜 및 F1 점수를 달성하여 기존의 최첨단 방법보다 뛰어난 성능을 보였습니다. 이러한 개선은 기준치에 비해 정확도는 6.45%, 리콜은 9.45%, F1 점수는 7.95% 증가한 수치입니다. [abs|pdf]

[154/200] Progressive Feature Fusion Network for Enhancing Image Quality Assessment

Keywords: image_quality_assessment, new_image_quality, accurate_image_quality
Abstract: 이미지 압축은 이미지 저장 및 비디오 방송 분야에 적용되어 왔습니다. 그러나 서로 다른 알고리즘에 의해 생성된 왜곡된 이미지들 간의 미묘한 품질 차이를 구별하는 것은 매우 어렵습니다. 이 논문에서는 이미지 그룹에서 어떤 이미지가 더 나은지 결정하기 위한 새로운 이미지 품질 평가 프레임워크를 제안합니다. 미묘한 차이를 포착하기 위해 세분화된 네트워크를 채택하여 다중 스케일 특징을 획득합니다. 그런 다음 포지티브 및 네거티브 이미지 쌍 내에서 정보를 분리하고 수집하기 위한 교차 빼기 블록을 설계합니다. 특징 공간에서 이미지 비교를 가능하게 합니다. 그 후, 새로운 점진적 방식으로 멀티 스케일 특징을 융합하는 프로그레시브 특징 융합 블록을 설계합니다. 따라서 계층적 공간 2D 특징을 점진적으로 처리할 수 있습니다. 실험 결과에 따르면 현재 주류 이미지 품질 평가 방법과 비교하여 제안된 네트워크는 더 정확한 이미지 품질 평가를 달성할 수 있으며 이미지 지각 모델 트랙에서 CLIC의 벤치마크에서 2위를 차지했습니다. [abs|pdf]

[155/200] Singing the Body Electric: The Impact of Robot Embodiment on User Expectations

Keywords: robot_embodiments_predict, interactions_robots_conceptualizations, robot_embodiments
Abstract: 사용자는 로봇에 대한 정신적 모델을 개발하여 로봇과 어떤 종류의 상호 작용을 할 수 있는지 개념화합니다. 이러한 개념화는 로봇과 상호 작용하기 전에 형성되는 경우가 많으며 로봇의 물리적 디자인을 관찰하는 것만을 기반으로 합니다. 따라서 사용자가 로봇과 어떻게 상호 작용할 것인지 이해하려면 물리적 디자인에서 형성된 개념화를 이해해야 합니다. 우리는 로봇 구현의 멀티모달 기능을 사용하여 사용자가 특정 로봇의 사회적 및 물리적 기능에 대해 어떤 종류의 기대를 가질지 예측할 것을 제안합니다. 이러한 기능을 사용하면 소셜 인터랙티브 로봇 전반에 걸쳐 일반화되는 로봇의 일반적인 멘탈 모델에 대한 정보를 얻을 수 있음을 보여줍니다. 또한 이러한 모델을 소셜 인터랙티브 로봇을 연구하는 연구자들을 위해 인터랙션 디자인 및 물리적 디자인에 통합하는 방법을 설명합니다. [abs|pdf]

[156/200] CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities

Keywords: annotated_math_problems, concepts_hints_performance, problems_annotated_concepts
Abstract: 최근의 대규모 언어 모델(LLM)은 수학적 추론 능력의 징후를 보여주었습니다. 그러나 더 어려운 경쟁 수준의 문제에서는 어떻게 작동하는지는 명확하지 않았습니다. 그리고 중간 추론 단계의 자체 생성 언어화(즉, 연쇄적 사고 프롬프트)가 도움이 되는 것으로 나타났지만, LLM이 문제별 힌트와 같은 유용한 부가 정보를 활용할 수 있는지는 이전에 조사되지 않았습니다. 이 백서에서는 이러한 분석을 가능하게 하는 까다로운 벤치마크 데이터 세트를 제안합니다. 개념 및 힌트 주석이 달린 수학 문제(CHAMP)는 고등학교 수학 경시대회 문제들로 구성되어 있으며, 개념, 즉 일반적인 수학 사실과 힌트, 즉 문제별 요령으로 주석이 달려 있습니다. 이러한 주석을 통해 관련 힌트, 오해의 소지가 있는 개념 또는 관련 문제와 같은 추가 정보의 효과를 살펴볼 수 있습니다. 이 벤치마크는 표준 설정에서 가장 우수한 모델의 점수가 58.1%에 불과할 정도로 어렵습니다. 개념과 힌트가 있으면 성능이 향상되는 경우가 있는데, 이는 일부 모델이 이러한 부가 정보를 활용할 수 있음을 나타냅니다. 또한 모델이 생성한 솔루션의 정확성을 위해 주석을 달았습니다. 이 말뭉치를 사용하면 모델이 잘못된 추론 단계를 거쳐 최종 정답에 도달하는 경우가 많다는 것을 알 수 있습니다. 또한 모델이 이러한 솔루션을 검증할 수 있는지 테스트한 결과, 대부분의 모델이 어려움을 겪는다는 사실을 발견했습니다. 데이터 세트와 코드는 프로젝트 웹사이트에서 확인할 수 있습니다. [abs|pdf]

[157/200] Transformer for Object Re-Identification: A Survey

Keywords: deep_convolutional, deep_convolutional_neural, animal_id
Abstract: 객체 재식별(Re-ID)은 다양한 관점에서 특정 객체를 식별하고 검색하는 것을 목표로 합니다. 오랜 기간 동안 이 분야는 주로 심층 컨볼루션 신경망에 의해 주도되어 왔습니다. 최근 몇 년 동안 컴퓨터 비전이 괄목할 만한 발전을 이루면서 트랜스포머를 Re-ID에 적용하기 위한 연구도 증가하고 있습니다. 이 백서에서는 트랜스포머 기반 Re-ID에 대한 종합적인 검토와 심층 분석을 제공합니다. 기존 연구를 이미지/동영상 기반 Re-ID, 제한된 데이터/주석이 있는 Re-ID, 크로스 모달 Re-ID, 특수 Re-ID 시나리오로 분류하여 이러한 영역의 다양한 과제를 해결하는 데 있어 트랜스포머가 보여주는 이점을 철저히 해명합니다. 최근 유행하는 비지도 Re-ID를 고려하여 단일/크로스 모달 작업 모두에서 최첨단 성능을 달성하는 새로운 Transformer 기준선인 UntransReID를 제안합니다. 또한, 이번 설문조사에서는 동물 Re-ID의 진전 상황을 포함하여 광범위한 Re-ID 연구 대상을 다룹니다. 동물 Re-ID의 다양한 종을 고려하여 표준화된 실험 벤치마크를 고안하고 광범위한 실험을 수행하여 향후 연구를 용이하게 하기 위해 이 과제에 대한 Transformer의 적용 가능성을 탐색합니다. 마지막으로 빅 파운데이션 모델 시대에 중요하지만 아직 연구가 미진한 몇 가지 미해결 과제에 대해 논의하며, 이 분야의 연구자들에게 새로운 지침서가 될 것으로 기대합니다. [abs|pdf]

[158/200] Reinforcement Learning for Scalable Train Timetable Rescheduling with Graph Representation

Keywords: manually_train_dispatchers, train_timetable_rescheduling, train_dispatchers_challenging
Abstract: 열차 시간표 변경(TTR)은 열차에 예기치 않은 장애가 발생하거나 운행이 중단된 후 신속하게 원래대로 복구하는 것을 목표로 합니다. 현재 이 작업은 여전히 열차 배차 담당자가 수작업으로 수행하기 때문에 다양한 문제 상황에서 성능을 유지하기가 어렵습니다. 이 문제를 완화하기 위해 본 연구에서는 강화학습 기반의 TTR 접근 방식을 제안하며, 기존 연구와 비교하여 다음과 같은 이점을 제공합니다. 첫째, TTR 문제를 표현하기 위해 간단한 방향성 그래프를 설계하여 그래프 신경망을 통해 정보 상태를 자동으로 추출할 수 있도록 합니다. 둘째, 의사결정 모델을 문제 크기와 분리할 뿐만 아니라 생성된 계획의 실행 가능성을 보장하기 위해 TTR 솔루션의 구축 과정을 재구성합니다. 셋째, 다양한 수준의 지연이 있는 시나리오를 처리할 수 있도록 모델에 대한 학습 커리큘럼을 설계합니다. 마지막으로, 학습된 의사 결정 모델을 지원하기 위해 간단한 로컬 검색 방법을 제안하여 추가 계산 비용을 거의 들이지 않고도 솔루션 품질을 크게 향상시킬 수 있어 우리 방법의 실용적 가치를 더욱 향상시킵니다. 광범위한 실험 결과가 이 방법의 효과를 입증합니다. 학습된 의사 결정 모델은 수작업으로 만든 규칙이나 최신 솔버에 비해 열차 지연 정도와 규모가 다른 다양한 문제에 대해 더 나은 성능을 얻을 수 있습니다. [abs|pdf]

[159/200] E^2-LLM: Efficient and Extreme Length Extension of Large Language Models

Keywords: long_context_training, long_context_sizes, long_context_extension
Abstract: 일반적으로 긴 컨텍스트 크기의 LLM을 훈련하는 데는 계산 비용이 많이 들며, 많은 훈련 시간과 GPU 리소스가 필요합니다. 기존의 긴 컨텍스트 확장 방법은 일반적으로 긴 컨텍스트 훈련 데이터(예: 32k)가 필요한 경우 해당 긴 컨텍스트 창을 지원하기 위해 추가 훈련 절차가 필요하며, 높은 GPU 훈련 비용이 전제됩니다. 앞서 언급한 문제를 해결하기 위해, 우리는 단 한 번의 훈련 절차로 계산 비용을 획기적으로 줄이고 긴 문맥 데이터를 수집할 필요도 없는 효율적이고 극단적인 대형 언어 모델 길이 확장 방법인 E 2 -LLM을 제안합니다. 구체적으로 살펴보면, 첫째, E 2 -LLM의 학습 데이터는 짧은 길이(예: 4k)만 필요하므로 튜닝 비용이 크게 절감됩니다. 둘째, 짧은 훈련 컨텍스트 창에 대한 훈련 절차는 한 번만 수행되며, 추론 시 다양한 평가 컨텍스트 창을 지원할 수 있습니다. 셋째, RoPE 위치 임베딩을 기반으로 하는 E 2 - LLM에서는 훈련 시 서로 다른 샘플에 대한 스케일 및 위치 인덱스 매개변수에 대해 두 가지 증강 방법을 도입합니다. 이는 추론 시 임의의 컨텍스트 길이를 직접 보간할 때 다양한 상대적 차이에 대해 모델을 더 강력하게 만드는 것을 목표로 합니다. 여러 벤치마크 데이터 세트에 대한 종합적인 실험 결과는 까다로운 긴 컨텍스트 작업에 대한 E 2 -LLM의 효과를 입증합니다. [abs|pdf]

[160/200] ORGANA: A Robotic Assistant for Automated Chemistry Experimentation and Characterization

Keywords: lab_automation, lab_natural_language, traditional_lab_automation
Abstract: 화학 실험은 종종 자원과 노동 집약적인 작업입니다. 첨단 및 특수 목적 실험실 장비의 통합으로 인한 많은 이점에도 불구하고, 전기화학 실험에서 전극을 연마하는 등 실험의 많은 부분이 여전히 화학자가 수작업으로 수행되고 있습니다. 기존의 실험실 자동화 인프라는 새로운 화학 실험에 유연하게 적응하는 데 어려움을 겪고 있습니다. 이 문제를 해결하기 위해 유니티는 다양한 화학 실험을 자동화하는 인간 친화적이고 유연한 로봇 시스템인 ORGANA를 제안합니다. 이 로봇은 대규모 언어 모델(LLM)을 사용하여 자연어를 통해 실험실의 화학자들과 상호 작용할 수 있습니다. ORGANA는 통계적 분석을 통합한 보고서를 적시에 제공하여 과학자들에게 정보를 제공합니다. 또한, 명확한 설명이나 문제 해결을 위해 필요한 경우 사용자와 적극적으로 소통합니다. ORGANA는 사용자 입력을 추론하여 실험 목표를 도출하고, 환경에 대한 시각적 인식의 피드백을 사용하면서 높은 수준의 작업과 낮은 수준의 로봇 동작의 긴 시퀀스를 계획할 수 있습니다. 또한 여러 로봇과 실험 스테이션 간의 리소스 할당 및 조정이 필요한 실험을 위한 스케줄링 및 병렬 실행을 지원합니다. 용해도 평가, pH 측정, 재결정화, 전기화학 실험 등 다양한 화학 실험을 ORGANA가 성공적으로 수행한다는 것을 보여줍니다. 후자의 경우, 충전식 플로우 배터리에 사용되는 분자의 일종인 퀴논 유도체의 전기화학적 특성을 분석하기 위해 19개의 단계를 병렬로 실행하는 장기적인 계획을 ORGANA가 안정적으로 실행하는 것을 보여줍니다. 사용자 연구에 따르면 ORGANA는 물리적 작업량을 줄이면서 사용자 경험의 여러 측면을 크게 개선하는 것으로 나타났습니다. ORGANA에 대한 자세한 내용은 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[161/200] Parameter-Efficient Detoxification with Contrastive Decoding

Keywords: controllable_text_generation, text_generation, generation_quality_detoxifier
Abstract: 자연어 생성 분야는 최근 몇 년 동안 제어 가능한 텍스트 생성 기술의 개발 등 상당한 발전을 이루었습니다. 그러나 생성된 텍스트의 속성을 제어하는 것은 여전히 어려운 과제이며, 특히 독성과 같은 바람직하지 않은 동작을 피하고자 할 때 더욱 그렇습니다. 이번 연구에서는 원치 않는 스타일이 생성되지 않도록 유도하는 추론 시간 알고리즘인 디톡시전 제너레이터(Detoxification Generator, 이하 디톡시전)를 소개합니다. 디톡시젠은 사전 학습된 언어 모델(제너레이터)과 디톡시파이어의 앙상블입니다. 디톡시파이어는 바람직하지 않은 속성을 대표하는 독성 데이터에 대해 의도적으로 훈련되어 해당 스타일의 텍스트만 생성하도록 유도합니다. 실제 생성 시에는 훈련된 디톡서를 사용하여 각 디코딩 단계에서 생성기가 대조할 수 있는 바람직하지 않은 토큰을 생성합니다. 이 접근 방식은 디톡서가 가능성이 높다고 판단하는 토큰을 생성하지 않도록 생성기에 직접 정보를 제공합니다. 저희는 다양한 언어 모델을 제너레이터로 사용하여 일반적으로 사용되는 REALTOXICITYPROMPTS 벤치마크(Gehman et al., 2020)에서 디톡시전을 평가했습니다. 그 결과, 생성 품질에 영향을 주지 않으면서도 해독 메트릭에서 이전 접근 방식보다 훨씬 뛰어난 성능을 보였습니다. 또한, 제너레이터와 동일한 백본 언어 모델을 사용하여 소프트 프롬프트 튜닝을 통해 해독기를 얻을 수 있습니다. 따라서 디톡시젠은 디코딩하는 동안 디톡시파이어의 가상 토큰에서 소량의 추가 가중치만 GPU 메모리에 로드하면 되므로, 가볍고 실용적이며 파라미터 효율성이 높은 유망한 디톡시제이션 전략이 될 수 있습니다. [abs|pdf]

[162/200] 3D Object Detection and High-Resolution Traffic Parameters Extraction Using Low-Resolution LiDAR Data

Keywords: point_cloud_information, point_cloud_completion, point_cloud
Abstract: 교통량 데이터 수집은 교통 패턴, 혼잡, 인프라 효율성에 대한 중요한 인사이트를 제공하기 때문에 교통 공학 및 도시 계획에 있어 매우 중요한 요소입니다. 기존의 수동 교통량 데이터 수집 방식은 시간과 비용이 많이 소요됩니다. 하지만 최신 기술, 특히 라이다(LiDAR: Light Detection and Ranging)의 등장으로 효율적이고 정확한 데이터 수집이 가능해지면서 이 프로세스가 혁신적으로 변화했습니다. 교통 데이터 수집에 LiDAR를 사용하면 얻을 수 있는 이점에도 불구하고, 이전 연구에서는 광범위한 채택을 방해하는 두 가지 주요한 한계가 확인되었습니다. 관심 물체의 완전한 포인트 클라우드 정보를 얻기 위해 여러 개의 LiDAR 시스템이 필요하다는 점과 물체 감지 작업을 위해 3D 바운딩 박스에 주석을 달아야 하는 노동 집약적인 프로세스가 그것입니다. 이러한 문제에 대응하기 위해 본 연구에서는 여러 대의 LiDAR 시스템의 필요성을 완화하고 힘든 3D 주석 처리 과정을 간소화하는 혁신적인 프레임워크를 제안합니다. 이 목표를 달성하기 위해 본 연구에서는 데이터 수집 비용을 절감하는 것을 목표로 하는 단일 라이더 시스템을 사용했으며, 포인트 밀도를 사용하여 누락된 포인트 클라우드 정보를 채우는 포인트 클라우드 완성(PCC) 프레임워크를 개발하여 누락된 포인트 클라우드 정보에 대한 한계를 해결했습니다. 또한 제로 샷 학습 기법을 사용해 차량과 보행자를 감지하고 높이, 가속도, 속도 등 관심 객체에서 특징이 낮은 것부터 높은 것까지 추출할 수 있는 독자적인 프레임워크를 제안했습니다. 이 연구는 2D 바운딩박스 검출과 추출된 높이 정보를 이용해 사람의 개입 없이도 3D 바운딩박스를 자동으로 생성할 수 있습니다. [abs|pdf]

[163/200] Open RAN LSTM Traffic Prediction and Slice Management using Deep Reinforcement Learning

Keywords: deep_reinforcement_learning, distributed_deep_reinforcement, using_distributed_deep
Abstract: 자율주행, 스마트 시티, 스마트 팩토리와 같은 새로운 애플리케이션이 등장하면서 네트워크 슬라이싱은 서비스 인식 네트워크를 위한 수단으로 5G 및 그 이상의 네트워크에서 필수적인 구성 요소가 되었습니다. 그러나 서비스 품질(QoS)을 유지하면서 다양한 네트워크 슬라이스를 관리하는 것은 동적인 환경에서 어려운 과제입니다. 이 문제를 해결하기 위해 이 백서에서는 ORAN 시스템에서 분산 유닛(DU)의 이질적인 경험을 활용하고 분산 심층 강화 학습(DDRL)을 사용하여 ORAN 슬라이싱 xApp에 대한 새로운 접근 방식을 소개합니다. 또한 RL 에이전트의 의사 결정 성능을 향상시키기 위해 장단기 메모리(LSTM)를 기반으로 하는 예측 rApp을 통합하여 동적 환경의 추가 정보를 xApp에 제공합니다. 시뮬레이션 결과 네트워크 성능이 크게 개선되었으며, 특히 QoS 위반이 줄어든 것으로 나타났습니다. 이는 동적 xApp의 일부로 예측 rApp과 분산된 액터의 정보를 함께 사용하는 것이 중요하다는 것을 강조합니다. [abs|pdf]

[164/200] DocFinQA: A Long-Context Financial Reasoning Dataset

Keywords: retrieval_based_qa, document_financial_qa, financial_qa_task
Abstract: 금융 분야의 정량적 추론 연구는 비즈니스와 금융 분야에서 내려진 결정이 미치는 영향이 크기 때문에 현실적인 작업과 데이터를 사용해야 합니다. 금융 전문가들은 종종 수백 페이지에 달하는 문서와 상호 작용하지만, 대부분의 연구 데이터 세트는 이러한 컨텍스트 길이를 대폭 줄입니다. 이 문제를 해결하기 위해 긴 문서에 대한 재무 QA 작업을 도입했습니다. 기존 FinQA 데이터 세트에서 7,621개의 질문을 전체 문서 컨텍스트로 보강하여 각 질문의 평균 컨텍스트 길이를 FinQA의 700단어 미만에서 DocFinQA의 123천 단어로 확장했습니다. 확장된 데이터에 대해 검색 기반 QA 파이프라인과 긴 문맥 언어 모델에 대한 광범위한 실험을 수행했습니다. 그 결과, 가장 강력한 최첨단 시스템에서도 DocFinQA가 문제를 해결할 수 있음을 확인했습니다. [abs|pdf]

[165/200] Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data Generation and Evaluation in Learning Analytics

Keywords: recommendations_synthetic_data, data_enhance_privacy, synthetic_data_maintain
Abstract: 개인정보 보호는 학습 분석(LA)의 발전에 큰 걸림돌이 되고 있으며, 현재의 솔루션으로는 해결이 어려운 부적절한 익명화 및 데이터 오용과 같은 문제를 야기합니다. 합성 데이터는 강력한 개인정보 보호를 제공하는 잠재적 해결책으로 떠오르고 있습니다. 그러나 합성 데이터에 대한 기존 연구에는 개인정보 보호와 데이터 유용성 사이의 미묘한 균형을 평가하는 데 필수적인 철저한 평가가 부족합니다. 합성 데이터는 개인정보 보호를 강화할 뿐만 아니라 데이터 분석을 위한 실용성을 유지해야 합니다. 또한, 다양한 LA 시나리오에는 다양한 개인정보 보호 및 활용 요구사항이 존재하기 때문에 적절한 합성 데이터 접근 방식을 선택하는 것이 시급한 과제입니다. 이러한 격차를 해소하기 위해 유니티는 유사성, 활용성, 개인정보 보호라는 세 가지 합성 데이터 품질 차원을 포괄하는 합성 데이터에 대한 종합적인 평가를 제안합니다. 이 평가는 세 가지 다른 합성 데이터 생성 방법을 사용하여 세 가지 다른 LA 데이터 세트에 적용합니다. 그 결과, 합성 데이터는 프라이버시를 보호하면서 실제 데이터와 유사한 효용성(즉, 예측 성능)을 유지할 수 있는 것으로 나타났습니다. 또한 다양한 LA 시나리오에서 서로 다른 개인정보 보호 및 데이터 효용성 요구사항을 고려하여 합성 데이터 생성을 위한 맞춤형 권장 사항을 제시합니다. 이 백서는 합성 데이터에 대한 종합적인 평가를 제시할 뿐만 아니라 LA 분야에서 개인정보 보호 문제를 완화할 수 있는 합성 데이터의 잠재력을 보여줌으로써 LA에서 합성 데이터를 더 폭넓게 적용하고 오픈 사이언스를 위한 더 나은 관행을 촉진하는 데 기여합니다. [abs|pdf]

[166/200] Multicriteria decision support employing adaptive prediction in a tensor-based feature representation

Keywords: multicriteria_decision_analysis, decision_analysis_mcda, signal_processing_tensorial
Abstract: 다기준 의사 결정 분석(MCDA)은 여러 기준에 따라 일련의 대안의 순위를 매기거나 분류해야 하는 의사 결정을 지원하는 데 널리 사용되는 도구입니다. 최근의 MCDA 연구는 각 기준에 대한 현재 평가뿐만 아니라 과거 데이터도 고려하는 것이 타당하다는 것을 보여주었습니다. 과거 데이터 기반 접근 방식은 특히 시시각각 변하는 환경에서 새로운 과제를 안고 있습니다. 이 연구에서는 텐서럴 표현 및 적응형 예측과 같은 신호 처리의 필수 도구를 통해 이러한 문제를 해결합니다. 보다 구체적으로, 기준의 과거 데이터를 텐서로 구조화하고 적응형 예측을 적용하여 이러한 기준의 예측 값으로 신호를 구성합니다. 또한, 시간 영역에서의 예측을 특징 영역이라고 하는 가장 유리한 의사 결정 영역으로 변환합니다. 우리는 특징 영역에서 텐서를 처리하여 대안의 순위를 구하는 것을 목표로 하는 MCDA 방법의 새로운 확장 PROMETHEE II를 제시합니다. 실제 시계열을 사용하여 수치 실험을 수행했으며, 우리의 접근 방식을 기존의 다른 전략과 비교했습니다. 그 결과, 특히 비고정 시계열에 대한 제안의 관련성과 효율성이 강조되었습니다. [abs|pdf]

[167/200] Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data

Keywords: health_prediction_tasks, modal_health_predictions, predictions_based_contextual
Abstract: 대규모 언어 모델(LLM)은 많은 자연어 작업을 수행할 수 있지만 완벽하지는 않습니다. 의료 분야에서는 도메인별 및 비언어적 데이터의 근거를 마련하고 해석하는 것이 중요합니다. 이 백서에서는 컨텍스트 정보(예: 사용자 인구통계, 건강 지식)와 생리적 데이터(예: 안정 시 심박수, 수면 시간)를 기반으로 멀티모달 건강 예측을 제공하는 LLM의 역량을 조사합니다. 6개의 공중 보건 데이터 세트(PM-Data, LifeSnaps, GLOBEM, AW_FB, MIT-BIH 및 MIMIC-III)에 대한 다양한 프롬프트 및 미세 조정 기법을 통해 8개의 최첨단 LLM에 대한 종합적인 평가를 제시합니다. 실험은 정신 건강, 활동, 신진대사, 수면, 심장 평가 등 13가지 소비자 건강 예측 과제를 다룹니다. 미세 조정된 모델인 Health-Alpaca는 대형 모델(GPT-3.5 및 GPT-4)과 비슷한 성능을 보여주며 13개 과제 중 5개 과제에서 최고의 성능을 달성했습니다. 절제 연구는 컨텍스트 강화 전략의 효과와 훈련 데이터 세트 및 훈련 샘플의 크기에 따른 미세 조정된 모델의 일반화 능력을 강조합니다. 특히, 문맥 강화가 최대 23.8%의 성능 향상을 가져올 수 있음을 관찰했습니다. 컨텍스트가 풍부한 프롬프트(사용자 컨텍스트, 건강 지식, 시간적 정보 결합)를 구성하면 시너지 효과가 나타나지만, 프롬프트에 건강 지식 컨텍스트를 포함하면 전반적인 성능이 크게 향상됩니다. [abs|pdf]

[168/200] Structsum Generation for Faster Text Comprehension

Keywords: generating_structured_representations, representations_text_comprehension, generated_structured_representations
Abstract: 우리는 대규모 언어 모델(LLM)을 사용하여 텍스트의 구조화된 표현을 생성하는 작업을 고려합니다. 대표적인 양식으로 표와 마인드맵에 중점을 둡니다. 표는 데이터를 보다 체계적으로 표현하는 방식이며, 마인드맵은 시각적으로 역동적이고 유연한 접근 방식을 제공하며 특히 희박한 콘텐츠에 적합합니다. 다양한 작업에서 LLM이 효과적임에도 불구하고 현재 모델은 구조화된 결과물을 생성하는 데 어려움을 겪고 있음을 보여줍니다. 이에 따라 이 두 가지 작업에 대한 효과적인 프롬프트 전략을 제시합니다. 두 양식에 공통적으로 나타나는 사실성, 글로벌 및 로컬 구조와 관련된 문제의 분류법을 소개하고 이러한 문제를 해결하기 위한 일련의 비평을 제안하여 마인드맵의 경우 +37pp(79%), 테이블의 경우 +15pp(78%)의 절대적인 정확도 향상을 가져옵니다. 생성된 구조화된 표현의 의미적 커버리지를 평가하기 위해 자동 QA를 제안하고, SQuAD 데이터세트를 사용하여 자동 QA의 적절성을 검증합니다. 또한 텍스트 이해 사용자 연구를 통해 구조화된 표현의 유용성을 평가합니다. 그 결과, 표(42.9%)와 마인드맵(31.9%)을 사용할 때 텍스트에 비해 정확도 손실 없이 이해 시간이 크게 단축되는 것으로 나타났습니다. [abs|pdf]

[169/200] Enhancing the Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought

Keywords: input_emotion_generation, emotional_generation_tasks, emotion_generation
Abstract: 감정 생성은 감성 지능의 하위 집합으로, 감정 상태를 입력으로 하여 감정 반응을 출력하는 것을 목표로 합니다. 감성 생성은 감성 채팅, 감성 비주얼 캡션, 감성 재작성 등 다양한 분야에서 활용되고 있습니다. 그러나 해석 가능성 부족과 평가 가능성 저하와 같은 문제에 직면해 있습니다. 본 논문에서는 인간의 감성 지능 가이드라인에 맞춰 다양한 감성 생성 작업에서 대규모 언어 모델(LLM)의 성능을 향상시키는 플러그 앤 플레이 프롬프트 방법인 감성적 사고 연쇄(ECoT)를 제안합니다. ECoT의 신뢰성을 평가하기 위해 자동화된 모델 기반 평가 방법인 EGS를 제안합니다. 광범위한 실험 결과를 통해 ECoT와 EGS의 효과를 입증합니다. 또한 감정 분석 분야에서 LLM의 가능성에 대해 논의하고 감정 생성 작업에서 ECoT와 함께 LLM에 대한 주요 인사이트를 제시합니다. [abs|pdf]

[170/200] A hierarchical control framework for autonomous decision-making systems: Integrating HMDP and MPC

Keywords: hybrid_markov_decision, design_discrete_markov, markov_decision_process
Abstract: 이 백서에서는 로봇 공학 및 자율 시스템에서 발생하는 자율적 의사 결정을 위한 포괄적인 계층적 제어 프레임워크를 제안합니다. 일반적인 계층적 제어 아키텍처에서 상위 수준의 의사 결정은 종종 이산 상태 및 의사 결정/제어 집합으로 특징지어집니다. 그러나 합리적인 의사 결정은 일반적으로 자율 시스템의 이산 상태뿐만 아니라 운영 환경의 진화에 따른 근본적인 연속 역학에도 영향을 받습니다. 이 논문에서는 새로운 모델링 및 설계 문제 공식화부터 제어 설계 및 안정성 분석에 이르기까지 이러한 유형의 까다로운 문제에 대한 총체적이고 포괄적인 설계 프로세스 및 프레임워크를 제안합니다. 이 논문은 제어 설계를 위해 낮은 수준에서 활용되는 기존의 연속 시스템 역학과 높은 수준의 의사 결정을 촉진하기 위한 이산 마르코프 의사 결정 프로세스(MDP) 간의 복잡한 상호 작용을 다룹니다. 우리는 복잡한 환경에서의 의사 결정 시스템을 제어된 MDP와 자율적(즉, 제어되지 않은) 연속 역학으로 구성된 하이브리드 시스템으로 모델링합니다. 따라서 새로운 공식은 하이브리드 마르코프 의사결정 프로세스(HMDP)라고 불립니다. 설계 문제는 다양한 수준의 불연속 상태 변수와 연속 상태 변수의 영향을 모두 고려하면서 안전성과 최적성을 모두 보장하는 데 중점을 두고 공식화됩니다. 모델 예측 제어(MPC) 개념의 도움으로 제안된 하이브리드 의사 결정 모델에 대한 의사 결정자 설계 체계가 제안됩니다. 이 체계에 포함된 주요 요소들을 신중하게 설계함으로써 제안된 자율 의사결정 체계의 재귀적 실행 가능성과 안정성이 보장됨을 보여줍니다. 제안된 프레임워크는 지능형 차량용 자율 차선 변경 시스템 개발에 적용된다. [abs|pdf]

[171/200] A Survey on the Applications of Frontier AI, Foundation Models, and Large Language Models to Intelligent Transportation Systems

Keywords: advancing_transportation_intelligence, transportation_intelligence, domain_intelligent_transportation
Abstract: 이 설문조사 보고서는 지능형 교통 시스템(ITS) 영역에서 프론티어 AI, 기반 모델, 대규모 언어 모델(LLM)의 혁신적 영향력을 살펴보고, 교통 인텔리전스를 발전시키고 교통 관리를 최적화하며 스마트 시티 실현에 기여하는 데 있어 이들의 필수적인 역할을 강조합니다. 프론티어 AI는 AI 기술의 최전선을 의미하며, 해당 분야의 최신 발전, 혁신, 실험적 기술, 특히 AI 기반 모델과 LLM을 포괄합니다. GPT-4와 같은 파운데이션 모델은 광범위한 애플리케이션의 기반을 제공하는 대규모 범용 AI 모델입니다. 범용성과 확장성이 특징입니다. LLM은 자연어 처리 및 생성에 중점을 두고 기초 모델을 미세 조정하여 얻을 수 있습니다. 언어 이해, 텍스트 생성, 번역 및 요약과 같은 작업에서 탁월한 성능을 발휘합니다. LLM은 교통 보고서와 소셜 미디어 상호 작용을 포함한 방대한 텍스트 데이터를 활용하여 중요한 인사이트를 추출함으로써 ITS의 진화를 촉진합니다. 이 설문조사는 교통 관리 애플리케이션, 자율 주행 차량과의 통합, 스마트 시티를 형성하는 데 있어 LLM과 ITS 간의 역동적인 시너지 효과에 대해 살펴봅니다. 또한 진행 중인 연구, 혁신, 새로운 트렌드에 대한 인사이트를 제공하여 보다 안전하고 효율적이며 지속 가능한 교통 시스템을 위한 언어, 인텔리전스, 모빌리티의 교차점에서의 협업을 촉진하는 것을 목표로 합니다. 이 백서에서는 LLM과 ITS의 다양한 측면 간의 상호 작용을 조사하여 교통 관리, 자율주행차 촉진, 스마트 시티 개발에 기여하는 역할을 탐구하는 한편, 프론티어 AI 및 기반 모델이 가져오는 과제를 해결합니다. 이 백서는 지능형 교통이라는 혁신적인 영역에서 미래의 연구와 혁신을 위한 귀중한 영감을 제공합니다. [abs|pdf]

[172/200] RecSys Challenge 2023: From data preparation to prediction, a simple, efficient, robust and scalable solution

Keywords: sharechat_moj_apps, umons_challenge, umons_challenge_giving
Abstract: 쉐어챗이 주최한 RecSys 챌린지 2023은 사용자가 쉐어챗과 모즈 앱의 광고 노출을 본 후 스마트폰에 앱을 설치할지 예측하는 문제입니다. 이 백서에서는 다양한 프로덕션 구성에서 쉽게 구현할 수 있는 비교적 작은 모델로 정확한 결과(최고 점수 6.622686점)를 제공하는 'Team UMONS'의 솔루션을 소개합니다. 이 솔루션은 데이터 세트의 크기가 커져도 잘 확장되며, 결측값이 포함된 데이터 세트에도 사용할 수 있습니다. [abs|pdf]

[173/200] Cross-Attention Watermarking of Large Language Models

Keywords: sentences_proactive_watermarking, watermarking_language_models, linguistic_watermarking
Abstract: 언어 모델의 언어적 워터마킹에 대한 새로운 접근 방식은 가독성과 원래 의미를 유지하면서 출력 텍스트에 정보를 눈에 띄지 않게 삽입하는 것입니다. 추론 중에 텍스트에 워터마크를 삽입하기 위해 교차 주의 메커니즘이 사용됩니다. 교차주의를 사용하는 두 가지 방법을 통해 워터마킹이 사전 학습된 모델의 성능에 미치는 영향을 최소화할 수 있습니다. 워터마킹을 최적화하기 위한 다양한 훈련 전략과 실제 시나리오에서 이 접근법을 적용할 때의 어려움과 시사점을 살펴봄으로써 워터마크의 견고성과 텍스트 품질 간의 균형을 명확히 했습니다. 워터마크 선택은 엔트로피가 높은 문장에 대해 생성된 출력에 상당한 영향을 미칩니다. 이러한 사전 예방적 워터마킹 접근 방식은 향후 모델 개발에 적용될 가능성이 있습니다. [abs|pdf]

[174/200] APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning

Keywords: modal_prompt_learning, prompts_boost_generalization, prompts_vision_language
Abstract: 사전 학습된 시각 언어(V-L) 모델은 주목할 만한 경쟁자들 사이에서 다운스트림 작업으로의 일반화를 위한 벤치마크를 설정합니다. 텍스트 입력에 대한 민감도 문제와 다중 모달 프롬프트에 대한 튜닝 프로세스를 포함하여 V-L 모델의 많은 특성이 기존 연구에서 탐구되었습니다. CLIP과 같은 V-L 모델의 활용도가 높아짐에 따라, 최근의 접근 방식은 일반화 성능을 높이고 앞서 언급한 문제를 해결하기 위해 수작업으로 만든 프롬프트 대신 학습 가능한 프롬프트를 배포합니다. 이미지 융합에 널리 사용되는 레이어별 학습에서 영감을 받아 순차적 학습 프로세스를 사용하여 CLIP의 다양한 모달리티 분기를 효율적으로 적용하면 일반화 성능을 향상시킬 수 있습니다. 멀티 모달 프롬프트 문제를 해결하기 위해 시각과 언어라는 두 가지 모달 프롬프트를 순차적으로 토큰으로 조정하는 토큰 기반 멀티 모달 프롬프트 학습(APLe)을 제안합니다. APLe는 두 가지 모달리티에 걸쳐 프롬프트 학습을 촉진하기 위해 V-L 모델의 과제를 해결하며, 이는 최신 기술에 부합하는 경쟁력 있는 일반화 성능을 나타냅니다. 특히 APLe는 프롬프트 길이 실험에서 견고하고 유리한 성능을 보이며 V-L 모델을 채택하는 데 절대적인 우위를 점하고 있습니다. [abs|pdf]

[175/200] Direct Distillation between Different Domains

Keywords: network_learn_domain, trained_teacher_network, knowledge_distillation
Abstract: 지식 증류(KD)는 사전 학습된 대규모 교사 네트워크의 지식을 사용하여 간결한 학생 네트워크를 학습하는 것을 목표로 하며, 두 네트워크는 동일한 분포의 데이터로 학습됩니다. 그러나 실제 적용 시 학생 네트워크는 일반적으로 교사 네트워크의 알려진 시나리오(소스 도메인)와 상당한 차이를 보이는 새로운 시나리오(즉, 목표 도메인)에서 수행해야 할 수 있습니다. 기존의 도메인 적응 기법은 2단계 프로세스에서 KD와 통합되어 도메인 격차를 해소할 수 있지만, 2단계 접근법의 궁극적인 신뢰성은 높은 계산 소비와 두 단계에서 누적되는 추가 오류로 인해 제한되는 경향이 있습니다. 이 문제를 해결하기 위해 유니티는 '서로 다른 도메인 간 직접 증류(4D)'라는 새로운 1단계 방법을 제안합니다. 먼저 푸리에 변환을 기반으로 학습 가능한 어댑터를 설계하여 도메인 불변 지식과 도메인별 지식을 분리합니다. 그런 다음 융합 활성화 메커니즘을 구축하여 가치 있는 도메인 불변 지식을 학생 네트워크로 전송하는 동시에 교사 네트워크 내의 어댑터가 대상 데이터의 도메인별 지식을 학습하도록 유도합니다. 그 결과, 교사 네트워크는 학생 네트워크의 목표 도메인에 부합하는 범주형 지식을 효과적으로 전달할 수 있습니다. 다양한 벤치마크 데이터 세트에 대한 집중적인 실험을 통해 우리가 제안한 4Ds 방법이 신뢰할 수 있는 학생 네트워크를 성공적으로 생성하고 최첨단 접근법을 능가한다는 것을 입증했습니다. [abs|pdf]

[176/200] Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation Engineering

Keywords: model_jailbreaking_researchers, jailbreaking_researchers, prompts_engineering_jailbreak
Abstract: LLM(대규모 언어 모델)이 적대적 유해성 질문에 대한 답변을 거부하도록 하는 것은 LLM 보안의 핵심 문제입니다. 이전 접근 방식에서는 프롬프트 엔지니어링을 사용하여 LLM을 탈옥하고 일부 독성 질문에 답변했습니다. 이러한 접근 방식은 모델 제조업체가 모델을 추가로 미세 조정한 후에는 쉽게 실패할 수 있습니다. 연구자들의 모델 탈옥에 대한 이해를 높이기 위해 유니티는 표현 엔지니어링에서 영감을 받아 정교한 구성 프롬프트가 필요하지 않고, 모델 미세 조정의 영향을 받지 않으며, 플러그 가능한 방식으로 모든 오픈 소스 LLM에 광범위하게 적용할 수 있는 탈옥 방법을 제안했습니다. 저희는 신중하게 보완된 독성 데이터 세트를 바탕으로 여러 주류 LLM에 대해 이 방법을 평가했으며, 실험 결과는 저희 접근법의 상당한 효과를 입증했습니다. 흥미로운 탈옥 사례에 놀란 저희는 이 방법의 이면에 숨겨진 기술을 탐구하기 위해 광범위한 심층 연구를 수행했습니다. [abs|pdf]

[177/200] Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance

Keywords: surrogate_neural_networks, verification_surrogate_models, surrogate_models_critical
Abstract: 이제 대리 신경망(NN)은 계산이 까다로운 시뮬레이션(예: 유한 요소)을 대체하는 역할을 일상적으로 수행합니다. 대리 신경망은 제조 공정, 성능 평가와 같은 산업 애플리케이션에서 더 빠른 분석을 가능하게 합니다. 대리 모델의 검증은 다양한 시나리오에서 모델의 견고성을 평가하기 위한 중요한 단계입니다. 하나의 NN 검증 파이프라인에서 경험적 방법과 공식적 방법의 조합을 살펴봅니다. 항공기 예측 유지보수의 산업적 사용 사례에서 그 효율성을 보여줍니다. 외부 하중으로부터 항공기 부품이 받는 응력을 예측하도록 설계된 대리 NN의 국부적 안정성을 평가합니다. 우리의 공헌은 고차원 입력 및 출력 공간을 보유하여 다목적 제약 조건을 수용하는 대리 모델을 완벽하게 검증하는 데 있습니다. 또한 목표 속성을 평가하는 데 필요한 런타임을 크게 단축하는 파이프라인의 효과도 입증했습니다. [abs|pdf]

[178/200] When ChatGPT is gone: Creativity reverts and homogeneity persists

Keywords: enhance_human_creativity, chatgpt_creative_tasks, sustained_creativity_using
Abstract: ChatGPT는 창의적인 작업에서 인간의 성과를 향상시키는 것으로 입증되었습니다. 하지만 이러한 성과 향상 효과가 ChatGPT를 사용했을 때와 사용하지 않았을 때 지속되는지는 아직 명확하지 않습니다. 사전 등록한 7일간의 실험실 실험과 실험 완료 30일 후의 후속 설문조사를 통해 61명의 대학생이 제출한 3302개의 창의적 아이디어와 427개의 창의적 솔루션에 대한 텍스트 데이터 세트를 사용하여 ChatGPT의 유무가 지속적인 창의성에 미치는 영향을 조사했습니다. 치료 그룹의 참가자들은 창의적 과제에서 ChatGPT를 사용했고, 대조 그룹의 참가자들은 혼자서 과제를 완료했습니다. 연구 결과, 5일간의 창의적 여정 동안 ChatGPT의 부스팅 효과가 일관되게 관찰되었지만, 7일째와 30일째에 ChatGPT를 사용하지 않았을 때 인간의 창의적 성과는 기준선으로 되돌아갔습니다. 더 중요한 것은 창의적인 작업에서 ChatGPT를 사용하면 콘텐츠가 점점 더 균질화되었고, 이러한 균질화 효과는 ChatGPT가 없는 경우에도 지속되었다는 점입니다. 이러한 결과는 ChatGPT가 인간의 창의성을 향상시킬 수 있다는 일반적인 주장에 도전장을 던집니다. 실제로 ChatGPT와 같은 제너레이티브 AI는 일시적인 창의력 향상에는 도움이 되지만 장기적으로는 인간의 창의력을 제한할 수 있으며, 이는 창의적인 작업에 제너레이티브 AI를 신중하게 도입해야 한다는 점을 강조합니다. [abs|pdf]

[179/200] UniRQR: A Unified Model for Retrieval Decision, Query, and Response Generation in Internet-Based Knowledge Dialogue Systems

Keywords: knowledge_dialogue_systems, knowledge_based_dialogue, tasks_retrieval
Abstract: 최근 인터넷 검색을 통한 지식 기반 대화 시스템이 연구자들로부터 많은 관심을 받고 있습니다. 이 대화 시스템은 지식의 적시성을 보장할 수 없는 기존 지식 대화 시스템의 큰 한계를 극복하여 실용적 활용 가치가 높습니다. 인터넷 검색을 통한 지식 기반 대화 시스템은 일반적으로 세 가지 작업으로 구분할 수 있습니다: 검색 결정, 질의 생성, 응답 생성입니다. 그러나 많은 연구에서 모든 대화가 외부 지식을 필요로 한다고 가정하여 검색이 필요한 시점을 결정하는 중요한 단계를 간과하고 있습니다. 이러한 가정은 종종 외부 지식이 필요하지 않을 때에도 외부 지식에 과도하게 의존하게 만듭니다. 저희는 신속한 멀티태스크 학습 접근 방식을 통해 단일 통합 모델을 채택함으로써 이러한 문제를 해결하고자 합니다. 이 모델은 검색이 필요한지 여부를 결정할 뿐만 아니라 검색 쿼리와 응답도 생성합니다. 이러한 기능을 통합함으로써 저희 시스템은 사전 학습된 모델의 잠재력을 최대한 활용하고 여러 모델을 배포하는 데 따르는 복잡성과 비용을 줄입니다. 저희는 시스템에서 세 가지 작업 간의 상호 향상을 조사하기 위해 광범위한 실험을 수행했습니다. 또한 Wizint 및 Dusinc 데이터 세트에 대한 실험 결과 통합 모델이 개별 작업의 기준 성능을 능가할 뿐만 아니라 각 작업마다 별도의 전문화된 모델을 배포하는 SOTA 시스템과 비교했을 때도 비슷한 결과를 얻을 수 있음을 보여주었습니다. [abs|pdf]

[180/200] Grounded learning for compositional vector semantics

Keywords: semantics_implemented_spiking, compositional_distributional_semantics, representing_concepts_biologically
Abstract: 범주형 구성 분포 의미론은 벡터 기반 의미 모델의 성공과 형식적 의미론의 구성력을 결합한 언어 모델링 접근 방식입니다. 하지만 이 접근 방식은 인지적 타당성을 고려하지 않고 개발되었습니다. 개념의 벡터 표현과 개념 바인딩은 인지 과학에서도 관심을 갖고 있으며, 생물학적으로 그럴듯한 스파이크 신경망 내에서 개념을 표현하는 방법으로 제안되었습니다. 이 연구에서는 개념 바인딩의 문제를 해결할 수 있는 잠재력을 가진 구성적 분포 의미론이 스파이크 신경망 아키텍처 내에서 구현될 수 있는 방법을 제안하고 간단한 구현을 제공합니다. 또한 레이블이 지정된 이미지를 사용해 단어 표현을 훈련하는 방법도 설명합니다. [abs|pdf]

[181/200] An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant

Keywords: plant_care_conversational, plant_care_assistant, users_plant_care
Abstract: 최근 임박한 환경 문제에 대한 인식이 높아지면서 사람들은 환경을 보호하고 친환경적인 삶을 가꾸는 데 더 많은 노력을 기울이고 있습니다. 현재 196억 달러 규모의 실내 정원 가꾸기 산업은 이러한 정서를 반영하는 것으로, 금전적인 가치뿐만 아니라 자연과 다시 연결되고 싶은 인간의 깊은 욕구를 대변합니다. 그러나 최근의 여러 설문조사에 따르면 우리가 돌보는 식물의 운명에 대해 밝혀진 바에 따르면 절반 이상이 부적절한 관리의 소리 없는 위협으로 인해 사망하는 것으로 나타났습니다. 따라서 식물 관리의 복잡한 과정을 개인을 돕고 안내할 수 있는 접근 가능한 전문 지식의 필요성이 그 어느 때보다 중요해졌습니다. 이 연구에서 우리는 대화를 통해 식물에 대한 고민을 가진 사람들을 돕는 것을 목표로 하는 식물 관리 도우미를 구축하는 첫 번째 시도를 했습니다. 우리는 사용자와 식물 관리 전문가 간의 약 1,000건의 대화가 포함된 Plantational이라는 이름의 식물 관리 대화 데이터 세트를 제안합니다. (i) 먼저 다양한 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)의 도움을 받아 데이터세트를 벤치마킹하고, 명령어 튜닝(제로 샷 및 소수 샷 프롬프트)과 미세 조정 기술이 이 작업에 미치는 영향을 연구하며, (ii) 마지막으로 게이트 메커니즘을 사용하여 어댑터 기반 모달리티 주입을 통합한 다중 모달 식물 관리 지원 대화 생성 프레임워크인 EcoSage를 구축하는 두 가지 접근 방식을 제안합니다. 또한 다양한 모델의 장단점을 파악하기 위해 도메인별 대화 응답을 생성할 때 다양한 LLM과 VLM이 보여준 성능에 대한 광범위한 검사(자동 및 수동 평가)를 수행했습니다. [abs|pdf]

[182/200] AugSumm: towards generalizable speech summarization using synthetic labels from large language model

Keywords: synthetic_summaries_training, training_synthetic_summaries, speech_summarization
Abstract: 추상적 음성 요약(SSUM)은 음성에서 사람과 유사한 요약을 생성하는 것을 목표로 합니다. 캡처된 정보와 구문의 다양성을 감안할 때, 녹취는 여러 가지 방식으로 요약될 수 있습니다. 따라서 단일 요약보다는 모든 잠재적 요약의 확률적 분포를 고려하는 것이 더 합리적입니다. 하지만 기존의 SSUM 모델은 대부분 모든 녹취에 대해 사람이 주석을 단 하나의 실측 자료(GT) 결정론적 요약으로 훈련 및 평가됩니다. 분포를 통계적으로 더 잘 표현하려면 여러 개의 사람 참조를 생성하는 것이 이상적이지만, 주석 달기에는 비용이 많이 들기 때문에 비현실적입니다. 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)을 인간 주석가의 대용물로 활용하여 훈련 및 평가를 위한 증강 요약을 생성하는 방법인 AugSumm을 제안합니다. 먼저 ChatGPT에서 합성 요약을 생성하기 위한 프롬프트 전략을 살펴봅니다. 사람의 평가를 포함한 여러 지표를 사용하여 합성 요약의 품질을 검증한 결과, AugSumm을 사용하여 생성된 요약이 사람에게 더 유효한 것으로 인식된다는 사실을 발견했습니다. 둘째, 훈련 및 평가에 합성 요약을 활용하는 방법을 개발합니다. How2의 실험에 따르면 합성 요약에 대한 사전 훈련과 GT 요약에 대한 미세 조정을 통해 GT 및 AugSumm 기반 테스트 세트 모두에서 ROUGE-L이 1점 향상되는 것으로 나타났습니다. AugSumm 요약은 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[183/200] Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning

Keywords: multimodal_reasoning, multimodal_reasoning_categorize, topic_multimodal_reasoning
Abstract: 추상적 추론 능력을 갖춘 강력한 인공 지능(Strong AI) 또는 인공 일반 지능(AGI)은 차세대 AI의 목표입니다. 최근 대규모 언어 모델(LLM)의 발전과 함께 새롭게 떠오르는 분야인 다중 모드 대규모 언어 모델(MLLM)은 광범위한 다중 모드 작업 및 애플리케이션에서 인상적인 역량을 입증했습니다. 특히 각기 다른 모델 아키텍처, 학습 데이터, 학습 단계를 가진 다양한 MLLM이 광범위한 MLLM 벤치마크에 걸쳐 평가되었습니다. 이러한 연구는 정도의 차이는 있지만 현재 MLLM의 기능에 대한 다양한 측면을 밝혀냈습니다. 그러나 다단계판매원들의 추론 능력은 체계적으로 조사되지 않았습니다. 본 설문조사에서는 기존의 복합 추론 평가 프로토콜을 종합적으로 검토하고, MLLM의 영역을 분류하여 설명하고, 추론 집약적 과제에 대한 MLLM의 최근 적용 동향을 소개하며, 마지막으로 현재 사례와 향후 방향에 대해 논의합니다. 이번 설문조사가 멀티모달 추론이라는 중요한 주제에 대한 탄탄한 기반을 마련하고, 이를 조명하는 데 도움이 되리라 믿습니다. [abs|pdf]

[184/200] ChatGPT, Let us Chat Sign Language: Experiments, Architectural Elements, Challenges and Research Directions

Keywords: sign_language_translation, sign_language, sign_languages
Abstract: ChatGPT는 생성 AI를 기반으로 하는 언어 모델입니다. ChatGPT에 대한 기존 연구는 다양한 영역에서의 활용에 초점을 맞췄습니다. 그러나 수화 번역(SLT)에 대한 잠재력은 아직 탐구되지 않았습니다. 이 논문은 이러한 공백을 해결하고자 합니다. 따라서 SLT를 위한 아키텍처의 개선 사항을 회고적으로 분석하는 것을 목표로 GPT의 진화를 소개합니다. 청각 장애인 커뮤니티의 접근성을 개선하는 데 있어 다양한 수화를 번역하는 ChatGPT의 기능을 살펴봅니다. 실험 결과에 따르면 ChatGPT는 단 한 번의 프롬프트 반복만으로 영어에서 미국 수어(ASL), 호주 수어(AUSLAN), 영국 수어(BSL)로, 아랍 수어(ArSL)에서 영어로 정확하게 번역할 수 있는 것으로 나타났습니다. 그러나 이 모델은 아랍어에서 ArSL로, ASL, AUSLAN, BSL에서 아랍어로 번역하는 데는 실패했습니다. 이에 따라 향후 연구 방향에 대한 과제를 제시하고 인사이트를 도출했습니다. [abs|pdf]

[185/200] Reinforcement Learning for Optimizing RAG for Domain Chatbots

Keywords: building_chatbot_answers, answering_training_retrieval, chatbot_answers
Abstract: 대규모 언어 모델(LLM)의 등장으로 대화형 어시스턴트가 도메인 사용 사례에 널리 보급되었습니다. LLM은 훈련을 통해 문맥에 맞는 질문에 답할 수 있는 능력을 습득하고, 검색 증강 생성(RAG)을 통해 봇이 도메인별 질문에 답할 수 있게 됩니다. 이 백서에서는 자주 묻는 질문(FAQ) 데이터를 사용하여 사용자의 질문에 답변하는 챗봇을 구축하기 위한 RAG 기반 접근 방식에 대해 설명합니다. 저희는 정보NCE 손실을 사용하여 자체 검색 임베딩 모델을 훈련하고, 실험 결과에 따르면 자체 모델이 검색 정확도와 도메인 외부(OOD) 쿼리 감지 측면에서 잘 알려진 범용 퍼블릭 임베딩 모델보다 훨씬 더 잘 작동한다는 것을 입증했습니다. 저희는 LLM으로 오픈 API 기반의 유료 ChatGPT 모델을 사용합니다. 이전에 검색된 컨텍스트가 특정 패턴/순서의 쿼리(예: 후속 쿼리)에 대한 답변을 생성하는 데 사용될 수 있다는 사실을 발견했습니다. 따라서 LLM 토큰의 수와 비용을 최적화할 수 있는 여지가 있습니다. 고정 검색 모델과 LLM을 가정하고, 강화 학습(RL)을 사용하여 LLM 토큰의 수를 최적화합니다. 특히, 정책 작업을 통해 RAG 파이프라인과 상호 작용하고 비용을 최적화하기 위해 정책을 업데이트하는 RAG 외부의 정책 기반 모델을 제안합니다. 정책 모델은 FAQ 컨텍스트를 가져오거나 검색을 건너뛰는 두 가지 작업을 수행할 수 있습니다. 우리는 보상 모델로 오픈 API 기반 GPT-4를 사용합니다. 그런 다음 여러 훈련 채팅 세션에서 정책 그라데이션을 사용하여 정책 모델을 훈련합니다. 정책 모델로는 공개 gpt-2 모델과 사내 BERT 모델을 실험했습니다. 유사성 임계값과 결합된 제안된 RL 기반 최적화를 통해 정확도를 약간 향상시키면서 상당한 비용 절감을 달성할 수 있었습니다. 여기서는 FAQ 챗봇에 대한 결과를 보여드리지만, 제안된 RL 접근 방식은 일반적이며 기존의 모든 RAG 파이프라인에서 실험할 수 있습니다. [abs|pdf]

[186/200] AI Hallucinations: A Misnomer Worth Clarifying

Keywords: defining_ai_hallucination, ai_text_generation, termed_hallucination_ai
Abstract: 인공 지능(AI)에서 대규모 언어 모델이 계속 발전함에 따라 텍스트 생성 시스템에서 흔히 "환각"이라고 불리는 문제 현상이 나타나고 있습니다 그러나 의료를 비롯한 다양한 영역에서 AI의 활용도가 높아지면서 이 용어 자체의 사용에 대한 우려도 제기되고 있습니다. 이 연구에서는 14개의 데이터베이스에서 'AI 환각'을 정의한 논문을 찾아내기 위해 체계적 문헌고찰을 실시했습니다. 모든 데이터베이스에서 얻은 정의를 제시 및 분석하고, 적용 분야에 따라 분류하고, 각 범주 내에서 핵심 사항을 추출했습니다. 연구 결과는 이 용어가 사용되는 방식에 일관성이 부족하다는 점을 강조하지만, 문헌에서 몇 가지 대체 용어를 식별하는 데도 도움이 됩니다. 이러한 결과가 시사하는 바를 논의하고 여러 영역에 큰 영향을 미칠 수 있는 현대의 중요한 AI 문제에 일관성을 부여하기 위한 보다 통합된 노력을 촉구합니다. [abs|pdf]

[187/200] AI and Generative AI for Research Discovery and Summarization

Keywords: tools_plugins_chatbots, discovery_summarization_propose, summarization_standalone_tools
Abstract: 올해에는 대규모 언어 모델(LLM)에 의존하는 ChatGPT와 같은 챗봇을 포함한 AI 및 생성형 AI 도구가 등장하면서 업무 생산성을 높이고 우리의 삶을 개선할 수 있는 놀라운 기회를 창출했습니다. 통계학자와 데이터 과학자들은 텍스트 프롬프트에서 프로그래밍 코드를 생성하여 데이터를 분석하거나 통계 모델을 맞추는 등 다양한 방식으로 이러한 도구의 이점을 경험하기 시작했습니다. 이러한 도구가 상당한 영향을 미칠 수 있는 영역 중 하나는 연구 검색 및 요약입니다. 연구자들이 2023년 이전의 검색 도구보다 더 빠르게 관련 문헌을 찾을 수 있는 독립형 도구와 챗봇용 플러그인이 개발되고 있습니다. 또한, 생성형 AI 도구는 연구 논문의 핵심을 간결한 언어로 요약하고 추출할 수 있을 정도로 발전했습니다. 마지막으로, 고도로 매개변수화된 LLM을 기반으로 한 챗봇은 추론적 추론을 시뮬레이션하는 데 사용될 수 있으며, 이를 통해 연구자들은 관련 기술 주제를 연결할 수 있고, 이는 연구 발견에도 활용될 수 있습니다. 이 글에서는 연구 발견 및 요약을 위한 인공지능과 생성 인공지능의 발전을 살펴보고, 통계학자 및 데이터 과학자가 관심을 가질 만한 이러한 유형의 도구가 앞으로 나아갈 방향을 제안합니다. [abs|pdf]

[188/200] LightHouse: A Survey of AGI Hallucination

Keywords: agi_research_hallucinations, hallucinations_agi_summarizing, hallucinations_agi
Abstract: 인공 지능의 발달로 대규모 모델은 점점 더 지능화되고 있습니다. 그러나 많은 연구에 따르면 이러한 대규모 모델에서 발생하는 환각 현상이 인공지능 연구 발전을 가로막는 걸림돌로 작용하고 있습니다. 강력한 인공지능을 구현하기 위해 AGI(인공일반지능) 환각 연구에 상당한 연구 노력이 투자되고 있습니다. 이전에는 LLM(대규모 언어 모델) 내에서 환각을 연구하는 연구가 진행되었습니다. 멀티모달 AGI의 경우, 환각에 대한 연구는 아직 초기 단계에 머물러 있습니다. 환각 현상 영역의 연구 진전을 위해 AGI의 환각에 대한 조감도를 제시하고, AGI 환각에 대한 현재 연구를 요약하고 향후 연구 방향을 제안합니다. [abs|pdf]

[189/200] A Span-based Model for Extracting Overlapping PICO Entities from RCT Publications

Keywords: nlp_datasets_pico, pico_corpus, datasets_pico_corpus
Abstract: 목적 PICO(인구집단, 중재, 비교, 결과) 개체를 추출하는 것은 증거 검색의 기본입니다. 본 논문에서는 중복되는 PICO 엔티티를 추출하는 새로운 방법인 PICOX를 소개합니다.
자료 및 방법 PICOX는 먼저 단어가 엔티티의 시작 또는 끝을 나타내는지 여부를 평가하여 엔티티를 식별합니다. 그런 다음 다중 레이블 분류기를 사용하여 하나 이상의 PICO 레이블을 스팬 후보에 할당합니다. PICOX는 가장 성능이 우수한 기준선 중 하나인 EBM-NLP와 3개의 추가 데이터 세트, 즉 PICO-Corpus, 알츠하이머병 또는 COVID-19에 대한 RCT 출판물을 사용하여 엔티티 수준의 정밀도, 리콜 및 F1 점수를 사용하여 평가되었습니다.
결과 PICOX는 전반적으로 우수한 정밀도, 리콜, F1 점수를 달성했으며, 마이크로 F1 점수는 45.05에서 50.87로 개선되었습니다(p << 0.01). PICO-Corpus에서 PICOX는 기준점보다 더 높은 리콜 및 F1 점수를 얻었으며 마이크로 리콜 점수는 56.66점에서 67.33점으로 향상되었습니다. COVID-19 데이터 세트에서도 PICOX는 기준점보다 높은 성능을 보였으며 마이크로 F1 점수를 77.10에서 80.32로 개선했습니다. AD 데이터 세트에서 PICOX는 베이스라인과 비교했을 때 비슷한 F1 점수와 더 높은 정밀도를 보여주었습니다.
결론 PICOX는 겹치는 엔티티를 식별하는 데 탁월하며 여러 데이터 세트에서 주요 기준선을 지속적으로 능가합니다. 제거 연구에 따르면 데이터 증강 전략이 오탐을 효과적으로 최소화하고 정확도를 향상시키는 것으로 나타났습니다. [abs|pdf]

[190/200] Using Zero-shot Prompting in the Automatic Creation and Expansion of Topic Taxonomies for Tagging Retail Banking Transactions

Keywords: initial_topic_taxonomies, expanding_topic_taxonomies, topic_modeling_keyword
Abstract: 이 연구에서는 명령어 기반의 미세 조정된 LLM(대규모 언어 모델)을 사용하여 토픽 분류 체계를 자동으로 구성하고 확장하는 비지도 방법을 제시합니다. 토픽 모델링과 키워드 추출 기법을 적용하여 초기 토픽 분류를 생성하고 LLM을 사용하여 결과 용어를 후처리하고 계층 구조를 생성합니다. 새로운 용어로 기존 분류 체계를 확장하기 위해 제로 샷 프롬프트를 사용하여 새 노드를 추가할 위치를 찾는데, 우리가 알기로는 분류 작업에 이러한 접근 방식을 제시한 첫 번째 작업입니다. 이렇게 생성된 분류법을 사용하여 소매 은행 데이터 세트에서 판매자를 특징짓는 태그를 할당합니다. 작업을 평가하기 위해 12명의 지원자에게 두 부분으로 구성된 양식에 따라 먼저 생성된 분류체계의 품질을 평가한 다음 해당 분류체계에 따라 판매자에게 할당된 태그를 평가하도록 요청했습니다. 평가 결과, 선택한 분류체계의 일관성 비율은 90%를 넘었고, 판매자 태그의 평균 일관성 비율은 80%를 넘어섰습니다. [abs|pdf]

[191/200] Information Retrieval and Classification of Real-Time Multi-Source Hurricane Evacuation Notices

Keywords: information_hurricane_evacuation, disaster_tracking, approaching_disaster_tracking
Abstract: 미국에서는 재난이 다가올 경우 허리케인 대피 안내와 같이 시간에 민감한 중요 정보를 추적하는 것이 쉽지 않습니다. 이러한 공지는 여러 주에 걸쳐 퍼질 수 있는 수많은 지역 당국에서 신속하게 발행 및 배포됩니다. 이러한 공지는 자주 업데이트되고 표준 형식이 없는 다양한 온라인 포털을 통해 배포되는 경우가 많습니다. 이 연구에서는 현지에서 발행되는 허리케인 대피 공지를 적시에 감지하고 추적하기 위한 접근 방식을 개발했습니다. 텍스트 데이터는 주로 공간 타겟팅 웹 스크래핑 방식으로 수집했습니다. 텍스트 데이터는 수동으로 레이블을 지정한 다음 딥러닝 모델의 자연어 처리 기술을 사용하여 분류했습니다. 의무 대피 공지의 분류는 높은 정확도(재현율 = 96%)를 달성했습니다. 우리는 허리케인 이안(2022)을 사용하여 지방 정부 출처에서 추출한 실시간 대피 공지를 웹 GIS 시스템을 통해 어떻게 재배포할 수 있는지 설명했습니다. 이 방법을 향후 허리케인에 적용하면 상급 정부 기관과 뉴스 미디어에 상황 인식을 위한 실시간 데이터를 제공할 수 있습니다. 아카이브된 데이터는 학자들이 기상 경보에 대한 정부의 대응과 대피 기록에 영향을 받는 개인의 행동을 연구하는 데 도움이 됩니다. 이 프레임워크는 다른 유형의 재난에도 적용하여 실시간 정부 명령과 알림을 신속하고 목표에 맞게 검색, 분류, 재배포, 보관할 수 있습니다. [abs|pdf]

[192/200] The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023

Keywords: visual_speech_recognition, speech_recognition_vsr, continuous_visual_speech
Abstract: 이 백서에서는 2023년 제1회 중국 연속 시각 음성 인식 챌린지(CNVSRC)에서 NPU-ASLP-LiAuto(237팀)가 싱글 스피커 VSR 태스크의 고정 트랙과 오픈 트랙, 멀티 스피커 VSR 태스크의 오픈 트랙에 참여한 시각 음성 인식(VSR) 시스템에 대해 설명합니다. 데이터 처리 측면에서는 베이스라인1의 입술 움직임 추출기를 활용하여 멀티스케일 비디오 데이터를 생성합니다. 또한 속도 섭동, 무작위 회전, 수평 반전, 색상 변환 등 다양한 증강 기법이 훈련 중에 적용됩니다. VSR 모델은 레스넷3D 비주얼 프론트엔드, E-Branchformer 인코더, 트랜스포머 디코더로 구성된 공동 CTC/주의 손실이 있는 엔드투엔드 아키텍처를 채택하고 있습니다. 실험 결과, 우리 시스템은 단일 스피커 작업에서 34.76%, 다중 시스템 융합 후 다중 스피커 작업에서 41.06%의 CER을 달성하여 우리가 참여한 세 개의 트랙에서 모두 1위를 차지했습니다. [abs|pdf]

[193/200] Deep Learning Based Cyberbullying Detection in Bangla Language

Keywords: identifying_cyberbullying_bengali, strategy_identifying_cyberbullying, cyberbullying_bengali_using
Abstract: 인터넷은 현재 의견, 리뷰, 콘텐츠, 이미지, 동영상 등의 표현을 포함한 글로벌 커뮤니케이션을 위한 가장 큰 플랫폼입니다. 또한 소셜 미디어는 엄청난 인기와 빠른 채택 추세로 인해 매우 광범위하고 참여도가 높은 플랫폼이 되었습니다. 그러나 소셜 네트워킹의 증가는 온라인 폭행, 협박, 디지털 괴롭힘, 범죄, 트롤링과 같은 다양한 원치 않는 현상으로 이어져 사회에 악영향을 미치기도 합니다. 따라서 사이버 괴롭힘은 사람들, 특히 청소년과 청년들에게 상당한 심리적, 정서적 피해를 입히는 만연하고 우려스러운 문제가 되었습니다. 사이버 괴롭힘의 부정적 영향을 줄이고 피해자에게 신속한 지원을 제공하기 위해 다양한 온라인 플랫폼에서 사이버 괴롭힘 사례를 파악하기 위한 많은 연구가 진행되고 있습니다. 다른 언어에 비해 방글라(벵골어라고도 함)는 이 분야에 대한 연구가 상대적으로 적었습니다. 이 연구는 여러 소셜 미디어 사이트의 12282개의 다양한 댓글 데이터 세트를 사용하여 벵골어로 사이버 괴롭힘을 식별하기 위한 딥러닝 전략을 보여줍니다. 이 연구에서는 사이버 괴롭힘을 식별하기 위해 다양한 옵티마이저와 5배 교차 검증을 사용하여 2계층 양방향 장단기 메모리(Bi-LSTM) 모델을 구축했습니다. 제안된 시스템의 기능과 효능을 평가하기 위해 프로젝트 전반에 걸쳐 엄격한 평가 및 검증 절차가 적용되었습니다. 이 연구 결과에 따르면 모멘텀 기반 확률적 경사 하강(SGD) 최적화기를 사용한 제안 모델의 정확도는 94.46%에 달합니다. 또한 아담 옵티마이저를 사용한 정확도는 95.08%, F1 점수는 95.23%로 더 높았으며, 5배 교차 검증에서는 94.31%로 더 높은 정확도를 나타냈습니다. [abs|pdf]

[194/200] CloudEval-YAML: A Practical Benchmark for Cloud Configuration Generation

Keywords: code_generation_cloud, cloudeval_yaml_benchmark, benchmark_cloud_configuration
Abstract: 클라우드 컴퓨팅 생태계가 번창하고 대규모 언어 모델(LLM) 기반 코드 생성 도구가 확산되는 가운데, 클라우드 네이티브 애플리케이션의 코드 생성을 위한 벤치마킹이 부족합니다. 이러한 요구에 부응하기 위해 클라우드 구성 생성을 위한 실용적인 벤치마크인 CloudEval-YAML을 소개합니다. CloudEval-YAML은 수많은 클라우드 네이티브 도구의 사실상 표준인 YAML에 집중하여 다양성 문제를 해결합니다. CloudEval-YAML 벤치마크는 실용성을 염두에 두고 개발되었습니다. 데이터 세트는 실제 시나리오를 대상으로 하는 단위 테스트와 함께 수기로 작성된 문제로 구성되어 있습니다. 또한 문제를 간결하고 축약된 방식으로 바꾸고 이중 언어를 지원하여 실질적인 요구 사항을 충족하도록 데이터 세트를 개선했습니다. 이 데이터 세트는 완료하는 데 1200시간 이상이 소요되는 1011개의 문제로 구성되어 있습니다. 평가 시 실용성을 높이기 위해 단일 머신에서 20배의 속도 향상을 달성하는 CloudEval-YAML용 확장 가능한 평가 플랫폼을 구축했습니다. 우리가 아는 한, CloudEval-YAML 데이터 세트는 클라우드 네이티브 애플리케이션을 대상으로 하는 최초의 수작업 데이터 세트입니다. 12개의 LLM에 대한 심층적인 평가를 통해 문제와 LLM에 대한 심층적인 이해는 물론 작업 성능을 개선하고 비용을 절감할 수 있는 효과적인 방법을 제시합니다. [abs|pdf]

[195/200] Human-Instruction-Free LLM Self-Alignment with Limited Samples

Keywords: aligning_large_language, large_language_models, self_improve_alignment
Abstract: 대규모 언어 모델(LLM)을 인간의 가치에 맞게 정렬하는 것은 LLM 실무자에게 매우 중요한 작업입니다. 현재의 정렬 기법에는 (1) 대량의 주석이 달린 데이터가 필요하고, (2) 사람의 개입이 많이 필요하며, (3) 지속적으로 개선할 수 있는 체계적인 메커니즘이 부족하다는 몇 가지 한계가 있습니다. 이 연구에서는 제한된 샘플(예: 100개 미만)로 새로운 도메인에 LLM을 정렬하는 방법을 연구합니다. 이를 통해 사람의 적극적인 개입 없이도 반복적으로 LLM을 스스로 정렬할 수 있는 알고리즘을 제안합니다. 기존 연구와 달리, 저희 알고리즘은 사람이 만든 지침이나 라벨링된 보상에 의존하지 않기 때문에 사람의 개입을 크게 줄였습니다. 또한 알고리즘은 지속적으로 정렬을 스스로 개선할 수 있습니다. 핵심 아이디어는 먼저 목표 도메인과 관련된 고품질 샘플을 검색하고 이를 상황별 학습 예시로 사용하여 더 많은 샘플을 생성하는 것입니다. 그런 다음 자체 생성된 샘플을 사용하여 반복적으로 LLM을 미세 조정합니다. 이 방법을 통해 사람의 감독이 거의 필요 없는 정렬을 수행할 수 있는 LLM의 자가 일반화 기능을 활용할 수 있음을 보여줍니다. 안전성, 진실성, 명령어 추종성의 세 가지 벤치마크에서 알고리즘을 테스트한 결과 정렬, 도메인 적응성, 확장성에서 우수한 성능을 보였습니다. [abs|pdf]

[196/200] MultiSiam: A Multiple Input Siamese Network For Social Media Text Classification And Duplicate Text Detection

Keywords: siamese_network_multisiam, duplicate_text_detection, siamese_used_multiple
Abstract: 소셜 미디어 계정은 점점 더 유사한 콘텐츠를 게시하여 여러 플랫폼에서 혼란스러운 환경을 조성하고, 이로 인해 원하는 정보에 액세스하기가 어렵습니다. 이러한 게시물은 소셜 핸들 및 계정에서 중복된 게시물을 분류하고 그룹화하여 정리할 수 있습니다. 그러나 기존의 샴 신경망은 중복 텍스트 감지를 위해 한 쌍의 입력만 고려합니다. 이 백서에서는 먼저 다중 입력 샴 네트워크인 MultiSiam을 제안합니다. 그런 다음 이 압축 네트워크를 사용하여 중복 텍스트 그룹화와 분류를 모두 수행하는 또 다른 모델인 SMCD(소셜 미디어 분류 및 중복 모델)를 제안합니다. 멀티시암 네트워크는 샴 네트워크와 마찬가지로 하위 네트워크를 적절히 변경하여 여러 애플리케이션에서 사용할 수 있습니다. [abs|pdf]

[197/200] Semantic Similarity Matching for Patent Documents Using Ensemble BERT-related Model and Novel Text Processing Method

Keywords: cooperative_patent_classification, patent_document_analysis, patent_classification
Abstract: 특허 문서 분석의 영역에서 구문 간의 의미적 유사성을 평가하는 것은 중요한 과제이며, 특히 협력적 특허 분류(CPC) 연구의 내재적 복잡성을 증폭시킵니다. 첫째, 이 연구는 언어 장벽과 문서의 복잡성으로 인한 과거의 어려움을 인정하면서 초기 CPC 작업을 인식하여 이러한 문제를 해결합니다. 둘째, CPC 연구의 지속적인 어려움을 강조합니다.
이러한 어려움을 극복하고 CPC 시스템을 강화하기 위해 이 백서에서는 두 가지 주요 혁신 사항을 제시합니다. 첫째, 4개의 BERT 관련 모델을 통합하는 앙상블 접근법을 도입하여 가중 평균을 통해 의미적 유사성 정확도를 높였습니다. 둘째, 특허 문서에 맞춤화된 새로운 텍스트 전처리 방법을 소개합니다. 이 방법은 BCELoss를 활용하여 CPC 컨텍스트 학습 중에 의미적 관계를 포착하는 데 도움이 되는 토큰 스코어링이 포함된 독특한 입력 구조를 특징으로 합니다. 실험 결과는 미국 특허 구문 대 구문 매칭 데이터 세트에 적용했을 때 앙상블 모델과 새로운 텍스트 처리 전략이 모두 효과적임을 입증합니다. [abs|pdf]

[198/200] HA-HI: Synergising fMRI and DTI through Hierarchical Alignments and Hierarchical Interactions for Mild Cognitive Impairment Diagnosis

Keywords: fmri_diffusion_tensor, features_functional_mri, functional_mri_fmri
Abstract: 다중 모드 자기공명영상(MRI)을 활용한 경도인지장애(MCI) 및 주관적 인지기능저하(SCD)의 조기 진단은 중요한 연구 분야입니다. 진단 모델을 개발하기 위해 기능적 자기공명영상(fMRI)과 확산텐서영상(DTI)의 다양한 영역 및 연결성 특징이 사용되었지만, 대부분의 연구는 이러한 특징의 정렬과 상호작용을 적절히 다루지 않고 통합하고 있습니다. 이로 인해 결합된 기능과 모달리티의 시너지 효과를 충분히 활용할 수 있는 잠재력이 제한됩니다. 이러한 격차를 해소하기 위해 본 연구에서는 fMRI와 DTI의 강점을 결합한 새로운 계층적 정렬 및 계층적 상호 작용(HA-HI) 방법을 도입하여 MCI 및 SCD 분류에 활용합니다. HA-HI는 다양한 특징 유형을 정렬하고 계층적으로 상호 작용을 극대화하여 MCI 또는 SCD와 관련된 중요한 지역 및 연결성 특징을 효율적으로 학습합니다. 또한, 접근 방식의 해석 가능성을 높이기 위해 시너지 활성화 지도(Synergistic Activation Map, SAM) 기법을 개발하여 MCI/SCD를 나타내는 중요한 뇌 영역과 연결성을 밝혀냈습니다. ADNI 데이터 세트와 자체적으로 수집한 데이터를 종합적으로 평가한 결과, HA-HI는 MCI 및 SCD 진단에 있어 기존의 다른 방법보다 성능이 뛰어나며, 조기 발견에 있어 잠재적으로 중요하고 해석 가능한 도구가 될 수 있음을 입증했습니다. 이 방법의 구현은 다음 https URL에서 공개적으로 액세스할 수 있습니다. [abs|pdf]

[199/200] Multimodal Neuroimaging Attention-Based architecture for Cognitive Decline Prediction

Keywords: multimodal_neuroimaging_attention, neuroimaging_attention_based, early_detection_alzheimer
Abstract: 알츠하이머병을 조기에 발견하는 것은 조기 치료를 보장하고 환자의 예후를 개선하는 데 필수적입니다. 이에 따라 알츠하이머병과 그 중간 단계인 경도인지장애(MCI)를 감지하기 위한 연구가 광범위하게 진행되어 왔습니다. 그러나 정상 인지 상태에서 AD 및 MCI로의 전환을 예측하는 문헌은 매우 적습니다. 최근 여러 연구에서 자기공명영상(MRI)과 양전자방출단층촬영(PET)을 통합한 컨볼루션 신경망(CNN)을 적용하여 MCI와 AD를 분류했습니다. 그러나 이러한 연구에서는 MRI와 PET 특징의 융합이 단순히 연결을 통해 이루어지기 때문에 모달 간 상호 작용이 부족합니다. 이 논문에서는 새로운 다중 모드 신경 영상 주의력 기반 CNN 아키텍처인 MNA-net을 제안하여 인지적으로 정상인(CN) 개인이 10년 이내에 MCI 또는 AD에 걸릴지 예측할 수 있도록 합니다. 이전 연구에서 나타난 신경 영상 양식 간의 상호 작용 부족 문제를 해결하기 위해 MNA-net은 주의 메커니즘을 활용하여 MRI 및 PET 이미지의 공유 표현을 형성합니다. 제안된 MNA-net은 OASIS-3 데이터 세트에서 테스트되었으며, 83%의 정확도, 80%의 진 음성률, 86%의 진 양성률로 MCI 또는 AD로 전환한 CN 개인을 예측할 수 있었습니다. 새로운 최첨단 결과는 주의 메커니즘을 사용하여 정확도와 진 음성률이 각각 5%, 10% 향상되었습니다. 이러한 결과는 인지 기능 저하 예측을 개선하기 위해 다양한 신경 영상 양식을 융합하여 인지 장애와 주의력 기반 메커니즘을 예측할 수 있는 제안된 모델의 잠재력을 보여줍니다. [abs|pdf]

[200/200] Large language models in healthcare and medical domain: A review

Keywords: language_models_healthcare, named_entity_recognition, large_language_models
Abstract: 의료 부문에서 대규모 언어 모델(LLM)의 배포는 열광과 우려를 동시에 불러일으켰습니다. 이러한 모델은 자유 텍스트 쿼리에 능숙하게 응답하여 전문 의료 지식에 대한 미묘한 이해를 보여주는 놀라운 능력을 보여줍니다. 이 포괄적인 설문조사는 의료 애플리케이션을 위해 설계된 기존 LLM의 기능에 대해 자세히 살펴보고, 기존의 사전 학습 언어 모델(PLM)에서부터 의료 분야 LLM의 현재에 이르기까지 그 발전 궤적을 설명합니다. 먼저 임상 언어 이해 작업을 중심으로 다양한 헬스케어 애플리케이션의 효율성과 효과를 증폭시킬 수 있는 LLM의 잠재력을 살펴봅니다. 이러한 작업은 명명된 개체 인식 및 관계 추출부터 자연어 추론, 멀티모달 의료 애플리케이션, 문서 분류, 질의응답에 이르기까지 광범위한 스펙트럼을 포괄합니다. 또한 의료 분야에서 가장 최신의 최신 자연어 처리 기술을 광범위하게 비교하고, 다양한 오픈 소스 자연어 처리 기술의 활용도를 평가하고 의료 애플리케이션에서 그 중요성을 강조합니다. 또한, 바이오메디컬 영역에서 LLM을 평가하는 데 사용되는 필수 성능 지표를 제시하고 그 효과와 한계를 조명합니다. 마지막으로 의료 분야에서 대규모 언어 모델이 직면한 주요 과제와 제약을 요약하여 잠재적인 장점과 단점에 대한 총체적인 관점을 제시합니다. 이 리뷰는 의료 애플리케이션을 혁신하는 데 있어 LLM의 역할과 추가 연구 및 개발이 필요한 분야를 다루면서 의료 분야의 현재 환경을 포괄적으로 탐색합니다. [abs|pdf]