프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-25]

다각 2024. 2. 21. 09:17

[1/67] Stream-based perception for cognitive agents in mobile ecosystems

Keywords: stream_based_agent, streams_present_crowdshipping, interested_agents_collaborate
Abstract: 인지 에이전트 추상화는 모바일 디바이스 전반에서 지능형 시스템을 설계하는 데 도움이 될 수 있습니다. 스마트폰에서 온보드 센서에서 얻은 데이터는 사용자의 현재 상황에 대한 귀중한 인사이트를 제공할 수 있습니다. 안타깝게도 오늘날의 인지 에이전트 프레임워크는 센서 데이터의 까다로운 특성에 잘 대처하지 못합니다. 센서 데이터는 추상화 수준이 낮고 개별 데이터 요소를 따로 떼어놓고 관찰하면 의미가 없습니다. 반면 인지 에이전트는 높은 수준의 지각에서 작동하며 여러 지각의 시퀀스에서 복잡한 시공간적 패턴을 효과적으로 감지할 수 있는 수단이 부족합니다. 이 백서에서는 에이전트가 낮은 수준의 센서 데이터 스트림에서 의미 있는 상황을 인식할 수 있는 스트림 기반 인식 접근 방식을 제시합니다. 자율적이고 자기 이해관계가 있는 에이전트가 협업하여 목적지까지 소포를 배송하는 크라우드배송 사례 연구를 소개합니다. 스마트폰 센서 데이터에서 파생된 상황이 어떻게 경매를 트리거하고 에이전트가 합의에 도달하기 위해 사용하는 경매를 유도할 수 있는지 보여줍니다. 실제 스마트폰 데이터를 사용한 실험을 통해 스트림 기반 에이전트 인식의 이점을 보여줍니다.
[abs|pdf]

[2/67] Causal Perception

Keywords: formalize_perception_causal, perception_causal_reasoning, perception_sensitive_attributes
Abstract: 지각은 두 사람이 같은 정보를 다르게 해석할 때 발생합니다. 개인의 경험이 해석을 결정하기 때문에 지각은 의사 결정의 편향성과 관련이 있는 것으로 알려져 있지만, 자동화된 의사 결정(ADM) 시스템에서 지각은 대부분 간과되고 있습니다. 특히, 공정성 자체는 상황에 따라 달라지고 판단하는 사람에 따라 해석이 달라지기 때문에 ADM 시스템의 공정성 또는 공정한 사용에 상당한 영향을 미칠 수 있습니다. 이 연구에서는 개인의 해석 행위를 포착하기 위해 인과적 추론에 따라 지각을 공식화합니다. 또한 개인의 경험을 인과적 지식과 함께 제공되고 개인이 사용하는 추가적인 인과적 지식으로 공식화합니다. 또한 지각을 불러일으키기 쉬운 속성인 로드된 속성을 정의하고 논의합니다. 성별이나 인종과 같은 민감한 속성은 로드된 속성의 명확한 예입니다. 우리는 충실성과 일관성이라는 인과적 속성에 따라 두 가지 종류의 인과적 인식을 충실하지 않은 인과적 인식과 일관되지 않은 인과적 인식으로 정의합니다. 일련의 의사결정 사례를 통해 프레임워크를 설명하고 관련 공정성 적용 사례를 논의합니다. 이 작업의 목표는 인식을 관심 있는 매개변수로 설정하여 표준 단일 해석 ADM 문제 공식화를 확장하는 데 유용하게 활용하는 것입니다. [abs|pdf]

[3/67] Generative Design of Crystal Structures by Point Cloud Representations and Diffusion Model

Keywords: cloud_based_crystal, crystal_lattice_facilitate, based_crystal_diffusion
Abstract: 에너지적으로 안정적인 결정 구조를 효율적으로 생성하는 것은 결정 격자의 방대한 원자 배열로 인해 재료 설계에서 오랫동안 어려운 과제였습니다. 유니티는 안정적인 소재의 발견을 용이하게 하기 위해 복잡한 구조 정보를 인코딩하는 포인트 클라우드 표현을 활용하여 합성 가능한 소재를 생성하는 프레임워크를 제시합니다. 이 프레임워크의 핵심은 확산 모델을 기본 기둥으로 도입한 것입니다. 이 접근 방식의 효율성을 측정하기 위해 훈련 데이터 세트에서 입력 구조를 재구성하는 데 이 모델을 사용하여 높은 재구성 성능을 엄격하게 검증합니다. 또한, 완전히 새로운 물질을 생성하여 합성 가능성을 강조함으로써 포인트 클라우드 기반 결정 확산(PCCD)의 심오한 잠재력을 입증했습니다. 이 연구는 기존의 치환이나 경험에 기반한 발견이 아닌 제너레이티브 디자인이라는 최첨단 방법을 통해 재료 설계 및 합성의 발전에 기여했다는 점에서 주목할 만한 성과로 평가됩니다. [abs|pdf]

[4/67] DISCOUNT: Distributional Counterfactual Explanation With Optimal Transport

Keywords: counterfactual_explanations, distributional_counterfactual_explanation, counterfactual_distribution_closely
Abstract: 사실과 반대되는 설명(CE)은 다른 결과를 초래하는 대체 입력 사례를 식별하여 블랙박스 의사결정 모델에 인사이트와 해석 가능성을 제공하는 사실상의 방법입니다. 이 백서에서는 CE의 개념을 분포적 맥락으로 확장하여 개별 데이터 포인트에서 전체 입력 및 출력 분포로 범위를 넓혀 분포적 반사실 설명(DCE)이라고 명명했습니다. DCE에서는 사실과 반사실의 분포적 특성을 분석하는 데 초점을 맞추며, 개별 사례와 그에 따른 의사결정을 평가하는 고전적 접근 방식과 유사점을 도출합니다. 우리는 최적 전송(OT)을 활용하여 확률 제약 최적화 문제를 구성하고, 통계적 신뢰도에 의해 입증된 사실과 밀접하게 일치하는 반사실 분포를 도출하는 것을 목표로 합니다. 우리가 제안한 최적화 방법인 DISCOUNT는 입력 분포와 출력 분포 모두에서 이 신뢰도의 균형을 전략적으로 맞춥니다. 이 알고리즘은 수렴률에 대한 분석과 함께 제공됩니다. 제안된 방법의 효과는 일련의 사례 연구를 통해 입증되며, 의사결정 모델에 대한 심층적인 인사이트를 제공할 수 있는 잠재력을 강조합니다. [abs|pdf]

[5/67] XAI for All: Can Large Language Models Simplify Explainable AI?

Keywords: ai_concepts_accessible, explanations_match_audience, explainable_artificial_intelligence
Abstract: 설명 가능한 인공지능(XAI) 분야는 기술적 배경 지식이 풍부한 사용자에게 초점을 맞추는 경우가 많기 때문에 비전문가가 XAI 방법을 이해하기가 어렵습니다. 이 백서에서는 ChatGPT 빌더를 사용하여 개발한 맞춤형 대규모 언어 모델(LLM)을 통해 더 많은 사람들이 XAI에 더 쉽게 접근할 수 있도록 하는 새로운 접근 방식인 "x-[plAIn]"을 소개합니다. 우리의 목표는 비즈니스 전문가와 학계 등 다양한 청중을 위해 다양한 XAI 방법을 명확하고 간결하게 요약할 수 있는 모델을 설계하는 것이었습니다. 이 모델의 핵심 기능은 각 대상 그룹의 지식 수준과 관심사에 맞게 설명을 조정할 수 있다는 점입니다. 이러한 접근 방식은 여전히 시의적절한 인사이트를 제공하여 최종 사용자의 의사결정 과정을 용이하게 합니다. 사용 사례 연구 결과에 따르면 우리 모델은 사용된 XAI 방식에 관계없이 이해하기 쉽고 대상에 맞는 설명을 제공하는 데 효과적입니다. 이러한 적응성은 XAI의 접근성을 향상시켜 복잡한 AI 기술과 실제 적용 사이의 간극을 좁혀줍니다. 이번 연구 결과는 다양한 사용자가 고급 AI 개념에 더 쉽게 접근할 수 있도록 하는 데 있어 LLM이 나아갈 방향을 제시합니다. [abs|pdf]

[6/67] CIMGEN: Controlled Image Manipulation by Finetuning Pretrained Generative Models on Limited Data

Keywords: image_translation_gans, forgery_image_editing, translation_gans_cyclegan
Abstract: 콘텐츠 제작과 이미지 편집은 유연한 사용자 컨트롤의 이점을 누릴 수 있습니다. 조건부 이미지 생성을 위한 일반적인 중간 표현은 이미지에 존재하는 객체의 정보가 포함된 시맨틱 맵입니다. 원시 RGB 픽셀과 비교할 때 시맨틱 맵은 수정이 훨씬 쉽습니다. 시맨틱 맵을 가져와서 맵에 있는 객체를 선택적으로 삽입, 제거, 대체할 수 있도록 맵을 쉽게 수정할 수 있습니다. 본 논문에서 제안하는 방법은 수정된 시맨틱 맵을 가져와서 수정된 맵에 따라 원본 이미지를 변경하는 방식입니다. 이 방법은 시맨틱 맵과 연관된 참조 이미지의 제한된 데이터 세트에 대해 미세 조정된 CycleGAN 또는 Pix2Pix GAN과 같은 기존의 사전 학습된 이미지 간 변환 GAN을 활용합니다. 이미지 위조 및 이미지 편집 분야에서 이 기술의 성능과 적용 가능성을 설명하기 위해 이 기술의 질적, 양적 성능에 대해 논의합니다. 또한 수많은 딥러닝 기반 이미지 포렌식 기법을 저지하는 데 있어 제안한 이미지 위조 기법의 효과를 입증하여 가짜 미디어의 확산에 맞서 강력하고 일반화 가능한 이미지 포렌식 도구를 개발하는 것이 시급하다는 점을 강조합니다. [abs|pdf]

[7/67] The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations

Keywords: policy_gradient_algorithms, powerful_policy_gradient, policy_gradient
Abstract: 최근 몇 년 동안 심층 강화 학습에서는 다양하고 강력한 정책 그라데이션 알고리즘이 제안되었습니다. 이러한 알고리즘은 모두 정책 그라데이션 정리를 기반으로 하지만, 구체적인 설계 방식은 알고리즘마다 크게 다릅니다. 이 개요에서는 온-정책 정책 그라데이션 알고리즘에 대한 전체적인 개요를 제공하여 이론적 기반과 실제 구현을 모두 쉽게 이해할 수 있도록 합니다. 이 개요에는 정책 경사 정리의 연속 버전에 대한 자세한 증명, 수렴 결과, 실용적인 알고리즘에 대한 포괄적인 논의가 포함되어 있습니다. 또한 연속 제어 환경에서 가장 주목받는 알고리즘을 비교하고 정규화의 이점에 대한 인사이트를 제공합니다. 모든 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[8/67] Inadequacy of common stochastic neural networks for reliable clinical decision support

Keywords: prediction_icu_hospitalizations, mortality_prediction_benchmark, study_predictions_ehr
Abstract: 의료 의사 결정에 AI를 광범위하게 도입하는 것은 윤리적 및 안전 관련 우려로 인해 여전히 어려운 상황입니다. 의료 환경에서 AI 기반 의사 결정 지원 시스템을 사용하려면 신뢰성과 안정성을 확보하는 것이 무엇보다 중요합니다. 그러나 일반적인 딥러닝 접근 방식은 데이터 이동에 따라 과신하는 경향이 있습니다. 증거 기반 시나리오를 넘어서는 부적절한 추정은 끔찍한 결과를 초래할 수 있습니다. 이는 국지적 불확실성에 대한 신뢰할 수 있는 추정과 최종 사용자와의 커뮤니케이션의 중요성을 강조합니다. 확률론적 신경망이 이러한 문제에 대한 잠재적 해결책으로 주목받고 있는 가운데, 이 연구에서는 임상 적용에서의 실제 신뢰성을 조사했습니다. 분석의 중심은 MIMIC3 연구에서 EHR을 사용한 중환자실 입원의 사망률 예측의 모범적인 사용 사례에 두었습니다. EHR 시계열에 대한 예측을 위해 인코더 전용 트랜스포머 모델을 사용했습니다. 모델 함수의 확률성은 베이지안 신경망 레이어 및 모델 앙상블과 같은 일반적인 방법을 통합하여 달성했습니다. 이 모델은 판별 성능(AUC ROC: 0.868+-0.011, AUC PR: 0.554+-0.034) 및 사망률 예측 벤치마크에 대한 보정 측면에서 최첨단 성능을 달성했습니다. 그러나 선택된 확률론적 딥러닝 방법으로는 경험적 불확실성이 심각하게 과소평가됩니다. 후방 분포의 책임 있는 붕괴에 대한 휴리스틱한 증거가 제공됩니다. 연구 결과, 일반적으로 사용되는 확률론적 딥러닝 접근 방식이 OoD 샘플을 안정적으로 인식하는 데 부적절하다는 사실이 밝혀졌습니다. 두 방법 모두 강하게 편향된 기능적 후방으로 인해 입증되지 않은 모델 신뢰도가 방지되지 않아 신뢰할 수 있는 임상 의사 결정 지원에 부적합합니다. 이는 커널 기반 기법을 사용하는 등 알려진 데이터 포인트에 대해 보다 엄격하게 적용되거나 내재된 거리 인식 기능을 갖춘 접근 방식의 필요성을 강조합니다. [abs|pdf]

[9/67] Graph-Informed Neural Networks for Sparse Grid-Based Discontinuity Detectors

Keywords: discontinuity_detection, accurate_discontinuity_detection, discontinuity_detection_domains
Abstract: 이 논문에서는 불연속 함수의 불연속 인터페이스를 감지하는 새로운 접근법을 소개합니다. 이 접근 방식은 그래프 정보 신경망(GINN)과 희소 그리드를 활용하여 3보다 큰 차원에서도 불연속성 탐지를 처리합니다. 희소 그리드에서 문제가 있는 지점을 식별하도록 훈련된 GINN은 그리드에 구축된 그래프 구조를 활용하여 효율적이고 정확한 불연속성 감지 성능을 달성합니다. 또한 수렴 특성과 쉬운 적용성이 특징인 일반적인 희소 그리드 기반 검출기를 위한 재귀 알고리즘을 소개합니다. 차원이 2와 4인 함수에 대한 수치 실험을 통해 불연속성 인터페이스를 감지할 때 GINN의 효율성과 강력한 일반화를 입증합니다. 특히, 훈련된 GINN은 휴대성과 다용도성을 제공하여 다양한 알고리즘에 통합하고 사용자 간에 공유할 수 있습니다. [abs|pdf]

[10/67] How Good is ChatGPT at Face Biometrics? A First Look into Recognition, Soft Biometrics, and Explainability

Keywords: chatgpt_face_biometrics, chatgpt_face, face_biometrics
Abstract: OpenAI가 개발한 GPT와 같은 대규모 언어 모델(LLM)은 이미 놀라운 결과를 보여주며 우리 사회에 빠른 변화를 불러일으키고 있습니다. 이러한 변화는 해당 분야에 대한 경험이 없어도 누구나 간단한 대화 방식으로 LLM과 상호 작용할 수 있는 ChatGPT의 출시로 더욱 가속화되었습니다. 그 결과 ChatGPT는 코드 및 작곡가, 교육, 가상 비서 등 다양한 업무에 빠르게 적용되어 학습되지 않은 업무(제로 샷 학습)에서도 인상적인 결과를 보여주고 있습니다.
본 연구에서는 최신 GPT-4 멀티모달 LLM을 기반으로 한 ChatGPT의 얼굴 생체인식 작업 능력을 살펴보고자 합니다. 특히 얼굴 검증, 소프트 생체 인식 추정, 결과의 설명 가능성 등의 작업을 수행하는 ChatGPT의 능력을 분석합니다. ChatGPT는 인간 시나리오에서 자동 결정의 설명 가능성과 투명성을 더욱 높이는 데 매우 유용할 수 있습니다. 널리 사용되는 공개 벤치마크를 사용하여 ChatGPT의 성능과 견고성을 평가하기 위해 실험을 수행하고 그 결과를 해당 분야의 최신 방법과 비교했습니다. 이 연구에서 얻은 결과는 얼굴 생체 인식, 특히 설명 가능성 향상을 위한 ChatGPT와 같은 LLM의 잠재력을 보여줍니다. 재현성을 위해 모든 코드를 GitHub에 공개합니다. [abs|pdf]

[11/67] Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode

Keywords: retrieval_images, photo_search_task, images_associated_textual
Abstract: 텍스트 쿼리를 기반으로 이미지를 검색하는 작업인 사진 검색은 CLIP(대조 언어-이미지 사전 훈련) 모델의 도입으로 상당한 발전을 이루었습니다. CLIP은 이미지와 텍스트의 공유 표현 공간을 학습하여 교차 모달 이해를 가능하게 하는 시각 언어 사전 훈련 접근 방식을 활용합니다. 이 모델은 다양한 이미지와 텍스트 쌍 간의 의미 관계를 이해할 수 있는 능력을 보여줌으로써 자연어 쿼리를 기반으로 이미지를 효율적이고 정확하게 검색할 수 있습니다. 이미지와 관련 텍스트 설명이 포함된 대규모 데이터 세트를 학습함으로써 CLIP은 놀라운 일반화를 달성하여 제로 샷 학습 및 소수 샷 분류와 같은 작업을 위한 강력한 도구를 제공합니다. 이 요약본에서는 CLIP의 기본 원리를 요약하고, 멀티미디어 애플리케이션에서 정보 검색을 개선하기 위해 자연어 이해와 컴퓨터 비전의 원활한 통합을 촉진하여 사진 검색 분야를 발전시키는 데 미치는 잠재적 영향에 대해 강조합니다 [abs|pdf]

[12/67] Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models

Keywords: speech_intelligibility_prediction, intrusive_speech_intelligibility, intelligibility_ratings_hearing
Abstract: 신경망은 비침입 음성 명료도 예측에 성공적으로 사용되어 왔습니다. 최근에는 사전 학습된 자가 지도 및 약 지도 모델의 중간 계층에서 가져온 특징 표현을 사용하는 것이 이 작업에 특히 유용한 것으로 밝혀졌습니다. 이 연구에서는 신경망 입력 피처로 위스퍼 ASR 디코더 레이어 표현을 예시 기반의 심리학적 동기 부여 인간 기억 모델과 결합하여 보청기 사용자의 명료도 등급을 예측합니다. 훈련 데이터에서 보이지 않는 강화 시스템과 청취자를 포함하여 기존의 침입형 HASPI 기준 시스템에 비해 상당한 성능 개선이 이루어졌으며, 기준선인 28.7에 비해 제곱근 평균 오차가 25.3으로 나타났습니다. [abs|pdf]

[13/67] Graph Guided Question Answer Generation for Procedural Question-Answering

Keywords: answer_generation_procedural, question_answer_generation, answer_generation
Abstract: 이 백서에서는 작업별 QA(질문 답변)에 초점을 맞춥니다. 이를 위해 철저한 고품질 훈련 데이터를 생성하는 방법을 소개하며, 이를 통해 GPT 변형과 경쟁할 수 있는 간결한(예: 모바일 기기에서 실행 가능한) 작업별 QA 모델을 훈련할 수 있습니다. 핵심적인 기술적 지원은 대량의 텍스트 지침을 수집하고 철저한 도메인 내 QA 학습 데이터를 생성할 수 있는 절차적 텍스트에서 질문과 답변을 자동으로 생성하는 새로운 메커니즘입니다. 현재의 QA 데이터 생성 방식은 형식이 잘 갖춰진 다양한 데이터를 생성할 수 있지만, 완전하지 않은 데이터의 특성상 QA 모델을 훈련하는 데는 적합하지 않습니다. 이와는 대조적으로, 우리는 절차 텍스트의 고도로 구조화된 측면을 활용하여 각 단계와 절차의 전체 흐름을 그래프로 표현합니다. 그런 다음 그래프 노드를 조건화하여 철저하고 제어 가능한 방식으로 QA 쌍을 자동으로 생성합니다. 이 방법에 대한 종합적인 평가는 다음과 같습니다: 1) 데이터로 훈련된 소규모 모델은 몇 배 더 작은 크기에도 불구하고 목표 QA 작업에서 GPT3 및 ChatGPT를 능가하는 우수한 성능을 달성합니다. 2) 시맨틱 커버리지가 다운스트림 QA 성능의 핵심 지표입니다. 결정적으로, 대규모 언어 모델은 구문 다양성 측면에서 뛰어나지만, 이것이 반드시 최종 QA 모델의 개선으로 이어지지는 않습니다. 반대로, 우리 방식이 제공하는 높은 의미 범위는 QA 성능에 매우 중요합니다. [abs|pdf]

[14/67] Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes

Keywords: clinician_annotation_adjudication, clinician_annotation, clinical_notes_concepts
Abstract: 의료 분야에서는 대형 언어 모델(LLM)의 뛰어난 성능으로 인해 점점 더 많은 관심을 기울이고 있습니다. 그러나 실제 임상 응용 분야에서의 성능은 아직 충분히 연구되지 않았습니다. 질문과 답변에 기반한 기존의 평가는 미묘한 맥락을 완전히 포착하지 못합니다. 이러한 격차는 실제 의료 환경에서 LLM에 대한 보다 심층적이고 실용적인 평가의 필요성을 강조합니다. 목표: 우리는 임상의의 주석과 판단을 포함한 체계적이고 이해하기 쉬운 분석 방법을 사용하여 성인 중환자 치료 의학의 복잡한 임상 맥락에서 LLM의 성과를 평가하고자 했습니다. 방법: 실제 임상 노트를 이해하고 처리하는 데 있어 세 가지 일반 LLM의 성능을 조사했습니다. 150개의 임상 노트의 개념을 메타맵으로 식별한 다음 9명의 임상의가 라벨을 붙였습니다. 심층 분석을 위해 다양한 프롬프트를 사용하여 이러한 개념의 시간성과 부정성을 식별하여 각 LLM의 숙련도를 평가했습니다. 결과: GPT-4는 다른 LLM에 비해 전반적으로 우수한 성능을 보였습니다. 반면, GPT-3.5와 text-davinci-003은 적절한 프롬프트 전략을 사용할 때 성능이 향상되는 것으로 나타났습니다. GPT 제품군 모델은 비용 효율성과 시간 절약 기능으로 입증된 상당한 효율성을 보여주었습니다. 결론: LLM을 위한 포괄적인 정성적 성과 평가 프레임워크가 개발되어 운영되고 있습니다. 이 프레임워크는 단일 성능 측면을 뛰어넘습니다. 이 방법론은 전문가의 주석을 통해 복잡한 의료 데이터를 처리하는 LLM의 역량을 검증할 뿐만 아니라 향후 전문 영역에서 LLM을 평가하기 위한 벤치마크를 설정합니다. [abs|pdf]

[15/67] Prompt Weight Experiments for LLM Instruction Fine-Tuning

Keywords: instruction_datasets_models, llama_models_fine, token_classification_loss
Abstract: 명령어 작업에 따라 미세 조정된 7B 크기의 LLaMA 모델의 성능에 즉각적인 토큰 분류 손실 가중치(PLW)가 어떤 영향을 미치는지 분석한 소규모 연구를 소개합니다. 여러 명령어 데이터 세트를 사용해 LLaMA 1과 LLaMA 2로 스탠퍼드대의 알파카 실험을 재현했습니다. 그 결과, 단완성 데이터세트에서 미세 조정된 모델은 PLW와 음의 이차적 관계를 갖는 반면, 장완성 데이터세트에서 미세 조정된 모델은 PLW의 영향을 받지 않는 것으로 나타났습니다. [abs|pdf]

[16/67] Benchmarking the Fairness of Image Upsampling Methods

Keywords: fairness_conditional_generative, supervised_fairness_counterparts, supervised_fairness
Abstract: 최근 몇 년 동안 이미지와 동영상과 같은 합성 미디어를 제작하기 위한 심층 생성 모델이 급속도로 발전하고 있습니다. 이러한 모델을 일상 업무에 실제로 적용하는 것은 매력적이지만, 공정성과 관련된 내재적 위험을 평가하는 것은 매우 중요합니다. 이 연구에서는 조건부 생성 모델의 성능과 공정성을 벤치마킹하기 위한 포괄적인 프레임워크를 소개합니다. 저희는 공정성과 다양성 측면에서 모델을 평가하기 위해 감독된 공정성 지표에서 영감을 얻은 일련의 지표를 개발했습니다. 이미지 업샘플링의 특정 적용에 초점을 맞춰 다양한 최신 업샘플링 방법을 포괄하는 벤치마크를 만들었습니다. 이 벤치마크의 일환으로, 일반적인 대규모 얼굴 데이터 세트의 인종 분포를 복제하는 FairFace의 하위 집합인 UnfairFace를 소개합니다. 이 실증 연구는 편향되지 않은 훈련 세트 사용의 중요성을 강조하고 알고리즘이 데이터 세트의 불균형에 반응하는 방식에 대한 다양한 변화를 보여줍니다. 놀랍게도 고려된 방법 중 어떤 것도 통계적으로 공정하고 다양한 결과를 생성하지 못한다는 사실을 발견했습니다. [abs|pdf]

[17/67] Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting

Keywords: guitar_sound_synthesis, synthesizing_performing_guitar, guitar_synthesizer
Abstract: 기타 연주 사운드를 합성하는 것은 다성음과 표현의 높은 가변성 때문에 매우 까다로운 작업입니다. 최근 딥 제너레이티브 모델은 일반적인 미디 입력을 사용하여 악보에서 표현력이 풍부한 다성 악기 사운드를 합성하는 데 유망한 결과를 보여주었습니다. 이 연구에서는 악기에 대한 맞춤형 입력 표현을 통해 표현력이 풍부한 어쿠스틱 기타 사운드 합성 모델을 제안합니다(이를 기타롤이라고 부릅니다). 우리는 장기적인 일관성을 가진 오디오를 생성할 수 있는 확산 기반 아웃페인팅을 사용하여 제안된 접근 방식을 구현합니다. 미디/오디오 페어링 데이터 세트의 부족을 극복하기 위해 기존 기타 데이터 세트뿐만 아니라 고품질 샘플 기반 기타 신디사이저에서 수집한 데이터도 사용했습니다. 정량적, 정성적 평가를 통해 제안한 모델이 기준 모델보다 높은 오디오 품질을 가지며, 기존 선행 연구보다 더 사실적인 음색을 생성함을 보여줍니다. [abs|pdf]

[18/67] Separable Physics-Informed Neural Networks for the solution of elasticity problems

Keywords: deep_energy_method, neural_networks_spinn, physics_informed_neural
Abstract: 심층 에너지 방법(DEM)과 함께 분리 가능한 물리학 정보 신경망(SPINN)을 기반으로 탄성 문제를 해결하는 방법을 제시합니다. 여러 문제에 대한 수치 실험을 통해 이 방법이 바닐라 물리 정보 신경망(PINN)은 물론 편미분 방정식(PDE) 시스템에 기반한 SPINN보다 수렴률과 정확도가 훨씬 높다는 것을 보여줍니다. 또한 DEM 접근 방식의 프레임워크에서 SPINN을 사용하면 편미분 방정식 프레임의 PINN으로는 달성할 수 없는 복잡한 기하학적 구조의 선형 탄성 이론 문제를 해결할 수 있습니다. 고려되는 문제는 지오메트리, 하중 및 재료 매개변수 측면에서 산업 문제와 매우 유사합니다. [abs|pdf]

[19/67] How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment

Keywords: ai_generated_ideas, idea_ai_participants, ai_ideas_different
Abstract: 대규모 언어 모델 출력에 대한 노출이 빠르게 증가하고 있습니다. AI가 생성한 아이디어를 보는 것이 인간의 아이디어에 어떤 영향을 미칠까요? 저희는 실험(800명 이상, 40개국 이상)을 통해 참가자들이 ChatGPT 또는 이전 실험 참가자의 창의적인 아이디어를 보고 자신의 아이디어를 브레인스토밍하는 실험을 진행했습니다. AI가 생성한 예시의 수(없음, 낮음, 높음)와 예시에 'AI'(공개)라는 라벨이 붙었는지 여부에 따라 다양한 실험을 진행했습니다. 실험 조건의 이전 참가자의 아이디어가 동일한 실험 조건의 미래 참가자에게 자극으로 사용되는 역동적인 실험 설계는 창의적인 아이디어가 이전 아이디어를 기반으로 구축되는 상호 의존적인 문화 창조 과정을 모방합니다. 따라서 우리는 '문화 순환 고리'에 있는 LLM의 복합적인 효과를 포착합니다. 연구 결과, 인공지능에 대한 높은 노출(낮은 노출은 제외)은 개별 아이디어의 창의성에는 영향을 미치지 않았지만 집단적 아이디어 다양성의 평균적인 양과 변화율은 증가시킨 것으로 나타났습니다. AI는 아이디어를 더 좋게 만드는 것이 아니라 다르게 만들었습니다. 공개에 따른 주요 효과는 나타나지 않았습니다. 또한 스스로 창의적이라고 생각하는 사람들은 아이디어가 AI의 아이디어라는 사실을 알았을 때 영향을 덜 받는 것으로 나타났으며, 참가자들은 과제가 어려울 때 고의로 AI 아이디어를 채택할 가능성이 더 높다는 사실을 발견했습니다. 이러한 연구 결과는 AI 아이디어를 사회에 도입하는 것이 집단적 다양성은 증가시킬 수 있지만 개인의 창의성은 증가시키지 못한다는 것을 시사합니다. [abs|pdf]

[20/67] Growing from Exploration: A self-exploring framework for robots based on foundation models

Keywords: robot_self_learned, explore_learn_autonomously, robots_explore_learn
Abstract: 지능형 로봇은 로봇 분야의 궁극적인 목표입니다. 기존 연구는 학습 기반 또는 최적화 기반 방법을 활용하여 인간이 정의한 작업을 수행합니다. 하지만 로봇이 다양한 환경을 자율적으로 탐색할 수 있도록 하는 과제는 여전히 해결되지 않고 있습니다. 본 연구에서는 로봇이 사람의 개입 없이 자율적으로 탐색하고 학습할 수 있는 프레임워크인 GExp를 제안합니다. 이 목표를 달성하기 위해 기초 모델에 기반한 자체 탐색, 지식 기반 구축, 폐쇄 루프 피드백 등의 모듈을 고안했습니다. 유아가 세상과 상호작용하는 방식에서 영감을 얻은 GExp는 로봇이 일련의 자체 생성 작업을 통해 환경을 이해하고 탐색하도록 장려합니다. 탐험 과정에서 로봇은 미래에 유용한 경험을 통해 기술을 습득하게 됩니다. GExp는 로봇이 스스로 탐색을 통해 복잡한 작업을 해결할 수 있는 능력을 제공합니다. GExp 작업은 사전 대화형 지식이나 사람의 개입과 무관하게 진행되기 때문에 맥락에 맞는 예제를 몇 번만 학습하는 방식으로 제공했던 이전 연구와는 달리 다양한 시나리오에 직접 적응할 수 있습니다. 또한 스스로 학습한 기술을 갖춘 실제 로봇 시스템을 구현된 어시스턴트로 배포하는 워크플로우를 제안합니다. [abs|pdf]

[21/67] Multi-Agent Diagnostics for Robustness via Illuminated Diversity

Keywords: diverse_adversarial_scenarios, diverse_adversarial, generating_diverse_adversarial
Abstract: 빠르게 발전하는 멀티 에이전트 시스템 분야에서는 낯설고 적대적인 환경에서 견고성을 보장하는 것이 매우 중요합니다. 이러한 시스템은 익숙한 환경에서는 뛰어난 성능을 발휘하지만, 훈련 단계에서는 과적합으로 인해 새로운 상황에서 흔들리는 경우가 많습니다. 이러한 현상은 협력적 행동과 경쟁적 행동이 모두 존재하는 환경에서 특히 두드러지게 나타나며, 이는 과적합과 일반화의 이중적인 문제를 요약합니다. 이 문제를 해결하기 위해 저희는 사전 훈련된 멀티 에이전트 정책의 전략적 취약점을 드러내는 다양한 적대적 시나리오를 생성하는 새로운 접근 방식인 '조명된 다양성을 통한 견고성을 위한 멀티 에이전트 진단(MADRID)'을 소개합니다. 개방형 학습의 개념을 활용하여 MADRID는 적대적 환경의 방대한 공간을 탐색하고, 목표 정책의 아쉬움을 활용하여 이러한 환경의 취약성을 측정합니다. 멀티 에이전트 강화 학습을 위한 가장 복잡한 환경 중 하나인 Google Research Football의 11vs11 버전에서 MADRID의 효과를 평가합니다. 특히 대규모 분산 인프라에서 45일간의 훈련을 통해 게임을 '마스터'하는 최첨단 접근 방식인 TiZero를 위한 다양한 적대적 설정을 생성하는 데 MADRID를 사용합니다. 멀티 에이전트 시스템에서 엄격한 평가가 얼마나 중요한지 강조하면서 TiZero의 전술적 의사결정의 주요 단점을 드러냅니다. [abs|pdf]

[22/67] Clue-Guided Path Exploration: An Efficient Knowledge Base Question-Answering Framework with Low Computational Resource Consumption

Keywords: path_knowledge_base, knowledge_path_knowledge, knowledge_path
Abstract: 최근 대규모 언어 모델(LLM)은 놀라운 기능을 선보이고 있습니다. 그러나 지식을 업데이트하는 데는 어려움이 따르며, 익숙하지 않은 쿼리에 직면했을 때 잠재적으로 부정확한 결과를 초래할 수 있습니다. 지식 그래프를 LLM과 통합하는 방안이 모색되어 왔지만, 기존의 접근 방식은 LLM을 주요 의사 결정권자로 취급하여 그들의 역량에 대한 요구가 높습니다. 이는 특히 계산 비용이 낮고 성능이 상대적으로 떨어지는 LLM에는 적합하지 않습니다. 이 백서에서는 지식 기반과 LLM을 효율적으로 병합하여 모델의 기능에 덜 엄격한 요구 사항을 적용하는 단서 안내 경로 탐색 프레임워크(CGPE)를 소개합니다. 사람이 수동으로 지식을 검색할 때 사용하는 방법에서 영감을 얻은 CGPE는 질문의 정보를 단서로 삼아 지식창고 내에서 필요한 지식 경로를 체계적으로 탐색합니다. 오픈 소스 데이터 세트에 대한 실험 결과, CGPE는 이전 방법보다 성능이 뛰어나며 매개변수가 적은 LLM에 적용 가능성이 높다는 것이 밝혀졌습니다. 경우에 따라서는 60억 개의 파라미터를 가진 ChatGLM3조차도 GPT-4의 성능에 필적할 수 있습니다. 또한, 결과에 따르면 LLM에서 CGPE의 호출 빈도가 최소화되어 계산 오버헤드가 줄어든 것으로 나타났습니다. 컴퓨팅 리소스의 제약에 직면한 조직과 개인에게 이 연구는 상당한 실용적 가치를 제공합니다. [abs|pdf]

[23/67] Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond

Keywords: based_warping_tasks, warping_tasks, image_based_warping
Abstract: 박판 스플라인(TPS)은 제어점 모션으로 탄력적인 비선형 변환을 표현할 수 있는 주요 워프입니다. 제어점이 증가함에 따라 워프는 점점 더 유연해지지만 일반적으로 콘텐츠 왜곡과 같은 원치 않는 문제로 인해 병목 현상이 발생합니다. 이 백서에서는 회전 보정, 직사각형 보정, 세로 보정 등 단일 이미지 기반 워핑 작업에서 TPS의 일반적인 적용 사례를 살펴봅니다. 이러한 병목 현상을 극복하기 위해 제한된 제어점을 가진 여러 TPS를 반복적으로 결합하여 보다 유연하고 강력한 변환을 구현하는 결합된 박판 스플라인 모델(CoupledTPS)을 제안합니다. 구체적으로는 먼저 현재 잠재 상태에 따라 새로운 제어점을 예측하는 반복 탐색을 설계합니다. 그런 다음 워핑 흐름을 서로 다른 TPS 변환의 결합을 위한 다리로 제시하여 다중 워핑으로 인한 보간 오류를 효과적으로 제거합니다. 또한, 많은 주석 작업이 필요한 점을 고려하여 라벨이 없는 데이터를 활용하여 워핑 품질을 개선하는 준지도 학습 방식을 개발합니다. 이 방식은 라벨이 없는 데이터의 검색된 제어점과 그래픽 증강 사이의 이중 변환을 통해 공식화되며, 암시적 보정 일관성 제약 조건을 생성합니다. 마지막으로, 라벨이 없는 대량의 데이터를 수집하여 회전 보정에서 반지도 방식이 갖는 이점을 입증합니다. 광범위한 실험을 통해 회전 보정을 위한 기존의 최첨단(SoTA) 솔루션에 비해 CoupledTPS의 우월성과 보편성을 입증했습니다. 코드와 데이터는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[24/67] Past, Present, Future: A Comprehensive Exploration of AI Use Cases in the UMBRELLA IoT Testbed

Keywords: mlops_platform_automate, iot_systems_existing, iot_ecosystem_incorporating
Abstract: UMBRELLA는 200개 이상의 멀티센서 멀티무선 노드, 20개의 협업 로봇, 에지 인텔리전스 지원 디바이스를 통합한 대규모 오픈 액세스 사물 인터넷(IoT) 에코시스템입니다. 이 백서에서는 실제 IoT 시스템에서 구현된 엄브렐라의 인공 지능(AI) 기능과 향후 전망에 대한 가이드를 제공합니다. 네 가지 기존 UMBRELLA 애플리케이션을 자세히 소개합니다: 1) 문제를 감지하고 유지보수 알림을 트리거하는 자동 가로등 모니터링, 2) 비용을 절감하면서 향상된 공기질 감지 기능을 제공하는 빌딩 환경의 디지털 트윈, 3) 통신 오버헤드를 줄이기 위한 대규모 연합 학습 프레임워크, 4) 악성 활동을 식별하는 컨테이너화된 애플리케이션의 침입 탐지. 또한 시맨틱 커뮤니케이션과 멀티 에이전트 계획으로 강화된 미래의 스마트 시티 및 멀티 로봇 크라우드센싱 애플리케이션에 대한 움브렐라의 잠재력을 설명합니다. 마지막으로, 위의 사용 사례를 실현하기 위해 UMBRELLA 모델 파이프라인을 자동화하고 신뢰를 구축하기 위한 맞춤형 MLOps 플랫폼의 필요성에 대해 논의합니다. [abs|pdf]

[25/67] Full Bayesian Significance Testing for Neural Networks

Keywords: significance_testing_neural, testing_neural_networks, approaches_bayesian_neural
Abstract: 유의성 검정은 관찰 자료가 주어졌을 때 모집단 분포에 대한 명제가 진실인지 아닌지를 판단하는 것을 목표로 합니다. 그러나 기존의 유의성 테스트는 종종 테스트 통계의 분포를 도출해야 하므로 복잡한 비선형 관계를 처리하지 못합니다. 이 논문에서는 기존 접근법의 관계 특성 분석의 한계를 극복하기 위해 신경망에 대한 전체 베이지안 유의성 검정(Full Bayesian Significance Testing)을 $FBST$라고 하는 방법을 제안합니다. 베이지안 신경망은 비선형적이고 다차원적인 관계를 작은 오차로 적합시키고, 증거값을 계산하여 어려운 이론적 추론을 피하기 위해 활용됩니다. 또한, \textit{n}FBST는 전역적 유의성뿐만 아니라 기존 테스트 방법에서는 다루지 않는 로컬 및 인스턴스별 유의성도 테스트할 수 있습니다. 또한, $FBST$는 Grad-$FBST$, LRP-$FBST$, DeepLIFT-$FBST$, LIME-$FBST$와 같이 선택한 측정값에 따라 확장할 수 있는 일반적인 프레임워크입니다. 이 방법의 장점을 보여주기 위해 시뮬레이션 데이터와 실제 데이터에 대한 다양한 실험을 수행했습니다. [abs|pdf]

[26/67] Explainable Bayesian Optimization

Keywords: ai_collaborative_parameter, interpretable_optimization_techniques, providing_interpretable_optimization
Abstract: 업계에서 베이지안 최적화(BO)는 사이버 물리 시스템의 인간-AI 협업 파라미터 튜닝에 널리 적용됩니다. 하지만 BO의 솔루션은 근사치 오류와 단순화된 목표 때문에 인간 전문가의 실제 목표와 차이가 날 수 있어 후속 튜닝이 필요합니다. BO의 블랙박스 특성은 전문가가 BO의 추천을 신뢰하지 않기 때문에 협업 튜닝 프로세스를 제한합니다. 현재의 설명 가능한 AI(XAI) 방법은 최적화를 위해 맞춤화되지 않았기 때문에 이러한 격차를 해소하기에는 부족합니다. 이러한 격차를 해소하기 위해 유니티는 다중 목표 최적화를 통해 고품질의 설명을 생성하는 사후 규칙 기반 설명가능성 방법인 TNTRules(TUNE-NOTUNE 규칙)를 제안합니다. 벤치마크 최적화 문제와 실제 하이퍼파라미터 최적화 작업에 대한 평가를 통해 고품질의 설명을 생성하는 데 있어 TNTRules가 최첨단 XAI 방법보다 우수하다는 것을 입증했습니다. 이 연구는 BO와 XAI의 교차점에 기여하여 실제 애플리케이션을 위한 해석 가능한 최적화 기법을 제공합니다. [abs|pdf]

[27/67] Information That Matters: Exploring Information Needs of People Affected by Algorithmic Decisions

Keywords: explanations_ai_systems, stakeholders_explainability, stakeholders_explainability_contributing
Abstract: AI 시스템에 대한 설명은 알고리즘 의사결정(ADM)의 영향을 받는 사람들의 정보 요구 사항을 거의 다루지 않습니다. 전달된 정보와 영향을 받는 이해관계자에게 중요한 정보 사이의 이러한 격차는 AI 법과 같은 규제 프레임워크에 대한 이해와 준수를 방해할 수 있습니다. 이러한 격차를 해소하기 위해 유니티는 "XAI 초보자 질문 은행"을 제공합니다: 데이터, 시스템 컨텍스트, 시스템 사용, 시스템 사양 등 두 가지 ADM 사용 사례(고용 예측 및 건강 모니터링)에서 영향을 받는 이해관계자의 정보 요구사항에 대한 카탈로그입니다. 정보 요구사항은 참가자들의 문의에 대한 설명을 듣는 인터뷰 연구를 통해 수집되었습니다. 참가자들의 이해도와 의사 결정에 대한 자신감을 조사한 결과, 설명을 받은 후 자신감이 높아지는 경향이 있는 반면, 이해가 불완전하다고 느끼는 이유를 알 수 없는 등 이해에 어려움을 겪는 경우도 있는 것으로 나타났습니다. 설명은 시스템의 위험과 이점에 대한 참가자들의 인식에도 영향을 미쳤으며, 참가자들은 사용 사례에 따라 이를 확인하거나 변경했습니다. 위험이 높다고 인식되는 경우, 참가자들은 시스템이 도입된 이유와 목적과 같은 의도에 대한 설명에 특히 관심을 보였습니다. 이 연구를 통해 저희는 ADM 시스템 도입을 결정할 때 관련 정보 및 과제에 대한 개요를 제공함으로써 영향을 받는 이해관계자가 설명 가능성에 포함될 수 있도록 지원하고자 합니다. 영향을 받는 이해관계자를 위한 향후 설명의 설계에 도움이 되는 6가지 주요 시사점 목록에 연구 결과를 요약하여 마무리합니다. [abs|pdf]

[28/67] Deep Learning for Improved Polyp Detection from Synthetic Narrow-Band Imaging

Keywords: polyp_classification_colonoscopy, classification_colonoscopy, classification_colonoscopy_requires
Abstract: 대장암(CRC) 유병률 증가에 대처하기 위해 용종 발견 및 제거를 위한 검진 프로그램이 그 유용성을 입증했습니다. 대장내시경 검사는 대장암 검진에서 가장 성과가 좋은 절차로 간주됩니다. 검사를 용이하게 하기 위해 기존의 백색광 영상(WLI)을 위한 딥러닝 기반 자동 용종 탐지 방법이 개발되었습니다. 협대역 이미징(NBI)은 대장내시경 검사 시 용종 분류를 개선할 수 있지만 WLI에 비해 특수 장비가 필요합니다. 본 논문에서는 NBI를 사용할 수 없는 경우 WLI에서 물체 검출을 개선하기 위한 전처리 방법으로 일반 WLI로 캡처한 이미지를 합성 NBI(SNBI)로 변환하는 CycleGAN 기반 프레임워크를 제안합니다. 이 백서에서는 먼저 비교적 유사한 WLI 데이터 세트에 비해 NBI에서 폴립 검출에 더 나은 결과를 얻을 수 있음을 보여줍니다. 둘째, 실험 결과를 통해 우리가 제안한 모달리티 변환이 WLI에서 생성된 SNBI 이미지에서 원래 WLI에 비해 폴립 검출을 개선할 수 있음을 보여줍니다. 이는 WLI-SNBI 변환 모델이 생성된 SNBI 이미지에서 폴립 표면 패턴의 관찰을 향상시킬 수 있기 때문입니다. [abs|pdf]

[29/67] ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

Keywords: visual_reasoning_contextual, rich_visual_reasoning, contextual_novel_benchmark
Abstract: 최근 AI의 발전으로 이미지의 텍스트와 시각적 콘텐츠에 대한 공동 추론이 필요한 복잡한 작업(예: 공공장소에서 지도 탐색)을 처리할 수 있는 대규모 멀티모달 모델(LMM)이 개발되었습니다. 이 백서에서는 문맥에 민감한 텍스트가 풍부한 시각적 추론을 수행하는 LMM의 능력을 평가하기 위해 명시적으로 설계된 지침으로 구성된 새로운 벤치마크인 ConTextual을 소개합니다. ConTextual은 텍스트와 시각적 요소 간의 상호 작용에 대한 심층적인 이해가 필요한 다양한 실제 시나리오(예: 시간 읽기, 내비게이션, 쇼핑 등)를 강조합니다. 연구 결과에 따르면 최고 성능의 LMM인 GPT-4V(ision)와 사람의 평가를 통한 능력 간에는 30.8%의 상당한 성능 격차가 있는 것으로 나타나 문맥에 민감한 텍스트가 풍부한 시각적 추론에서 상당한 개선의 여지가 있음을 알 수 있습니다. 특히 GPT-4V는 밈이나 인용문 해석과 같은 추상적인 범주에서는 뛰어난 성능을 보였지만, 전반적인 성능은 여전히 인간에 비해 뒤처지는 것으로 나타났습니다. 사람에 의한 평가와 더불어 자동 평가 메트릭을 사용하여 GPT-4를 평가한 결과, 성능 격차에서 유사한 경향을 발견할 수 있었습니다. 또한 다양한 시각적 컨텍스트에서 세분화된 평가를 수행하고 정성적 분석을 통해 향후 LMM 설계의 발전을 위한 강력한 프레임워크를 제공합니다. 이 https URL [abs|pdf]

[30/67] Towards Explainable Harmful Meme Detection through Multimodal Debate between Large Language Models

Keywords: harmful_meme_detection, detect_harmful_memes, explaining_meme_harmfulness
Abstract: 소셜 미디어 시대에는 인터넷 밈이 넘쳐나기 때문에 유해한 밈을 명확하게 파악하고 효과적으로 식별해야 합니다. 이 작업은 표면적인 텍스트와 이미지를 통해 명시적으로 전달되지 않는 밈에 내재된 암묵적인 의미로 인해 상당한 어려움이 있습니다. 그러나 기존의 유해한 밈 탐지 방법들은 이러한 암묵적 의미를 드러내는 가독성 있는 설명을 제시하지 않아 탐지 결정을 뒷받침하지 못합니다. 이 백서에서는 무해한 입장과 유해한 입장의 상충되는 근거를 추론하여 유해한 밈을 탐지하는 설명 가능한 접근 방식을 제안합니다. 특히, 텍스트 생성 및 추론에 대한 대규모 언어 모델(LLM)의 강력한 능력에서 영감을 받아 먼저 LLM 간의 다중 모드 논쟁을 유도하여 모순되는 주장에서 도출된 설명을 생성합니다. 그런 다음, 유해성 추론을 위한 토론 판단 기준으로서 작은 언어 모델을 미세 조정하여 유해성 근거와 밈 내의 고유한 다중 모드 정보 간의 다중 모드 융합을 촉진할 것을 제안합니다. 이러한 방식으로, 우리 모델은 무해한 주장과 유해한 주장 모두에서 비롯된 복합적 설명을 활용하여 복잡하고 암시적인 유해성 표시 패턴에 대해 변증법적 추론을 수행할 수 있습니다. 세 개의 공개 밈 데이터 세트에 대한 광범위한 실험을 통해 유해한 밈 탐지 접근 방식이 최첨단 방법보다 훨씬 더 나은 성능을 달성하고 모델 예측의 밈 유해성을 설명하는 데 탁월한 능력을 발휘한다는 것을 입증했습니다. [abs|pdf]

[31/67] RefreshNet: Learning Multiscale Dynamics through Hierarchical Refreshing

Keywords: predictive_accuracy_refreshnet, forecasting_complex_dynamics, sivashinsky_dynamics_refreshnet
Abstract: 복잡한 시스템 역학, 특히 장기 예측을 위한 예측은 오류 축적과 계산 부담으로 인해 지속적으로 방해를 받고 있습니다. 이 연구에서는 이러한 문제를 극복하기 위해 개발된 멀티스케일 프레임워크인 RefreshNet을 소개하며, 계산 효율성과 예측 정확도 간에 전례 없는 균형을 제공합니다. 리프레시넷은 컨볼루션 자동 인코더를 통합하여 역학의 필수적인 특징을 포착하는 저차 잠재 공간을 식별하고, 잠재 공간 내에서 다양한 시간 해상도로 작동하는 여러 개의 순환신경망(RNN) 블록을 전략적으로 사용하여 여러 시간 규모에서 잠재 역학을 포착할 수 있습니다. 리프레시넷의 고유한 '리프레시' 메커니즘은 더 거친 블록이 더 미세한 블록의 입력을 리셋하여 오류 누적을 효과적으로 제어하고 완화할 수 있도록 합니다. 이 설계는 특히 장기 예측에서 계산 효율성과 예측 정확도 측면에서 기존 기술보다 우월함을 보여줍니다. 이 프레임워크는 피츠휴-나구모 시스템, 반응-확산 방정식, 쿠라모토-시바신스키 역학 등 세 가지 벤치마크 애플리케이션을 사용하여 검증되었습니다. 리프레시넷은 장기 예측의 정확도와 속도 면에서 최첨단 방법을 크게 능가하며, 복잡한 시스템을 모델링하고 그 거동을 이해하고 예측하는 데 있어 새로운 길을 열었습니다. [abs|pdf]

[32/67] Can AI Assistants Know What They Don't Know?

Keywords: question_ai_assistants, ai_assistants_know, responses_ai_assistant
Abstract: 최근 대화, 수학 문제 풀이, 코드 작성, 도구 사용 등 많은 작업에서 대규모 언어 모델(LLM)을 기반으로 하는 AI 비서가 놀라운 성능을 보여주고 있습니다. LLM은 고도의 세계 지식을 보유하고 있지만, 개방형 도메인 질문 답변과 같이 지식 집약적인 작업에 직면했을 때 여전히 사실 오류를 범합니다. AI 어시스턴트의 이러한 사실과 다른 응답은 실제 애플리케이션에서 심각한 위험을 초래할 수 있습니다. 우리는 AI 어시스턴트가 모르는 질문에 대한 답변을 거부하는 것이 환각을 줄이고 어시스턴트를 진실하게 만드는 데 중요한 방법이라고 생각합니다. 따라서 이 논문에서는 "인공지능 비서가 자신이 모르는 것을 알고 자연어로 표현할 수 있는가?"라는 질문을 던집니다 이 질문에 답하기 위해 기존의 개방형 도메인 질문 답변 데이터셋을 기반으로 어시스턴트의 알려진 질문과 알려지지 않은 질문이 포함된 모델별 "모름"(Idk) 데이터셋을 구축합니다. 그런 다음 어시스턴트를 해당 Idk 데이터 세트와 정렬하고 정렬 후 알 수 없는 질문에 대한 답변을 거부할 수 있는지 관찰합니다. 실험 결과, Idk 데이터 세트와 정렬한 후 어시스턴트는 대부분의 알 수 없는 질문에 대한 답변을 거부할 수 있는 것으로 나타났습니다. 답변을 시도하는 질문에 대해서는 정렬 전보다 훨씬 더 높은 정확도를 보였습니다. [abs|pdf]

[33/67] Audio-Infused Automatic Image Colorization by Exploiting Audio Scene Semantics

Keywords: audiovisual_colorization, audiovisual_colorization_dataset, addition_audiovisual_colorization
Abstract: 자동 이미지 색상화는 본질적으로 불확실성이라는 난제를 안고 있으며, 그레이스케일 이미지에 적합한 색상을 추정하기 위해서는 장면에 대한 정확한 의미론적 이해가 필요합니다. 최근 인터랙션 기반 방법이 인상적인 성능을 달성했지만, 자동 색상화를 위해 사실적이고 정확한 색상을 추론하는 것은 여전히 매우 어려운 작업입니다. 본 논문에서는 그레이스케일 장면의 의미 이해의 어려움을 줄이기 위해 동일한 장면에 대한 추가적인 의미 정보를 자연스럽게 포함하고 있는 해당 오디오를 활용하고자 합니다. 구체적으로 세 단계로 구성된 새로운 오디오 주입 자동 이미지 컬러화(AIAIC) 네트워크를 제안합니다. 먼저 컬러 이미지 시맨틱을 브리지로 삼아 컬러 이미지 시맨틱에 따라 컬러라이제이션 네트워크를 사전 학습합니다. 둘째, 오디오와 비디오의 자연스러운 동시 발생을 활용하여 오디오와 시각 장면 간의 색상 의미적 상관관계를 학습합니다. 셋째, 암시적 오디오 시맨틱 표현이 사전 학습된 네트워크에 입력되어 최종적으로 오디오 가이드 컬러화를 실현합니다. 이 모든 과정은 사람의 주석 없이 자가 감독 방식으로 학습됩니다. 또한 훈련 및 테스트를 위해 시청각 색상화 데이터 세트가 구축됩니다. 실험을 통해 오디오 가이드가 특히 시각적 방식만으로는 이해하기 어려운 일부 장면에서 자동 색상화의 성능을 효과적으로 향상시킬 수 있음을 입증했습니다. [abs|pdf]

[34/67] Designing Redistribution Mechanisms for Reducing Transaction Fees in Blockchains

Keywords: fee_redistribution_mechanisms, ae_user_incentive, user_incentive
Abstract: 블록체인은 트랜잭션 수수료 메커니즘(TFM)을 배포하여 어떤 사용자 트랜잭션을 블록에 포함할지 결정하고 그에 대한 지불(즉, 트랜잭션 수수료)을 결정합니다. 증가하는 수요와 부족한 블록 리소스로 인해 사용자 트랜잭션 수수료가 높아졌습니다. 블록체인은 공공 자원이므로 이러한 거래 수수료를 낮추는 것이 바람직할 수 있습니다. 이를 위해 저희는 트랜잭션 수수료 재분배 메커니즘(TFRM)을 도입하여 이러한 TFM에서 거둬들인 VCG를 리베이트로 재분배하여 트랜잭션 수수료를 최소화합니다. 전통적인 재분배 메커니즘(RM)은 할당 효율성(AE)과 사용자 인센티브 호환성(UIC)을 보장하면서 이를 달성합니다. 저희의 첫 번째 결과는 TFM에서 RM을 적용하는 것이 결코 간단하지 않다는 것을 보여줍니다. 보다 구체적으로, (i) 확인되지 않은 트랜잭션이 리베이트를 받지 않고, (ii) 채굴자가 전략적으로 메커니즘을 조작할 수 있는 경우 거래 수수료를 낮추는 것이 불가능하다는 것을 증명했습니다. 이를 바탕으로 저희는 정직한 채굴자의 개별적 합리성을 타협하여 사용자에게 엄격하게 양수 리베이트를 보장하는 메커니즘인 Robust TFRM($R-TFRM$)을 제안합니다. 그런 다음 robust and rational TFRM($R^2-TFRM$)을 소개합니다. $R^2-TFRM$은 신뢰할 수 있는 온체인 무작위성을 사용하여 채굴자의 개별적 합리성(기대)과 엄격하게 양수 리베이트를 추가로 보장합니다. 연구 결과에 따르면 TFRM은 퍼블릭 블록체인의 거래 수수료를 낮출 수 있는 유망한 새 방향을 제시합니다. [abs|pdf]

[35/67] UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for Personalized Dialogue Systems

Keywords: retrieval_response_generation, personalized_dialogue, relevance_score_dialogue
Abstract: 대규모 언어 모델(LLM)은 많은 자연어 이해 및 생성 작업에서 탁월한 성능을 보여 왔습니다. 하지만 개인화 문제는 여전히 해결해야 할 과제로 남아 있으며, 특히 대화 시스템과 관련된 여러 소스의 경우 더욱 그렇습니다. 개인화된 응답을 생성할 때 여러 소스의 사용을 더 잘 계획하고 통합하기 위해 먼저 이를 세 가지 하위 작업으로 세분화합니다: 지식 소스 선택, 지식 검색, 응답 생성입니다. 그런 다음 새로운 통합 다중 소스 검색-증강 생성 시스템(UniMS-RAG)을 제안합니다. 구체적으로, 서로 다른 공식을 가진 이 세 가지 하위 작업을 훈련 중에 동일한 시퀀스 간 패러다임으로 통합하여 연기 토큰과 평가 토큰이라는 특수 토큰을 사용하여 증거를 적응적으로 검색하고 관련성을 온디맨드 방식으로 평가할 수 있습니다. 언어 모델이 연기 토큰을 생성할 수 있도록 하면 다양한 지식 소스와의 상호 작용이 용이해져 다양한 작업 요구 사항에 맞게 동작을 조정할 수 있습니다. 한편 평가 토큰은 대화 컨텍스트와 검색된 증거 간의 관련성 점수를 측정합니다. 또한, 1) 생성된 응답과 검색된 증거 간의 일관성 점수, 2) 관련성 점수를 고려하여 생성된 응답을 반복적으로 개선하는 자체 개선 메커니즘을 신중하게 설계합니다. 두 개의 개인화된 데이터 세트(DuLeMon과 KBP)를 대상으로 한 실험 결과, UniMS-RAG는 스스로를 리트리버로 삼아 지식 소스 선택 및 응답 생성 작업에서 통합된 방식으로 최첨단 성능을 달성하는 것으로 나타났습니다. 개인화된 대화 시스템에 대한 새로운 관점을 제시하기 위해 광범위한 분석과 토론이 제공됩니다. [abs|pdf]

[36/67] From Random to Informed Data Selection: A Diversity-Based Approach to Optimize Human Annotation and Few-Shot Learning

Keywords: data_annotation_crowdsourcing, annotation_crowdsourcing, human_randomly_annotating
Abstract: 자연어 처리의 주요 과제는 지도 학습을 위한 주석이 달린 데이터를 확보하는 것입니다. 데이터 주석을 위해 크라우드소싱 플랫폼을 사용하는 것도 한 가지 방법입니다. 그러나 크라우드 소싱은 주석 작성자의 경험, 일관성, 편견과 관련된 문제를 야기할 수 있습니다. 대안으로 제로 샷 방식을 사용하는 것이 있는데, 이 방식은 소수 또는 완전 감독 방식에 비해 한계가 있습니다. 대규모 언어 모델에 의한 최근의 발전은 잠재력을 보여주지만 데이터가 극도로 제한된 전문 영역에 적용하기에는 어려움이 있습니다. 따라서 가장 일반적인 접근 방식은 사람이 일련의 데이터 포인트에 무작위로 주석을 달아 초기 데이터 세트를 구축하는 것입니다. 그러나 주석을 달 데이터를 무작위로 샘플링하는 것은 데이터의 특성과 모델의 특정 요구 사항을 무시하기 때문에 비효율적인 경우가 많습니다. 불균형한 데이터 세트로 작업할 경우 상황은 더욱 악화되는데, 무작위 샘플링은 다수 클래스에 편중되는 경향이 있어 주석이 과도하게 달린 데이터로 이어질 수 있기 때문입니다. 이러한 문제를 해결하기 위해 본 논문에서는 소량 학습을 위한 소규모 데이터 세트를 구축하기 위한 자동화된 정보 기반 데이터 선택 아키텍처를 제안합니다. 이 제안은 사람이 주석을 달기 위해 선택하는 데이터의 양을 최소화하고 다양성을 극대화하는 동시에 모델 성능을 향상시킵니다. [abs|pdf]

[37/67] Scalable Link Prediction on Large-Scale Heterogeneous Graphs with Large Language Models

Keywords: link_prediction_extensive, link_prediction_large, scalable_link_prediction
Abstract: 그래프 학습에 대규모 언어 모델을 적용하는 것은 새로운 시도입니다. 그러나 대규모 그래프에 내재된 방대한 양의 정보는 이 과정에서 상당한 어려움을 야기합니다. 본 논문에서는 링크 예측 작업에 초점을 맞춰 대규모 이기종 그래프에서 확장 가능한 링크 예측을 위해 설계된 대규모 언어 모델에 기반한 프레임워크인 LPNL(자연어를 통한 링크 예측)을 소개하고, 그래프 세부 정보를 자연어로 표현하는 링크 예측을 위한 새로운 프롬프트를 설계합니다. 대규모 이기종 그래프에서 중요한 정보를 추출하기 위한 2단계 샘플링 파이프라인과 입력 토큰 수를 사전 정의된 한도 내에서 제어하는 분할 및 정복 전략을 제안하여 압도적인 정보 문제를 해결합니다. 링크 예측을 위해 설계된 자가 지도 학습을 기반으로 T5 모델을 미세 조정합니다. 대규모 공개 이기종 그래프에 대한 광범위한 실험을 통해 LPNL이 다양한 고급 기준선을 능가하는 성능을 보여줌으로써 대규모 그래프에서 링크 예측 작업에서 뛰어난 성능을 발휘함을 입증했습니다. [abs|pdf]

[38/67] TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data

Keywords: language_models_llms, step_reasoning_capabilities, discrete_reasoning_capabilities
Abstract: 이 작업에서는 웹에서 매우 일반적인 콘텐츠인 표 형식 데이터와 텍스트 데이터의 하이브리드에 대한 질문 답변(QA)을 다루며, 이 경우 개별 추론 기능이 필요한 경우가 많습니다(예: SEC 서류). 최근에는 GPT-4와 같은 대규모 언어 모델(LLM)이 강력한 다단계 추론 기능을 입증했습니다. 그런 다음 LLM의 놀라운 힘을 활용하여 과제를 해결하는 방법을 고려합니다. 추출기, 추론기, 실행기의 세 가지 주요 단계로 구성된 표 형식 및 텍스트 QA를 위한 단계별 파이프라인을 추상화하고, 처음에는 파이프라인을 인스턴스화하기 위한 명령어를 설계하여 GPT-4가 기존의 모든 방법보다 성능이 뛰어나다는 것을 검증합니다. 하지만 GPT-4와 같은 온라인 LLM을 활용하면 비용, 지연 시간, 데이터 보안 위험 등 다양한 문제가 발생하기 때문에 이 작업에 더 작은 LLM을 전문화해야 합니다. 단계별 파이프라인에 따라 기존의 전문가 주석이 달린 데이터 세트에서 자동으로 생성된 학습 데이터로 LLaMA 2를 미세 조정하여 TAT-LLM 언어 모델을 개발했습니다. 실험 결과, TAT-LLM 모델이 FinQA, TAT-QA, TAT-DQA 벤치마크에서 이전의 가장 잘 조정된 모델과 GPT-4와 같은 초대형 LLM을 포함한 모든 기준 모델을 능가하는 성능을 발휘할 수 있음을 확인했습니다. 이번 작업이 특정 작업을 위해 소규모 언어 모델을 전문화하는 선구적인 사례가 되기를 바랍니다. [abs|pdf]

[39/67] TEPI: Taxonomy-aware Embedding and Pseudo-Imaging for Scarcely-labeled Zero-shot Genome Classification

Keywords: zero_shot_learning, taxonomy_aware_embedding, genome_classification_tool
Abstract: 종의 유전자 코드 또는 게놈은 종의 인식, 분류학적 분류, 약물 내성 및 독성과 같은 유전적 소인을 이해하는 데 도움이 되는 귀중한 진화적, 생물학적, 계통학적 정보를 암호화합니다. 그러나 잠재적인 종의 수가 방대하기 때문에 범용 전체 게놈 분류 도구를 개발하는 데는 상당한 어려움이 있습니다. 기존의 생물정보학 도구는 괄목할 만한 발전을 이루었지만 확장성이 부족하고 계산 비용이 많이 듭니다. 머신러닝 기반 프레임워크는 가능성을 보이지만 롱테일 분포를 가진 대규모 분류 어휘의 문제를 해결해야 합니다. 이 연구에서는 TEPI, 분류 인식 임베딩 및 의사 이미징을 사용한 제로 샷 학습을 통해 이 문제를 해결할 것을 제안합니다. 우리는 각 게놈을 의사 이미지로 표현하고 추론과 분류를 위해 분류학 인식 임베딩 공간에 매핑합니다. 이 임베딩 공간은 종의 구성 및 계통학적 관계를 포착하여 광범위한 검색 공간에서 예측을 가능하게 합니다. 두 가지 엄격한 제로 샷 설정을 사용하여 TEPI를 평가하고 선별된 대규모 공개 데이터에 대해 일반화 기능을 정성적으로 입증합니다. [abs|pdf]

[40/67] AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical Attention Network

Keywords: multi_hierarchical_attention, hierarchical_attention_module, attention_network
Abstract: 최근에는 합성 개구면 레이더(SAR) 이미지의 선박 탐지에 딥러닝을 기반으로 한 방법이 성공적으로 적용되고 있습니다. 수많은 선박 감지 방법론이 개발되었음에도 불구하고 해안 환경의 제한된 특징과 복잡성으로 인해 소형 선박 및 연안 선박을 감지하는 것은 여전히 중요한 과제로 남아 있습니다. 이를 위해 복잡한 환경에서도 멀티 스케일 특징을 학습하고 다양한 특징 레이어에서 두드러진 특징을 적응적으로 취합하는 새로운 적응형 다중 계층 주의 모듈(AMAM)을 제안합니다. 구체적으로, 먼저 인접한 피처 레이어의 정보를 융합하여 더 작은 표적의 탐지를 강화함으로써 멀티스케일 피처 향상을 달성합니다. 그런 다음 복잡한 배경의 부작용을 걸러내기 위해 채널에서 이전에 융합된 다단계 특징을 분석하여 두드러진 영역을 개별적으로 발굴하고 다른 채널에서 생성된 특징을 적응적으로 융합합니다. 셋째, 백본 네트워크와 피처 피라미드 네트워크(FPN) 사이에 AMAM을 삽입하여 새로운 적응형 다중 계층 주의 네트워크(AMANet)를 제시합니다. 또한 AMAM은 서로 다른 프레임워크 사이에 쉽게 삽입하여 객체 감지를 개선할 수 있습니다. 마지막으로, 두 개의 대규모 SAR 선박 탐지 데이터 세트에 대한 광범위한 실험을 통해 당사의 AMANet 방법이 최첨단 방법보다 우수하다는 것을 입증했습니다. [abs|pdf]

[41/67] AdCorDA: Classifier Refinement via Adversarial Correction and Domain Adaptation

Keywords: pretrained_classifier_network, adversarial_correction_technique, refining_pretrained_classifier
Abstract: 이 백서에서는 사전 학습된 분류기 네트워크를 개선하는 간단하면서도 효과적인 기법에 대해 설명합니다. 제안된 AdCorDA 방법은 훈련 집합을 수정하고 네트워크 가중치와 레이어 입력 간의 이중성을 활용하는 것을 기반으로 합니다. 이를 입력 공간 훈련이라고 부릅니다. 이 방법은 적대적 보정과 도메인 적응의 두 단계로 구성됩니다. 적대적 보정은 적대적 공격을 사용하여 잘못된 훈련 세트 분류를 수정합니다. 훈련 세트에서 잘못 분류된 샘플을 제거하고 적대적 보정 샘플로 대체하여 새로운 훈련 세트를 구성한 다음, 두 번째 단계에서는 원래의 훈련 세트로 다시 도메인 적응을 수행합니다. 광범위한 실험 검증을 통해 CIFAR-100 데이터 세트에서 정확도가 5% 이상 크게 향상된 것으로 나타났습니다. 이 기법은 가중치 정량화 신경망의 개선에 바로 적용할 수 있으며, 실험 결과 기준선보다 성능이 크게 향상되는 것으로 나타났습니다. 적대적 보정 기법은 또한 적대적 공격에 대한 견고성을 향상시킵니다. [abs|pdf]

[42/67] Boosting the Transferability of Adversarial Examples via Local Mixup and Adaptive Step Size

Keywords: diversity_precise_adversarial, adversarial_images_strengthening, generating_transferable_adversarial
Abstract: 적대적 예시는 다양한 시각 애플리케이션에 대한 중요한 보안 위협 중 하나로, 사람이 인지할 수 없는 섭동이 주입되어 출력에 혼란을 줄 수 있습니다. 블랙박스 환경에서 전송 가능한 적대적 예시를 생성하는 것은 매우 중요하지만 실제로는 어렵습니다. 기존의 입력 다양성 기반 방법은 서로 다른 이미지 변환을 채택하지만, 입력 다양성이 충분하지 않고 섭동 단계 크기가 동일하기 때문에 비효율적일 수 있습니다. 본 논문에서는 이미지 영역마다 분류 가중치가 다르다는 사실에 착안하여 향상된 입력 다양성과 적응형 스텝 크기를 함께 설계하는 블랙박스 적대적 생성 프레임워크를 제안합니다. 변형된 적대 이미지 그룹을 무작위로 혼합하는 로컬 믹스업을 설계하여 입력 다양성을 강화합니다. 정확한 적대적 생성을 위해 경계 제약을 완화하기 위해 섭동을 $탄h$ 공간에 투영합니다. 또한 2차 운동량을 통합하여 서로 다른 영역의 단계 크기를 동적으로 조정할 수 있으며, ImageNet에서의 광범위한 실험을 통해 우리의 프레임워크가 최첨단 기준선에 비해 우수한 전송성을 달성할 수 있음을 검증했습니다. [abs|pdf]

[43/67] MLLMReID: Multimodal Large Language Model-based Person Re-identification

Keywords: person_feature_learning, multimodal_large_language, proposes_mllmreid_multimodal
Abstract: 다중 모드 대규모 언어 모델(MLLM)은 많은 작업에서 만족스러운 결과를 얻었습니다. 그러나 개인 재식별(ReID) 작업에서의 성능은 아직까지 연구되지 않았습니다. 이 백서에서는 대규모 언어 모델을 ReID 작업에 적용하는 방법을 살펴봅니다. 직관적인 아이디어는 ReID 이미지-텍스트 데이터 세트로 MLLM을 미세 조정한 다음 시각적 인코더를 ReID의 백본으로 사용하는 것입니다. 그러나 여전히 두 가지 명백한 문제가 존재합니다. (1) ReID를 위한 인스트럭션을 설계할 때, MLLM이 특정 인스트럭션에 과도하게 적합할 수 있으며, 다양한 인스트럭션을 설계하면 비용이 증가합니다. (2) LLM의 잠재 이미지 특징 벡터는 손실 계산에 관여하지 않습니다. 이미지-텍스트 특징을 정렬하는 명령어 학습은 간접적인 최적화와 특징을 적절히 활용하지 못하는 학습 목표를 초래하여 개인 특징 학습의 효과를 제한합니다. 이러한 문제를 해결하기 위해 본 논문에서는 다중모달 대규모 언어 모델 기반 ReID인 MLLMReID를 제안합니다. 첫째, 복잡하고 다양한 명령어 설계를 지양하고 계속 쓰는 LLM의 본질적인 능력을 활용하는 간단한 접근 방식인 공통 명령어(Common Instruction)를 제안했습니다. 둘째, LLM이 출력한 이미지의 잠재 이미지 특징 벡터를 ReID 작업에 효과적으로 활용하는 DirectReID를 제안했습니다. 실험 결과는 이 방법의 우수성을 입증합니다. 이 코드는 깃허브에 오픈소스로 공개할 예정입니다. [abs|pdf]

[44/67] Catch-Up Mix: Catch-Up Class for Struggling Filters in CNN

Keywords: learning_filters_deprived, slow_learning_filters, image_augmentation
Abstract: 딥러닝은 컴퓨터 비전, 특히 이미지 분류 작업에서 상당한 발전을 이루었습니다. 학습 데이터에 대한 높은 정확도에도 불구하고 딥러닝 모델은 종종 복잡성 및 과적합과 관련된 문제에 직면합니다. 한 가지 주목할 만한 문제는 모델이 예측을 위해 제한된 필터의 하위 집합에 크게 의존하는 경우가 많다는 것입니다. 이러한 의존성으로 인해 일반화가 손상되고 사소한 변화에 대한 취약성이 증가할 수 있습니다. 가중치 감쇄, 드롭아웃, 데이터 증강과 같은 정규화 기법이 이 문제를 해결하기 위해 일반적으로 사용되지만, 특정 필터에 대한 의존도를 직접적으로 해결하지는 못할 수 있습니다. 우리의 관찰 결과, 느린 학습 필터가 빠른 학습 필터로 인해 학습 기회를 박탈당할 때 의존도 문제가 심각해지는 것으로 나타났습니다. 이미지의 일부를 제거하거나 대체함으로써 특정 이미지 영역에 대한 과도한 의존을 방지하는 이미지 증강 연구에서 영감을 얻어, 활성화도가 높은 기능을 대체함으로써 강력한 필터에 대한 과도한 의존 문제를 완화하고자 합니다. 이를 위해 학습 과정에서 다양한 필터에 학습 기회를 제공하여 뒤처질 수 있는 필터에 집중하는 캐치업 믹스(Catch-up Mix)라는 새로운 방법을 제시합니다. 캐치업 믹스는 상대적으로 규범이 낮은 활성화 맵을 혼합함으로써 보다 다양한 표현의 개발을 촉진하고 소수의 필터 하위 집합에 대한 의존도를 줄입니다. 실험 결과는 다양한 비전 분류 데이터 세트에서 이 방법의 우수성을 입증하며 향상된 견고성을 제공합니다. [abs|pdf]

[45/67] AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Keywords: evaluation_llm_agents, benchmarking_agent_performance, evaluating_large_language
Abstract: 범용 에이전트로서 대규모 언어 모델(LLM)을 평가하는 것은 그 기능을 이해하고 실제 애플리케이션에 쉽게 통합하기 위해 필수적입니다. 하지만 평가 과정에는 상당한 어려움이 따릅니다. 특히 부분적으로 관찰 가능한 환경을 유지하고 다각적인 상호작용을 보장하는 데 있어 통합 프레임워크 내에서 다양한 시나리오에 걸쳐 에이전트 성능을 벤치마킹하는 것이 가장 큰 장애물입니다. 게다가 현재의 평가 프레임워크는 대부분 최종 성공률에 초점을 맞추기 때문에 프로세스 중 인사이트가 거의 드러나지 않고 모델 능력에 대한 심층적인 이해를 제공하지 못합니다. 이러한 문제를 해결하기 위해 유니티는 LLM 에이전트의 분석적 평가에 맞춤화된 선구적인 종합 벤치마크이자 오픈소스 평가 프레임워크인 에이전트보드를 도입했습니다. 에이전트보드는 점진적인 발전을 포착하는 세분화된 진행률 메트릭과 대화형 시각화를 통해 다각적인 분석을 위해 에이전트를 쉽게 평가할 수 있는 종합적인 평가 툴킷을 제공합니다. 이를 통해 LLM 에이전트의 역량과 한계를 명확히 파악할 수 있을 뿐만 아니라 에이전트의 성과에 대한 해석 가능성도 높일 수 있습니다. 궁극적으로 에이전트보드는 에이전트 행동을 이해하고 더 강력한 LLM 에이전트 개발을 가속화하는 데 중요한 역할을 합니다. [abs|pdf]

[46/67] Compositional Generative Inverse Design

Keywords: optimization_learned_dynamics, neural_inverse_design, optimization_learned
Abstract: 기본 목적 함수를 최적화하기 위해 입력 변수를 설계하는 역설계는 기계 공학에서 항공 우주 공학에 이르기까지 다양한 분야에서 발생하는 중요한 문제입니다. 역설계는 일반적으로 최적화 문제로 공식화되며, 최근에는 학습된 동역학 모델 전반에서 최적화를 활용하는 연구가 진행되고 있습니다. 하지만 모델이 최적화될수록 적대적 모드에 빠지는 경향이 있어 효과적인 샘플링이 불가능해집니다. 이 글에서는 확산 모델에 의해 포착된 학습된 에너지 함수를 통해 최적화하면 이러한 적대적 예제를 피하고 설계 성능을 크게 향상시킬 수 있음을 설명합니다. 또한 이러한 설계 시스템이 어떻게 구성되는지 설명하여 원하는 시스템의 하위 구성 요소를 나타내는 여러 가지 확산 모델을 결합하여 지정된 모든 구성 요소를 가진 시스템을 설계할 수 있습니다. N-바디 인터랙션 과제와 까다로운 2D 다중익선 설계 과제에서 테스트 시점에 학습된 확산 모델을 구성함으로써 학습 데이터보다 더 복잡한 초기 상태와 경계 형상을 설계할 수 있음을 입증합니다. 우리의 방법은 N-바디 데이터 세트에 대해 최첨단 신경 역설계 방법보다 평균 41.5%의 예측 MAE와 14.3%의 설계 목표를 달성했으며, 다중익선 설계 작업에서 항력을 최소화하는 포메이션 비행을 발견했습니다. 프로젝트 웹사이트와 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[47/67] Time-Aware Knowledge Representations of Dynamic Objects with Multidimensional Persistence

Keywords: time_dimension_knowledge, topological_representation_learning, dimension_knowledge_encoding
Abstract: 다변량 시계열이나 동적 네트워크와 같이 시간에 따라 진화하는 객체를 학습하려면 데이터에 포함된 암묵적인 시간 종속 정보를 포착할 수 있는 새로운 지식 표현 메커니즘과 신경망 아키텍처를 개발해야 합니다. 이러한 정보는 일반적으로 직접 관찰되지는 않지만 학습 과제 수행에 중요한 역할을 합니다. 결과적으로 시간에 따라 달라지는 데이터에 대한 지식 인코딩 메커니즘에 시간 차원이 부족하면 모델을 자주 업데이트해야 하고, 학습 성능이 저하되며, 결과적으로 의사 결정이 제대로 이루어지지 않습니다. 본 논문에서는 여러 기하학적 차원을 따라 암시적인 시간 종속 위상 정보에 초점을 맞춘 시간 인식 지식 표현 메커니즘에 대한 새로운 접근 방식을 제안합니다. 특히, 기존의 단일 매개변수 위상 요약을 사용하여 데이터의 다차원 위상 지문을 생성하는 새로운 접근 방식인 $Temporal MultiPersistence$(TMP)를 제안합니다. TMP의 주요 아이디어는 위상 표현 학습의 두 가지 최신 방향, 즉 여러 주요 매개변수를 따라 데이터 형태의 변화를 동시에 설명하는 다중 지속성과 시간에 따른 가장 두드러진 데이터 형태 정보를 추출할 수 있는 지그재그 지속성을 병합하는 것입니다. 우리는 벤치마크 트래픽 흐름, 이더리움 블록체인, 심전도 데이터 세트에 대한 예측에 적용하여 TMP 벡터화의 이론적 보증을 도출하고 그 유용성을 보여줌으로써 특히 데이터 기록이 제한된 시나리오에서 경쟁력 있는 성능을 입증합니다. 또한, TMP 방식은 최첨단 다중 지속성 요약의 계산 효율성을 최대 59.5배까지 향상시킵니다. [abs|pdf]

[48/67] Visibility into AI Agents

Keywords: visibility_ai_agents, governance_ai_agents, increase_visibility_ai
Abstract: 제한된 감독 하에 복잡한 목표를 추구할 수 있는 시스템인 인공지능 에이전트에게 상업적, 과학적, 정부적, 개인적 활동을 위임하는 사례가 증가하면 기존의 사회적 위험이 악화되고 새로운 위험이 발생할 수 있습니다. 이러한 위험을 이해하고 완화하려면 기존 거버넌스 구조를 비판적으로 평가하고, 필요한 경우 구조를 수정 및 조정하며, 주요 이해관계자의 책임성을 확보해야 합니다. 특정 AI 에이전트가 어디서, 왜, 어떻게, 누구에 의해 사용되는지에 대한 정보, 즉 visibility는 이러한 목표에 매우 중요합니다. 이 백서에서는 AI 에이전트에 대한 가시성을 높이기 위한 세 가지 범주의 조치를 평가합니다: 에이전트 식별자, 실시간 모니터링, 활동 로깅. 각각에 대해 침입성 및 정보성 측면에서 다양한 잠재적 구현 방법을 간략하게 설명합니다. 또한 하드웨어 및 소프트웨어 서비스 제공업체를 포함한 공급망의 다양한 주체들을 고려하여 중앙집중형부터 분산형 배포 환경까지 다양한 스펙트럼에 걸쳐 이러한 조치들이 어떻게 적용되는지 분석합니다. 마지막으로, 이번 조치가 개인정보 보호와 권력 집중에 미치는 영향에 대해 논의합니다. 이러한 조치를 이해하고 부정적인 영향을 완화하기 위한 추가 연구를 통해 AI 에이전트 거버넌스의 기반을 구축하는 데 도움이 될 수 있습니다. [abs|pdf]

[49/67] The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts

Keywords: safety_challenges_multilingual, high_resource_languages, languages_improves_model
Abstract: 대규모 언어 모델(LLM)의 영향력이 전 세계 커뮤니티에 걸쳐 확대됨에 따라 다국어 환경에서의 안전 문제가 얼라인먼트 연구에서 가장 중요한 과제가 되고 있습니다. 이 백서에서는 여러 언어에 걸쳐 LLM이 직면한 다양한 안전 문제를 살펴보고 이러한 문제를 완화하기 위한 접근 방식에 대해 논의합니다. 리소스가 높은 언어와 낮은 언어로 작성된 동일한 악성 프롬프트 세트에 대해 최신 LLM이 어떻게 반응하는지 비교함으로써 (1) 리소스가 낮은 언어로 작성된 악성 프롬프트에 대해 LLM이 안전하지 않은 응답을 훨씬 더 자주 생성하는 경향이 있고, (2) 리소스가 낮은 언어로 작성된 악성 프롬프트에 대해 LLM이 관련 없는 응답을 더 많이 생성하는 경향이 있음을 관찰했습니다. 이러한 불일치의 원인을 파악하기 위해 인간 피드백을 통한 강화 학습(RLHF) 또는 감독형 미세 조정(SFT)을 통한 명령어 튜닝의 효과를 HH-RLHF 데이터 세트에 대해 연구했습니다. 놀랍게도 리소스가 많은 언어로 훈련하면 모델 정렬이 개선되는 반면, 리소스가 적은 언어로 훈련하면 개선 효과가 미미했습니다. 이는 언어 간 정렬의 병목 현상이 사전 훈련 단계에 뿌리를 두고 있음을 시사합니다. 이번 연구 결과는 언어 간 LLM의 안전성에 대한 도전 과제를 강조하며, 향후 이 방향의 연구에 도움이 되기를 바랍니다. [abs|pdf]

[50/67] Sparse identification of nonlinear dynamics in the presence of library and system uncertainty

Keywords: uncertainty_sindy_augmented, augmented_sindy_algorithm, data_augmented_sindy
Abstract: SINDy 알고리즘은 시계열 데이터에서 동적 시스템의 지배 방정식을 식별하는 데 성공적으로 사용되어 왔습니다. 그러나 SINDy는 사용자가 시스템의 변수와 시스템의 기초가 될 수 있는 함수 라이브러리에 대한 사전 지식이 있다고 가정합니다. 이 백서에서는 시스템 변수의 불확실성이 있을 때 증강 SINDy 알고리즘이 SINDy보다 우수한 성능을 발휘하는 방법을 실제 데이터로 시연합니다. 그런 다음 두 가지 종류의 불확실성이 모두 존재할 때 SINDy를 더욱 보강하여 강력한 성능을 발휘할 수 있음을 보여줍니다. [abs|pdf]

[51/67] Gravity-Informed Deep Learning Framework for Predicting Ship Traffic Flow and Invasion Risk of Non-Indigenous Species via Ballast Water Discharge

Keywords: model_forecast_maritime, maritime_shipping_traffic, forecast_maritime_shipping
Abstract: 수역의 침입종은 전 세계적으로 환경과 생물 다양성에 큰 위협이 되고 있습니다. 운송과 무역의 증가로 인해 외래종이 새로운 환경에 유입되어 생태계를 파괴하고 농업, 임업, 수산업에 경제적 손실을 초래하고 있습니다. 따라서 이러한 침입의 영향을 완화하기 위한 위험 평가 및 관리 기술이 절실히 요구되고 있습니다. 이 연구는 물리학에서 영감을 얻은 새로운 모델을 개발하여 해상 운송량을 예측하고, 이를 통해 글로벌 운송 네트워크를 통해 확산되는 외래종의 위험 평가에 정보를 제공하는 것을 목표로 합니다. 국제 무역에 대한 중력 모델에서 영감을 얻은 이 모델은 선박 흐름 밀도, 항구 간 거리, 무역 흐름, 운송 허브의 중심성 측정 등 선박 활동의 가능성과 영향에 영향을 미치는 다양한 요인을 고려합니다. 또한 침입종의 위험 네트워크를 분석하여 한 쌍의 출발지와 도착지가 주어졌을 때 침입 위협 수준을 평가할 수 있는 포괄적인 프레임워크를 제공합니다. 따라서 이 논문에서는 중력 모델에 변환기를 도입하여 위험 분석을 가능하게 하는 장단기 종속성을 재구축합니다. 이를 통해 기존 궤적과 존재하지 않는 궤적에 대해 89%의 세분화 정확도를 달성하고 주요 항만 지역 사이를 이동하는 선박 수에 대해 84.8%의 정확도를 달성하여 기존 심층 중력 모델보다 10% 이상 향상된 물리학에서 영감을 얻은 프레임워크를 소개합니다. 이러한 맥락에서 이 연구는 침입종 위험 평가에 대한 이해를 높이는 데 기여합니다. 이를 통해 정책 입안자, 환경 보호론자, 이해관계자는 고위험 침입 경로를 파악하여 관리 조치의 우선순위를 정할 수 있습니다. 또한, 이 모델은 다목적이며 새로운 데이터 소스를 포함할 수 있어 변화하는 글로벌 환경에서 생물종 침입 위험을 평가하는 데 적합합니다. [abs|pdf]

[52/67] Digital Divides in Scene Recognition: Uncovering Socioeconomic Biases in Deep Learning Systems

Keywords: biases_deep_convolutional, dcnns_scene_classification, bias_computer_vision
Abstract: 컴퓨터 기반 장면 이해는 도시 계획에서 자율 주행 차량 성능에 이르기까지 다양한 분야에 영향을 미쳤지만, 이러한 기술이 사회적 차이에 따라 얼마나 잘 작동하는지에 대해서는 알려진 바가 거의 없습니다. 유니티는 사용자가 제출한 집 사진과 에어비앤비 숙소를 포함해 전 세계와 미국의 약 100만 장의 이미지를 사용해 장면 분류에서 심층 컨볼루션 신경망(dCNN)의 편향성을 조사했습니다. 또한 통계 모델을 적용하여 가족 소득, 인간개발지수(HDI), 공공 데이터 소스(CIA 및 미국 인구조사)의 인구통계학적 요인과 같은 사회경제적 지표가 dCNN 성능에 미치는 영향을 정량화했습니다. 분석 결과, 사전 학습된 dCNN은 특히 사회경제적 지위(SES)가 낮은 가정의 이미지에서 분류 정확도가 낮고 분류 신뢰도가 낮으며 '폐허', '슬럼가' 등 불쾌감을 줄 수 있는 라벨을 지정하는 경향이 높은 것으로 나타나 상당한 사회경제적 편향이 있는 것으로 나타났습니다. 이러한 경향은 두 개의 국제 이미지 데이터 세트와 미국의 다양한 경제적, 인종적 환경에서 일관되게 나타났습니다. 이 연구는 컴퓨터 비전의 편향을 이해하는 데 기여하며, 보다 포괄적이고 대표성을 갖춘 훈련 데이터 세트의 필요성을 강조합니다. 컴퓨터 비전 파이프라인의 편향성을 완화함으로써 주택 가치 평가 및 스마트 홈 보안 시스템 등 컴퓨터 비전을 응용할 때 보다 공정하고 공평한 결과를 보장할 수 있습니다. 도시 개발과 자원 배분에서 중요한 결정에 큰 영향을 미칠 수 있는 이러한 편향성을 해결하는 것이 시급합니다. 또한 이번 연구 결과는 다양한 커뮤니티를 더 잘 이해하고 서비스를 제공하는 AI 시스템 개발에 동기를 부여하여 사회의 모든 부문에 공평하게 혜택을 주는 기술로 나아갈 수 있도록 합니다. [abs|pdf]

[53/67] Towards Trustable Language Models: Investigating Information Quality of Large Language Models

Keywords: mathematical_information_quality, challenges_information_quality, information_quality_challenges
Abstract: 대규모 언어 모델(LLM)이 빠른 속도로 정보를 생성함에 따라 사용자는 점점 더 데이터에 의존하고 신뢰해야 합니다. LLM의 괄목할 만한 발전에도 불구하고 정보 품질의 문제로 인해 LLM에서 생성된 정보를 완전히 신뢰할 수 있는 것은 아닙니다. 특히, LLM의 사전 학습 과정에서 신뢰할 수 없고 편향된 토큰화로 인해 정보 품질의 무결성이 떨어집니다. 또한 정보 품질 저하로 인해 환각, 조작된 정보로 이어지기도 합니다. 신뢰할 수 없는 정보는 비즈니스에서 잘못된 의사 결정으로 이어져 경제 활동에 영향을 미칠 수 있습니다. 이 연구에서는 LLM의 새로운 수학적 정보 품질 평가를 소개하고, 나아가 정보 품질 문제를 분석하고 강조하며, 언어 모델을 체계적으로 확장하기 위한 확장 법칙을 제시합니다. [abs|pdf]

[54/67] IndiText Boost: Text Augmentation for Low Resource India Languages

Keywords: text_augmentation_indian, augmentation_indian_languages, data_augmentation_english
Abstract: 텍스트 증강은 리소스가 부족한 언어에서 중요한 작업입니다. 데이터 부족 문제를 해결하는 데 도움이 됩니다. 데이터 증강 전략은 데이터 부족 문제를 해결하기 위해 사용됩니다. 수년 동안 영어의 데이터 증강에 대한 많은 연구가 진행되었습니다. 반면 인도 언어에 대한 연구는 거의 이루어지지 않았습니다. 이는 데이터 증강이 데이터 부족 문제를 해결하는 데 사용된다는 사실과 상반되는 결과입니다. 이 연구에서는 다양한 언어의 텍스트 분류를 위해 간편한 데이터 증강, 역번역, 의역, LLM을 사용한 텍스트 생성, LLM을 사용한 텍스트 확장과 같은 기술을 구현하는 데 중점을 둡니다. 우리는 6개의 인도 언어에 중점을 둡니다: 신드어, 마라티어, 힌디어, 구자라트어, 텔루구어, 산스크리트어. 우리가 알기로는 인도 언어의 텍스트 증강에 대한 이러한 작업은 존재하지 않습니다. 저희는 결과의 비교 가능성을 높이기 위해 이진 및 다중 클래스 텍스트 분류를 수행합니다. 기본적인 데이터 증강 기술이 LLM을 능가하는 놀라운 결과를 얻었습니다. [abs|pdf]

[55/67] Free Form Medical Visual Question Answering in Radiology

Keywords: visual_question_answering, representation_radiology_images, question_answering_vqa
Abstract: 의료 분야의 시각적 질의응답(VQA)은 컴퓨터 비전, 자연어 처리, 지식 표현과 같은 분야를 결합한 독특한 학제 간 과제를 제시합니다. 그 중요성에도 불구하고 의료용 VQA에 대한 연구는 거의 이루어지지 않았으며, 2018년 이후에서야 탄력을 받고 있습니다. 이러한 격차를 해소하기 위해 유니티는 기존 방법을 뛰어넘는 방사선 이미지의 효과적인 표현과 멀티모달 표현의 공동 학습을 연구하고 있습니다. 유니티는 SLAKE 데이터 세트를 혁신적으로 보강하여 모델이 방사선 또는 병리 이미지의 즉각적인 내용에 국한되지 않고 보다 다양한 질문에 응답할 수 있도록 지원합니다. 이 모델은 덜 복잡한 아키텍처로 79.55%의 최고 정확도를 달성하여 현재의 최첨단 모델과 비슷한 성능을 보여줍니다. 이 연구는 의료용 VQA를 발전시킬 뿐만 아니라 진단 환경에서 실용적으로 적용할 수 있는 길을 열어줍니다. [abs|pdf]

[56/67] Local Background Estimation for Improved Gas Plume Identification in Hyperspectral Images

Keywords: identifying_gas_plumes, hyperspectral_images_urban, gas_plumes
Abstract: 딥러닝 식별 모델은 특히 대규모 가스 라이브러리를 고려할 때 도시 장면의 장파장 적외선 초분광 이미지에서 가스 기둥을 식별할 수 있는 가능성을 보여주었습니다. 많은 가스가 비슷한 스펙트럼 시그니처를 가지고 있기 때문에 감지된 기둥의 신호를 적절히 추정하는 것이 중요합니다. 일반적으로 장면의 전역 평균 스펙트럼과 공분산 행렬은 가스 시그니처에서 배경의 시그니처를 제거하여 플룸의 신호를 희게 추정합니다. 그러나 도시 장면에는 공간적, 스펙트럼적으로 이질적인 다양한 배경 물질이 있을 수 있습니다. 이로 인해 글로벌 배경 추정치가 특정 로컬 배경 물질을 대표하지 못할 경우 식별 성능이 저하될 수 있습니다. 유니티는 반복적인 배경 추정 알고리즘과 함께 이미지 세분화를 사용하여 가스 기둥 아래에 존재하는 다양한 배경 물질에 대한 로컬 추정치를 생성합니다. 이 방법은 시뮬레이션 및 실제 가스 기둥 세트에 대한 글로벌 배경 추정보다 성능이 뛰어납니다. 이 방법은 다양한 기둥을 고려할 때 간단하고 쉽게 조정할 수 있는 동시에 딥러닝 식별 신뢰도를 높일 수 있는 가능성을 보여줍니다. [abs|pdf]

[57/67] TCE at Qur'an QA 2023 Shared Task: Low Resource Enhanced Transformer-based Ensemble Approach for Qur'anic QA

Keywords: transfer_learning_voting, arabic_pre_trained, range_arabic_pre
Abstract: 이 백서에서는 코란 QA 2023의 공유 과제 A와 B를 해결하기 위한 접근 방식을 소개합니다. 리소스가 부족한 훈련 데이터의 문제를 해결하기 위해 전이 학습과 투표 앙상블을 함께 사용하여 여러 번의 실행에서 예측 안정성을 개선합니다. 또한 두 과제 모두에 대해 사전 학습된 다양한 아랍어 트랜스포머 기반 모델에 대해 서로 다른 아키텍처와 학습 메커니즘을 사용합니다. 답변할 수 없는 질문을 식별하기 위해 임계값 메커니즘을 사용할 것을 제안합니다. 최고 성능의 시스템은 숨겨진 분할에 대한 기준 성능을 크게 능가하여 작업 A에서 25.05%의 MAP 점수를, 작업 B에서 57.11%의 부분 평균 정밀도(pAP)를 달성했습니다. [abs|pdf]

[58/67] CIS-UNet: Multi-Class Segmentation of the Aorta in Computed Tomography Angiography via Context-Aware Shifted Window Self-Attention

Keywords: aortic_segmentation_offers, 3d_segmentation_aorta, aortic_segmentation
Abstract: 의료 영상과 혈관 내 이식술의 발전으로 대동맥 질환에 대한 최소 침습적 치료가 가능해졌습니다. 대동맥과 그 가지를 정확하게 3D로 분할하는 것은 중재 치료에 매우 중요한데, 부정확한 분할은 잘못된 수술 계획과 혈관 내 이식재 구성으로 이어질 수 있기 때문입니다. 기존 방법에서는 대동맥 분할을 이진 이미지 분할 문제로 단순화하여 개별 대동맥 분지를 구별해야 할 필요성을 간과했습니다. 이 백서에서는 대동맥과 13개의 대동맥 분지의 다중 클래스 분할을 위해 설계된 딥러닝 모델인 컨텍스트 인퓨즈드 스윈-넷(Context Infused Swin-UNet, CIS-UNet)을 소개합니다. 컨볼루션 신경망(CNN)과 스윈 트랜스포머의 강점을 결합한 CIS-UNet은 CNN 인코더, 대칭 디코더, 스킵 연결로 구성된 계층적 인코더-디코더 구조와 새로운 컨텍스트 인식 시프트 윈도우 셀프 어텐션(CSW-SA)을 병목 블록으로 채택하고 있습니다. 특히, CSW-SA는 기존의 스윈 트랜스포머와는 다른 패치 병합 레이어의 독특한 활용법을 도입했습니다. 이는 특징 맵을 효율적으로 압축하여 글로벌 공간 컨텍스트를 제공하고 병목 계층에 적용할 때 성능을 향상시켜 스윈 트랜스포머에 비해 뛰어난 계산 효율성과 세분화 정확도를 제공합니다. 44명의 환자의 컴퓨터 단층 촬영(CT) 스캔으로 모델을 학습시키고 15명의 환자를 대상으로 테스트했습니다. CIS-UNet은 0.697에 비해 0.713의 우수한 평균 다이스 계수와 3.39mm에 비해 2.78mm의 우수한 평균 표면 거리를 달성함으로써 Swin 트랜스포머만을 기반으로 하는 최첨단 SwinUNetR 분할 모델보다 뛰어난 성능을 보였습니다. CIS-UNet의 우수한 3D 대동맥 분할은 혈관 내 치료 계획을 위한 향상된 정밀도와 최적화를 제공합니다. 데이터 세트와 코드는 공개적으로 사용할 수 있습니다. [abs|pdf]

[59/67] Locality Sensitive Sparse Encoding for Learning World Models Online

Keywords: replay_continual_learning, forgetting_neural_networks, models_learned_online
Abstract: 모델 기반 강화 학습(MBRL)을 위해 온라인에서 정확한 세계 모델을 얻는 것은 데이터의 비정형성으로 인해 어려운 일이며, 이는 일반적으로 신경망(NN)에 치명적인 망각을 유발합니다. 온라인 학습의 관점에서 볼 때, 각 라운드의 모든 이전 경험에 최적으로 부합하는 FTL(Follow-The-Leader) 세계 모델이 바람직합니다. 안타깝게도 NN 기반 모델은 FTL을 달성하기 위해 모든 상호작용 단계에서 축적된 모든 데이터를 재학습해야 하며, 이는 평생 에이전트에게 계산 비용이 많이 드는 문제점이 있습니다. 이 백서에서는 점진적 업데이트를 통해 FTL을 달성할 수 있는 모델을 재검토합니다. 특히, 우리의 세계 모델은 비선형 랜덤 피처가 지원하는 선형 회귀 모델입니다. 선형 부분은 효율적인 FTL 업데이트를 보장하고, 비선형 랜덤 기능은 복잡한 환경에 대한 피팅을 강화합니다. 모델 용량과 계산 효율을 최적으로 조화시키기 위해 지역성에 민감한 스파스 인코딩을 도입하여 매우 높은 차원의 비선형 특징에서도 효율적인 스파스 업데이트를 수행할 수 있습니다. 인코딩의 표현력을 검증하고 데이터 공변량 이동 하에서 효율적인 온라인 학습이 가능하다는 것을 확인합니다. 또한 Dyna MBRL 환경에서 궤적 데이터의 단일 패스를 사용하여 온라인으로 학습한 월드 모델이 리플레이 및 기타 지속적인 학습 방법으로 학습한 딥 월드 모델의 성능을 능가하거나 일치한다는 것을 보여줍니다. [abs|pdf]

[60/67] Theorem Discovery Amongst Cyclic Polygons

Keywords: geometric_theorems, geometric_theorems_cyclic, theorems_cyclic_2n
Abstract: 순환 2n-곤에 대한 기하학적 정리의 종류를 살펴봅니다. 각 쌍이 짝수의 다각형 변으로 구분된 n개의 서로 다른 변 쌍을 취하면, 그 변들 사이의 각도의 선형 조합이 일정하다는 것을 증명합니다. 이 선형 조합에 대한 공식을 제시하고, 그 각도의 관점에서 정리문을 제공합니다. 이 결과를 사용하여 새로운 기하 증명 문제와 그 해를 생성하는 프로그램을 설명합니다. [abs|pdf]

[61/67] PatternPortrait: Draw Me Like One of Your Scribbles

Keywords: portrait_drawings_pictures, portrait_drawings, sketch_stroke_representations
Abstract: 이 백서에서는 사진에서 추상적인 인물 드로잉을 생성하는 프로세스를 소개합니다. 음영을 위한 독특한 패턴을 생성하기 위해 하나의 자유형 패턴 스케치를 참조로 활용하여 독특한 스타일을 만들어냅니다. 이 방법은 이미지에서 얼굴과 신체의 특징을 추출하고 이를 벡터 선으로 변환하는 과정을 거칩니다. 이 연구의 핵심은 벡터 형태의 스케치 획 표현을 학습하여 다양한 획 변형을 생성할 수 있도록 설계된 그래프 신경망 아키텍처를 개발하는 것입니다. 이 두 가지 접근법의 조합은 펜 플로터를 통해 구현되는 재미있는 추상 드로잉을 만들어냅니다. 이 과정은 약 280명의 청중으로부터 긍정적인 피드백을 받았습니다. [abs|pdf]

[62/67] Quantum-Inspired Machine Learning for Molecular Docking

Keywords: docking_algorithms_deep, molecular_docking, docking_quantum_inspired
Abstract: 분자 도킹은 구조 기반 약물 설계를 위한 중요한 도구로, 약물 개발의 효율성을 가속화합니다. 단백질과 저분자 간의 복잡하고 역동적인 결합 과정에는 넓은 공간 범위에서 검색과 샘플링이 필요합니다. 가능한 결합 부위와 형태를 검색하는 기존의 도킹은 계산적으로 복잡하고 블라인드 도킹에서는 결과가 좋지 않습니다. 양자 특성과 어닐링을 결합한 양자 기반 알고리즘은 조합 최적화 문제를 해결하는 데 큰 이점을 보여줍니다. 이에 착안하여 인코딩된 분자 공간에서 딥러닝으로 학습한 그라데이션과 양자 영감을 결합하여 블라인드 도킹을 개선했습니다. 수치 시뮬레이션 결과, 이 방법은 기존 도킹 알고리즘과 딥러닝 기반 알고리즘보다 10% 이상 뛰어난 성능을 보였습니다. 현재 최신 딥러닝 기반 도킹 알고리즘인 DiffDock과 비교했을 때, 동일한 설정에서 Top-1(RMSD<2)의 성공률은 33%에서 35%로 향상되었습니다. 특히 DiffDock에서는 볼 수 없었던 분자 데이터의 고정밀 영역(RMSD<1)에서 6% 개선이 이뤄져, 우리 방법이 일반화되었음을 입증했습니다. [abs|pdf]

[63/67] Evaluating and Enhancing Large Language Models Performance in Domain-specific Medicine: Osteoarthritis Management with DocOA

Keywords: using_osteoarthritis_oa, using_osteoarthritis, domains_using_osteoarthritis
Abstract: 특히 골관절염과 같은 복잡한 질병을 관리하기 위한 도메인별 의학에서 대규모 언어 모델(LLM)의 효능은 아직 거의 밝혀지지 않았습니다. 이 연구는 골관절염(OA) 관리를 사례 연구로 삼아 특정 도메인에서 LLM의 임상 기능을 평가하고 향상시키는 데 중점을 두었습니다. 도메인별 벤치마크 프레임워크가 개발되어 도메인별 지식부터 실제 임상 시나리오에서의 임상 적용에 이르기까지 다양한 스펙트럼에 걸쳐 LLM을 평가했습니다. 검색 증강 생성(RAG)과 명령 프롬프트를 통합하는 OA 관리에 특화된 LLM인 DocOA가 개발되었습니다. 이 연구에서는 객관적 평가와 인적 평가를 통해 GPT-3.5, GPT-4, 전문 어시스턴트인 DocOA의 성능을 비교했습니다. 연구 결과, GPT-3.5 및 GPT-4와 같은 일반 LLM은 특히 개인화된 치료 권장 사항을 제공하는 등 OA 관리의 전문 영역에서 효과가 떨어지는 것으로 나타났습니다. 그러나 DocOA는 상당한 개선을 보였습니다. 이 연구는 다양한 측면에서 LLM의 도메인별 능력을 평가하는 새로운 벤치마크 프레임워크를 소개하고, 임상 상황에서 일반화된 LLM의 한계를 강조하며, 도메인별 의료용 LLM 개발을 위한 맞춤형 접근법의 잠재력을 보여줍니다. [abs|pdf]

[64/67] A Comparison of Veterans with Problematic Opioid Use Identified through Natural Language Processing of Clinical Notes versus Using Diagnostic Codes

Keywords: identifying_problematic_opioid, patients_nlp, identify_patients_opioid
Abstract: 배경: 전자 건강 기록(EHR)은 오피오이드 연구를 위한 데이터 소스입니다. 오피오이드 사용 장애는 진단으로 코드화되지 않는 것으로 알려져 있지만, 문제가 있는 오피오이드 사용은 임상 기록에 기록될 수 있습니다.
목표: 우리의 목표는 1) 전체 임상 노트에서 문제가 있는 오피오이드 사용을 식별하고, 2) 임상 노트에만 기록된 오피오이드 사용 문제가 있는 것으로 확인된 환자의 특성을 ICD 오피오이드 사용 장애 진단 코드가 기록된 환자와 비교하는 것이었습니다.
자료 및 방법: 우리는 오피오이드 사용에 문제가 있는 환자를 식별하기 위해 두 개의 재향군인회 서비스 지역의 환자 코호트(n=222,371)의 임상 기록에 자연어 처리(NLP) 도구를 개발하여 적용했습니다. 또한 동일한 코호트에서 오피오이드 사용 장애가 있는 환자를 식별하기 위해 ICD 진단 코드 세트를 사용했습니다. NLP를 통해서만 식별된 환자의 인구통계학적 및 임상적 특성과 ICD 코드를 통해 식별된 환자의 특성을 비교했습니다.
결과: NLP로만 57,331명의 환자를 식별했으며, 6,997명의 환자가 ICD 코드에서 양성 판정을 받았습니다. NLP로만 식별된 환자는 여성일 가능성이 더 높았습니다. ICD 코드를 통해 식별된 환자들은 남성일 가능성이 더 높았고, 더 젊었으며, 벤조디아제핀을 동시에 처방받았고, 동반 질환이 더 많았고, 의료 서비스를 더 많이 받았으며, 결혼하지 않았을 가능성이 더 낮았습니다. NLP 및 ICD 그룹의 환자들은 오피오이드 사용에 문제가 있는 것으로 기록되지 않은 환자들에 비해 동반 질환 수준이 상당히 높았습니다.
결론: NLP는 ICD 코드에 기록되지 않은 문제성 오피오이드 사용을 식별할 수 있는 실현 가능한 접근 방식입니다. 임상의는 오피오이드 사용 장애를 코드화하는 것을 꺼릴 수 있습니다. 따라서 의료진은 임상 기록 내에서 오피오이드 관련 문서를 검색하는 것이 중요합니다. [abs|pdf]

[65/67] Few-Shot Learning for Chronic Disease Management: Leveraging Large Language Models and Multi-Prompt Engineering with Medical Knowledge Injection

Keywords: developing_personalized_prompts, personalized_prompts, annotating_extensive_training
Abstract: 이 연구는 만성 질환 관리, 특히 사용자가 생성한 텍스트 콘텐츠를 통해 다양한 정신 장애를 감지하는 데 최첨단 AI 기술을 활용합니다. 기존 연구는 일반적으로 완전 지도 머신러닝에 의존하는데, 이는 각 질환에 대한 방대한 훈련 데이터에 주석을 달아야 하는 노동 집약적인 수작업 과정과 각 문제에 대해 특화된 딥러닝 아키텍처를 설계해야 하는 등의 문제를 야기합니다. 이러한 문제를 해결하기 위해 유니티는 대규모 언어 모델과 다중 프롬프트 엔지니어링을 비롯한 고급 AI 기술을 활용하는 새로운 프레임워크를 제안합니다. 특히 데이터 기반 만성 질환 관리의 두 가지 주요 기술적 과제, 즉 (1) 각 사용자의 고유성을 나타내는 개인화된 프롬프트 개발과 (2) 만성 질환 감지를 위한 컨텍스트를 제공하고 학습 목표를 지시하며 예측 목표를 운영하기 위해 프롬프트에 의학 지식을 통합하는 문제를 해결합니다. 전 세계적으로 널리 퍼져 있는 만성 질환인 네 가지 정신 질환을 연구 사례로 삼아 방법을 평가합니다. 우울증 감지 과제에서 우리의 방법(F1 = 0.9750.978)은 기능 공학(F1 = 0.760) 및 아키텍처 공학(F1 = 0.756)을 포함한 기존의 지도 학습 패러다임보다 훨씬 뛰어난 성능을 보였습니다. 한편, 우리의 접근 방식은 사용자가 생성한 텍스트 콘텐츠(예: 2개, 10개 또는 100개의 피사체)를 기반으로 만성 질환을 감지하는 데 최소한의 훈련 예제만 필요한 소수 학습에서도 성공적임을 입증했습니다. 또한, 거식증, 병적 도박, 자해 등 다른 정신 장애 감지 작업에도 일반화할 수 있습니다(F1 = 0.9190.978). [abs|pdf]

[66/67] Crowdsourced Adaptive Surveys

Keywords: crowdsourced_adaptive_survey, public_opinion_surveys, opinion_surveys
Abstract: 여론조사는 민주적 의사결정에 정보를 제공하는 데 필수적이지만, 급변하는 정보 환경에 대응하고 틈새 커뮤니티 내의 신념을 측정하는 것은 전통적인 설문조사 방법으로는 어려울 수 있습니다. 이 백서에서는 자연어 처리와 적응형 알고리즘의 발전을 결합하여 사용자 입력에 따라 진화하는 질문 은행을 생성하는 크라우드소싱 적응형 설문조사 방법론(CSAS)을 소개합니다. CSAS 방식은 참가자가 제공한 개방형 텍스트를 리커트식 항목으로 변환하고, 다중 무장 밴디트 알고리즘을 적용하여 설문조사에서 우선순위를 정해야 하는 사용자 제공 질문을 결정합니다. 이 방법의 적응형 특성 덕분에 새로운 설문조사 질문을 탐색할 수 있으며 설문조사 길이에 최소한의 비용만 부과합니다. 라틴계 정보 환경과 이슈의 중요성 영역에 대한 적용 사례는 표준 접근 방식으로는 추적하기 어려운 클레임이나 이슈를 식별할 수 있는 CSAS의 능력을 보여줍니다. 마지막으로 참여자가 생성한 콘텐츠가 여론에 대한 이해를 높일 수 있는 주제를 연구하는 데 있어 이 방법의 잠재력에 대해 논의하며 글을 마무리합니다. [abs|pdf]

[67/67] Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding

Keywords: mechanics_examination_involves, questions_domain_mechanical, mechanics_examination
Abstract: 이 연구는 역학에 중점을 둔 기계공학 영역의 개념적 문제를 해결하는 데 있어 대규모 언어 모델(LLM)의 능력을 조사하기 위한 선구적인 노력입니다. 이 시험은 유체 역학, 기계 진동, 공학 정역학 및 동역학, 재료 역학, 탄성 이론, 연속체 역학 등 역학 과목의 다양한 측면을 아우르는 126개의 객관식 문제로 구성된 수작업으로 제작된 시험으로 구성됩니다. 기계공학 배경이 있는 학생과 없는 학생을 대상으로 ChatGPT(GPT-3.5), ChatGPT(GPT-4), Claude(Claude-2.1)를 포함한 세 가지 LLM을 평가했습니다. 그 결과, 연속체 역학을 제외한 다양한 역학 주제에 대한 질문에 답하는 데 있어 GPT-4가 다른 두 인공지능과 인간 집단에 비해 우수한 성능을 보였습니다. 이는 기호 계산과 텐서 분석을 처리하는 데 있어 GPT 모델이 향후 개선될 가능성이 있음을 시사합니다. 직접 답변에 앞서 설명이 제시된 경우 LLM의 성능이 모두 크게 향상되어 신속한 엔지니어링의 중요한 역할을 강조했습니다. 흥미롭게도 GPT-3.5는 더 넓은 영역을 다루는 프롬프트에서 향상된 성능을 보인 반면, GPT-4는 특정 주제에 초점을 맞춘 프롬프트에서 뛰어난 성능을 보였습니다. 마지막으로, GPT-4는 사람의 선호도 추측에서 알 수 있듯이 입력 편향성을 완화하는 데 있어 주목할 만한 발전을 보였습니다. 이 연구는 기계 교육학 및 과학 연구 분야에서 고도로 지식이 풍부한 조력자로서 LLM의 상당한 잠재력을 보여줍니다. [abs|pdf]