프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-04]

다각 2024. 1. 4. 16:54

[1/55] Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes

Keywords: stationary_markov_decision, markov_decision_processes, markov_decision
Abstract: 순차적 의사 결정의 근본적인(그리고 대부분 열려 있는) 문제는 외생적 환경 조건이 시간에 따라 변하는 비고정적 환경을 다루는 것입니다. 이러한 문제는 전통적으로 비고정 마르코프 의사 결정 과정(NSMDP)으로 모델링됩니다. 그러나 NSMDP에서 의사결정을 위한 기존의 접근 방식에는 두 가지 큰 단점이 있습니다. 첫째, 현재 시점의 업데이트된 환경 역학이 알려져 있다고 가정한다는 점(미래의 역학은 변할 수 있음), 둘째, 환경의 비고정적 진화를 설명하기 위해 에이전트가 '안전하게' 행동한다는 점 등 크게 비관적인 계획이 존재한다는 점입니다. 우리는 이 두 가지 가정이 실제로는 유효하지 않다고 주장합니다. 업데이트된 환경 조건은 거의 알려지지 않았으며 에이전트가 환경과 상호 작용함에 따라 업데이트된 역학에 대해 학습하고 적어도 역학에 대해 확신하는 상태에서는 비관적 인 행동을 피할 수 있습니다. 이 글에서는 이러한 문제를 해결할 수 있는 휴리스틱 검색 알고리즘인 적응형 몬테카를로 트리 검색(ADA-MCTS)을 소개합니다. 우리는 에이전트가 시간이 지남에 따라 환경의 업데이트된 역학을 학습한 다음 학습한 대로 행동할 수 있음을 보여줍니다. 즉, 에이전트가 업데이트된 지식을 가진 상태 공간의 영역에 있다면 비관적인 판단을 피할 수 있습니다. '업데이트된 지식'을 정량화하기 위해 에이전트의 업데이트된 신념에 대한 경험적 불확실성과 인식적 불확실성을 분해하고 에이전트가 이러한 추정치를 의사 결정에 사용할 수 있는 방법을 보여줍니다. 잘 정립된 여러 오픈 소스 문제에 대한 의사 결정에서 제안된 접근 방식을 여러 최신 접근 방식과 비교하고, 우리의 접근 방식이 안전성을 희생하지 않으면서도 더 빠르고 적응력이 뛰어나다는 것을 경험적으로 보여줍니다. [abs|pdf]

[2/55] NODEC: Neural ODE For Optimal Control of Unknown Dynamical Systems

Keywords: nodec_learns_dynamics, learns_dynamics_optimal, learns_dynamics
Abstract: 복잡한 동역학 시스템을 제어하는 것은 일반적으로 미분적분학 프레임워크에서 알려진 동역학으로 특정 제어 목표를 최소화하는 것과 관련이 있습니다. 동역학을 알 수 없는 시스템의 경우 동역학 모델링의 추가 단계가 필요합니다. 그러나 동역학 모델링의 부정확성은 결과 제어 함수의 차선책으로 이어집니다. 미지의 동적 시스템을 제어하기 위한 또 다른 접근 방식인 강화 학습은 환경과 광범위하게 상호 작용하여 값 함수 근사치 또는 정책 그라데이션을 통해 동적 모델링을 제어기 학습에 통합하지만 데이터 효율성이 낮다는 단점이 있습니다. 이러한 문제를 해결하기 위해 유니티는 미지의 동적 시스템을 제어하기 위한 새로운 프레임워크인 NODEC을 도입하여 동역학 모델링과 결합된 신경 ODE 모델을 사용한 컨트롤러 트레이닝을 결합했습니다. 두 개의 결합 신경망 사이의 흥미로운 상호 작용을 통해 NODEC은 시스템 동역학을 학습하고 미지의 동역학 시스템을 목표 상태로 안내하는 최적의 제어를 학습합니다. 실험을 통해 미지의 동역학 시스템의 최적 제어를 학습하는 데 있어 NODEC의 효과와 데이터 효율성을 입증합니다. [abs|pdf]

[3/55] Large Language Models Relearn Removed Concepts

Keywords: pruned_concepts_editing, editing_neuron_pruning, model_editing_neuron
Abstract: 뉴런 가지치기를 통한 모델 편집의 발전은 대규모 언어 모델에서 바람직하지 않은 개념을 제거할 수 있는 가능성을 제시합니다. 그러나 모델이 편집 후 가지치기된 개념을 다시 습득할 수 있는 능력이 있는지는 아직 불분명합니다. 이를 조사하기 위해 재학습 중 가지치기된 뉴런에서 개념의 중요도와 유사성을 추적하여 모델의 개념 재학습을 평가합니다. 연구 결과, 고급 개념을 이전 계층으로 재배치하고 가지치기된 개념을 유사한 의미를 가진 프라이밍된 뉴런에 재할당함으로써 모델이 가지치기 후 빠르게 성능을 회복할 수 있다는 사실이 밝혀졌습니다. 이는 모델이 다의적 능력을 발휘하며 개별 뉴런에서 오래된 개념과 새로운 개념을 혼합할 수 있음을 보여줍니다. 뉴런 가지치기는 모델 개념에 대한 해석 가능성을 제공하지만, 우리의 결과는 개선된 모델 safety를 위해 영구적인 개념 제거의 과제를 강조합니다. 개념의 재등장을 모니터링하고 안전하지 않은 개념의 재학습을 완화하는 기술을 개발하는 것은 보다 강력한 모델 편집을 위한 중요한 방향이 될 것입니다. 전반적으로 우리의 연구는 개념 제거 후 LLM에서 개념 표현의 복원력과 유동성을 강력하게 보여줍니다. [abs|pdf]

[4/55] A Novel Paradigm for Neural Computation: X-Net with Learnable Neurons and Adaptable Structure

Keywords: neural_network, neural_network_called, novel_neural_network
Abstract: 인공 신경망(ANN)은 생물 정보학에서 금융 분석에 이르기까지 다양한 학문 영역에 침투하여 현대 과학 연구 활동에서 없어서는 안 될 필수 요소로 자리 잡았습니다. 그러나 기존 신경망의 내재적 한계는 상대적으로 고정된 네트워크 구조와 활성화 기능으로 인해 발생합니다. 1, 활성화 기능의 유형이 단일하고 상대적으로 고정되어 네트워크의 "단위 표현 능력"이 떨어지고 매우 복잡한 네트워크의 간단한 문제를 해결하는 데 자주 사용됩니다. 2, 네트워크 구조가 적응력이없고 네트워크 구조가 중복되거나 불충분하기 쉽습니다. 앞서 언급한 문제를 해결하기 위해 본 연구에서는 X-Net이라는 새로운 신경망을 제안합니다. X-Net은 설계된 교대 역전파 메커니즘을 활용하여 훈련 중에 파생 정보를 기반으로 적절한 활성화 함수를 동적으로 선택함으로써 특정 작업에 대한 네트워크의 표현 능력을 향상시킵니다. 동시에 뉴런 수준에서 네트워크 구조를 정확하게 조정하여 다양한 복잡성의 작업을 수용하고 계산 비용을 절감합니다. 일련의 실험을 통해 모델 크기 감소와 표현력 향상이라는 측면에서 X-Net의 두 가지 장점을 입증했습니다. 특히 매개변수 수 측면에서 볼 때, X-Net은 평균적으로 기준선의 3%에 불과하며, 일부 작업에서는 1.4%에 불과합니다. 표현 능력의 경우, X-Net은 파라미터를 도입하지 않고 활성화 함수를 최적화하는 것만으로도 피팅 작업에서 평균 R^2=0.985를 달성할 수 있습니다. 마지막으로 사회, 에너지, 환경, 항공우주 등 다양한 분야의 데이터에 대한 과학적 발견을 지원하는 X-Net의 능력도 테스트한 결과, 간결하고 좋은 결과를 얻었습니다. [abs|pdf]

[5/55] A Generative AI Assistant to Accelerate Cloud Migration

Keywords: cloud_migration, cloud_cloud_migration, right_cloud_migration
Abstract: 제너레이티브 AI를 활용하여 온프레미스 애플리케이션을 클라우드로 빠르게 마이그레이션할 수 있는 도구를 소개합니다. 클라우드 마이그레이션 LLM은 마이그레이션의 매개변수를 지정하는 사용자의 입력을 받아 아키텍처 다이어그램과 함께 마이그레이션 전략을 출력합니다. 사용자 연구에 따르면 마이그레이션 LLM은 경험이 없는 사용자가 수동 접근 방식의 복잡성을 피하면서 올바른 클라우드 마이그레이션 프로필을 찾는 데 도움을 줄 수 있다고 합니다. [abs|pdf]

[6/55] A Cybersecurity Risk Analysis Framework for Systems with Artificial Intelligence Components

Keywords: artificial_intelligence_risk, intelligence_risk_management, cybersecurity_risk_analysis
Abstract: 유럽연합 인공지능법, NIST 인공지능 위험 관리 프레임워크 및 관련 규범의 도입으로 인공지능 구성 요소가 있는 시스템을 평가하기 위한 새로운 위험 분석 접근법에 대한 더 나은 이해와 구현이 요구되고 있습니다. 이 백서에서는 이러한 시스템을 평가하는 데 도움이 될 수 있는 사이버 보안 위험 분석 프레임워크를 제공합니다. 여기서는 자율 주행 시스템에 관한 예시를 사용합니다. [abs|pdf]

[7/55] Can AI Be as Creative as Humans?

Keywords: creativity_ai_models, statistical_creativity_ai, creativity_ai
Abstract: 창의성은 사회 발전과 혁신의 초석이 되지만, 그 평가는 여전히 복잡하고 종종 주관적인 노력으로 남아 있습니다. 인간의 창의력으로만 가능했던 작업을 수행할 수 있는 고급 생성형 AI 모델이 등장하면서 AI의 창의적 잠재력을 연구하는 것은 책임감 있는 개발과 적용을 위해 필수적인 요소가 되었습니다. 이 백서에서는 상대적 창의성이라는 새로운 개념을 도입하여 창의성을 정의하고 평가하는 데 따르는 복잡성을 해결합니다. 창의성을 보편적으로 정의하는 대신 AI가 가상의 인간의 창의적 능력에 맞출 수 있는지 여부에 초점을 맞춥니다. 이러한 관점은 튜링 테스트에서 영감을 얻어 창의성 평가에 내재된 도전과 주관성을 해결하기 위해 확장된 것입니다. 이러한 방법론적 전환은 통계적 창의성이라는 용어로 불리는 AI의 창의성을 통계적으로 정량화할 수 있는 평가를 용이하게 합니다. 이러한 접근 방식을 통해 AI의 창의력을 특정 인간 집단과 직접 비교할 수 있습니다. 이러한 토대를 바탕으로 현대의 조건부 자동 회귀 모델에서 통계적 창의성의 적용에 대해 논의합니다. 또한 창의성 측정을 정의하고 분석하는 것 외에도 실행 가능한 훈련 지침을 소개하여 창의성의 이론적 정량화와 실제 모델 훈련 사이의 간극을 효과적으로 메웁니다. 이러한 다각적인 기여를 통해 이 논문은 AI 모델의 통계적 창의성을 평가하고 육성하기 위한 응집력 있고 지속적으로 진화하며 혁신적인 프레임워크를 구축합니다. [abs|pdf]

[8/55] Large Language Model Capabilities in Perioperative Risk Prediction and Prognostication

Keywords: prediction_tasks, predict_post_operative, prediction_tasks_universally
Abstract: GPT-4 Turbo와 같은 일반 도메인 대규모 언어 모델이 전자 의료 기록에서 추출한 수술 설명과 환자의 임상 노트를 사용하여 위험 계층화를 수행하고 수술 후 결과 측정을 예측할 수 있는지 조사합니다. ASA 신체 상태 분류 예측, 병원 입원, 중환자실 입원, 계획되지 않은 입원, 병원 사망률, 중환자실 1단계 입원 기간, 병원 입원 기간, 중환자실 입원 기간 등 8가지 작업에 대한 예측 성능을 조사합니다. 단발성 및 연쇄적 프롬프트는 여러 작업에 대한 예측 성능을 향상시킵니다. ASA 신체 상태 분류에서는 0.50점, 중환자실 입원에서는 0.81점, 병원 사망률에서는 0.86점의 F1 점수를 달성했습니다. 지속 시간 예측 작업의 성능은 모든 프롬프트 전략에서 전반적으로 저조했습니다. 현 세대의 대규모 언어 모델은 임상의가 수술 전후 위험 분류 작업을 할 때 고품질의 자연어 요약 및 설명을 생성할 수 있도록 지원합니다. [abs|pdf]

[9/55] MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries

Keywords: summaries_multimodal_strategy, summaries_multimodal, detailed_summaries_multimodal
Abstract: 의료 분야에서 환자가 제기하는 의학적 질문을 요약하는 것은 의사-환자 간 상호작용과 의료 의사 결정을 개선하는 데 매우 중요합니다. 의료 데이터의 복잡성과 양이 증가하고 있지만, 현재 이 분야의 연구는 주로 텍스트 기반 방식에 집중되어 있어 시각적 단서의 통합을 간과하고 있습니다. 또한 의료 질문 요약 분야의 기존 연구는 영어에 국한되어 있었습니다. 이 연구에서는 리소스가 부족한 환경에서 코드 혼합 입력을 위한 멀티모달 의료 질문 요약 작업을 소개합니다. 이러한 격차를 해소하기 위해 힌디어-영어 코드혼합 의료 질문과 시각적 보조 자료를 결합한 멀티모달 의료 코드혼합 질문 요약 MMCQS 데이터셋을 소개합니다. 이러한 통합은 환자의 의학적 상태를 더욱 풍부하게 표현하여 보다 포괄적인 관점을 제공합니다. 또한 이러한 작업을 위해 LLM과 VLM의 기능을 활용하는 MedSumm이라는 프레임워크를 제안합니다. By utilizing our MMCQS dataset, we demonstrate the value of integrating visual information from images to improve the creation of medically detailed summaries. 이러한 멀티모달 전략은 의료 의사결정을 개선할 뿐만 아니라 환자 질문에 대한 심층적인 이해를 촉진하여 향후 개인화되고 반응이 빠른 의료 서비스를 탐색할 수 있는 길을 열어줍니다. 데이터 세트, 코드, 사전 학습된 모델은 공개적으로 사용할 수 있습니다. [abs|pdf]

[10/55] Outlier Ranking in Large-Scale Public Health Streams

Keywords: important_outliers, outlier_detection_metrics, distinguish_important_outliers
Abstract: 질병 관리 전문가들은 매일 공중 보건 데이터 스트림에서 데이터 품질 문제나 질병 발생에 해당하는 등 조사할 가치가 있는 이상값이 있는지 검사합니다. 하지만 대규모 공중보건 데이터 스트림에 적용된 단변량 이상값 탐지 방법으로 반환된 수천 개의 최대결합 이상값 중 일부만 검사할 수 있습니다. 전문가가 수천 개의 묶여 있는 이상값 중에서 가장 중요한 이상값을 구별할 수 있도록, 우리는 알고리즘이 각 스트림에 적용된 단변량 방법의 출력에 순위를 매기는 새로운 작업을 제안합니다. 계층적 네트워크와 극값 분석을 활용하는 새로운 알고리즘은 공중 보건 데이터 스트림을 사용한 전문가 평가에서 기존의 이상값 탐지 메트릭을 능가하는 최고의 성능을 보였습니다. 가장 중요한 것은 전문가들이 2023년 4월부터 오픈 소스 Python 구현을 사용해 왔으며, 조사할 가치가 있는 이상값을 이전 기준보다 9.1배 더 빠르게 식별했다고 보고했다는 점입니다. 다른 조직에서도 이 구현을 쉽게 적용하여 대규모 스트림에 대한 맞춤형 단변량 방법의 결과로부터 순위를 생성할 수 있습니다. [abs|pdf]

[11/55] SwapTransformer: highway overtaking tactical planner model via imitation learning on OSHA dataset

Keywords: overtaking_simulated_highways, taking_slower_vehicles, automatic_overtaking
Abstract: 이 논문은 고속도로 시나리오에서 차선 변경 및 다른 저속 차량 추월과 관련된 고차원적인 의사 결정 문제를 조사합니다. 특히 고속도로에서 자동 추월 및 차선 변경을 위한 트래블 어시스트 기능을 개선하는 것을 목표로 합니다. 차선 이미지와 기타 동적 객체를 포함한 약 900만 개의 샘플이 시뮬레이션에서 수집됩니다. 이러한 문제를 해결하기 위해 오버테이크 온 시뮬레이트드 하이웨이(OSHA) 데이터셋을 공개합니다. 이 문제를 해결하기 위해 스왑트랜스포머라는 아키텍처가 설계되어 OSHA 데이터 세트에 모방 학습 방식으로 구현되었습니다. 또한 모델이 주변 환경을 더 잘 이해할 수 있도록 미래 지점 및 자동차 거리 네트워크 예측과 같은 보조 작업을 제안합니다. 제안된 솔루션의 성능은 시뮬레이션 환경에서 다층 퍼셉트론(MLP) 및 다중 헤드 자기 주의 네트워크와 기준선으로 비교됩니다. 또한 보조 작업이 있는 경우와 없는 경우의 모델 성능도 보여줍니다. 모든 모델은 각 랩을 완료하는 데 걸리는 시간, 추월 횟수, 제한 속도와의 속도 차이 등 다양한 메트릭을 기준으로 평가됩니다. 평가 결과, 추론 단계의 다양한 트래픽 밀도에서 SwapTransformer 모델이 다른 모델보다 우수한 성능을 보이는 것으로 나타났습니다. [abs|pdf]

[12/55] Step length measurement in the wild using FMCW radar

Keywords: monitoring_step_length, step_length_measurement, gait_speed_analysis
Abstract: 인구 고령화에 따라 노인이 제자리에서 나이 들 수 있도록 다양한 보조 및 모니터링 기술이 개발되고 있습니다. 낙상, 입원 등의 위험 요인을 예측하고 조기 개입을 제공하는 것은 고령자가 제자리에서 나이 듦을 촉진하는 데 중요합니다. 위험 예측을 위한 주변 환경 모니터링에 대한 대부분의 연구는 레이더와 같은 개인정보 보호 센서를 활용한 보행 속도 분석에 집중되어 있습니다. 보행 속도 외에도 걸음 길이를 모니터링하는 것이 위험 예측에 중요하다는 강력한 증거가 있음에도 불구하고, 레이더 기반 방법은 가정에서 걸음 길이를 측정하는 방법을 모색하지 않았습니다. 또한, 레이더를 이용한 걸음 수 측정에 대한 실험실 실험은 소수의 건강한 피험자를 대상으로 한 개념 증명 연구로 제한되어 있습니다. 이러한 격차를 해소하기 위해 레이더 포인트 클라우드를 사용한 탐지 및 추적에 이어 몸통의 도플러 속도 프로파일링을 통해 가정 내 걸음 수를 구하는 레이더 기반 걸음 수 측정 시스템을 제안합니다. 제안된 방법은 35명의 허약한 노인을 대상으로 임상 환경에서 평가하여 그 유효성을 입증했습니다. 또한 임상 평가에 참여한 21명의 허약한 노인을 대상으로 일반 가정에서도 이 방법을 평가했습니다. 제안된 레이더 기반 걸음걸이 길이 측정 방법을 표준 제노 워크웨이 보행 분석 시스템과 비교한 결과, 임상 환경에서 4.5cm/8.3%의 오차가 있는 것으로 나타났습니다. 또한 통제되지 않은 가정 환경에서 뛰어난 신뢰도(ICC(2,k)=0.91, 95% CI 0.82~0.96)를 보여주었습니다. 또한 이 방법은 통제되지 않은 가정 환경에서도 정확성이 입증되었는데, 이는 가정 내 측정과 병원 내 평가 간의 높은 일치도(ICC(3,k)=0.81 (95% CI 0.53~0.92))에서 알 수 있습니다. [abs|pdf]

[13/55] Multilingual Instruction Tuning With Just a Pinch of Multilinguality

Keywords: multilinguality_instruction_tuning, multilingual_instruction_tuned, instruction_tuning_multilingual
Abstract: 명령어 튜닝된 대규모 언어 모델(LLM)이 전 세계적으로 채택됨에 따라 여러 언어로 된 명령어를 따르는 능력이 점점 더 중요해지고 있습니다. 한 가지 유망한 접근 방식은 언어 간 전이인데, 이는 모델이 다른 언어에 대한 미세 조정을 통해 특정 언어에 대한 특정 기능을 획득하는 것입니다. 이 연구에서는 다국어 LLM의 명령어 튜닝 중 다국어화가 언어 간 명령어 추종에 어떤 영향을 미치는지 조사합니다. 먼저 많은 언어가 단일 언어 튜닝에서도 일부 명령어 추종 기능을 다른 언어로 이전한다는 것을 보여줍니다. 또한 영어 튜닝 세트에 포함된 40개의 다국어 예제만으로도 튜닝 중 보이는 언어와 보이지 않는 언어 모두에서 다국어 명령어 추종 능력이 크게 향상된다는 사실을 발견했습니다. 일반적으로 다국어 혼합으로 튜닝된 모델은 단일 언어로 튜닝된 모델에 비해 10배나 적은 수의 언어 예제로 훈련했음에도 불구하고 여러 언어에서 비슷하거나 더 우수한 성능을 보이는 것으로 나타났습니다. 마지막으로, 명령어 튜닝 세트의 언어 수를 1개에서 2개, 3개, 4개로 늘리면 언어 간 일반화가 증가한다는 사실을 발견했습니다. 이러한 결과는 매우 적은 수의 다국어 명령어 응답 세트만으로 대규모 다국어 명령어 튜닝 모델을 구축할 수 있음을 시사합니다. [abs|pdf]

[14/55] The Power of Training: How Different Neural Network Setups Influence the Energy Demand

Keywords: hardware_fuels_training, sustainable_machine_learning, experiments_pretraining_multitask
Abstract: 이 연구는 머신러닝 훈련 체계와 학습 패러다임의 변화가 에너지 소비에 미치는 영향을 조사합니다. 데이터 가용성의 증가와 고성능 하드웨어의 혁신은 정교한 모델의 학습을 촉진하는 한편, 에너지 소비와 탄소 배출에 대한 인식이 희미해지는 것을 뒷받침하기도 합니다. 따라서 이 연구의 목표는 배치 크기에 따른 학습 속도부터 지식 전달에 이르기까지 일반적인 학습 매개변수 및 프로세스의 에너지 영향에 대한 인식을 제고하는 것입니다. 서로 다른 하이퍼파라미터 초기화를 사용한 여러 설정을 두 가지 하드웨어 구성에서 평가하여 의미 있는 결과를 얻었습니다. 지속 가능한 머신 러닝에 대한 잠재력을 파악하기 위해 사전 훈련 및 멀티태스크 훈련에 대한 실험을 기준선 결과 위에 수행합니다. [abs|pdf]

[15/55] Investigating Semi-Supervised Learning Algorithms in Text Datasets

Keywords: semi_supervised_learning, training_datasets_enhances, augmentation_effective_text
Abstract: 대규모 훈련 데이터 세트를 사용하면 신경망의 일반화 기능이 향상됩니다. 준지도 학습(SSL)은 레이블이 지정된 데이터는 적고 레이블이 지정되지 않은 데이터가 많을 때 유용합니다. 데이터 증강을 사용하는 SSL 방법은 이미지 데이터 세트에 가장 효과적입니다. 반면, 텍스트는 이미지처럼 일관된 증강 방법이 없습니다. 따라서 증강을 사용하는 방법은 이미지 데이터에서만큼 텍스트 데이터에서 효과적이지 않습니다. 이 연구에서는 증강이 필요 없는 SSL 알고리즘인 자가 학습, 공동 학습, 삼중 학습, 불일치 학습을 비교했습니다. 실험에서는 서로 다른 작업에 대해 4가지 텍스트 데이터 세트를 사용했습니다. 실험 질문을 통해 다양한 관점에서 알고리즘을 검토하고 몇 가지 개선 사항을 제안했습니다. 알고리즘 중에서는 불일치 트라이 트레이닝이 오라클에 가장 근접한 성능을 보였으나, 성능 격차가 커서 새로운 준지도 알고리즘이나 기존 방법의 개선이 필요한 것으로 나타났습니다. [abs|pdf]

[16/55] Concurrent Brainstorming & Hypothesis Satisfying: An Iterative Framework for Enhanced Retrieval-Augmented Generation (R2CBR3H-SR)

Keywords: brainstorming_expedite_retrieval, intelligent_retrieval, intelligent_retrieval_systems
Abstract: 포괄적인 정보 검색의 복잡성을 해결하기 위해 이 연구에서는 혁신적인 반복 검색 증강 생성 시스템을 소개합니다. 이 접근 방식은 벡터 공간 기반의 순위 변경 메커니즘과 동시 브레인스토밍을 독특하게 통합하여 관련성이 높은 문서를 신속하게 검색함으로써 잠재적인 쿼리 생성을 간소화합니다. 이는 일련의 사고 기반 프롬프트 기법을 활용하여 가설 수립과 만족스러운 의사결정 전략을 결합하여 콘텐츠의 적절성을 결정하는 시너지 효과를 내는 새로운 하이브리드 프로세스의 발판을 마련합니다. 이 통합된 가설 수립-만족 단계에서는 정보를 지능적으로 추출하여 사용자 문의가 만족스럽게 해결되었는지 여부를 확인합니다. 이 기준에 도달하면 시스템은 결과를 간결한 표현으로 정제하여 장황함을 최소화하면서 개념 밀도를 극대화합니다. 워크플로우의 반복적인 특성은 프로세스 효율성과 정확성을 향상시킵니다. 결정적으로, 브레인스토밍 단계에서의 동시성은 재귀적 작업을 크게 가속화하여 솔루션 만족도를 높이기 위한 신속한 수렴을 촉진합니다. 기존 방식에 비해 계산 시간과 비용 효율성이 현저히 개선된 것으로 나타났습니다. 이 연구는 지능형 검색 시스템의 최첨단 기술을 발전시켜 지식 집약적인 애플리케이션에서 리소스 효율적인 정보 추출 및 추상화를 위한 새로운 기준을 제시합니다. [abs|pdf]

[17/55] Iterative Mask Filling: An Effective Text Augmentation Method Using Masked Language Modeling

Keywords: text_augmentation, text_augmentation_method, novel_text_augmentation
Abstract: 데이터 증강은 머신러닝 모델의 성능을 개선하는 데 효과적인 기술입니다. 그러나 자연어 처리(NLP)에서는 컴퓨터 비전만큼 광범위하게 연구되지 않았습니다. 이 백서에서는 트랜스포머 기반 BERT 모델의 채우기 마스크 기능을 활용하는 새로운 텍스트 증강 방법을 제안합니다. 이 방법은 문장의 단어를 반복적으로 마스킹하고 이를 언어 모델 예측으로 대체하는 방식입니다. 다양한 자연어 처리 작업에서 제안한 방법을 테스트한 결과 많은 경우에서 효과적인 것으로 나타났습니다. 그 결과를 기존 증강 방법과의 비교와 함께 제시합니다. 실험 결과에 따르면 제안한 방법은 특히 주제 분류 데이터 세트에서 성능이 크게 향상되는 것으로 나타났습니다. [abs|pdf]

[18/55] A quatum inspired neural network for geometric modeling

Keywords: geometric_tensor_networks, tensor_networks_widely, tensor_networks
Abstract: 물리 시스템을 3D 다체점 구름으로 생각함으로써, SE(3)/E(3) 등가 GNN과 같은 기하학적 그래프 신경망(GNN)이 유망한 성능을 보여줬습니다. 특히 효과적인 메시지 전달 메커니즘을 통해 분자와 결정성 물질을 모델링하는 데 능숙합니다. 하지만 현재의 기하학적 GNN은 2체 메시지 전달로 캡슐화된 다체 시스템의 평균장 근사치만 제공하기 때문에 이러한 기하학적 그래프 내의 복잡한 관계를 포착하는 데는 부족합니다. 이러한 한계를 극복하기 위해 계산 물리학에서 고차 텐서를 사용해 다물체 시스템을 처리하는 텐서 네트워크가 널리 사용되고 있습니다. 하지만 이러한 텐서 네트워크를 GNN의 메시지 전달 프레임워크에 통합하는 것은 확장성과 대칭성 보존(예: 순열 및 회전) 문제에 직면해 있습니다. 이에 대응하기 위해 유니티는 텐서 수축 연산을 효율적으로 구현하는 혁신적인 등변량 행렬 곱 상태(MPS) 기반 메시지 전달 전략을 도입했습니다. 이 방법은 복잡한 다체 관계를 효과적으로 모델링하여 평균장 근사치를 억제하고 기하학적 그래프 내에서 대칭성을 포착합니다. 중요한 점은 기하학적 GNN에 내재된 표준 메시지 전달 및 레이어 집계 모듈을 원활하게 대체한다는 것입니다. 우리는 고전 뉴턴 시스템과 양자 텐서 해밀턴 행렬을 예측하는 등 벤치마크 작업에서 우리 접근법의 뛰어난 정확도를 경험적으로 검증했습니다. 우리가 아는 한, 이 접근 방식은 매개변수화된 기하 텐서 네트워크의 첫 번째 활용 사례입니다. [abs|pdf]

[19/55] CoMoSVC: Consistency Model-based Singing Voice Conversion

Keywords: voice_conversion_svc, singing_voice_conversion, voice_conversion
Abstract: 확산 기반 싱잉 보이스 변환(SVC) 방식은 목표 음색과 유사도가 높은 자연스러운 오디오를 생성하여 놀라운 성능을 달성했습니다. 하지만 반복적인 샘플링 과정으로 인해 추론 속도가 느려져 가속화가 중요해졌습니다. 본 논문에서는 고품질 생성 및 고속 샘플링을 동시에 달성하기 위한 일관성 모델 기반 SVC 방법인 CoMoSVC를 제안합니다. 먼저 확산 기반 교사 모델을 SVC를 위해 특별히 설계하고, 학생 모델을 자체 일관성 속성에 따라 추가로 증류하여 원스텝 샘플링을 달성합니다. 단일 NVIDIA GTX4090 GPU를 사용한 실험 결과, CoMoSVC는 최신 확산 기반 SVC 시스템보다 추론 속도가 훨씬 빠르지만 주관적 및 객관적 지표 모두에서 비슷하거나 더 우수한 변환 성능을 달성하는 것으로 나타났습니다. 오디오 샘플과 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[20/55] Deep learning the Hurst parameter of linear fractional processes and assessing its reliability

Keywords: lstm_network_hurst, networks_estimating_hurst, estimating_hurst_parameter
Abstract: 이 연구는 분수 확률 프로세스에서 허스트 파라미터를 추정하기 위한 딥러닝, 특히 장단기 기억(LSTM) 네트워크의 신뢰성을 탐구합니다. 이 연구는 세 가지 유형의 프로세스, 즉 분수형 브라운 운동(fBm), 분수형 온슈타인-울렌벡(fOU) 프로세스, 선형 분수형 안정 운동(lfsm)에 초점을 맞춥니다. 이 작업에는 대량의 데이터에 대해 가능한 한 빠른 시간 내에 LSTM 네트워크를 훈련하기 위해 fBm 및 fOU에 대한 광범위한 데이터 세트를 빠르게 생성하는 것이 포함됩니다. 이 연구는 RMSE, MAE, MRE, 절대 및 상대 오차의 사분위수 등 다양한 성능 지표와 관련하여 LSTM 네트워크의 허스트 파라미터 추정 정확도를 분석합니다. 그 결과, LSTM은 fBm 및 fOU 프로세스의 경우 기존 통계적 방법보다 성능이 뛰어나지만, lfsm 프로세스에서는 정확도가 제한적이라는 것을 발견했습니다. 이 연구는 또한 훈련 길이와 평가 시퀀스 길이가 LSTM의 성능에 미치는 영향에 대해 자세히 살펴봅니다. 이 방법론은 리튬 이온 배터리 성능 저하 데이터에서 허스트 파라미터를 추정하고 그 추정에 대한 신뢰 구간을 구하는 방식으로 적용됩니다. 이 연구는 딥러닝 방법이 부분 프로세스의 매개변수 추정에서 가능성을 보이지만, 그 효과는 프로세스 유형과 학습 데이터의 품질에 따라 달라진다는 결론을 내립니다. [abs|pdf]

[21/55] Applications of machine learning and IoT for Outdoor Air Pollution Monitoring and Prediction: A Systematic Literature Review

Keywords: air_pollution_prediction, iot_outdoor_air, pollution_prediction
Abstract: 세계보건기구(WHO)에 따르면 대기오염으로 인해 매년 700만 명이 사망하고 있습니다. 실외 대기 오염은 저소득, 중산층, 고소득 국가에 영향을 미치는 주요 환경 보건 문제입니다. 지난 몇 년 동안 연구 커뮤니티는 실외 공기 오염 예측을 위한 IoT 기반 머신러닝 애플리케이션을 연구해 왔습니다. 이 백서의 일반적인 목적은 실외 공기 오염 예측을 위한 머신러닝과 사물인터넷(IoT)의 적용과 사용되는 모니터링 센서 및 입력 기능의 조합을 체계적으로 검토하는 것입니다. 이 검토를 위해 두 가지 연구 질문이 공식화되었습니다. 초기 PRISMA 단계에서 1086개의 논문이 수집되었습니다. 선별 및 적격성 단계를 거쳐 37개의 논문이 포함되도록 선정되었습니다. 연구 결과에 대한 비용 기반 분석을 수행하여 고비용 모니터링, 저비용 IoT 및 하이브리드 지원 예측을 강조했습니다. 시계열, 특징 기반, 시공간적 예측의 세 가지 예측 방법이 확인되었습니다. 이 리뷰의 연구 결과는 적용 범위의 부족, 데이터의 다양성 부족, 상황별 특징의 미포함 등 문헌에서 발견되는 애플리케이션의 주요 한계를 확인했습니다. 이 리뷰는 향후 연구 방향을 제시하고 의료, 도시 계획, 글로벌 시너지 및 스마트 시티에 대한 실질적인 시사점을 강조합니다. [abs|pdf]

[22/55] Incremental FastPitch: Chunk-based High Quality Text to Speech

Keywords: speech_synthesis, time_speech_synthesis, speech_synthesis_offer
Abstract: 병렬 텍스트 음성 변환 모델은 실시간 음성 합성에 널리 적용되어 왔으며, 기존의 자동 회귀 모델에 비해 더 많은 제어 가능성과 훨씬 빠른 합성 프로세스를 제공합니다. 병렬 모델은 여러 측면에서 장점이 있지만, 트랜스포머와 같은 완전 병렬 아키텍처로 인해 자연스레 증분 합성에는 적합하지 않게 됩니다. 이 연구에서는 청크 기반 FFT 블록으로 아키텍처를 개선하고, 수용 필드 제약 청크 주의 마스크를 사용한 훈련과 고정 크기의 과거 모델 상태를 사용한 추론을 통해 고품질의 멜 청크를 점진적으로 생성할 수 있는 새로운 FastPitch 변형인 증분형 FastPitch를 제안합니다. 실험 결과에 따르면 이 제안은 병렬 FastPitch에 필적하는 음성 품질을 생성할 수 있으며, 지연 시간이 현저히 낮아 실시간 음성 애플리케이션의 응답 시간을 더욱 단축할 수 있습니다. [abs|pdf]

[23/55] Using AI/ML to Find and Remediate Enterprise Secrets in Code & Document Sharing Platforms

Keywords: remediating_secrets_code, remediating_secrets, secrets_code_popular
Abstract: 소프트웨어 개발 커뮤니티에 새로운 도전 과제를 소개합니다. 1) AI를 활용하여 코드와 개발자가 자주 사용하는 인기 있는 문서 공유 플랫폼(예: Confluence)의 비밀을 정확하게 탐지하고 표시하는 것, 2) 탐지된 내용을 자동으로 수정하는 것(예: 암호 저장소 기능 제안)입니다. 이는 까다로운 작업이지만 대부분 해결되지 않은 문제입니다. 기존의 방법은 휴리스틱과 정규식을 활용하는데, 이는 매우 노이즈가 많아서 개발자의 수고를 가중시킬 수 있습니다. 다음 단계인 코드 자체를 수정하여 탐지를 자동으로 수정하는 작업은 복잡한 작업입니다. 저희는 탐지 성능이 우수한 두 가지 기본 AI 모델을 소개하고 코드에서 발견된 비밀을 자동으로 수정하는 메커니즘을 제안하여 더 많은 커뮤니티가 이 작업을 연구할 수 있도록 개방합니다. [abs|pdf]

[24/55] Task and Explanation Network

Keywords: explainability_deep_networks, task_explanation_network, explainability_deep
Abstract: 최근 몇 년 동안 딥 네트워크의 설명 가능성은 점점 더 중요해지고 있습니다. 이 글에서는 인공지능에게 작업뿐만 아니라 그 작업이 왜 그렇게 수행되었는지에 대한 설명도 함께 제공해야 한다고 주장합니다. 우리는 작업 완료와 그 설명을 완전히 통합하는 기본 프레임워크인 작업 및 설명 네트워크(TENet)를 제시합니다. 우리는 AI 분야 전체가 설명 가능성을 매우 강조해야 한다고 믿습니다. [abs|pdf]

[25/55] Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices

Keywords: modern_deep_learning, decentralized_training_efficiently, asynchronous_decentralized_training
Abstract: 점점 더 커지고 복잡해지는 최신 딥러닝 모델은 방대한 데이터 세트에 대한 학습을 통해 탁월한 일반화와 정확성을 입증했습니다. 이러한 추세는 계속될 것으로 예상됩니다. 그러나 이러한 모델의 규모가 커짐에 따라 기존의 중앙 집중식 방식은 이러한 규모의 메모리 제약으로 인해 훈련에 어려움을 겪고 있습니다. 이 백서에서는 인터넷을 통해 연결된 제한된 리소스를 가진 일반 이기종 PC의 컴퓨팅 성능을 활용하여 유리한 성능 지표를 달성하는 대규모 최신 딥러닝 모델을 위한 비동기식 분산형 훈련 패러다임을 제안합니다. 레이브네스트는 각 노드가 전체 모델을 호스팅할 필요 없이 컴퓨팅 노드를 비슷한 데이터 전송 속도와 연산 능력을 갖춘 클러스터로 효율적으로 구성하여 분산형 트레이닝을 촉진합니다. 이러한 클러스터는 Zero-Bubble 비동기 모델 병렬 훈련에 참여하며, 모든 클러스터에서 글로벌 파라미터 평균을 효과적으로 실행하기 위해 병렬 다중 링 전체 감소 방법을 사용합니다. 비동기 SGD 손실 함수를 지연 업데이트가 있는 블록 구조의 최적화 문제로 구성하고 최적 수렴율을 도출했습니다. 또한, 참여 클러스터의 수와 스테이렌스 매개변수의 한계에 따른 선형 속도 향상에 대해 논의합니다. [abs|pdf]

[26/55] Deep Automated Mechanism Design for Integrating Ad Auction and Allocation in Feed

Keywords: ad_auction_allocation, ad_auction_determines, auction_determines_ad
Abstract: 이커머스 플랫폼은 일반적으로 각 사용자의 페이지 조회 요청에 대한 응답으로 여러 가지 오가닉 아이템과 광고가 혼합된 주문 목록을 표시합니다. 광고 경매 및 할당 프로세스의 결과인 이 목록은 플랫폼의 광고 수익과 총 상품 거래량(GMV)에 직접적인 영향을 미칩니다. 구체적으로 광고 경매는 표시되는 광고와 그에 상응하는 대가를 결정하고, 광고 할당은 광고와 오가닉 아이템의 표시 위치를 결정합니다. 광고 경매와 할당을 두 단계로 분리하는 일반적인 방식은 1) 광고 경매는 실제 디스플레이 위치와 문맥이 광고 클릭률(CTR)에 미치는 영향과 같은 외부효과를 고려하지 않으며, 2) 경매에서 낙찰된 광고의 대가를 활용하여 디스플레이 위치를 동적으로 결정하는 광고 할당은 광고의 인센티브 호환성(IC)을 유지하지 못한다는 두 가지 문제에 직면합니다. 예를 들어, 기존의 GSP(일반화된 두 번째 가격)를 사용하는 경매 단계에서는 낙찰된 광고의 입찰가가 높아지더라도 해당 광고의 결제 금액은 변경되지 않습니다. 이는 해당 광고가 더 나은 위치를 확보할 수 없음을 의미하며, 따라서 후속 광고 할당 단계에서 더 높은 효용을 달성할 기회를 잃게 됩니다. 기존 연구에서는 종종 두 단계 중 하나에 초점을 맞춰 두 단계 문제를 간과하여 차선의 결과를 초래할 수 있습니다... [abs|pdf]

[27/55] AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI

Keywords: video_generation_tasks, video_generation, variety_video_generation
Abstract: 급성장하고 있는 인공 지능 생성 콘텐츠(AIGC) 분야는 특히 비디오 생성 분야에서 빠른 발전을 보이고 있습니다. 이 백서에서는 이미지-투-비디오(I2V) 생성에 중점을 두고 다양한 비디오 생성 작업을 평가하도록 설계된 포괄적이고 확장 가능한 선구적인 벤치마크인 AIGCBench를 소개합니다. AIGCBench는 다양한 데이터 세트가 부족한 기존 벤치마크의 한계를 극복하기 위해 다양한 오픈 도메인 이미지-텍스트 데이터 세트를 포함함으로써 동일한 조건에서 다양한 최신 알고리즘을 평가합니다. 새로운 텍스트 결합기와 GPT-4를 사용하여 리치 텍스트 프롬프트를 생성한 다음, 고급 텍스트-이미지 모델을 통해 이미지를 생성하는 데 사용합니다. 비디오 생성 작업에 대한 통합된 평가 프레임워크를 구축하기 위해 벤치마크에는 알고리즘 성능을 평가하기 위한 4개 차원에 걸친 11개 지표가 포함되어 있습니다. 이러한 차원은 제어 비디오 정렬, 모션 효과, 시간적 일관성 및 비디오 품질입니다. 이러한 지표는 레퍼런스 비디오에 의존적이기도 하고 비디오에 의존적이지 않기도 하므로 포괄적인 평가 전략을 보장합니다. 제안된 평가 기준은 사람의 판단과 잘 맞아떨어지며, 현재 I2V 알고리즘의 장단점에 대한 인사이트를 제공합니다. 광범위한 실험을 통해 얻은 결과는 I2V 분야의 연구 개발을 촉진하는 것을 목표로 합니다. AIGCBench는 광범위한 AIGC 환경을 위한 표준화된 벤치마크를 만들기 위한 중요한 단계로, 향후 비디오 생성 작업의 평가를 위한 적응 가능하고 공평한 프레임워크를 제안합니다. [abs|pdf]

[28/55] Synthetic Data in AI: Challenges, Applications, and Ethical Implications

Keywords: synthetic_datasets_increasingly, synthetic_datasets, associated_synthetic_datasets
Abstract: 빠르게 진화하는 인공지능 분야에서 합성 데이터 세트의 생성 및 활용은 점점 더 중요해지고 있습니다. 이 보고서에서는 합성 데이터의 다각적인 측면을 살펴보고, 특히 이러한 데이터 세트에 잠재된 편견과 도전과제를 강조합니다. 또한 전통적인 통계 모델부터 고급 딥러닝 기법에 이르기까지 합성 데이터 생성의 방법론을 살펴보고, 다양한 영역에 걸쳐 합성 데이터의 적용 사례를 살펴봅니다. 이 보고서는 또한 합성 데이터 세트와 관련된 윤리적 고려사항과 법적 영향을 비판적으로 다루며, AI 개발에서 공정성을 보장하고 편견을 완화하며 윤리적 기준을 유지하기 위한 메커니즘이 시급히 필요하다는 점을 강조합니다. [abs|pdf]

[29/55] On the Expressive Power of Graph Neural Networks

Keywords: graph_neural_networks, graph_neural, gnn_architectures
Abstract: 그래프 신경망에 대한 연구는 지난 몇 년 동안 상당한 관심을 받아왔습니다. 딥러닝을 그래프 구조의 데이터로 확장함으로써 GNN은 사회과학, 화학, 의학 등의 분야에서 다양한 작업을 해결할 수 있습니다. GNN 아키텍처의 개발은 주로 노드 또는 그래프 분류와 같은 작업에서 경험적 성능을 개선하는 데 중점을 두었습니다. 그러나 최근의 일련의 연구들은 그 대신 바람직한 이론적 속성을 가진 GNN 아키텍처를 찾고자 하며, 그 표현력을 연구하고 이러한 표현력을 극대화하는 아키텍처를 설계하고자 합니다.
GNN의 표현력을 정의하는 가장 좋은 방법에 대한 합의는 없지만, 몇 가지 동기 부여가 되는 관점에서 볼 수 있습니다. 아마도 가장 자연스러운 접근 방식은 MLP에 대해 광범위하게 연구되어 온 것처럼 GNN의 보편적인 근사화 속성을 연구하는 것입니다. 또 다른 방향은 그래프 동형성 테스트와 연관시켜 GNN이 서로 다른 그래프 구조를 구별할 수 있는 정도에 초점을 맞추는 것입니다. 또한, 그래프 모멘트와 같은 그래프 속성을 계산하는 GNN의 능력도 표현력의 또 다른 형태로 제시되고 있습니다. 이러한 다양한 정의는 모두 상호보완적이며, GNN 아키텍처 선택에 대한 다양한 권장 사항을 도출했습니다. 이 백서에서는 GNN의 "표현력" 개념에 대한 개요를 살펴보고, GNN의 설계 선택에 관한 몇 가지 중요한 인사이트를 제공하고자 합니다. [abs|pdf]

[30/55] GPT-4V(ision) is a Generalist Web Agent, if Grounded

Keywords: generalist_web_agent, large_multimodal_models, development_large_multimodal
Abstract: 최근 대형 멀티모달 모델(LMM), 특히 GPT-4V(ision) 및 Gemini가 개발되면서 이미지 캡션 및 시각적 질문 답변과 같은 전통적인 작업을 넘어 멀티모달 모델의 기능 경계가 빠르게 확장되고 있습니다. 이 연구에서는 자연어 지시에 따라 특정 웹 사이트에서 작업을 완료할 수 있는 제너럴리스트 웹 에이전트로서 GPT-4V와 같은 LMM의 잠재력을 살펴봅니다. 웹에서 통합된 시각적 이해와 행동을 위해 LMM의 힘을 활용하는 제너럴리스트 웹 에이전트인 SEEACT를 제안합니다. 최신 MIND2WEB 벤치마크를 통해 평가합니다. 캐시된 웹 사이트에 대한 표준 오프라인 평가 외에도 라이브 웹 사이트에서 웹 에이전트를 실행할 수 있는 도구를 개발하여 새로운 온라인 평가 설정을 지원합니다. 웹 에이전트의 텍스트 계획을 웹사이트의 액션으로 수동으로 실행하면 라이브 웹사이트의 작업 중 50%를 성공적으로 완료할 수 있는 것으로 나타나 웹 에이전트의 잠재력이 매우 크다는 것을 보여주었습니다. 이는 웹 에이전트용으로 특별히 미세 조정된 GPT-4 또는 그보다 작은 모델(FLAN-T5 및 BLIP-2)과 같은 텍스트 전용 LLM의 성능을 크게 뛰어넘는 것입니다. 하지만 그라운딩은 여전히 주요 과제로 남아 있습니다. 세트 오브 마크 프롬프트와 같은 기존의 LMM 접지 전략은 웹 에이전트에는 효과적이지 않은 것으로 밝혀졌으며, 이 백서에서 개발한 최상의 접지 전략은 HTML 텍스트와 비주얼을 모두 활용합니다. 하지만 여전히 오라클 그라운딩과 상당한 격차가 있어 개선의 여지가 많이 남아 있습니다. [abs|pdf]

[31/55] PLLaMa: An Open-source Large Language Model for Plant Science

Keywords: plants_agriculture_pllama, improves_understanding_plant, plant_scientists_agricultural
Abstract: 대규모 언어 모델(LLM)은 다양한 분야에서 자연어를 이해하고 상호 작용하는 데 놀라운 능력을 보여 왔습니다. 하지만 식물 과학과 같이 높은 정확도가 요구되는 전문 분야에서는 해당 분야에 대한 전문 지식이 부족하기 때문에 그 효과가 제한적입니다. 이 백서에서는 LLaMa-2에서 발전한 오픈소스 언어 모델인 PLLaMa를 소개합니다. 식물 과학 분야의 150만 개 이상의 학술 논문으로 구성된 포괄적인 데이터베이스로 강화되었습니다. 이러한 개발로 식물 및 농업 과학에 대한 광범위한 지식과 숙련도를 갖춘 PLLaMa가 크게 강화되었습니다. 식물 및 농업과 관련된 특정 데이터 세트를 대상으로 한 초기 테스트 결과, PLLaMa는 식물 과학 관련 주제에 대한 이해도를 크게 향상시킨 것으로 나타났습니다. 또한 저희는 식물 과학자, 농업 엔지니어, 식물 육종가 등 국제적인 전문가 패널을 구성했습니다. 이 팀은 다양한 학술적 문의에 대한 PLLaMa의 답변의 정확성을 검증하여 현장에서 효과적이고 신뢰할 수 있는 적용을 보장하는 데 중요한 역할을 합니다. 추가 연구 개발을 지원하기 위해 과학계에서 모델의 체크포인트와 소스 코드를 이용할 수 있도록 공개했습니다. 이러한 리소스는 url에서 다운로드할 수 있습니다. [abs|pdf]

[32/55] Adversarial Machine Learning-Enabled Anonymization of OpenWiFi Data

Keywords: ai_data_anonymization, synthetic_data_disguises, disguises_actual_data
Abstract: 익명화를 통한 데이터 프라이버시 및 보호는 네트워크 운영자나 데이터 소유자가 데이터를 다른 용도로 사용하기 전에 반드시 고려해야 할 중요한 문제입니다. 인공지능(AI)의 도입으로 데이터 익명화는 필요한 민감한 정보를 은폐할 가능성을 높이고 데이터 유출과 정보 손실을 방지합니다. 개방형 Wi-Fi 네트워크는 데이터 소유자가 보유한 지식과 관계없이 트래픽에 대한 액세스 권한이나 지식을 얻으려는 모든 공격자에게 취약합니다. 실제 트래픽 정보를 발견할 확률은 조건부 표 생성 적대적 네트워크(CTGAN)를 적용하여 해결됩니다. CTGAN은 실제 데이터로 위장하지만 실제 데이터의 숨겨진 급상승 정보를 찾아내는 합성 데이터를 생성합니다. 이 백서에서는 실제 데이터와 합성 데이터의 유사성 평가를 클러스터링 알고리즘 측면에서 살펴본 후 비지도 클러스터 검증 지표의 성능을 비교합니다. 잘 알려진 알고리즘인 K-평균은 실제 데이터에 대한 합성 데이터의 유사성 평가 측면에서 다른 알고리즘을 능가하는 성능을 보였으며, 실루엣, 칼린스키, 하라바즈, 데이비스 볼딘 메트릭과 각각 0.634, 23714.57, 0.598로 가장 가까운 점수를 기록했습니다. 여러 알고리즘 간의 검증 점수 비교 분석을 활용하면, K-평균은 실제 데이터를 대체하는 동시에 합성 데이터를 명시적으로 사용할 수 있는 비지도 클러스터링 알고리즘의 전형을 형성합니다. 따라서 실험 결과는 익명화된 데이터를 게시하는 대신 CTGAN이 생성한 합성 데이터를 사용하여 다양한 애플리케이션에 활용할 수 있는 가능성을 보여주는 것을 목표로 합니다. [abs|pdf]

[33/55] The Art of Deception: Robust Backdoor Attack using Dynamic Stacking of Triggers

Keywords: deceive_speech_recognition, dynamic_backdoor_attacks, backdoor_attacks
Abstract: 최근 AI(인공 지능) 산업의 발전으로 인해 서비스형 머신 러닝(MLaaS) 영역의 구현이 증가하고 있습니다. 그러나 이러한 급증으로 인해 AI 방어 메커니즘, 특히 완전히 신뢰할 수 없는 타사 제공업체의 잠재적인 은밀한 공격에 대한 우려가 커지고 있습니다. 최근 연구에 따르면 청각적 백도어는 특정 변형을 시작 메커니즘으로 사용할 수 있다는 사실이 밝혀졌습니다. 손상된 샘플을 깨끗한 샘플과 구별할 수 없도록 교묘하게 설계된 조정을 사용하는 동적 백도어 공격을 수행하는 방법론으로 DynamicTrigger가 소개되었습니다. 변동하는 신호 샘플링 속도를 활용하고 동적 사운드 트리거(예: 손뼉 치는 소리)를 통해 화자의 신원을 마스킹함으로써 음성 인식 시스템(ASR)을 속일 수 있습니다. 저희의 경험적 테스트에 따르면 DynamicTrigger는 강력하면서도 은밀하여 은밀한 공격에서 인상적인 성공률을 달성하는 동시에 오염되지 않은 데이터 세트에서 뛰어난 정확도를 유지하는 것으로 나타났습니다. [abs|pdf]

[34/55] GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse

Keywords: online_abuse_memes, abuse_memes_evaluating, negative_impact_memes
Abstract: 소셜 미디어의 기하급수적인 성장은 정보의 생성, 전파, 흡수 방식을 크게 변화시켰으며, 이는 디지털 시대의 그 어떤 전례도 뛰어넘는 수준입니다. 안타깝게도 이러한 폭발적인 성장과 함께 온라인에서 밈을 악용하는 사례도 크게 증가했습니다. 밈은 명백한 텍스트와 이미지를 통해 직접적으로 전달되지 않는 미묘하고 암시적인 의미를 내포하는 경우가 많기 때문에 밈의 부정적인 영향을 평가하는 것은 매우 어려운 일입니다. 이에 따라 다양한 멀티모달 작업을 처리할 수 있는 뛰어난 성능으로 인해 대형 멀티모달 모델(LMM)이 관심의 초점으로 떠오르고 있습니다. 이러한 추세에 발맞춰 본 논문에서는 밈에 나타난 사회적 악용의 미묘한 측면을 식별하고 이에 대응하는 다양한 LMM(예: GPT-4V)의 능력을 면밀히 검토하고자 합니다. 암묵적인 혐오 발언, 성차별, 사이버 괴롭힘 등의 주제를 담고 있는 6천 개 이상의 다양한 밈으로 구성된 종합적인 밈 벤치마크인 GOAT-Bench를 소개합니다. GOAT-Bench를 활용하여 혐오, 여성 혐오, 공격성, 풍자, 유해 콘텐츠를 정확하게 평가할 수 있는 LMM의 능력을 탐구합니다. 다양한 LMM에 대한 광범위한 실험을 통해 현재 모델들은 여전히 안전에 대한 인식이 부족하여 다양한 형태의 암묵적 학대에 무감각한 것으로 나타났습니다. 이러한 부족함이 안전한 인공지능을 실현하는 데 있어 중대한 장애물이라고 생각합니다. GOAT-Bench와 함께 제공되는 리소스는 이 https URL에서 공개적으로 액세스할 수 있으며, 이 중요한 분야의 지속적인 연구에 기여하고 있습니다. [abs|pdf]

[35/55] Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review

Keywords: like_text_generation, text_generation_offering, text_generation
Abstract: 이 백서에서는 심리학 응용 분야에서 대규모 언어 모델(LLM)의 경계를 탐구합니다. 심리학은 여러 가지 이론적 변화를 겪어 왔으며, 현재 인공 지능(AI)과 머신 러닝, 특히 LLM의 사용은 새로운 연구 방향을 열어줄 것으로 기대됩니다. ChatGPT와 같은 LLM이 심리학 연구를 어떻게 변화시키고 있는지 자세히 살펴봅니다. 인지 및 행동, 임상 및 상담, 교육 및 발달, 사회 및 문화 심리학 등 다양한 심리학 분야에 걸쳐 LLM이 미치는 영향에 대해 논의하고, 인간의 인지 및 행동의 측면을 시뮬레이션할 수 있는 잠재력을 강조합니다. 이 논문은 인간과 유사한 텍스트 생성을 모방하는 이러한 모델의 기능을 탐구하여 문헌 검토, 가설 생성, 실험 설계, 실험 대상, 데이터 분석, 학술 글쓰기 및 심리학 분야의 동료 검토를 위한 혁신적인 도구를 제공합니다. 이 논문은 인공 지능이 심리학 연구 방법론을 발전시키는 데 필수적이지만, 기술 및 윤리적 문제에 대해서도 경고합니다. 데이터 프라이버시, 심리학 연구에서 LLM을 사용할 때의 윤리적 영향, 이러한 모델의 한계에 대한 심층적인 이해의 필요성 등의 문제가 있습니다. 연구자는 윤리적 기준을 준수하고 민감한 영역에 이러한 기술을 배포할 때 발생할 수 있는 잠재적 결과를 고려하여 심리학 연구에서 책임감 있게 LLM을 사용해야 합니다. 이 글은 전반적으로 심리학에서 LLM의 현재 상태에 대한 포괄적인 개요를 제공하고 잠재적인 이점과 과제를 살펴봅니다. 이 글은 연구자들이 책임감 있게 LLL의 장점을 활용하는 동시에 관련 위험에 대처할 수 있도록 행동 지침을 제시합니다. [abs|pdf]

[36/55] From Pixel to Slide image: Polarization Modality-based Pathological Diagnosis Using Representation Learning

Keywords: feature_representations_image, pathology_structure_recognition, learning_feature_representations
Abstract: 갑상선암은 가장 흔한 내분비계 악성 종양으로, 임상에서 효과적인 치료 계획을 수립하려면 갑상선 양성 종양과 악성 종양을 정확하게 구분하는 것이 중요합니다. 병리학적으로 갑상선 종양은 부적절한 검체 채취로 인해 진단에 어려움을 겪습니다. 이 연구에서는 갑상선 종양을 구별하기 위해 픽셀 수준과 슬라이스 수준의 주석을 통합하는 표현 학습을 사용하여 3단계 모델을 설계했습니다. 이 구조는 갑상선 종양과 관련된 구조를 예측하는 병리 구조 인식 방법, 이미지 블록의 특징 표현을 학습하여 픽셀 수준의 주석 정보를 추출하는 인코더-디코더 네트워크, 그리고 최종 분류 작업을 위한 주의 기반 학습 메커니즘으로 구성됩니다. 이 메커니즘은 각 블록의 정보를 종합적으로 고려하여 병리 영역에서 서로 다른 이미지 블록의 중요도를 학습합니다. 세 번째 단계에서는 주의 메커니즘을 사용하여 영역 내 이미지 블록의 모든 정보를 취합한 후 분류를 통해 영역의 범주를 결정합니다. 실험 결과는 제안한 방법이 미세한 구조를 더 정확하게 예측할 수 있음을 보여줍니다. 색상 코딩 후, 이 방법은 염색되지 않은 병리 슬라이드에서 헤마톡실린과 에오신 염색의 품질에 근접한 결과를 얻을 수 있어 염색된 병리 슬라이드의 필요성을 줄여줍니다. 또한 간접 측정 개념을 활용하고 병변과 연관된 구조에서 편광 특징을 추출함으로써 제안된 방법은 샘플링을 통해 막 구조를 얻을 수 없는 샘플도 분류할 수 있어 갑상선 종양에 대한 객관적이고 정확도가 높은 간접 진단 기법을 제공할 수 있습니다. [abs|pdf]

[37/55] Free Lunch for Federated Remote Sensing Target Fine-Grained Classification: A Parameter-Efficient Framework

Keywords: based_federated_learning, federated_learning, representation_private_data
Abstract: 원격 감지 표적 세분화 분류(TFGC)는 군사 및 민간 분야 모두에서 매우 중요합니다. 위치의 차이, 데이터 크기의 증가, 중앙 집중식 서버 스토리지의 제약으로 인해 이러한 데이터는 일반적으로 지역/국가에 걸쳐 서로 다른 데이터베이스에 저장됩니다. 그러나 개인정보 보호법과 국가 안보 문제로 인해 연구자들은 추가 분석을 위해 이러한 민감한 원격 감지 이미지에 액세스하는 데 제약이 있습니다. 또한 저자원 원격 감지 장치는 계속 증가하는 데이터와 모델 규모를 처리할 때 통신 오버헤드와 효율성 측면에서 문제에 직면합니다. 이러한 문제를 해결하기 위해 본 백서에서는 연합 학습에 기반한 새로운 프라이버시 보호 TFGC 프레임워크인 PRFL을 제안합니다. 제안된 프레임워크는 각 클라이언트가 글로벌 및 로컬 지식을 학습하여 통계적 이질성이 극심한 환경(독립적이고 동일하게 분산되지 않은, IID)에서 개인 데이터의 로컬 표현을 향상시킬 수 있도록 합니다. 따라서 차별화된 데이터 분포를 가진 고객에게 고도로 맞춤화된 모델을 제공합니다. 또한, 이 프레임워크는 통신 오버헤드를 최소화하고 효율성을 개선하는 동시에 만족스러운 성능을 보장함으로써 자원이 부족한 조건에서 견고성과 실용성을 향상시킵니다. 우리는 4개의 공개 데이터 세트를 활용하여 고전적인 TFGC 작업에서 제안된 PRFL의 효과를 입증합니다. [abs|pdf]

[38/55] The Neuron as a Direct Data-Driven Controller

Keywords: loops_enabling_neurons, prediction_conceptualizing_neurons, control_synaptic_feedback
Abstract: 생리학적 데이터의 격차 속에서 뉴런의 기능을 모델링하기 위한 탐구에서 유망한 전략은 뉴런의 생리를 계산 목표를 최적화하는 것으로 해석하는 규범적 이론을 개발하는 것입니다. 이 연구는 뉴런을 최적의 피드백 컨트롤러로 개념화하여 예측을 최적화하는 현재의 규범적 모델을 확장합니다. 우리는 뉴런, 특히 초기 감각 영역 너머의 뉴런이 출력을 통해 환경을 원하는 특정 상태로 유도하는 컨트롤러 역할을 한다고 가정합니다. 이 환경은 시냅스로 연결된 뉴런과 외부 운동 감각 피드백 루프로 구성되며, 뉴런은 시냅스 피드백을 통해 제어의 효과를 평가할 수 있습니다. 새로운 직접 데이터 기반 제어(DD-DC) 프레임워크를 활용하여 뉴런을 생물학적으로 실현 가능한 컨트롤러로 모델링하여 루프 역학을 암시적으로 식별하고, 잠재 상태를 추론하며, 제어를 최적화합니다. DD-DC 뉴런 모델은 비대칭성을 지닌 스파이크-타이밍 의존적 가소성(STDP)의 강화에서 억제로의 전환, 피드포워드 및 피드백 뉴런 필터의 지속 시간과 적응 특성, 지속적인 자극 하에서 스파이크 생성의 부정확성, 뇌의 특징적인 작동 변동성과 잡음 등 다양한 신경생리학적 현상을 설명합니다. 이 모델은 기존의 피드포워드, 즉각 반응형 맥컬록-피츠-로젠블라트 뉴런에서 크게 벗어나 신경망 구성을 위한 새롭고 생물학적 정보를 기반으로 한 기본 단위를 제공합니다. [abs|pdf]

[39/55] Uncertainty Regularized Evidential Regression

Keywords: evidential_regression_network, evidential_regression, deep_learning_dempster
Abstract: 증거 회귀 네트워크(ERN)는 딥러닝과 뎀프스터-셰퍼의 이론을 통합하여 대상을 예측하고 관련 불확실성을 정량화하는 새로운 접근 방식입니다. 기본 이론에 따라 음수가 아닌 값을 적용하려면 특정 활성화 함수를 사용해야 하는데, 이는 모든 샘플에서 학습할 수 있는 능력을 제한하여 모델 성능을 저하시키는 제약 조건이 됩니다. 이 논문에서는 이러한 제약에 대한 이론적 분석을 제공하고 이를 극복하기 위한 개선 방안을 소개합니다. 먼저 모델이 샘플로부터 효과적으로 학습할 수 없는 영역을 정의합니다. 그 다음에는 ERN을 면밀히 분석하여 이 제약 조건을 조사합니다. 분석에서 얻은 인사이트를 활용하여 ERN이 전체 훈련 세트에서 학습할 수 있도록 지원하는 새로운 정규화 용어를 도입함으로써 이 한계를 해결합니다. 광범위한 실험을 통해 이론적 발견을 입증하고 제안된 솔루션의 효과를 입증합니다. [abs|pdf]

[40/55] Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition

Keywords: knowledge_captures_geographical, geography_knowledge_regularization, captures_geographical
Abstract: 기존의 객체 인식 모델은 설계와 컨텍스트에서 상당한 영역의 변화로 인해 다양한 지리적 시나리오에서 견고성이 부족한 것으로 나타났습니다. 이러한 변화 속에서 객체 개념을 보다 정확하게 반영하려면 클래스 표현을 조정해야 합니다. 대상 지역의 훈련 데이터가 없는 경우, 우리는 객체 범주에 대한 지역별 설명 지식을 활용하여 견고성을 향상시킬 수 있다는 가설을 세웁니다. 이를 위해 지리 관련 객체 지식에 대한 대규모 언어 모델 프로빙의 타당성을 살펴보고, 제로 샷 및 학습 가능한 소프트 프롬프트의 지식을 CLIP 비전 언어 모델과 통합하는 방법을 조사합니다. 특히, 지리 지식 정규화 방법을 제안하여 소스 지리 집합에 대해 학습된 소프트 프롬프트가 보이지 않는 대상 지리 집합으로 일반화되도록 합니다. 유럽의 데이터로만 훈련된 모델에서 일반화할 때 DollarStreet의 성능은 아프리카 국가에서는 +2.8, 가장 어려운 등급에서는 +4.6까지 향상되었습니다. 또한, 몇 번의 타겟 훈련에 비해 경쟁력 있는 성능을 보여주며, 설명적 지식이 지리적 차이를 어떻게 포착하는지에 대한 인사이트를 제공합니다. [abs|pdf]

[41/55] Token Propagation Controller for Efficient Vision Transformer

Keywords: imagenet, vision_transformers, tokens_redundant_layer
Abstract: 비전 트랜스포머(ViT)는 다양한 컴퓨터 비전 작업에서 유망한 결과를 얻었지만, 입력 토큰 수의 이차적 복잡성 때문에 리소스가 제한된 환경에서는 적용이 제한되었습니다. 이러한 문제를 해결하기 위해 점진적인 토큰 감소를 사용하는 기존 접근 방식은 한 계층의 토큰 중복이 다음 모든 계층의 중복성을 의미한다고 가정합니다. 우리는 이러한 가정이 종종 옳지 않다는 것을, 즉 한 계층에서 중복되는 토큰이 이후 계층에서 유용할 수 있다는 것을 경험적으로 증명합니다. 이 핵심 인사이트를 활용하여 토큰의 감소와 재사용을 각각 제어하기 위해 두 가지 다른 토큰 분포, 즉 일시 중지 확률과 재시작 확률을 통합하는 새로운 토큰 전파 컨트롤러(TPC)를 제안하여 보다 효율적인 토큰 활용을 유도합니다. 토큰 분포의 추정치를 개선하기 위해 정규화 역할을 하는 평활화 메커니즘을 제안하여 노이즈가 많은 이상값을 제거합니다. 또한, 제안한 TPC의 훈련 안정성을 향상시키기 위해 로컬 이미지 구조를 암시적으로 인코딩하고 모델 훈련 중 정확도 변동을 최소화할 수 있는 모델 안정화 기법을 도입합니다. 우리는 제안한 방법의 효과를 입증하기 위해 DeiT, LV-ViT 및 Swin 모델을 사용하여 ImageNet-1K 데이터 세트에 대한 광범위한 실험 결과를 제시합니다. 예를 들어, 베이스라인 모델과 비교했을 때, 우리가 제안한 방법은 분류 정확도를 1.0% 높이면서 데이트-S의 추론 속도를 250% 향상시켰습니다. [abs|pdf]

[42/55] Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation

Keywords: content_ehr_summarization, ehr_summarization, summarization_ehrs
Abstract: 전자 의료 기록(EHR)의 요약은 환자와 의료진 모두의 '스크린 타임'을 크게 최소화할 수 있습니다. 최근 몇 년 동안 EHR 요약에는 최첨단 신경 모델을 사용하는 머신러닝 파이프라인이 사용되었습니다. 그러나 이러한 모델은 훈련에 필요한 주석이 달린 데이터를 충분히 확보하기 어렵기 때문에 적절한 결과를 얻지 못했습니다. 게다가 요약할 때 EHR의 전체 내용을 고려해야 하기 때문에 최신 대규모 언어 모델(LLM)의 주의 메커니즘은 입력의 크기 측면에서 이차적인 복잡성을 추가하기 때문에 성능이 저하되었습니다. 이 글에서는 시맨틱 검색, 검색 증강 생성(RAG), 최신 LLM을 사용한 질의응답을 결합하여 이러한 단점을 완화하는 방법을 제안합니다. 이 접근 방식에서는 주제별 전문가(SME)가 중요하다고 판단한 특정 질문에 대한 답변을 추출하는 것을 요약합니다. 우리의 접근 방식은 매우 효율적이며, 최소한의 교육이 필요하고, LLM의 '환각' 문제가 발생하지 않으며, 요약에 반복되는 내용이 아니라 특정 질문에 대한 다양한 답변이 포함되기 때문에 다양성을 보장할 수 있습니다. [abs|pdf]

[43/55] Concurrent Self-testing of Neural Networks Using Uncertainty Fingerprint

Keywords: self_test_nns, memory_technologies_reliable, neural_networks_nns
Abstract: 신경망(NN)은 다양한 메모리 기술을 사용하는 하드웨어 가속기(NN-HA)에 배포된 상시 가동 안전이 중요한 애플리케이션에서 점점 더 많이 사용되고 있습니다. 안전이 중요한 애플리케이션의 경우 NN의 안정적인 연속 작동이 필수적입니다. 온라인 작동 중 NN은 방사선, 노후화, 열 영향 등의 요인으로 인해 단일 및 다중 영구적 소프트 에러가 발생하기 쉽습니다. 명시적인 NN-HA 테스트 방법은 추론 중 일시적인 오류를 감지할 수 없고, 상시 작동하는 애플리케이션에 적합하지 않으며, 광범위한 테스트 벡터 생성 및 저장이 필요합니다. 따라서 본 논문에서는 NN의 온라인 결함 상태를 나타내는 불확실성 핑거프린트 접근 방식을 제안합니다. 또한, 불확실성 지문을 생성하기 위해 특별히 설계된 듀얼 헤드 NN 토폴로지를 제안하고, a single shot에서 NN의 1차 예측을 제안합니다. 온라인 작업 중에 불확실성 지문을 일치시킴으로써 1차 작업과 유사한 성능을 유지하면서 낮은 오탐률로 최대 100% 커버리지의 NN을 동시에 자체 테스트할 수 있습니다. 기존 작업 대비 메모리 오버헤드는 최대 243.7 MB, 곱셈과 누적(MAC) 연산은 최대 10000배, 오탐률은 최대 89%까지 감소합니다. [abs|pdf]

[44/55] Hierarchical Over-the-Air Federated Learning with Awareness of Interference and Data Heterogeneity

Keywords: federated_learning_wireless, learning_wireless_networks, hierarchical_federated_learning
Abstract: 무선 네트워크에서 계층적 연합 학습을 구현할 때는 확장성 보장과 간섭 및 디바이스 데이터 이질성을 모두 처리할 수 있는 능력이 중요합니다. 이 연구에서는 이러한 문제를 해결하기 위해 고안된 학습 방법과 무선 연산을 통해 단일 무선 리소스를 효율적으로 사용하는 확장 가능한 전송 체계를 소개합니다. 데이터 이질성에 대한 저항력을 제공하기 위해 그라데이션 집계를 사용합니다. 한편, 최적화된 수신기 정규화 계수를 통해 간섭의 영향을 최소화합니다. 이를 위해 확률적 기하학을 사용하여 다중 클러스터 무선 네트워크를 모델링하고 네트워크 매개변수의 함수로서 집계 추정치의 평균 제곱 오차를 특성화합니다. 간섭과 데이터 이질성에도 불구하고 제안된 방식이 높은 학습 정확도를 달성하고 기존의 계층적 알고리즘을 크게 능가할 수 있음을 보여줍니다. [abs|pdf]

[45/55] Modular Learning of Deep Causal Generative Models for High-dimensional Causal Inference

Keywords: deep_causal_generative, deep_causal, train_deep_causal
Abstract: 펄의 인과관계 계층 구조는 관찰 질문, 개입 질문, 반증 질문을 명확히 구분합니다. 연구자들은 인과 관계 구조와 하위 계층의 데이터를 사용하여 계층의 특정 수준에서 식별 가능한 인과 관계 쿼리를 계산하는 건전하고 완전한 알고리즘을 제안했습니다. 그러나 이러한 알고리즘의 대부분은 데이터의 확률 분포를 정확하게 추정할 수 있다고 가정하는데, 이는 이미지와 같은 고차원 변수에 대해서는 비현실적인 가정입니다. 반면, 최신 생성형 딥러닝 아키텍처는 이러한 고차원 분포에서 정확하게 표본을 추출하는 방법을 학습하도록 훈련할 수 있습니다. 특히 최근 이미지에 대한 기초 모델이 부상함에 따라 이러한 고차원 데이터에 대한 인과 관계 쿼리에 답하기 위해 사전 학습된 모델을 활용하는 것이 바람직합니다. 이 문제를 해결하기 위해 인과 구조와 사전 훈련된 조건부 생성 모델이 주어지면 사전 훈련된 모델을 활용하고 식별 가능한 중간 및 반실제 분포에서 입증 가능하게 샘플링할 수 있는 심층 인과 생성 모델을 훈련할 수 있는 순차적 훈련 알고리즘을 제안합니다. 모듈형-DCM이라고 불리는 이 알고리즘은 적대적 학습을 통해 네트워크 가중치를 학습하며, 우리가 아는 한 사전 학습된 모델을 활용하고 고차원 데이터의 잠재적 교란 요소가 있는 상황에서 식별 가능한 모든 인과 관계 쿼리에서 입증 가능한 표본을 추출할 수 있는 최초의 알고리즘입니다. 이미지를 인과 구조의 변수로 포함하는 반합성 및 실제 데이터 세트를 사용하여 알고리즘의 유용성을 입증합니다. [abs|pdf]

[46/55] Quantifying the Uniqueness of Donald Trump in Presidential Discourse

Keywords: trump_speech_patterns, trump_speak_differently, speak_differently_presidents
Abstract: 도널드 트럼프는 다른 대통령들과 다르게 말하나요? 그렇다면 어떤 면에서 다를까요? 이러한 차이는 특정 커뮤니케이션 매체에 국한된 것일까요? 이러한 질문을 조사하기 위해 이 논문에서는 대규모 언어 모델에 기반한 새로운 고유성 지표를 도입하고, 분열적 연설에 대한 새로운 어휘를 개발하며, 정치적 반대자들의 어휘적 특징을 비교하는 프레임워크를 제시합니다. 이러한 도구를 다양한 대통령 연설 말뭉치에 적용하여 트럼프의 연설 패턴이 최근 역사상 모든 주요 정당 대통령 후보들의 연설 패턴과 다르다는 상당한 증거를 발견했습니다. 특히 트럼프가 정치적 반대자들을 겨냥해 분열적이고 적대적인 언어를 사용하고, 강조를 위해 반복하는 패턴을 보인다는 점이 주목할 만한 발견입니다. 또한, 트럼프는 민주당에 비교적 가까운 고유성 가치를 지닌 동료 공화당원들보다 훨씬 더 뚜렷한 개성을 지니고 있는 것으로 나타났습니다. 이러한 차이는 다양한 측정 전략에 걸쳐 나타나며, 선거 유세와 공식 대통령 연설에서 모두 나타나며, 세속적인 시간 추세의 산물이 아닌 것으로 보입니다. [abs|pdf]

[47/55] Directional Antenna Systems for Long-Range Through-Wall Human Activity Recognition

Keywords: wifi_csi_based, wifi_csi, wifi_based_har
Abstract: WiFi 채널 상태 정보(CSI) 기반 인간 활동 인식(HAR)은 시각적 프라이버시를 보호하면서 공간적으로 제한된 환경에서 비접촉식 장거리 감지를 가능하게 합니다. 그러나 우리 주변에 수많은 Wi-Fi 지원 디바이스가 있음에도 불구하고 사용자에게 CSI를 노출하는 디바이스는 거의 없어 감지 하드웨어 옵션이 부족합니다. Espressif ESP32의 변형 제품이 WiFi CSI 기반 HAR을 위한 저렴하고 배포하기 쉬운 솔루션으로 떠오르고 있습니다. 이 연구에서는 4개의 ESP32-S3 기반 2.4GHz 지향성 안테나 시스템이 장거리 벽면 통과 HAR을 촉진하는 능력을 평가합니다. 두 가지 유망한 시스템이 제안되는데, 그 중 하나는 ESP32-S3와 지향성 바이쿼드 안테나가 결합된 시스템입니다. 이 조합은 우리가 알기로는 Wi-Fi 기반 HAR에서 이러한 시스템을 최초로 시연하는 것입니다. 두 번째 시스템은 ESP32-S3에 내장된 인쇄형 인버티드-F 안테나(PIFA)를 사용하며 평면 반사기를 통해 방향성을 확보합니다. 가시선(LOS) 및 비가시선(NLOS) HAR 성능을 종합적으로 평가하기 위해 두 시스템 모두 5개의 방에 걸쳐 18미터 거리에 있는 사무실 환경에 배치되었습니다. 이 실험 환경에서는 인간 활동에 대한 1806개의 CSI 진폭 스펙트로그램으로 구성된 Wallhack1.8k 데이터 세트가 수집되어 공개적으로 제공됩니다. Wallhack1.8k를 기반으로 EfficientNetV2 아키텍처를 사용하여 활동 인식 모델을 훈련하여 LOS 및 NLOS 시나리오에서 시스템 성능을 평가합니다. 핵심 NLOS 활동 인식 문제에서 바이쿼드 안테나와 PIFA 기반 시스템은 각각 92.0pm3.5와 86.8pm4.7의 정확도를 달성하여 제안된 시스템으로 장거리 벽 통과 HAR의 실현 가능성을 입증했습니다. [abs|pdf]

[48/55] Strong Transitivity Relations and Graph Neural Networks

Keywords: transitivity_graph_neural, graph_neural_networks, graph_neural
Abstract: 그래프 기반 학습의 임베딩 생성에서 로컬 이웃은 중요한 역할을 합니다. 일반적으로 노드는 이웃 노드의 임베딩과 유사한 임베딩을 가져야 한다고 믿어집니다. 이 연구에서는 유사성의 개념을 주변 이웃에서 그래프 전체로 조심스럽게 확장하려고 합니다. 우리는 전이성 관계에 기반한 유사성의 확장을 제공하여 그래프 신경망(GNN)이 전체 그래프에 대한 전역 유사성과 로컬 유사성을 모두 포착할 수 있도록 합니다. 로컬 노드 유사성보다 강한 전이 관계를 약한 전이 관계와 구분하고 이를 활용하여 글로벌 유사성을 고려하는 전이 그래프 신경망(TransGNN)을 소개합니다. 여러 실제 데이터 세트에 대해 이 모델을 평가한 결과, 노드 분류와 같은 작업에서 잘 알려진 여러 GNN 모델의 성능을 크게 향상시키는 것으로 나타났습니다. [abs|pdf]

[49/55] Predicting Infant Brain Connectivity with Federated Multi-Trajectory GNNs using Scarce Data

Keywords: trajectory_evolution_network, infant_brain_networks, connectivity_evolution_trajectory
Abstract: 출생 후 첫 1년 동안 영아 뇌 네트워크의 복잡한 진화에 대한 이해는 초기 뇌 연결성 발달의 역학을 파악하는 데 매우 중요합니다. 기존의 딥러닝 솔루션에는 세 가지 큰 한계가 있습니다. 첫째, 각 그래프 궤적이 특정 영상 방식 또는 연결 유형(예: T1-w MRI)에 해당하는 다중 궤적 예측 작업에는 일반화할 수 없습니다. 둘째, 기존 모델은 만족스러운 성능을 달성하기 위해 광범위한 훈련 데이터 세트가 필요하며, 이는 종종 확보하기 어렵습니다. 셋째, 불완전한 시계열 데이터를 효율적으로 활용하지 못합니다. 이러한 한계를 해결하기 위해 연합 그래프 기반 다중 궤적 진화 네트워크인 FedGmTE-Net++를 도입했습니다. 연합의 힘을 이용해 제한된 데이터 세트를 가진 다양한 병원들 사이에서 로컬 학습을 집계합니다. 그 결과, 데이터 프라이버시를 보호하면서 각 병원의 로컬 생성 모델의 성능을 향상시킵니다. FedGmTE-Net++의 세 가지 주요 혁신은 다음과 같습니다: (i) 데이터가 부족한 환경에서 뇌의 다중 궤적 진화 예측을 위해 특별히 설계된 최초의 연합 학습 프레임워크 제시, (ii) 진화 궤적 내의 모든 종적 뇌 연결을 활용하고 데이터 활용을 극대화하기 위해 국소 목적 함수에 보조 정규화기 통합, (iii) 유사성 점수를 개선하고 대입을 구체화하는 회귀자를 사용하는 대입 정제 단계에 이어 예비 KNN 기반 사전 완성으로 구성된 2단계 대입 프로세스 도입. 종합적인 실험 결과, 단일 기준 그래프에서 뇌의 다중 궤적 예측에서 FedGmTE-Net++의 성능이 벤치마크 방법과 비교했을 때 더 뛰어난 것으로 나타났습니다. [abs|pdf]

[50/55] Does Few-shot Learning Suffer from Backdoor Attacks?

Keywords: shot_learning_backdoor, learning_backdoor_attack, learning_existing_backdoor
Abstract: 소수 샷 학습(FSL) 분야는 학습 데이터가 제한된 시나리오에서 유망한 결과를 보여 왔지만, 백도어 공격에 대한 취약성은 아직 거의 밝혀지지 않았습니다. 이 주제는 먼저 소수 샷 학습 시나리오에 대한 기존 백도어 공격 방법의 성능을 평가하여 살펴봅니다. 표준 지도 학습과 달리 기존 백도어 공격 방법은 두 가지 주요 문제로 인해 FSL에서 효과적인 공격을 수행하지 못했습니다. 첫째, 모델이 양성 피처나 트리거 피처에 과적합하는 경향이 있어 공격 성공률과 양성 정확도 간에 어려운 트레이드오프가 발생했습니다. 둘째, 훈련 샘플 수가 적기 때문에 지원 세트의 더티 라벨이나 눈에 보이는 트리거를 피해자가 쉽게 탐지할 수 있어 공격의 은밀성이 떨어집니다. FSL은 백도어 공격으로부터 살아남을 수 있을 것 같았습니다. 그러나 이 백서에서는 FSL이 여전히 백도어 공격에 취약할 수 있다는 것을 보여주기 위해 몇 번의 샷 학습 백도어 공격(FLBA)을 제안합니다. 구체적으로, 먼저 포이즌 피처와 정상 피처 사이의 간극을 최대화하기 위해 트리거를 생성합니다. 이를 통해 모델이 양성 특징과 트리거 특징을 모두 학습할 수 있으므로 과적합 문제를 해결할 수 있습니다. 트리거를 더 은밀하게 만들기 위해 트리거를 직접 부착하는 대신 두 가지 유형의 눈에 띄지 않는 섭동, 즉 유인 섭동과 반발 섭동을 최적화하여 트리거를 숨깁니다. 섭동을 얻으면 양성 지지체 집합의 모든 샘플을 숨겨진 독화 지지체 집합으로 독화시키고 그 위에 모델을 미세 조정할 수 있습니다. 우리의 방법은 깨끗한 정확도를 유지하고 스텔스성을 유지하면서 다양한 소수의 샷 학습 패러다임을 사용하는 FSL 작업에서 높은 공격 성공률(ASR)을 보여줍니다. 이 연구는 소수의 샷 학습이 여전히 백도어 공격에 취약하며 보안에 주의를 기울여야 함을 보여줍니다. [abs|pdf]

[51/55] Boosting Defect Detection in Manufacturing using Tensor Convolutional Neural Networks

Keywords: cnns_measured_quality, quantum_inspired_cnn, tensor_convolutional_neural
Abstract: 결함 검출은 제조 분야의 품질 관리 단계에서 가장 중요하면서도 까다로운 작업 중 하나입니다. 이 연구에서는 텐서 컨볼루션 신경망(T-CNN)을 소개하고 로버트보쉬의 제조 공장에서 생산되는 초음파 센서의 구성 요소 중 하나에서 실제 결함 감지 애플리케이션의 성능을 살펴봅니다. 퀀텀에서 영감을 받은 유니티의 T-CNN은 축소된 모델 파라미터 공간에서 작동하여 정확도 저하 없이 동등한 CNN 모델의 훈련 속도와 성능을 크게 개선합니다. 보다 구체적으로, T-CNN이 품질 지표로 측정한 기존 CNN과 동일한 성능에 도달하면서도 최대 15배 적은 수의 파라미터와 4~19% 더 빠른 훈련 시간을 달성할 수 있는 방법을 보여줍니다. 연구 결과는 T-CNN이 기존의 육안 검사 결과를 크게 능가하여 현재 제조 분야의 실제 애플리케이션에서 가치를 제공한다는 것을 보여줍니다. [abs|pdf]

[52/55] RL-MPCA: A Reinforcement Learning Based Multi-Phase Computation Allocation Approach for Recommender Systems

Keywords: allocating_crs_queue, computation_allocation_approach, reinforcement_learning_rl
Abstract: 추천 시스템은 수많은 후보 중에서 사용자에게 가장 적합한 아이템을 추천하는 것을 목표로 합니다. 사용자 요청의 수와 서비스(또는 모델)의 복잡성이 증가함에 따라 계산 비용이 증가합니다. 컴퓨팅 리소스(CR)가 제한되어 있는 상황에서 계산 비용과 비즈니스 수익 사이에서 어떻게 균형을 맞출 것인가가 중요한 문제가 됩니다. 기존 연구들은 대기열 절단 시나리오에서 동적으로 CR을 할당하는 것(즉, 후보의 크기를 할당하는 것)에 초점을 맞추고, CR 할당 문제를 제약 조건이 있는 최적화 문제로 공식화합니다. 그 중 일부는 단상 CR 할당에 초점을 맞추고, 다른 일부는 다상 CR 할당에 초점을 맞추지만 대기열 절단 시나리오에 대한 몇 가지 가정을 도입합니다. 그러나 이러한 가정은 검색 채널 선택 및 예측 모델 선택과 같은 다른 시나리오에서는 적용되지 않습니다. 또한 기존 연구들은 서로 다른 단계 사이의 요청의 상태 전이 과정을 무시하여 접근 방식의 효과를 제한합니다.
본 논문에서는 CR의 한계 하에서 총 비즈니스 수익을 극대화하는 것을 목표로 하는 강화학습(RL) 기반 다단계 계산 할당 접근법(RL-MPCA)을 제안합니다. RL-MPCA는 CR 할당 문제를 약결합 MDP 문제로 공식화하여 RL 기반 접근법으로 해결합니다. 특히, RL-MPCA는 다양한 CR 할당 시나리오에 적응할 수 있도록 새로운 심층 Q-네트워크를 설계하고, 글로벌 CR 제약 조건을 위반하지 않도록 여러 개의 적응형 라그랑주 승수(적응형-람다)를 도입하여 Q-값을 보정합니다. 마지막으로 오프라인 시뮬레이션 환경과 온라인 실제 추천 시스템에서의 실험을 통해 접근 방식의 효과를 검증합니다. [abs|pdf]

[53/55] Multi-Modal Cognitive Maps based on Neural Networks trained on Successor Representations

Keywords: cognitive_map_representations, learned_cognitive_map, map_cognitive_maps
Abstract: 인지 지도는 뇌가 어떻게 효율적으로 기억을 구성하고 그 속에서 맥락을 검색하는지에 대한 제안된 개념입니다. 내후각-해마 복합체는 공간 탐색뿐만 아니라 에피소드 및 관계형 기억 처리에도 크게 관여하며, 장소 및 격자 세포를 통해 인지 지도를 구축하는 것으로 알려져 있습니다. 인지 지도의 유망한 특성을 활용하기 위해 우리는 장소 셀의 역학 및 인지 지도 표현을 모델링할 수 있는 후속 표현을 사용하는 다중 모드 신경망을 설정했습니다. 여기서는 이미지와 단어 임베딩으로 구성된 멀티모달 입력을 사용합니다. 네트워크는 새로운 입력과 훈련 데이터베이스 간의 유사성을 학습하여 인지 지도의 표현을 성공적으로 학습합니다. 그 결과, 네트워크의 예측은 90% 이상의 정확도로 한 양식에서 다른 양식으로 추론하는 데 사용될 수 있습니다. 따라서 제안된 방법은 환경과 사물이 나타나는 다양한 모달리티를 더 잘 이해할 수 있도록 현재의 AI 시스템을 개선하기 위한 기본 구성 요소가 될 수 있습니다. 따라서 특정 양식을 특정 만남과 연결하면 정보가 적은 유사한 만남이 발생하고 학습된 인지 맵에서 추가 정보를 유추할 수 있는 새로운 상황에서 맥락 인식으로 이어질 수 있습니다. 뇌의 내후각-해마 복합체로 대표되는 인지 지도는 기억에서 맥락을 구성하고 검색하며, 이는 ChatGPT와 같은 대규모 언어 모델(LLM)이 유사한 아키텍처를 활용하여 해마가 피질 계층 구조 내에서 작동하는 방식과 유사한 상위 수준의 처리 센터로 기능할 수 있음을 시사합니다. 마지막으로, LLM은 멀티모달 입력을 활용하여 이미지와 단어와 같은 서로 다른 형태의 데이터 간의 격차를 해소하고, 학습된 연관성을 통해 추상적 개념의 맥락 인식 및 근거를 마련하여 AI의 근거 문제를 해결할 수 있습니다. [abs|pdf]

[54/55] The Anatomy Spread of Online Opinion Polarization: The Pivotal Role of Super-Spreaders in Social Networks

Keywords: social_influence, influence_shaping_opinions, understanding_social_influence
Abstract: 이 연구는 네트워크 내에서 의견을 형성하는 데 있어 '슈퍼 스프레더'의 역할을 세 가지 유형으로 구분하여 조사합니다: A, B, C 유형은 의견 형성에 상당한 영향력을 행사하고, B 유형은 A에 대항하는 역할을 하며, C 유형은 객관적인 관점을 제공하고 A와 B의 영향력을 잠재적으로 규제하는 미디어와 같은 기능을 합니다. 이 연구는 환경적 요인과 시간의 경과에 따른 건망증 등 그룹 역학 및 의견 형성에 영향을 미치는 조건에 초점을 맞춰 신뢰 계수와 z-점수를 사용하여 슈퍼 스프레더의 행동을 조사합니다. 이 연구 결과는 온라인 커뮤니케이션 보안을 개선하고 사회적 영향력을 이해하기 위한 인사이트를 제공합니다. [abs|pdf]

[55/55] IoTGeM: Generalizable Models for Behaviour-Based IoT Attack Detection

Keywords: iot_network_attacks, detection_networks_iot, accurate_detection_attacks
Abstract: IoT 디바이스 네트워크에 대한 행동 기반 공격 탐지에 대한 이전 연구에서는 보이지 않는 데이터에 적응할 수 있는 머신 러닝 모델이 제한적이었으며, 종종 성능이 입증되지 않았습니다. 이 백서에서는 일반화 가능성에 초점을 맞추면서도 더 나은 탐지 및 성능으로 이어지는 IoT 네트워크 공격을 모델링하는 접근 방식을 제시합니다. 먼저, 특징 추출을 위한 개선된 롤링 윈도우 접근 방식을 제시하고 과적합을 줄이는 다단계 특징 선택 프로세스를 소개합니다. 둘째, 격리된 훈련 및 테스트 데이터 세트를 사용하여 모델을 구축하고 테스트함으로써 이전 모델의 일반화 가능성을 제한했던 일반적인 데이터 유출을 방지합니다. 셋째, 다양한 머신러닝 모델, 평가 지표 및 데이터 세트 포트폴리오를 사용하여 방법론을 엄격하게 평가합니다. 마지막으로, 설명 가능한 AI 기술을 사용하여 모델에 대한 신뢰를 구축함으로써 정확한 공격 탐지의 기반이 되는 특징을 식별할 수 있습니다. [abs|pdf]