مرور نظام‌مند بر الگوریتم‌های داده‌کاوی مورد استفاده برای کشف تقلب در رشته بیمه‌های درمان


مرور نظام‌مند بر الگوریتم‌های داده‌کاوی مورد استفاده برای کشف تقلب در رشته بیمه‌های درمان 1400/08/08
دکتر پریسا رحیم خانی
دکتر مهناز منطقی پور(مسئول میز پژوهشی داده کاوی)
شماره 130
خلاصه مدیریتی کلاهبرداری و تقلب یکی از دغدغه‌های اساسی صنعت بیمه است، زیرا هرساله ضرر و زیان زیادی را به این صنعت وارد می‌کند. این تقلبات سبب افزایش هزینه‌های بیمه‌گر و به دنبال آن، افزایش مبلغ حق بیمه می‌شود که از این رو تقلبات بیمه‌ای به ضرر کلیه بیمه‌گذاران نیز خواهد بود. بنابراین یکی از مسائل و چالش‌های مهم و حیاتی شرکت‌های بیمه، مساله تقلب در بیمه است. به طور مثال در بریتانیا درخواست‌های کلاهبردارانه در صنعت بیمه بیشتر از یک بیلیون پوند است. در ایالت متحده، تقریبا یک سوم تمام هزینه‌های بهداشتی صرف کلاهبرداری، اتلاف و سوء استفاده می‌گردد. در هندوستان آمارهای بیمه‌ای هشدار دهنده می‌باشد و تخمین درخواست‌های اشتباه شامل ۱۵-۱۰ درصد کلیه درخواست‌ها است. طبق گفته انجمن ضدکلاهبرداری مراقبت‌های درمانی ملی سه درصد از هزینه‌های مراقبت‌های درمانی، ۶۸ بیلیون دلار است که به وسیله تقلب در این حوزه از بین می‌رود (علی‌پور و قائمی، ۱۳۹۴). تقلبات بیمه‌ای انواع گوناگونی دارد و در تمام حوزه‌های بیمه‌ای رخ می‌دهد. یکی از رشته‌های بیمه‌ای که در آن تقلب زیادی به روش‌های مختلف صورت می‌پذیرد، رشته بیمه درمان است. رفتارهای متقلبانه ارائه دهندگان خدمات بهداشت ودرمان، بیماران و کارکنان شرکت‌های بیمه با تحمیل هزینه‌های غیرضروری به مشکل جدی برای سیستم‌های بیمه تبدیل شده است. مثال‌هایی از انواع تقلب در حوزه سیستم‌های مراقبت درمانی را می‌توان به شکل صورتحساب‌هایی برای خدمات و کالاهایی که انجام یا ارائه نشده‌اند، اجرای عملیات غیرضروری دارویی، نسخه‌نویسی داروهای غیرضروری و غیره نام برد. سازمان‌های بیمه‌گر پس از دریافت اسناد هزینه از ارائه دهندگان خدمات سلامت اعم از مراکز درمانی، پزشکان، داروخانه‌ها و آزمایشگاه‌ها، فرایند بررسی هزینه‌ها و تطبیق آن‌‌‌ها با معیارها و جداول هزینه شده توسط آن را که به آن رسیدگی به اسناد می‌گویند را آغاز می‌نمایند. رسیدگی به صورت دستی و توسط افراد خبره در سازمان‌ها، محدودیت‌هایی نظیر خطای انسانی، کمبود نیروی انسانی خبره، محدودیت‌های زمانی فعالیت انسانی، عدم کیفیت یکسان در رسیدگی، احتمال وجود تعاملات انسانی ارزیاب و ارزیابی شونده و سایر موارد بر رسیدگی تاثیرگذار است. علاوه بر این مادامی که سیستم‌ها و اندازه پایگاه داده‌ها رشد می‌کند و به چندین گیگابایت می‌رسد، بررسی سنتی و دستی این حجم داده غیر ممکن به نظر می‌رسد و یا نیاز به صرف هزینه‌های رسیدگی سنگین با متخصصان فراوان دارد و استفاده از گزارشات اس. کیو. ال و حتی برنامه‌نویسی‌های طاقت فرسا مشکل گشا نیست و این در حالی است که این امر ممکن است باعث از دست دان حجم عظیمی از تشخیص‌های کلاهبرداری شود و علت این امر را می‌توان در دو امر جستجو کرد: ۱. تمام کلاهبرداری‌ها توسط انسان قابل شناسایی نیستند. ۲. الگوهای جدید کلاهبرداری توسط متخصصان بازرسی شناخته شده نیستند و این در حالی است که باید بین بالا بودن کیفیت بازرسی و کاهش هزینه بازرسی مصالحه برقرار شود. در نتیجه اندازه بزرگ پایگاه‌های داده در محیط‌هایی با تغییرات سریع یکی از بزرگترین چالش‌های تشخیص تقلب به صورت دستی است. در سال‌های اخیر تلاش‌های بسیاری در زمینه ارائه روش‌های داده‌کاوی برای کشف تقلب در بیمه درمان انجام شده است. تا کنون سیستم‌هایی برای پردازش ادعاهای خسارت الکترونیکی انجام شده است به طوری که به صورت اتوماتیک داده‌های ادعا خسارت را مرور و حسابرسی کنند. این سیستم‌ها برای تشخیص روش‌های تقلب، صورتحساب نامناسب، ادعاهای تکراری و خدمات بدون پوشش پزشکی طراحی شده‌اند. قابلیت تشخیص تقلب این سیستم‌ها محدود است زیرا تشخیص تقلب عمدتا به قوانین ساده از پیش تعریف شده توسط کارشناسان حوزه متکی است. به منظور دستیابی روش‌های کشف تقلب موثرتر، اخیرا بسیاری از محققان روش‌های ضدکلاهبرداری پیچیده‌تری مبتنی بر داده‌کاوی، یادگیری ماشین و دیگر روش‌های تحلیلی ارائه داده‌اند. این روش‌های جدید دارای مزایای عمده‌ای مانند یادگیری خودکار الگوی تقلب از داده‌ها، تشخیص احتمال تقلب برای هر مورد و تشخیص نوع جدید تقلب هستند که باعث ایجاد روش موثری با دقت بیشتر، کاهش هزینه و کاهش زمان محاسباتی گردیده است (دومان و ساغروگلو[1]، ۲۰۱۷). برای پیاده‌سازی این الگوریتم‌های داده‌کاوی کارا در زمینه بیمه درمان، عوامل و شرایط بسیاری حائز اهمیت است که باید در نظر گرفته شود. از جمله اینکه داده‌های حاصل از بیمه درمان دارای ویژگی‌های پیچیده‌ای هستند که این امر باعث شده که کار با این داده‌ها بسیار دشوارتر شود که از آن جمله می‌توان عدم توازن داده‌ها، حجم داده‌ها، ناهمگن بودن داده‌ها را نام برد که این امر خود مستلزم تمیز کردن داده‌ها، انتقال داده‌ها، انتخاب ویژگی‌ها مناسب و تجزیه و تحلیل کلان داده‌ها است. همچنین نوع تقلب از منظر افراد مرتکب تقلب و تخلف، در بیمه درمان بر اساس گزارش بسیاری از منابع به چهار دسته تقسیم می‌شود: ارائه دهنده خدمات، مشتریان بیمه، کارکنان بیمه و تقلب گروهی که این موضوع در انتخاب الگوریتم داده‌کاوی بسیار مهم است. الگوریتم‌های داده‌کاوی استفاده شده در کشف تقلب بیمه درمان به سه دسته تقسیم می‌شوند: · الگوریتم‌های تحت نظارت: در این الگوریتم داده‌ها دارای برچسب هستند و متغیر هدف خاص از پیش تعریف شده‌ای وجود دارد که مقدار متغیر هدف مشخص شده است. از این الگوریتم‌ها برای طبقه‌بندی، رگرسیون و پیش‌بینی استفاده می‌شود. · الگوریتم‌های بدون نظارت: در این الگوریتم‌ها داده‌ها دارای برچسب نیستند و هیچ متغیر هدفی وجود ندارد. در این نوع روش‌ها، الگوریتم‌های داده‌کاوی در بین همه متغیرها، به دنبال ساختار و الگویی می‌گردند. از این الگوریتم‌ها برای خوشه‌بندی، کشف پرتی/ناهنجاری و قوانین وابستگی استفاده می‌شود. · الگوریتم‌های ترکیبی: که از ترکیب روش‌های تحت نظارت و بدون نظارت برای بهبود عملکرد روش‌های مذکور به کاربرده می‌شود. هریک از این سه دسته الگوریتم نیز شامل روش‌های متعددی هستند. همچنین که هر کدام از این روش‌ها مزایا و معایبی دارند و برای هدف خاصی استفاده می‌شوند. قابل ذکر است تکنیک‌های داده‌کاوی موفقی برای حل مشکلات تشخیص تقلب در حوزه مراقبت‌های درمانی به کار برده شده است. به عنوان مثال کمیته بیمه سلامت[2] استرالیا ده‌ها میلیون دلار را با استفاده از الگوریتم‌های داده‌کاوی جهت بررسی درخواست‌های کلاهبردارانه ذخیره کرده است. یک مورد موفق دیگر در شناسایی کلاهبرداری و سواستفاده در تگزاس است که در کمتر از یک سال ۲.۲میلیون دلار را ذخیره کرده است (علی‌پور و قائمی، ۱۳۹۴). در این گزارش یک مرور نظام‌مند بر الگوریتم‌های داده‌کاوی برای کشف تقلب در زمینه رشته‌های بیمه درمان انجام شده است. این مرور با تمرکز بر نوع تقلب، نوع منبع، منطقه جغرافیایی منبع داده استفاده شده، نوع الگوریتم و روش، سال ارائه، تعداد متغیرها، زبان برنامه‌نویسی و دقت الگوریتم بوده است. همچنین به ارتباط بین منبع داده و نوع تقلب، نوع الگوریتم و نوع تقلب و مقایسه فراوانی هر دسته از الگوریتم‌ها پرداخته شده است. فصل‌های این گزارش به صورت زیر سامان‌دهی شده‌اند: · کلیات گزارش که شامل شفاف سازی موضوع تحقیق، بیان مسئله، اهمیت تحقیق، هدف تحقیق، روش تحقیق، سوالات تحقیق و پیشینه تحقیق است در فصل اول توضیح داده می‌شود. · تعریف تقلب، دسته‌بندی انواع رفتار متقلبانه، تاثیرات تقلب در حوزه‌های مختلف، تفاوت داده‌های مراقبت‌های بهداشتی با دیگر صنایع، منابع داده، مشخصه داده‌ها، پیش پردازش، تمیز کردن داده‌ها، انتقال داده‌ها، انتخاب ویژگی و چشم‌اندازی از کلان داده‌ها در فصل دوم آورده شده است. · تعاریف داده‌کاوی، دسته‌بندی جامعی از الگوریتم‌های داده‌کاوی، گردآوری مزایا و معایب الگوریتم‌های مختلف داده‌کاوی در فصل سوم بیان شده است. · انتخاب روش بررسی نظام‌مند، اجرای مراحل روش نظام‌مند انتخاب شده که شامل ادبیات موضوع و ارزیابی سودمندی، استخراج داده‌ها به روشی منظم از مقالات منتخب، تجزیه و تحلیل داده‌ها و ارائه یک مرور کلی است در فصل چهارم صورت گرفته است. این گزارش را با فصل پنجم که شامل یک نتیجه‌گیری کلی از گزارش و پیشنهاد کار برای آینده است به پایان می‌رسانیم [1] Duman, Sagıroglu [2] تفاوت بیمه سلامت و بیمه درمان دراین وب سایت آمده است https://iiflinsurance.com/knowledge-centre/health-insurance/health-insurance-vs-medical-insurance