مرور نظاممند بر الگوریتمهای دادهکاوی مورد استفاده برای کشف تقلب در رشته بیمههای درمان
1400/08/08
دکتر پریسا رحیم خانی
دکتر مهناز منطقی پور(مسئول میز پژوهشی داده کاوی)
شماره 130
خلاصه مدیریتی
کلاهبرداری و تقلب یکی از دغدغههای اساسی صنعت بیمه است، زیرا هرساله ضرر و زیان زیادی را به این صنعت وارد میکند. این تقلبات سبب افزایش هزینههای بیمهگر و به دنبال آن، افزایش مبلغ حق بیمه میشود که از این رو تقلبات بیمهای به ضرر کلیه بیمهگذاران نیز خواهد بود. بنابراین یکی از مسائل و چالشهای مهم و حیاتی شرکتهای بیمه، مساله تقلب در بیمه است. به طور مثال در بریتانیا درخواستهای کلاهبردارانه در صنعت بیمه بیشتر از یک بیلیون پوند است.
در ایالت متحده، تقریبا یک سوم تمام هزینههای بهداشتی صرف کلاهبرداری، اتلاف و سوء استفاده میگردد. در هندوستان آمارهای بیمهای هشدار دهنده میباشد و تخمین درخواستهای اشتباه شامل ۱۵-۱۰ درصد کلیه درخواستها است.
طبق گفته انجمن ضدکلاهبرداری مراقبتهای درمانی ملی سه درصد از هزینههای مراقبتهای درمانی، ۶۸ بیلیون دلار است که به وسیله تقلب در این حوزه از بین میرود (علیپور و قائمی، ۱۳۹۴).
تقلبات بیمهای انواع گوناگونی دارد و در تمام حوزههای بیمهای رخ میدهد. یکی از رشتههای بیمهای که در آن تقلب زیادی به روشهای مختلف صورت میپذیرد، رشته بیمه درمان است. رفتارهای متقلبانه ارائه دهندگان خدمات بهداشت ودرمان، بیماران و کارکنان شرکتهای بیمه با تحمیل هزینههای غیرضروری به مشکل جدی برای سیستمهای بیمه تبدیل شده است. مثالهایی از انواع تقلب در حوزه سیستمهای مراقبت درمانی
را
میتوان به شکل صورتحسابهایی برای خدمات و کالاهایی که انجام یا ارائه نشدهاند، اجرای عملیات غیرضروری دارویی، نسخهنویسی داروهای غیرضروری و غیره نام برد. سازمانهای بیمهگر پس از دریافت اسناد هزینه از ارائه دهندگان خدمات سلامت اعم از مراکز درمانی، پزشکان، داروخانهها و آزمایشگاهها، فرایند بررسی هزینهها و تطبیق آن
ها با معیارها و جداول هزینه شده توسط آن را که به آن رسیدگی به اسناد میگویند را آغاز مینمایند. رسیدگی به صورت دستی و توسط افراد خبره در سازمانها، محدودیتهایی نظیر خطای انسانی، کمبود نیروی انسانی خبره، محدودیتهای زمانی فعالیت انسانی، عدم کیفیت یکسان در رسیدگی، احتمال وجود تعاملات انسانی ارزیاب و ارزیابی شونده و سایر موارد بر رسیدگی تاثیرگذار است. علاوه بر این مادامی که سیستمها و اندازه پایگاه دادهها رشد میکند و به چندین گیگابایت میرسد، بررسی سنتی و دستی این حجم داده غیر ممکن به نظر میرسد و یا نیاز به صرف هزینههای رسیدگی سنگین با متخصصان فراوان دارد و استفاده از گزارشات اس. کیو. ال و حتی برنامهنویسیهای طاقت فرسا مشکل گشا نیست و این در حالی است که این امر ممکن است باعث از دست دان حجم عظیمی از تشخیصهای کلاهبرداری شود و علت این امر را میتوان در دو امر جستجو کرد: ۱. تمام کلاهبرداریها توسط انسان قابل شناسایی نیستند. ۲. الگوهای جدید کلاهبرداری توسط متخصصان بازرسی شناخته شده نیستند و این در حالی است که باید بین بالا بودن کیفیت بازرسی و کاهش هزینه بازرسی مصالحه برقرار شود. در نتیجه اندازه بزرگ پایگاههای داده در محیطهایی با تغییرات سریع یکی از بزرگترین چالشهای تشخیص تقلب به صورت دستی است.
در سالهای اخیر تلاشهای بسیاری در زمینه ارائه روشهای دادهکاوی برای کشف تقلب در بیمه درمان انجام شده است. تا کنون سیستمهایی برای پردازش ادعاهای خسارت الکترونیکی انجام شده است به طوری که به صورت اتوماتیک دادههای ادعا خسارت را مرور و حسابرسی کنند. این سیستمها برای تشخیص روشهای تقلب، صورتحساب نامناسب، ادعاهای تکراری و خدمات بدون پوشش پزشکی طراحی شدهاند. قابلیت تشخیص تقلب این سیستمها محدود است زیرا تشخیص تقلب عمدتا به قوانین ساده از پیش تعریف شده توسط کارشناسان حوزه متکی است. به منظور دستیابی روشهای کشف تقلب موثرتر، اخیرا بسیاری از محققان روشهای ضدکلاهبرداری پیچیدهتری مبتنی بر دادهکاوی، یادگیری ماشین و دیگر روشهای تحلیلی ارائه دادهاند. این روشهای جدید دارای مزایای عمدهای مانند یادگیری خودکار الگوی تقلب از دادهها، تشخیص احتمال تقلب برای هر مورد و تشخیص نوع جدید تقلب هستند که باعث ایجاد روش موثری با دقت بیشتر، کاهش هزینه و کاهش زمان محاسباتی گردیده است (دومان و ساغروگلو
[1]
، ۲۰۱۷).
برای پیادهسازی این الگوریتمهای دادهکاوی کارا در زمینه بیمه درمان، عوامل و شرایط بسیاری حائز اهمیت است که باید در نظر گرفته شود. از جمله اینکه دادههای حاصل از بیمه درمان دارای ویژگیهای پیچیدهای هستند که این امر باعث شده که کار با این دادهها بسیار دشوارتر شود که از آن جمله میتوان عدم توازن دادهها، حجم دادهها، ناهمگن بودن دادهها را نام برد که این امر خود مستلزم تمیز کردن دادهها، انتقال دادهها، انتخاب ویژگیها مناسب و تجزیه و تحلیل کلان دادهها است. همچنین نوع تقلب از منظر افراد مرتکب تقلب و تخلف، در بیمه درمان بر اساس گزارش بسیاری از منابع به چهار دسته تقسیم میشود: ارائه دهنده خدمات، مشتریان بیمه، کارکنان بیمه و تقلب گروهی که این موضوع در انتخاب الگوریتم دادهکاوی بسیار مهم است.
الگوریتمهای دادهکاوی استفاده شده در کشف تقلب بیمه درمان به سه دسته تقسیم میشوند:
·
الگوریتمهای تحت نظارت: در این الگوریتم دادهها دارای برچسب هستند و متغیر هدف خاص از پیش تعریف شدهای وجود دارد که مقدار متغیر هدف مشخص شده است. از این الگوریتمها برای طبقهبندی، رگرسیون و پیشبینی استفاده میشود.
·
الگوریتمهای بدون نظارت: در این الگوریتمها دادهها دارای برچسب نیستند و هیچ متغیر هدفی وجود ندارد. در این نوع روشها، الگوریتمهای دادهکاوی در بین همه متغیرها، به دنبال ساختار و الگویی میگردند. از این الگوریتمها برای خوشهبندی، کشف پرتی/ناهنجاری و قوانین وابستگی استفاده میشود.
·
الگوریتمهای ترکیبی: که از ترکیب روشهای تحت نظارت و بدون نظارت برای بهبود عملکرد روشهای مذکور به کاربرده میشود.
هریک از این سه دسته الگوریتم نیز شامل روشهای متعددی هستند. همچنین که هر کدام از این روشها مزایا و معایبی دارند و برای هدف خاصی استفاده میشوند.
قابل ذکر است تکنیکهای دادهکاوی موفقی برای حل مشکلات تشخیص تقلب در حوزه مراقبتهای درمانی به کار برده شده است. به عنوان مثال کمیته بیمه سلامت
[2]
استرالیا دهها میلیون دلار را با استفاده از الگوریتمهای دادهکاوی جهت بررسی درخواستهای کلاهبردارانه ذخیره کرده است. یک مورد موفق دیگر در شناسایی کلاهبرداری و سواستفاده در تگزاس است که در کمتر از یک سال ۲.۲میلیون دلار را ذخیره کرده است (علیپور و قائمی، ۱۳۹۴).
در این گزارش یک مرور نظاممند بر الگوریتمهای داده
کاوی
برای کشف تقلب در زمینه رشتههای بیمه درمان انجام شده است. این مرور با تمرکز بر نوع تقلب، نوع منبع، منطقه جغرافیایی منبع داده استفاده شده، نوع الگوریتم و روش، سال ارائه، تعداد متغیرها، زبان برنامهنویسی و دقت الگوریتم بوده است. همچنین به ارتباط بین منبع داده و نوع تقلب، نوع الگوریتم و نوع تقلب و مقایسه فراوانی هر دسته از الگوریتمها پرداخته شده است.
فصلهای این گزارش به صورت زیر ساماندهی شدهاند:
·
کلیات گزارش که شامل شفاف سازی موضوع تحقیق، بیان مسئله، اهمیت تحقیق، هدف تحقیق، روش تحقیق، سوالات تحقیق و پیشینه تحقیق است در فصل اول توضیح داده میشود.
·
تعریف تقلب، دستهبندی انواع رفتار متقلبانه، تاثیرات تقلب در حوزههای مختلف، تفاوت دادههای مراقبتهای بهداشتی با دیگر صنایع، منابع داده، مشخصه دادهها، پیش پردازش، تمیز کردن دادهها، انتقال دادهها، انتخاب ویژگی و چشماندازی از کلان دادهها در فصل دوم آورده شده است.
·
تعاریف دادهکاوی، دستهبندی جامعی از الگوریتمهای دادهکاوی، گردآوری مزایا و معایب الگوریتمهای مختلف دادهکاوی در فصل سوم بیان شده است.
·
انتخاب روش بررسی نظاممند، اجرای مراحل روش نظاممند انتخاب شده که شامل ادبیات موضوع و ارزیابی سودمندی، استخراج دادهها به روشی منظم از مقالات منتخب، تجزیه و تحلیل دادهها و ارائه یک مرور کلی است در فصل چهارم صورت گرفته است.
این گزارش را با فصل پنجم که شامل یک نتیجهگیری کلی از گزارش و پیشنهاد کار برای آینده است به پایان میرسانیم
[1]
Duman, Sagıroglu
[2]
تفاوت بیمه سلامت و بیمه درمان دراین وب سایت آمده است
https://iiflinsurance.com/knowledge-centre/health-insurance/health-insurance-vs-medical-insurance