های موجود در زمینه پالایش گروهی و همچنین مدلهای مبتنی بر اعتماد و بررسی نقاط ضعف و قوت آنها مدلی نوین و توسعه یافته ارائه گردد که در آن نتایج از خطای کمتر و دقت بالاتری برخوردار بوده و با افزایش معیار پوشش بتوان به درصد بیشتری از کاربران پاسخ مناسب ارائه نمود. برای این منظور در میان انواع روشهای پالایش گروهی، روش مبتنی بر آیتم و برای پیمایش شبکه اعتماد میان کاربران نیز از روش پیمایش تصادفی بهره گرفته شده است، همچنین با تفسیر و تعدیل نظرات کاربران و اتخاذ شیوهای مناسب جهت محاسبه مقدار دقیق اعتماد میان کاربران و تغییر در نحوه پیمایش شبکه اعتماد میان ایشان سعی در بهبود و کاهش خطاهای نتایج گردیده است. در نهایت، جهت ارزیابی و برآورد مدل ترکیبی ارائه شده، نتایج و آمارهای حاصل از اجرای مدل پیشنهادی بر روی مجموعه داده های Epinions و Movielens و مقایسه آنها با نتایج مدل پایه TrustWalkerبه عنوان یکی از بهترین مدلهای ترکیبی ارائه شده در زمینه سیستمهای توصیه گر مبتنی بر اعتماد، ارائه میگردد.
واژههای کلیدی: دادهکاوی[1]، شبکههای اجتماعی[2]، شبکههای مبتنی بر اعتماد[3]، سیستمهای توصیهگر[4]، پالایش گروهی[5]، اعتماد[6]، پیمایش تصادفی[7]، ترکیب سازی[8]
فهرست مطالب
عنوان…………………………………………………………………………………………………………….صفحه
فصل اول : مقدمهای بر انواع سیستم توصیهگر…………………………………………………1
1-1- مقدمه…………………………………………………………………………………………………………………..2
1-2- سیستمهای توصیهگر…………………………………………………………………………………………..3
1-3- انواع سیستمهای توصیهگر از لحاظ عملکردی……………………………………………………4
1-4- مزایا و اهمیت یک سیستم توصیهگر کارآمد………………………………………………………5
1-5- معایب و مشکلات کلی سیستمهای توصیهگر……………………………………………………..6
1-6- انواع رویکردها و مدلهای موجود در زمینه پیادهسازی سیستمهای توصیهگر…….7
1-7- تشریح و بیان مسئله………………………………………………………………………………………….11
1-8- اهداف تحقیق…………………………………………………………………………………………………….12
1-9- سوالات و فرضیههای تحقیق…………………………………………………………………………….13
1-10- مراحل تحقیق…………………………………………………………………………………………………14
1-11- فصول پایان نامه……………………………………………………………………………………………..15
فصل دوم : مروری بر ادبیات تحقیق و مبانی نظری تحقیق………………………………17
2-1- مقدمه ……………………………………………………………………………………………………………….18
2-2- پالایش گروهی (Collaborative Filtering)…………………………………………….19
2-2-1- پالایش گروهی مبتنی بر حافظه(Memory Based)……………………………..20
2-2-1-1- روش پالایش گروهی مبتنی بر آیتم ………………………………………………………22
2-2-1-2- امتیازدهی به صورت پیش فرض……………………………………………………………..24
2-2-1-3- تشدید حالت(Case Amplification)……………………………………………….24
2-2-2- پالایش گروهی مبتنی بر مدل(Model Based)……………………………………..25
2-3- پالایش محتوایی (Content Based Filtering) ………………………………………26
2-4- تکنیکهای ترکیبی……………………………………………………………………………………………..27
2-5- سیستمهای توصیهگر مبتنی بر رابطه اعتماد میان کاربران……………………………..28
2-5-1- چگونگی کارکرد سیستم توصیهگر مبتنی بر اعتماد……………………………………30
2-5-2- مزایا و معایب………………………………………………………………………………………………..31
2-5-3- انتشار اعتماد و تجمیع اعتماد………………………………………………………………………33
2-6- چالش ها و محدودیتهای موجود………………………………………………………………………33
2-6-1- نقصان و کاستی اطلاعات……………………………………………………………………………..34
2-6-2- مشکل کاربران تازه وارد………………………………………………………………………………..34
2-6-3- کلاهبرداری و تقلب………………………………………………………………………………………35
2-6-4- پیچیدگیهای محاسباتی و زمانی…………………………………………………………………..36
2-7- معیارهای ارزیابی سیستمهای توصیهگر……………………………………………………………37
2-7-1- خطای جذر میانگین مربعات (RMSE)…………………………………………………….37
2-7-2- معیار درصد پوشش………………………………………………………………………………………38
2-7-3- معیار دقت…………………………………………………………………………………………………….39
2-7-4- معیار F-Measure…………………………………………………………………………………….39
فصل سوم : مروری بر مطالعات و تحقیقات پیشین…………………………………………..41
3-1- مقدمه………………………………………………………………………………………………………………..42
3-2- مرور کارهای گذشته………………………………………………………………………………………….42
3-2-1- مدل MoleTrust………………………………………………………………………………………45
3-2-2- مدل TidalTrust………………………………………………………………………………………47
3-2-3- مدل دانه سیب……………………………………………………………………………………………..48
3-2-4- مدل ارائه شده توسط Anderson……………………………………………………………48
3-2-5- مدل ارائه شده توسط O’Donovan………………………………………………………..49
3-2-6- مدل TrustWalker………………………………………………………………………………….50
3-2-6-1- ساختار مدل TrustWalker…………………………………………………………………51
3-2-6-2- تشابه آیتم ها……………………………………………………………………………………………51
3-2-6-3- خصوصیات ویژه مدل TrustWalker…………………………………………………..52
3-2-6-3-1- فراگیری و عمومیت مدل…………………………………………………………………….52
3-2-6-3-2- اطمینان به نتایج حاصل………………………………………………………………………53
3-2-6-3-3- تفسیرپذیری و قابل توضیح بودن نتایج………………………………………………54
3-2-6-4- نمایش ماتریسی مدل TrustWalker………………………………………………….54
3-2-6-5- نتیجه گیری در خصوص مدل TrustWalker…………………………………….55
فصل چهارم : تشریح مدل ترکیبی پیشنهادی و چگونگی توسعه و بهبود مدل پایه.56
4-1- مقدمه………………………………………………………………………………………………………………..57
4-2- تشریح مدل کلی TrustWalker…………………………………………………………………..57
4-2-1- علائم نشانه گذاری و متغیرهای مدل…………………………………………………………..57
4-2-2- روند یک پیمایش تصادفی در شبکه…………………………………………………………….58
4-2-3- انتخاب تصادفی یک کاربر …………………………………………………………………………..59
4-2-4- انتخاب یک آیتم مشابه…………………………………………………………………………………59
4-2-5- تشابه آیتم ها…………………………………………………………………………………………………60
4-2-6- محاسبه احتمال ماندن در یک گره شبکه اعتماد ( )………………………..61
4-2-7- چگونگی انجام پیشبینی امتیاز……………………………………………………………………62
4-2-8- چگونگی محاسبه احتمال ………………………………………….63
4-2-9- چگونگی محاسبه عملی ……………………………………………………………………….64
4-2-10- شرط اتمام کلی مدل………………………………………………………………………………….64
4-3- بهبود و توسعه مدل TrustWalker………………………………………………………………65
4-3-1- استفاده از فرمول jaccard جهت محاسبه تشابه آیتمها…………………………….66
4-3-2- حذف میانگین از فرمول پیرسون………………………………………………………………….67
4-3-3- استفاده از تکنیک مبتنی بر آیتم خالص………………………………………………………67
4-3-4- تعدیل و تفسیر نظرات کاربران……………………………………………………………………..68
4-3-5- محاسبه دقیق مقدار اعتماد یا امتیاز رابطه میان دو کاربر…………………………..71
4-3-6- محاسبه ترکیبی امتیاز رابطه میان کاربران………………………………………………….73
فصل پنجم : تشریح روند انجام آزمایشات و نتایج حاصل………………………………76
5-1- مقدمه………………………………………………………………………………………………………………..77
5-2- معرفی مجموعه داده epinions……………………………………………………………………..77
5-2-1- ویژگیهای مجموعه داده epinions……………………………………………………………79
5-2-2- آماده سازی و نحوه پالایش دادهها……………………………………………………………….81
5-2-3- ایجاد مجموعه داده نمونه……………………………………………………………………………..83
5-3- مجموعه داده movielens……………………………………………………………………………..84
5-3-1- ویژگیهای مجموعه داده movielens………………………………………………………..84
5-4- نیازمندیهای نرم افزاری…………………………………………………………………………………….85
5-5- نیازمندیهای سخت افزاری………………………………………………………………………………..85
5-6- متدولوژی نرم افزاری…………………………………………………………………………………………86
5-7- پارامترهای پیش فرض انجام آزمایشات…………………………………………………………….86
5-8- نتایج اجرای آزمایشات با مجموعه داده epinions و movielens……………..87
5-8-1- بررسی تاثیر عمق پیمایش بر روی نتایج حاصل در خصوص کاربران تازه وارد……………………………………………………………………………………………………………………………….87
5-8-2- بررسی تاثیر تاریخ اعلام نظرات توسط کاربران……………………………………………88
5-8-3- بررسی تاثیر تغییر فرمول محاسبه تشابه آیتمها………………………………………….89
5-8-4- بررسی تاثیر بکارگیری مکانیزم تفسیر و تعدیل نظرات کاربران………………….90
5-8-5- بررسی تاثیر بکارگیری انواع روشهای ترکیبی برای انتخاب کاربران و پیمایش شبکه…………………………………………………………………………………………………………………………….93
5-8-5-1- نحوه محاسبه امتیاز رابطه موجود میان کاربران……………………………………..93
5-8-5-2- بررسی تاثیر بکارگیری روشهای ترکیبی در عملکرد سیستم برای تمامی کاربران………………………………………………………………………………………………………………………….94
5-8-5-3- بررسی تاثیر بکارگیری روشهای ترکیبی در عملکرد سیستم برای کاربران تازه وارد ………………………………………………………………………………………………………………………99
5-8-6- بررسی تاثیر بکارگیری توام مکانیزم تفسیر امتیازات کاربران به همراه استفاده از روشهای ترکیبی انتخاب کاربران و پیمایش شبکه اعتماد……………………………………101
5-9- انجام آزمایشات با مجموعه داده movielens……………………………………………..107
5-9-1- نتایج حاصل از اجرای روشهای ترکیبی مورد استفاده در مدل توسعه یافته…………………………………………………………………………………………………………………………..107
فصل ششم : نتیجه گیری نهایی و کارهای آینده…………………………………………….110
6-1- مقدمه………………………………………………………………………………………………………………111
6-2- عملکرد مدل توسعه یافته……………………………………………………………………………….112
6-2-1- عملکرد مدل توسعه یافته در خصوص تمامی کاربران………………………………112
6-2-2- عملکرد مدل توسعه یافته در خصوص کاربران تازه وارد…………………………..114
6-3- نتیجه گیری نهایی …………………………………………………………………………………………115
6-3-1- تحلیل نهایی نتایج حاصل از انجام آزمایشات بر روی مجموعه داده epinions………………………………………………………………………………………………………………..116
6-3-2- تحلیل نهایی نتایج حاصل از انجام آزمایشات بر روی مجموعه داده movielens…………………………………………………………………………………………………………….118
6-4- پیشنهادات کارهای آینده……………………………………………………………………………….118
اختصارات…………………………………………………………………………………………………..120
فهرست منابع……………………………………………………………………………………………..121
فهرست جداول
عنوان………………………………………………………………………………………………………………….صفحه
جدول 3-1 : دستهبندی مدلهای اعتماد…………………………………………………………………………………..44
جدول 4-1 : ماتریس پراکندگی نحوه امتیازدهی دو کاربر و ……………………………………70
جدول 4-2 : تفسیر نظرات کاربر ……………………………………………………………………………………..70
جدول 5-1 : ساختار جدول reviews……………………………………………………………………………………81
جدول 5-2 : ساختار جدول WOT…………………………………………………………………………………………82
جدول 5-3 : ساختار جدول cold_start_users…………………..……………………………………………82
جدول 5-4 : ساختار جدول ratings………………………………………………………………………………………83
جدول 5-5 : مقادیر پیش فرض پارامترها و متغیرهای مورد استفاده در مدل پیشنهادی………86
جدول 5-6 : نتایج بررسی تاثیر عمق پیمایش در خصوص کاربران تازه وارد………………………….88
جدول 5-7 : نتایج حاصل از بررسی تاثیر تاریخ اعلام نظرات کاربران……………………………………..89
جدول 5-8 : نتایج حاصل از تغییر فرمول محاسبه تشابه آیتمها…………………………………………….90
جدول 5-9 : نتایج حاصل از بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران…………………….91
جدول 5-10 : نتایج حاصل از بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران در خصوص کاربران تازه وارد…………………………………………………………………………………………………………………………91
جدول 5-11 : نتایج حاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه……………………………………………………………………………………………………………………………………………..96
جدول 5-12 : نتایج حاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد…………………………………………………………………………………………………………99
جدول 5-13 : نتایج حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………102
جدول 5-14 : نتایج حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد…………………………………………………………………………………………………………………………………………..104
جدول 5-15 : نتایج حاصل از اجرای روشهای ترکیبی انتخاب کاربران و پیمایش شبکه……107
جدول 5-16 : نتایج حاصل از اجرا و بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران بر روی روشهای ترکیبی انتخاب کاربران و پیمایش شبکه…………………………………………………………………108
جدول 6-1 : نتایج حاصل از مقایسه معیارهای ارزیابی مدل توسعه یافته در مقابل مدل پایه …………………………………………………………………………………………………………………………………………………113
جدول 6-2 : نتایج حاصل از مقایسه معیارهای ارزیابی مدل توسعه یافته در مقابل مدل پایه در خصوص کاربران تازه وارد………………………………………………………………………………………………………..114
فهرست اشکال و نمودارها
عنوان………………………………………………………………………………………………………………….صفحه
شکل 2-1 : چگونگی کارکرد روش پالایش گروهی (Collaborative Filtering)……………20
شکل 2-2 : نمایش یک شبکه اعتماد به همراه امتیازات بیان شده توسط کاربران در خصوص آیتمهای مختلف…………………………………………………………………………………………………………………………31
شکل 3-1 : معماری مدل MoleTrust ارائه شده توسط Massa……………………………………….46
شکل 5-1 : بنر صفحه اصلی سایت epinions………………………………………………………………………78
نمودار 5-1 : مقایسه نتایج خطای RMSE و درصد پوشش مدل پایه و مدل توسعه یافته در خصوص کاربران تازه وارد و تمامی کاربران با بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران ……………………………………………………………………………………………………………………………………………………92
نمودار 5-2 : مقایسه نتایج معیارF-measure مدل پایه و مدل توسعه یافته در خصوص کاربران تازه وارد و تمامی کاربران با بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران…………93
نمودار 5-3 : مقایسه نتایج معیاردرصد پوششحاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………97
نمودار 5-4 : مقایسه نتایج خطای RMSEحاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………98
نمودار 5-5 : مقایسه نتایج معیار F-measureحاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه……………………………………………………………………………………………….98
نمودار 5-6 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………..100
نمودار 5-7 : مقایسه نتایج خطای RMSE حاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………….100
نمودار 5-8 : مقایسه نتایج معیار F-measureحاصل از اجرای روشهای ترکیبی در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………..101
نمودار 5-9 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………………………………………..103
نمودار 5-10 : مقایسه نتایج خطای RMSE حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه …………………………………………………………………………………………………………………………………………………103
نمودار 5-11 : مقایسه نتایج معیار F-measure حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه…………………………………………………………………………………………………………………………………………..104
نمودار 5-12 : مقایسه نتایج معیار درصد پوشش حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………………………………………………105
نمودار 5-13 : مقایسه نتایج خطای RMSE حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد……………………………………………………………………………………………………………..106
نمودار 5-14 : مقایسه نتایج معیار F-measure حاصل از اجرای توام مکانیزم تعدیل و تفسیر نظر کاربران و استفاده از روشهای ترکیبی پیمایش شبکه در مقابل روش مورد استفاده در مدل پایه برای کاربران تازه وارد………………………………………………………………………………………………………106
نمودار 5-15 : مقایسه نتایج خطای RMSE حاصل از اجرا و بکارگیری مکانیزم تعدیل و تفسیر نظرات کاربران بر روی روشهای ترکیبی انتخاب کاربران و پیمایش شبکه………………..109
نمودار 6-1 : مقایسه عملکرد کلی مدل توسعه یافته در مقابل مدل پایه از نظر تمام معیارهای ارزیابی……………………………………………………………………………………………………………………………………..113
نمودار 6-2 : مقایسه عملکرد کلی مدل توسعه یافته در مقابل مدل پایه برای کاربران تازه وارد از نظر تمام معیارهای ارزیابی………………………………………………………………………………………………….115