این پایان نامه در قالب فرمت word قابل ویرایش ، آماده پرینت و ارائه به عنوان پروژه پایانی میباشد.
چکیده
شناسایی تشکلهای پنهان بر اساس لینک و محتوا
امروزه شبکه¬های اجتماعی نظیر فیسبوک از محبوبیت زیادی برخوردار شده اند، چرا که به مردم سرتاسر جهان این اجازه را میدهد که بدون تماس فیزیکی، با دوستان خود ارتباط برقرار کرده، برای آنها پیغام گذاشته و نظرات خود را در مورد موضوعات گوناگون بیان کنند. شناسایی تشکل ها در شبکه های اجتماعی کاربرد بسیار زیادی در زمینه های مختلف دارد، بنابراین این موضوع یک زمینه¬ی تحقیقاتی بسیار جالب در میان محققان بسیاری از رشته ها است. مطالعات پیشین تنها از اطلاعات ساختاری و لینک¬های موجود در شبکه استفاده میکردند و اطلاعات مفید دیگری که در شبکه وجود داشتند مورد غفلت واقع میشدند. در حالی که در بسیاری از شبکه های اجتماعی، داده¬های بسیار مفیدی وجود دارد که توسط کاربران تولید می¬شوند، نظیر محتوای متن های تولید شده توسط هر کاربر. با قرار دادن این اطلاعات در کنار ساختار لینک شبکه می¬توان تعاملات و ارتباطات بین کاربران را تفسیر کرد. در این مطالعه با استفاده از اطلاعات فوق، نشان داده می¬شود کاربرانی که لینک های نزدیکی به هم دارند در یک حوزه کاری شبیه به هم قرار می-گیرند. به¬طور خاص¬تر،در این پژوهش مدلی برای کشف تشکل ها ارائه می¬گردد که در ابتدا سعی میکند با استفاده از یک راهکار بیزی تشکل ها را بر اساس ساختار لینک شبکه شناسایی کند. سپس با استفاده از ابزار های پیمایش متنف در صورتی که متن های منتسب به یک کاربر دارای شباهت¬های زیادی با عناوین اسناد منتسب به یک تشکل داشته باشد، آن کاربر به تشکل جدید منتقل می¬شود. از این رو، افرادی که در یک تشکل مشترک هستند در یک حوزه¬ی کاری شبیه به هم نیز قرار دارند. نتایج حکایت از توانایی روش پیشنهادی در کشف تشکل¬هایی را دارد که به لحاظ معنایی کاملا معنی دار هستند.
واژگان کلیدی: شبکه¬های اجتماعی، تشکل، شناسایی تشکل ها، پیمایش متن
فهرست مطالب
عنوان صفحه
فصل 1- مقدمه 7
1-1- شبکه های اجتماعی 7
1-2- تقسیمبندی شبکههای اجتماعی 9
1-3- اهمیت شبکههای اجتماعی 10
1-4- تحلیل شبکههای اجتماعی 11
1-5- شبکهها و ویژگی آنها 11
1-6- تشکلها در شبکههای اجتماعی 13
1-7- اهمیت شناسایی تشکلها 16
1-8- انگیزه از انجام این پایان نامه 17
1-9- نگاه کلی به فصول رساله 19
فصل 2- فصل دوم: مروری بر کارهای انجام شده 21
2-1- مقدمه 21
2-2- روشهای ارائه شده 22
2-3- روشهای مبتنی بر لینک 22
2-3-1- بهینه کردن یک هدف سراسری 22
2-3-2- بدون بهینه سازی هیچ معیاری 27
2-3-3- روشهای مبتنی بر مدل 27
2-4- روشهی مبتنی بر محتوا 29
2-4-1- روش CUT 29
2-4-2- روش LTCA 30
فصل 3- ارائه راه حل و روشهای پیشنهادی 32
3-1- مقدمه 32
3-2- روش SBM 34
3-3- روش LDA 37
3-4- روش پیشنهادی 40
3-4-1- روش CDBLC 41
3-5- جمعبندی 51
فصل 4- نتایج 53
4-1- مقدمه 53
4-2- مجموعه دادهها 54
4-2-1- مجموعه دادهی Cora 54
4-2-2- مجموعه دادهی Twitter 55
4-3- معیارهای ارزیابی 56
4-3-1- معیار Modularity 57
4-3-2- معیار Normalized Mutual Information 58
4-3-3- معیار Perplexity 59
4-4- نتایج و تحلیلها 60
4-4-1- مجموعه دادهی Cora 61
فصل 5- بحث و نتیجهگیری 67
5-1- نتیجه گیری 67
5-2- پیشنهادات برای کارهای آتی 71
فهرست منابع 72
فهرست شکلها
عنوان صفحه
شکل 1-1- تشکلها. 14
شکل2-1- افراز گراف. 25
شکل 2-2- الف) خوشهبندی سلسله مراتبی. ب) خوشهبندی تودهای 26
شکل 2-3- نمایش گرافیکی مدل GSB. 30
شکل 2-4- نمایش گرافیکی روش CUT. 31
شکل 3-1- نمایش گرافیکی روش مدل بلوک تصادفی (SBM). 37
شکل 3-2- نمایش گرافیکی روش LDA. 39
شکل3-3- روند کشف تشکلهای پنهان در CDBLC 43
شکل 3-4- گراف مبتنی بر لینک برای شبکه مثال. 43
شکل 3-5- اعمال روش SBM بر روی گراف شبکه. 44
شکل 3-6- انتساب اسناد به تشکلها. 45
شکل 3-7- اعمال روش LDA بر روی اسناد درون هر تشکل. 45
شکل 3-8- محاسبه شباهت محتوای اسناد در دیگر تشکلها با عناوین یک تشکل به خصوص. 46
شکل 3-9- همگرایی الگوریتم CDBLC. 47
شکل 3-10- تمایش گرافیکی قدم دوم از الگوریتم CDBLC . 48
شکل 3-11- فلوچارت الگوریتم CDBLC 51
62
شکل 4-1- کارایی الگوریتم با توجه به معیار MI بر روی مجموعه دادهی Cora. 62
شکل 4-2- Perplexity تمام تشکلها در تمام مراحل بر روی مجموعه داده Cora. 63
شکل 4-3- خروجی Perplexity برای هر تشکل در مراحل مختلف بر روی مجموعه داده Cora . 64
شکل 4-4- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=50 و K=5. 65
شکل 4-5- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=30 و K=10. 65
شکل 4-5- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=100 و K=20 66
فهرست جدولها
عنوان صفحه
جدول 3-1 علائم و تعاریف بکار رفته 33
فصل نخست:
مقدمه
فصل 1- مقدمه
1-1- شبکه های اجتماعی
تعامل انسان با کامپیوتر از زمان ایجاد اولین کامپیوتر¬ها همواره مورد توجه بوده است و شامل مطالعه، برنامه¬ریزی و طراحی رابطه بین کاربران و رایانه¬ها است. معمولا از HCI به عنوان نقطه تقاطع علوم کامپیوتر، علوم رفتاری ، علم طراحی و چند زمینه دیگر یاد می¬شود. این اصطلاح برای اولین بار توسط کارد و همکارانش در کتاب "روانشناسی تعامل انسان با کامپیوتر" مطرح شده است و دلالت ضمنی بر این مطلب دارد که رایانه دارای کاربرد¬های بیشماری است که بدون مرز بین آن و کاربر اعمال می¬شود[1].
متخصصان این حوزه در ابتدا به دنبال راهکاری برای تولید سخت افزار¬هایی با ارگونومی مناسب بودند. طی دهه¬ی 1980 تمرکز اصلی به تولید نرم افزار های کاربر پسند معطوف شد اما طولی نکشید که در دهه¬ی 1990 دیدگاه جدیدی مطرح شد که در آن، به رایانه به عنوان ابزاری برای ایجاد تعاملات انسانی نگاه می¬شد. با توجه به این رویکرد، شبکه¬های اجتماعی اینترنتی عامل ایجاد تعامل میان انسان¬ها در فضای مجازی گشتند و اهمیت به سزایی پیدا کردند[2].
امروزه، با توجه به رشد فراگیر اینترنت و فناوری¬های ارتباطی و اطلاعاتی، شاهد شکل گیری یک فضای مجازی در کنار جهان واقعی هستیم که الگو¬های سنتی را دست¬خوش تغییر نموده است. این فضا دارای ویژگی¬هایی چون فرا¬زمان بودن، بی¬مکانی، عدم محدودیت به قوانین، روی فضا بودن، آزادی از هویت بدنی و جنسی و برخورداری از فضاهای فرهنگی، اقتصادی، سیاسی است. شبکه¬های اجتماعی مجازی، امروزه نقش بسیار مهمی در خلق این فضای مجازی دارند. این فضا-ها در کنار ویژگی¬های مثبت، آسیب¬های روانی و سیاسی بسیار گسترده¬ای را می¬توانند برای یک جامعه به همراه بیاورند. همچنین عده¬ای از محققان معتقند شبکه¬های اجتماعی باعث افزایش معاشرت پذیری می¬شود در حالی که عده¬ای مقابل این تعریف قرار دارند و معتقدند شبکه اجتماعی فعلی باعث کاهش ارتباط با خانواده می¬شود[3].
بنابر تعریف ارائه شده در دانشنامه آزاد ویکی پدیا، شبکه های اجتماعی ساختار های اجتماعی هستند که از بازیگرانی تشکیل شده اند که به وسیله¬ی نوع خاصی از وابستگی مانند روابط دوستی،خویشاوندی، تجاری، الهامات، ایده¬ها، لینک¬های وب، سرایت بیماری¬ها(اپیدمولوژی)، مسیر¬هی هواپیمایی یا علایق مشترک با یکدیگر در ارتباط اند. به عبارت دیگر شبکه های اجتماعی مجموعه ای از بازیگران هستند که به نحوی با یکدیگر در ارتباط هستند. در سال های اخیر گسترش استفاده از رسانه¬های دیجیتال برای برقراری ارتباط بین افراد، مفهوم شبکه¬های اجتماعی به دنیای کامپیوتر راه یافته است و با توجه به زیاد بودن تعداد کاربران در این شبکه¬ها، تحلیل آنها به یکی از موضوعات مورد علاقه در اکثر حوزه¬ها تبدیل شده است.
به طور معمول شبکه¬های اجتماعی را می¬توان در قالب گراف نمایش داد که در این گراف¬ها، گره ها معادل کاربران شبکه اجتماعی بوده و یال¬ های گراف نشان دهنده¬ی ارتباط بین بازیگران می¬باشند. با توجه به ساختار شبکه اجتماعی و یک طرفه یا دو طرفه بودن ارتباط گراف متناظر می¬تواند جهت دار یا بدون جهت باشد. همچنین در صورتی که وزن ارتباط بین افراد در شبکه¬های اجتماعی یکسان نباشد گراف متناظر با شبکه یک گراف وزن¬دار خواهد بود که در آن وزن هر یال متناظر با وزن ارتباط می¬باشد [4].
1-2- تقسیم¬بندی شبکه¬های اجتماعی
شبکه¬های اجتماعی به دو دسته¬ی شبکه¬های مجازی و شبکه¬های غیر مجازی تقسیم می¬شوند. شبکه¬های غیر مجازی توسط مجموعه¬ای از کاربران به¬هم پیوسته در محیط¬های اجتماعی عمل می¬کنند. شبکه های اجتماعی مجازی مجموعه¬ای از وب سایت ¬¬ها هستند که امکان ارتباط را مستقل از زمان و مکان، برای کاربران خود فراهم می¬کنند. با استفاده از این وب سایت ها کاربران با استفاده از یک موتور جست¬و¬جو گر و افزودن امکانات جانبی از قبیل انتقال صدا و تصوبر، گفت¬و¬گوی دوستانه ، پست الکترونیکی و ... می-توانند علاقه¬مندی، افکار و فعالیت¬های خود را در یک ثانیه با صدها و حتی هزاران فرد در سراسر جهان به اشتراک بگذارند.
وبلاگ¬ ها، فیس¬بوک ، توییتر و یوتیوب از جمله شبکه¬های اجتماعی مجازی هستند[5].
1-3- اهمیت شبکه¬های اجتماعی
امروزه شبکه¬های اجتماعی به دلایل بسیار زیادی مورد توجه هستند و اهمیت دارند که ما به توضیح دو دلیل عمده اکتفا می¬کنیم:
1- رشد روز افزون شبکه¬های اجتماعی و تعداد کاربران آنها
اگرچه آمار قابل اعتمادی از تعداد کاربران شبکه های اجتماعی بر¬خط وجود ندارد [6] اما تحقیقات تجاری نشان می¬دهند که جمعیت اعضای این شبکه¬ها در سراسر جهان در حال افزایش است. این امر شرکت¬های بسیاری را برای سرمایه گذاری در این بخش ترغیب کرده است. البته شبکه اجتماعی برخط یوتیوب که امکان بارگذاری و تماشای ویدیو¬های با طول کوتاه را به کاربران خود می¬دهد در سایت آماردهی خود اعلام کرده است که در حال حاظر در هر ماه بیش از 800 میلیون بازدید کننده یکتا دارد. در هر روز میلیون-ها عضو به این شبکه افزوده می¬شوند. در سال 2011 این شبکه در 43 کشور دنیا بومی شده و به 60 زبان مختلف قابل دسترسی است[7].
2- تغییر ساختار ارتباطات اجتماعی با ورود و گسترش شبکه¬های اجتماعی
برخی از آثار این تغییر عبارت¬اند از: انتشار بسیاری از خبر¬های مهم و پرطرفدار در شبکه¬های اجتماعی به جای استفاده از ابزار¬های سنتی مانند روزنامه، تلویزیون و ...
تاثیرات گسترده¬ی شبکه¬های اجتماعی در شکل¬گیری ساختار جدید در روابط بین افراد، بسیاری از محققان، جامعه شناسان و حتی سیاست¬مداران را بر¬آن داشته است تا به شبکه¬های اجتماعی به عنوان یکی از مهمترین ابزار¬های تاثیر بر اذهان عمومی بنگرند[3].
1-4- تحلیل شبکه¬های اجتماعی
با گسترش شبکه¬های اجتماعی و اهمیت آنها، نیاز به تحلیل ساختار¬ها و رفتار¬های شبکه¬های اجتماعی، به عنوان یکی از نیازمندی¬های شرکت¬های تجاری مبدل گشت. تحلیل شبکه¬های اجتماعی در بسیاری از کاربرد ¬هااز جمله مدیریت شبکه اجتماعی، تحلیل گرایش بازار، شناسایی افراد تاثیرگذار و... قابل استفاده است. نیازمندی¬های تجاری باعث شده است در سال¬های اخیر در بعد آکادمیک توجه زیادی به تحلیل شبکه¬های اجتماعی گردد. امروزه این ابزار قدرتمند نه تنها مورد توجه متخصصان فناوری اطلاعات می¬باشد، بلکه پژوهشگران سایر رشته¬هایی چون علوم تربیتی، زیست شناسی، علوم ارتباطات، اقتصاد و... به عنوان یک تکنیک کلیدی از تحلیل شبکه اجتماعی بهره می¬برند[5].
برای تحلیل شبکه از معیار¬ها و نرم¬افزار¬های متفاوتی استفاده می¬شود. نرم افزار¬های تجزیه و تحلیل شبکه اجتماعی جهت شناسایی، تجسم و شبیه سازی راًس¬ها و یال¬ها استفاده می¬شوند. ابزار تجزیه و تحلیل شبکه به محققان اجازه می¬دهد تا شبکه¬هایی با اندازه¬های مختلف را بررسی کنند. این نرم افزار¬ها که با فراهم آوردن ابزار¬های مختلف اجازه اعمال رویه¬های ریاضی و آماری را روی مدل شبکه می¬دهند، با نمایش¬های بصری شبکه¬های اجتماعی به درک و تحلیل نتایج کمک زیادی می¬کنند.
1-5- شبکه¬ها و ویژگی آنها
شبکه¬های اجتماعی [8]، شبکه¬های فنی (مانند اینترنت[9]) و شبکه¬های زیستی (مانند
شبکه¬های عصبی [10]) نمونه هایی از شبکه¬ها هستند. راس¬ها در این شبکه¬ها، موجودیت¬ها و یال¬ها، ارتباط بین آن¬ها را نشان می¬دهند. مثلا در شبکه اینترنت، کامپیوتر¬¬ها یا مسیریاب¬ها و در شبکه¬های اجتماعی، مردم را با راس¬ها، و ارتباط¬های داده¬ای بین کامپیوترها و یا روابط دوستی بین مردم را با یال¬ها نمایش می¬دهیم.
شبکه¬ها دارای ویژگی¬های آماری مشترکی هستند. یکی از این ویژگی¬ها، ویژگی پدیده دنیای کوچک [11] که به 6 درجه جدایی [12] نیز معروف است و بیان می¬کند که در یک شبکه، فاصله متوسط بین راس¬ها، کوتاه و معمولا تابعی لگاریتمی از تعداد آن¬هاست. شش درجه جدایی به این اشاره دارد که اگر فاصله هر فرد را از تمام افرادی که مستقیما می¬شناسد یک گام در نظر بگیریم و این فاصله را برای تمام افرادی که با یک نفر واسط با آن آشنایی دارد دو گام در نظر بگیریم آنگاه میانگین فاصله هر دو نفر در کره زمین 6 گام است. در سال 2009 سایتی به نام Glacir برای بررسی تئوری 6 درجه جدایی ساخته شد که نه تنها فاصله شما را با دیگران مشخص می¬کرد بلکه نحوه ارتباط شما با اخبار جهان را هم نمایش می¬داد. برنامه¬ای در فیس بوک به نام Six Degrees توسط بنیان ، تهیه شده است که می¬تواند فاصله بین افراد را محاسبه کند. این برنامه بیش از 5.8 میلیون کاربر دارد. میانگین فاصله میان تمام اعضا 5.73 است که ماکزیمم آن 12 می باشد.
برچسب ها:
فایل شناسایی تشکلهای پنهان بر اساس لینک و محتوا