دانلود پایان نامه

ي ها به اندازه انتظار يعني به اندازه ميانگين وزني خواهد بود. با توجه به اين مطلب الگوريتم اگر انتساب داده ها ارزشCj در معادله تغيير زيادي نداشته باشد، همگرا خواهد بود.

اصول الگوريتم در روند زير دنبال شده است.
الگوريتم 4 : الگوريتم K-means

يک مسئله مهم در استفاده از الگوريتم، مسئله تعيين و اندازه گيري کميت ميزان نزديکي، در مرحله واگذاري داده به دسته ها است. به طور پيش فرض اندازه گيري ميزان نزديکي، فاصله اقليدسي در نظر گرفته مي شود. الگوريتم معمولا بسيار حساس به مرکز جرم است. انتخاب مرکز جرم مجدد براي گروه، مشکل واگرايي را براي داده هاي پراکنده حل مي کند.

فصل چهارم

نتايج پياده سازي تحقيق

1.4. انتخاب نمونه داده
با اتصال به بانک داده آنلاين Bugzilla59سي خطا ثبت شده به صورت تصادفي استخراج شده است. سه بخش آن ها يعني قسمت خلاصه60 براي تشابه متن، و تاريخ ايجاد و تعريف61، و تاريخ اعلام راه حل يا خاتمه 62 براي پياده سازي روش استخراج مي شود(جدول4-1). متن مورد جستجو براي خطاي جديد به عنوان نمونه ” have an error with attach a file to email ” در نظر گرفته شده است.
جدول4- 1- نمونه داده ها با تاريخ شروع و اتمام
fixed
Reported
Data
06/13/2008
01/10/2011
Change to date on day of email & spelling error in en Email
10/07/2004
06/24/2011
Document error in tabs attach example
04/26/2011
05/02/2011
Unicode error in review email
12/15/1999
11/22/2004
blank file name in download dialog causes crash
02/11/2011
05/27/2011
bug numbers in comments should have hover tips with bug summary/status
09/10/2001
11/22/2005
Sending without email address produces inaccurate error message
02/04/2010
12/23/2011
Replying to an attached message (message/rfc822 part) or an opened file shows incorrect date
04/28/2008
01/05/2014
Send button should be disabled until we have a recipient
02/01/2010
10/25/2010
GUID blacklist should have comment field
06/24/2005
09/06/2006
error sending MS Office documents / Word Document in yahoo web based email
06/13/2009
01/18/2011
Collections comment editing should only have one save button
12/21/2003
02/08/2004
Wrong email appears when entry of main email address is deferred
07/01/2010
07/20/2010
Tracking bug for build and release of Sea Monkey 2.0.6
02/05/2009
03/15/2010
Investigate RTL text-align changes throughout the theme because of bug 299837
11/18/2011
05/08/2013
Find some way to email or even comments for crashes on Firefox for Android
06/03/2010
06/22/2010
Stage email engagement service
10/18/1999
02/03/2000
Form Bugs causing lost OS and Component data in bug reports
12/28/2007
08/25/2011
cannot attach an image to a group or a node in a group
05/31/2003
07/31/2008
Mail crashes when moving mail between folders
07/16/2002
07/31/2008
can’t forward a forwarded massage w/ attachment
09/20/2004
10/12/2011
custom mail headers (e.g. In-Reply-To) cannot be passed from command line
02/18/2010
02/23/2010
Need to set outgoing mail address to avoid spam filters
04/01/2002
01/22/2009
crash in mail by selecting “send unsent messages” while already sending
08/12/2004
10/07/2004
File picker calls crash mozilla (open file, file attach, file browser, etc)
02/24/2013
04/04/2013
Have the revision comment field when creating a new document
10/09/2000
01/05/2002
Cannot drag & drop mail to attach
11/23/1999
07/31/2008
Prefs panel is missing ‘Debug” pane
02/22/2000
11/22/2004
Adding panel to Sidebar crashes browser
09/22/2001
11/22/2004
Browser title and currently active tab are not syncronized.
12/19/2001
01/03/2014
Enable add ons for talos runs when running metro browser

داده هاي مورد مطالعه مي تواند از هر قسمت متني خطا ها استخراج شوند. مانند مورد تحقيق ما از خلاصه هر خطا و يا از توضيحات هر کاربر براي خطا، راه حل ها، خط کدها و حتي مجموع همه اين متون. در اين تحقيق براي سهولت پي گيري وکوتاه بودن داده ها براي نمايش ما از خلاصه هر خطا استفاده کرده ايم.
2.4. محاسبه تشابه بر پايه مجموعه و ضريب خطي
1.2.4. استخراج کلمات اصلي هر داده
هر يک از داده هاي جدول بايد براي استخراج کلمات کليدي فيلتر شوند. کلمات اصلي ازتمام نمونه ها براساس پايگاه داده واژگان زبان انگليسي word net جدا مي شود. در اين مرحله کلمات اضافه پسوند ها و پيشوندها از نمونه ها حذف مي شوند تا کلمات اصلي براي محاسبه ضريب تشابه استخراج شوند. ( جدول4-2)
جدول4-2- داده های نمونه
have error attach file email
change date day email spelling error en email
document error tab attach example
code error review email
blank file name download dialog causes crash
bug number comment have hover tip bug summary status
sending email address produce inaccurate error message
Replying attached message messagepart opened file show incorrect date
Send button disabled have recipient
GU ID blacklist have comment field
error sending ms office document word document yahoo web base email
Collection comment editing only have one save button
wrong email appear entry main email address defer
tracking bug build release sea monkey
investigate text align change throughout theme bug 299837
find some way email comment crash Firefox android
stage email engagement service
form bug causing lost os component data bug report
can not attach image group node group
mail crash moving mail folder
Can forward forwardmassageattachment
custom mail header Reply can not pass command line
need set outgo mail address avoid spam filter
crash mail select send unsent message already sending
file picker call crash mozilla open file file attach file browser
Have revision comment field creating new document
can not drag drop mail attach
panel missing Debug pane
Add panel sidebar crash browser
browser title currently active tab
enable add run running metro browser
براي اين کار از نرم افزار Rapid Miner به کمک مجموعه کلمات WordNet استفاده شده است. داده ها در يک فرآيند در3 مرحله با کمک اين نرم افزار فيلتر شده و جدول فوق استخراج می شود. شکل 4- 1 نمايي از اين فرآيند در نرم افزار نشان مي دهد.

شکل4- 1- فرآيند استخراج کلمات اصلی به کمک Rapid Miner

2.2.4. شمارش و حذف کلمات م
شابه
براي آنکه بتوان ضريب تشابه خلاصه هر خطا با خطای جديد را اندازه گيري کرد مطابق با مرحله دوم روش ]23 [بايد کلمات مشابه را به عنوان ضريب δ شمارش و ثبت کرده و اين کلمات را از مجموعه اصلي حذف کنيم. مجموعه حاصل نمونه اصلي براي محاسبه ضريب تشابه خواهد بود. ( جدول4- 3 ).

جدول4- 3- تعداد کلمات مشابه هر داده با داده جديد
δ
have error attach file email
2
change date email spelling error en email
2
Document error tab attach example
2
code error review email
1
blank file name download dialog causes crash
1
bug number comment have hover tip bug summary status
2
sending email address produce inaccurate error message
1
Replying attached message message part opened file show incorrect date
1
Send button disabled have recipient
1
GU ID blacklist have comment field
2
error sending ms office document word document yahoo web base email
1
Collection comment editing only have one save button
2
wrong email appear entry main email address defer
0
tracking bug build release sea monkey
0
investigate text align change throughout theme bug
1
find some way email comment crash Firefox android
1
stage email engagement service
0
form bug causing lost os component data bug report
1
can not attach image group node group
0
mail crash moving mail folder
0
Can forward forward massage attachment
0
custom mail header Reply can not pass command line
0
need set outgo mail address avoid spam filter
0
crash mail select send unsent message already sending
2
File picker call crash mozilla open file file attach file browser
1
Have revision comment field creating new document
1
can not drag drop mail attach
0
panel missing Debug pane
0
Add panel sidebar crash browser
0
browser title currently active tab
0
Enable add run running metro browser

3.2.4. محاسبه ميزان تشابه داده ها
براي تک تک داده ها مراحل زير براي محاسبه ميزان تشابه اجرا مي شود: براي توضيح روشن تر تمام مراحل براي يک داده پياده سازي مي شود. اين ماتريس توسط برنامه نويسي در محيط.net محاسبه مي شود.

1.3.2.4. تشکيل ماتريس تشابه خط
همانطور که قبلا توضيح داده شده ماتريس تشابه خطي براي دو جمله با محاسبه NLCS ، NMCLCS1 وNMCLCSn (فرمول 3-1 ،3-2 ) و تشابه خطي تک تک کلمات تشکيل مي شود.
m=5
n=8

2.3.2.4. تشکيل ماتريس تشابه معنايي
روند محاسبه تشابه بين داده ها و خطای جديد با محاسبه ماتريس تشابه معنايي بين کلمات هر داده و توضيحات خطا رخ داده ادامه ميابد. از آنجا که در اين روش و نمونه مورد بررسي ما از خلاصه هر خطا به عنوان داده هاي مورد آزمايش استفاده کرده ايم، نياز به مجموعه متني مشتمل بر چندين جمله براي بررسي رابطه معنايي بين کلمات است. از اين رو از مجموع کل سي داده براي اين منظور استفاده مي کنيم. چنانچه از توضيحات موجود در مخازن خطا استفاده شود. ديگر مي توان از توضيحات هر داده براي مجموعه کلمات و بررسي رابطه معنايي آنها استفاده کرد.
مطابق با روش islamدر مرحله چهارم فراواني کلمات مورد نظر در هر سطر و ستون شمارش مي شود. ( جدول4-4 )

n=134 m=206


دیدگاهتان را بنویسید