10 האלגוריתמים הטובים ביותר לכריית נתונים

כריית נתונים משיגה מסקנות חשובות באמצעות כמויות גדולות של תצפיות מסובכות.

עצי החלטה

אלגוריתם עץ ההחלטה מורכב מארגון הנתונים בחירות מתחרות המתחרות ענפי השפעה לאחר החלטה ראשונית. גזע העץ מייצג את ההחלטה הראשונית, ומתחיל בשאלה של כן או לא, איך לקחת ארוחת בוקר או לא. אכילת ארוחת הבוקר ולא ארוחת הבוקר תהיה שני ענפים שונים של העץ, וכל בחירה לאחר מכן יהיה סניפים משלו המביאים לנקודת סיום.

אלגוריתם K- פירושו

אלגוריתם K פירושו ניתוח של קבוצות. נסו לחלק את הנתונים שנאספו לתוך "אשכולות" נפרדים מקובצים לפי מאפיינים משותפים.

תמיכה במכונות וקטוריות

האלגוריתמים של מכונות וקטוריות תמיכה לוקחים נתוני קלט וחוזרים אילו מבין שתי הקטגוריות האפשריות כוללות את נתוני הקלט. דוגמה תהיה לאסוף קודי דואר מקבוצת הבוחרים ולנסות לחזות אם הבוחר הוא דמוקרט או רפובליקני.

אלגוריתם מראש

האלגוריתם מראש שולט בדרך כלל בנתוני העסקה. לדוגמה, בחנות בגדים, האלגוריתם יכול לקבוע אילו חולצות הלקוחות בדרך כלל לקנות יחד.

אלגוריתם EM

אלגוריתם זה מגדיר פרמטרים על ידי ניתוח הנתונים ומנבא את האפשרות של פלט עתידי או אירוע אקראי בפרמטרים של נתונים. לדוגמה, אלגוריתם EM יכול לנסות לחזות את עיתוי ההתפרצות הבאה של גייזר בהתבסס על נתוני הזמן של התפרצויות העבר.

אלגוריתם PageRank

האלגוריתם PageRank הוא אלגוריתם בסיסי עבור מנועי החיפוש. דרג והעריך את הרלוונטיות של נתון נתון בנתונים בתוך קבוצה גדולה, כגון אתר יחיד בתוך קבוצה גדולה יותר של כל אתרי האינטרנט.

אלגוריתם AdaBoost

האלגוריתם AdaBoost עובד בתוך אלגוריתמים אחרים הלומדים לצפות התנהגות לפי הנתונים הנצפים, כך שהם רגישים קיצוניים סטטיסטית. למרות האלגוריתם EM עשוי להיות מוטה בשל גייזר כי יש שתי התפרצויות בתוך פחות מדקה כאשר בדרך כלל יש פריחה פעם ביום, האלגוריתם AdaBoost היה לשנות את הפלט של אלגוריתם EM ידי ניתוח הרלוונטיות של נקודת הקצה.

אלגוריתם של השכן הקרוב ביותר

אלגוריתם זה מזהה דפוסים במיקומם של הנתונים ומקשר אותם לנתונים עם מזהה גדול יותר. לדוגמה, אם אתה רוצה להקצות סניף דואר לכל מיקום גיאוגרפי של הבית ויש לך נתונים להגדיר עבור כל מיקום גיאוגרפי של הבית, האלגוריתם של השכן הקרוב ביותר יהיה להקצות את הבתים לסניף הדואר הקרוב על בסיס קרבתם.

נאיבי ביי

אלגוריתם נאיבי בייאה חוזה את התפוקה של זהות המבוססת על נתונים מתצפיות ידועות. לדוגמה, אם לאדם יש גובה של 6 מטרים (1.97 מ '), והוא לובש מידה 14 של נעליים, האלגוריתם Naive Baye יכול לחזות עם הסתברות מסוימת שהאדם הוא גבר.

אלגוריתם CART

"CART" הוא ראשי תיבות באנגלית כלומר רגרסיה ניתוח עץ וסיווג. כמו ניתוח של עצי החלטה, הוא מארגן את הנתונים על פי אופציות מתחרות, כאילו אדם שרדו רעידת אדמה. בניגוד לאלגוריתמים של עצי החלטה, אשר יכולים רק לסווג פלט או פלט מספרי המבוסס על רגרסיה, אלגוריתם CART יכול להשתמש הן כדי לחזות את ההסתברות של האירוע.