כיצד למצוא דפים מוסתרים באתרי אינטרנט

ב -2016 טיפלה גוגל יותר מ -3200 מיליארד שאילתות חיפוש, אך התוצאות שמנוע החיפוש סיפק ייצגו רק חלק קטן מהתוכן הזמין באינטרנט. רוב המידע זמין באינטרנט אינו נגיש באמצעות מנועי החיפוש, ולכן יש צורך להשתמש בכלים מיוחדים, או אתרי מחקר כדי למצוא את הדפים מוסתרים. ידוע כמו האינטרנט העמוק, מידע זה מוסתר מייצג עד 5, 000 פעמים יותר מאשר זמין באמצעות טכניקות חיפוש טיפוסי.

סוגי תוכן מוסתר

הדפים הנסתרים של אתרי האינטרנט נחלקים לקטגוריות המתארות מדוע הם נשארים בלתי נראים למנועי חיפוש.

חלק מהם מהווים תוכן דינמי, המוצג רק כאשר מבקר מציג בקשה ספציפית באתר המשתמש בקוד המבוסס על מסד נתונים כדי להציג תוצאות ספציפיות. לדוגמה, דפים אלה יכולים לכלול תוצאות רכישה המבוססות על שילובים ספציפיים של קריטריוני מוצרים. מנועי חיפוש לא נועדו לעקוב אחר מידע במאגרים אלה. כדי למצוא דפים אלה, עליך לעבור לאתר ולחפש את המידע הספציפי שאתה מחפש, או להשתמש בשירות חיפוש מונחה נתונים, כגון Bright Planet .

בחלק מהדפים אין קישורים שמחברים אותם למקורות חיפוש. משאבים זמניים, כגון גרסאות מרובות של אתרי אינטרנט לא מפותחים, יכולים להיכלל בקטגוריה זו, כמו אתרי אינטרנט שעוצבו בצורה גרועה. לדוגמה, אם מישהו יצר דף אינטרנט והעלה אותו לשרת האתר אבל לא הוסיף קישור אליו בדפים הנוכחיים של האתר, אף אחד לא היה יודע שהוא שם, כולל מנועי החיפוש.

עדיין דפים נוספים דורשים אישורי כניסה להצגה או גישה, כגון אתרי מנויים. מעצבי אתרים לייעד את הדפים ואת החלקים של האתרים כפי להיות מחוץ לגבולות של מנועי החיפוש, ביעילות ביטול המיקום שלהם באמצעים קונבנציונליים. כדי לגשת לדפים אלה, בדרך כלל עליך ליצור חשבון לפני שתקבל הרשאה לגשת אליהם.

שימוש בקובצי robots.txt

מנועי החיפוש סורקים את דפי האתר ומוסיפים לאינדקס את התוכן שלהם כך שיופיע בתגובה לשאילתות. כאשר הבעלים של אתר אינטרנט רוצה להוציא חלקים מסוימים של התחום שלו מהנהלים אלה לאינדקס, הוא מוסיף את הכתובות של ספריות או דפים לקובץ טקסט מיוחד בשם robots.txt, המאוחסן בשורש של האתר שלו. מאחר שרוב אתרי האינטרנט כוללים קובץ רובוט ללא קשר לשאלה האם הם מוסיפים אי הכללות, תוכל להשתמש בשם הניתן לחיזוי של המסמך כדי להציג את תוכנו.

אם אתה מקליד את "[שם תחום] /robots.txt" ללא המרכאות בשורת הכתובת של הדפדפן שלך, המחליפות את "[שם התחום]" עבור כתובת האתר, התוכן של קובץ הרובוט יופיע לעתים קרובות ב- חלון הדפדפן לאחר לחיצה על מקש "Enter". רשומות קודמות על ידי "disallow" או "nofollow" מייצגים חלקים של האתר כי להישאר נגיש באמצעות מנוע החיפוש.

עשה זאת בעצמך: פריצה לאתרים

בנוסף לקובצי robot.txt, לעתים קרובות תוכל למצוא תוכן מוסתר על ידי הקלדת כתובות אינטרנט עבור דפים ותיקיות ספציפיים בדפדפן האינטרנט שלך. לדוגמה, אם היית מסתכל באתר של אמן ומבחין שכל דף משתמש באותה ועידה למתן שמות - כגון gallery1.html, gallery2.html, gallery4.html - תוכל למצוא גלריה מוסתרת על ידי הקלדת הדף "gallery3.html "בדפדפן האינטרנט שלך.

באופן דומה, אם אתה רואה שהאתר משתמש בתיקיות כדי לארגן דפים - כגון example.com/content/page1.html, עם "/ content" כתיקיה שלו - ייתכן שתוכל לראות את התיקיה עצמה על ידי הקלדת האתר תיקייה, ללא דף, כגון "example.com/content/" בדפדפן האינטרנט שלך. אם הגישה לתיקיה לא הושבתה, ייתכן שתוכל לנווט בין הדפים שהיא מכילה, וכן באמצעות הדפים של כל תיקיית משנה כדי למצוא תוכן מוסתר.

מאמר זה נעשה בעזרת itstillworks.com