קבצי PDF – תאימות SEO ונגישות

1.    PDF ותאימות לגוגל (SEO)

1.1.    כללי -PDF  ומנועי חיפוש

סריקה ואינדוקס: מנועי חיפוש, וגוגל במיוחד, מסוגלים לסרוק ולאנדקס קבצי PDF. בהעדר הנחיות אחרות, גוגל יסרוק ויאנדקס כל קובץ PDF שמופיע בקישור בו נתקל העכביש הסורק, בהתאם להגבלת גודל (ראו בהמשך). במהלך הסריקה, גוגל יאנדקס נכון טקסט המופיע במסמך, כולל זיהוי כותרות שסומנו במסמך ככותרת, וכן לינקים שמופיעים במסמך, אך לא תמונות.

גוגל מתייחס ללינקים שנמצאו במסמך בצורה זהה לכאלו שנמצאו בעמודי HTML– הם מאונדקסים, העכביש עובר אחריהם והם מעבירים כוח.

הצגה בתוצאות חיפוש: מבחינת הצגה ויזואלית בתוצאות חיפוש, השוני היחידי (בהשוואה לעמודי HTML) הוא כי גוגל מציין בברור שמדובר ב PDF. צילום מסך: תוצאות חיפוש של גוגל המראות סימון קובץ PDF:

קבצי PDF - תאימות SEO ונגישות

מיקום בתוצאות חיפוש:

מבחינת מיקום במנועי חיפוש- קבצי PDF מתחרים באופן מלא בעמודי אינטרנט רגילים (HTML). הכללים לפיהם מדורגים קבצי PDF אינם מפורסמים ע"י גוגל, אך ידוע כי הם שונים במהותם מאלו של HTML, במיוחד בשל נפח הטקסט המכיל מספר ביטויי מפתח עצום בקבצי PDF (בהשוואה לעמודי HTML ממוצעים). ההבדלים נועדו ע"מ לאפשר השוואה נכונה בין שני הפורמטים ודירוג הולם.

בתוצאה הסופית, קובץ PDF יכול בהחלט להתחרות בעמודי האתר על הדירוג עבור ביטויי מפתח שונים, ולהיות מדורג במיקום גבוה (כולל תוצאת חיפוש אורגנית ראשונה).

1.2.    תוכן ב PDF או בHTML- במה לבחור?

כאשר ממקמים תכנים באתר, עולה לפעמים השאלה באיזה פורמט כדאי למקם את התכנים- HTML או פורמט זמין להורדה (PDF, וורד וכו).

לשאלה זו משמעות אסטרטגית, שמהותה היא היכן בוחרים למקם את הכח הנושאים תכנים אלו עבור האתר- בדף באתר עצמו או בקובץ הPDF. בעוד שלשני הפורמטים יש מצבים בהם הם נדרשים ושניהם מתאנדקסים יחסית היטב, לבחירה ב PDF יש מספר חסרונות.

ראשית, חשוב להבין כי מבחינת חווית המשתמש, כאשר גולש מועבר ישירות מתוצאות חיפוש במנועי חיפוש אל קובץ PDF (קריעמוד הנחיתה שלו הינו ה PDF), הגולש אינו נמצא הלכה למעשה באתר: הוא אינו רואה את מבנה עמודי האתר (הדר, פוטר, לוגו, סרגלי ניווט וכו), והיכולת שלו להמשיך מהקובץ לתכנים אחרים באתר ולבקר בעמודים נוספים מוגבלת מאוד. גם יכולת ההנעה שלנו את הגולש מקבצי PDF לביצוע פעולות אונליין הינה מוגבלת, ומתמצה בעיקר בקישורים מן הטקסט. לבסוף, לא ניתן לשלוט בהעברת כח מקישורים בPDF, ותכנים שאינן טקסטואליים אינם מתאנדקסים בPDF (בניגוד לעמודי HTML).

מסיבות אלו ונוספות, ובהינתן מצב בו כל התנאים זהים ואין צורך המכתיב בחירה בPDF או HTML-

יש להעדיף תמיד למקם תכנים ב HTML ולא ב PDF.

עם זאת, כאמור, ישנם מצבים שכן מכתיבים צורך לשימוש בקבצים להורדה כמו PDF, לדוגמא- טפסים להורדה, מדריכים למשתמש וכו. חשוב להבין שגם במקרים כאלו, לרוב אין צורך ממשי לוותר מראש על הבחירה האסטרטגית בHTML כיעד לשימור הכוח.

לדוגמא-ניתן למקם את כל התוכן בHTML ולהציע במקביל את ה PDF להורדה, וזאת תוך שימוש בטכניקות המכווינות מנועי חיפוש להעניק את כל הכוח בתוצאות החיפוש לגרסת ה HTML (ראו בהמשך). פתרון זה מתאים במיוחד למקרים בהם תוכן ה PDF אינו ארוך.

במקרים בהם התוכן ארוך, ניתן למקם בHTML תקציר ממוקד, ושוב ולהציע במקביל את ה PDF להורדה, תוך שימוש בטכניקות המכווינות מנועי חיפוש להעניק את כל הכוח בתוצאות החיפוש לגרסת ה HTML.

1.3.    בחירה במתן כח ל PDF- המלצות

להלן מספר נקודות חשובות והמלצות ליישום במקרים הנדירים בהם כן יש צורך לבחור בקובץ הPDF כיעד הנושא את הכח במנועי חיפוש:

  • סימון לאינדוקס ע"י מנועי חיפוש: אין צורך לבצע דבר כדי לגרום למנועי חיפוש לסרוק את הקובץ– ברגע שקיים ברשת קישור רגיל לקובץ, מנועי חיפוש יסרקו ויאנדקסו אותו. עם זאת, ממספר סיבות טכניות, סריקת PDF אורכת זמן רב יותר מאשר סריקת עמודי HTML (לעיתים עד חודש יותר), ולכן גם אם עמודי האתר שבהם הקישור נסרקו והPDF עדיין לא- אין בכך סימן לבעיה לכשעצמה.
  • עידוד סריקה ואינדוקס: מומלץ לסמן את כתובת הPDF במפת האתר כעמוד תוכן לכל דבר ע"מ להאיץ סריקה ע"י מנועי חיפוש.
    במידה וגם לאחר זמן רב (חודש) הקובץ לא נסרק ואונדקס (ובהנחה שלגוגל גישה מלאה לקובץ), או אם יש דחיפות לסריקה– ניתן להגיש דרך הוובמסטרס טולס בקשה לסריקה ("Fetch as Google"), ולאחריה הגשת העמוד לאינדקס.
  • מגבלת גודל:  ככלל מנחה, רצוי לייצר קבצי PDF קטנים ככל האפשר, ומומלץ שלא לעבור 2.5MB.  ככל שהקובץ גדול יותר, גוגל יתעכב יותר בסריקתו, יסרוק אותו לעיתים רחוקות יותר, וכן עלול אך לסרוק רק חלקו או לא לסרוק אותו בכלל. מסיבות טכניות, בעת הסריקה גוגל ממיר את ה PDF לקובץ HTML (שאינו מוצג לגולשים). גוגל ממליץ לא להעלות קבצים גדולים מ 20MB (לאחר ההמרה), אך עדיין עשוי לסרוק את הקובץ כולו כל עוד שהוא קטן מ 100MB. עם זאת, בכל מקרה- גוגל לא יאנדקס יותר מ 2.5MB (לאחר ההמרה)-אם הקובץ גדול מכך, גוגל יסרוק את הקובץ ויחליט איזה חלק לאנדקס (לרוב תחילת הקובץ) או לא יסרוק בכלל (במקרה שגדול מ 100MB), ולכן ההמלצה לעיל שלא לעבור את גודל 2.5 MB.
  • הכוונת כותרת הקובץ כפי שתוצג בגוגל: לא ניתן להזין תג מטא כותרת עבור קבצי PDF. ניתן להכווין את גוגל לכותרת רצויה בעזרת תוכן הכותרת הראשית במסמך והטקסט ששימש לקישור מהאתר לקובץ הPDF.
  • סימון כותרות במסמך: גוגל סורק ומאנדקס כותרות שמסומנות במסמך ככותרת (בדומה לכותרות בHTML), ומשתמש בהן לשיפור האינדוקס לביטויי מפתח ("להבין" במה עוסק המסמך), ולכן חשוב להקפיד על סימון הכותרות בטקסט.
  • קישורים בתוך קובץ ה HTML: כאמור, גוגל מאנדקס קישורים שנמצאים ב PDF, והם מעבירים כח בדיוק כמו קישורים ב HTML. למטרה זאת, על הקישורים להיות קישורים סטנדרטיים כמו בHTML (כלומר במבנה  <a href="/page2.html">link to page 2</a> ). עם זאת, לא ניתן לסמן קישורים שב PDF בתגי no follow ו no index, ולכן, אם לא מעוניינים שקישור מסוים יעביר כח- יש להימנע מלמקמו ב PDF.
  • מדיה עשירה ב PDF: גוגל לא יאנדקס מדיה עשירה (לרבות תמונות) שבPDF. יש להמנע ממיקום טקסט בתוך תמונה (נכון גם ל HTML). במידה ורוצים שגוגל יאנדקס תמונה כלשהיא מהPDF, יש למקם עבורה קישור תקני (ראו סעיף קודם), ואז במרבית המקרים העכביש יעבור דרך הקישור אל התמונה ויאנדקסה בנפרד.
  • PDF שנוצר מתמונה של טקסט (OCR): כאמור לעיל, גוגל לא יאנדקס תמונות בPDF ובודאי לא טקסט שנמצא בתמונה. במקרה שהPDF נוצר מתמונה של טקסט שנסרקה עם OCR אזי מדובר בטקסט לכל דבר מבחינת מנועי חיפוש, ולא צפויות בעיות באינדוקס.
  • אינדוקס PDF אך מניעת הצגת cached version בגוגל: במידה והקובץ הינו קובץ זמני, או כזה שמשתנה לעיתים קרובות, ניתן לבקש מגוגל לאנדקס את הקובץ, אך לא להכניסו ל cache  ולא להציג גרסאות cached שלו, ע"י שימוש בתג X-ROBOTS עם no archive  בתשובת ה HTTP של הקובץ (ראו פרוט בסעיף הבא).
  • לא להשתמש בהגנת סיסמא: בעת יצירת PDF, ניתן לחסום אותו לקריאה למורשים בלבד בעזרת סיסמא. מיותר לציין, שביצוע חסימה זו ימנע מגוגל לסרוק ולאנדקס את הקובץ באופן מוחלט, ולכן אין להשתמש בהגנת סיסמא אם רוצים לאפשר לגוגל גישה לקובץ.

1.4.    בחירה באי מתן כח ל PDF- המלצות

כאשר מחליטים לבחור בעמודי הHTML כנושאי הכח לתוכן, אך עדיין למקם קבצי PDF באתר (לדוגמא- טפסים להורדה וכו), מומלץ לנקוט בגישה של מניעת אינדוקס קבצי ה PDF. להלן מספר נקודות חשובות והמלצות ליישום במצב זה:

  • מניעת אינדוקס ע"י מנועי חיפוש: ניתן לבקש ממנועי חיפוש להמנע מאינדוקס קבצי הPDF, וכך להמנע מזליגת כח מהאתר אל הקבצים, ומנחיתת גולשים ישירות ממנועי חיפוש אל קבצי הPDF. ישנן 3 דרכים לבצע הנ"ל, לפי סדר העדיפות הבא:
    א.    חסימת תיקייה שלמה לאינדוקס: זוהי הדרך המומלצת והנקייה ביותר. יש לייצר תיקייה בשרת, ולמקם אך ורק בתוכה את כל קבצי הPDF של האתר.
    בהמשך, יש לסמן בקובץ ה robots.txt של האתר את התיקייה כולה כלא לאינדוקס.
    היתרון בשיטה זו הוא שכל קובץ שמוסיפים לתיקייה נכנס גם הוא תחת מטריית ה no index של התיקייה, ולכן לא צריך לדאוג לטפל בנושא עבור כל קובץ וקובץ מחדש.
    ב.    טיפול פרטני: במידה והפתרון הקודם אינו רצוי מסיבה כלשהיא (לא מעוניינים ליצור תיקייה בשרת, מספר קטן של קבצים, רוצים למנוע אינדוקס רק לקובץ אחד וכיו"ב), ניתן לסמן בno index בקובץ הrobots.txt רק את הקובץ שרוצים לחסום.
    ג.    טיפול פרטני- סימון הקובץ עצמו ב noindex: יש לזכור שלא ניתן לסמן קובץ PDF בתג מטא בהדר. לכן, ע"מ לסמן את הקובץ עצמו ב noindex, יש לעשות שימוש בתג ייחודי שגוגל פתחו לטובת סימון קבצים- X-Robots. יש להוסיף תג זה לתשובת ה HTTP של הקובץ. להלן דוגמא לתשובת HTTP עם תג X-ROBOTS שמנחה מנועי חיפוש לא לאנדקס את הקובץ:

    HTTP/1.1 200 OK
    Date: Tue,25 May 2010 21:42:43 GMT
    (…)
    X-Robots-Tag: noindex
    (…)

    תג ה X-ROBOTS תומך גם בפקודות no follow ו no archive.
    לפרטים נוספים אודות תג זה עמוד גוגל אודות robots meta tag

  • הסרת קובץ PDF מהאינדקס של גוגל: במידה וקובץ שאיננו רוצים שיאונדקס אכן נסרק ואונדקס ע"י גוגל, סימונו לא לאינדוקס (באחת מהשיטות לעיל, ובמיוחד ה x robots), תביא במוקדם או מאורח להסרתו מהאינדקס.
    עם זאת, במקרה שיש צורך בהסרה דחופה מהאינדקס (לדוגמא- בשל חשיפת מידע חסוי), ניתן להגיש בקשה להסרת קובץ (או תיקייה) ספציפיים דרך ה webmasters tools. חשוב לזכור שהסרה בדרך זו הינה אופציה אחרונה- במידה והקובץ לא סומן ב "no index" הוא יסרק שוב ויוחזר שוב לאינדקס!

1.5.    מניעת כפילויות תוכן

במידה ומסיבה כלשהיא מחליטים להשאיר קובץ PDF זמין למנועי חיפוש, ובמקביל למקם עמוד HTML שמציג את אותו תוכן או חלקו, או למקם קבצי PDF נוספים שמציגים את אותו התוכן או חלקו, אזי חשוב לציין לגוגל גרסא מועדפת כדי להימנע מכפילויות תוכן.
ניתן לעשות זאת ע"י יישום תג הקנוניקל, בדומה לעמודי HTML, אך יש לזכור שבקובץ הPDF יש למקם את הקנוניקל בתשובת ה HTTP. לפרטים נוספים בנושא, ראו עמוד גוגל אודות canonical ב PDF (כולל דוגמא ספציפית לגבי קנוניקל ב-PDF בתחתית העמוד) .
יש לזכור שמקרה זה רלוונטי רק למצב בו בוחרים להשאיר את הקובץ כזמין לאינדוקס- אם ממקמים את הקובץ בתיקיה לא לאינדוקס או מסמנים אותו ב robots.txt כלא לאינדוקס, אזי גוגל לא יראה את תג הקנוניקל שעל הקובץ.

 1.6.    קישורים למידע נוסף

2.    PDF ותאימות לנגישות (הנחיות לרמה AA)

PDF הינו פורמט שמאפשר רמת נגישות גבוהה במיוחד כאשר הקובץ נבנה כראוי. אמנם לא כל האתרים בארץ מחויבים ברמת AA, אך היות והסעיפים הנדרשים להשגת רמת AA בPDF הינם כמעט זהים לאלו שברמה A ואינם מחייבים מאמץ מיוחד בביצוע אלא רק הגדרה נכונה של הקובץ, מובאות כאן ההמלצות ישירות לרמה AA המומלצת ע"י המחוקק.
הטיפול בPDF מבחינת נגישות מתחלק ל2: יצירת מסמך המקור (לדוגמא- קובץ וורד) כמסמך נגיש והטיפול בקובץ הPDF עצמו, שבתורו מתחלק להפעלת אפשרויות נגישות ולביצוע תיקונים והגדרות נוספות לתגים ולתוכן המסמך. טיפול נכון במסמך המקור והפעלת אפשרויות הנגישות לכשעצמם יספקו רמת נגישות גבוהה, ויצמצמו את מספר הפעולות שיש לבצע בPDF עצמו.
להלן נקודות חשובות והמלצות מרכזיות בנושא. לפרטים נוספים ולטכניקות פרטניות ליישום, נא להיעזר בקישורים המצורפים.

2.1.    הכנת מסמך המקור כמסמך נגיש

זהו הבסיס להנגשת קובץ הPDF. היות וישנם פורמטים רבים מהם ניתן להתחיל, נפרט כאן מספר דוגמאות לנקודות החשובות ביותר עבור פורמט ה Word של מייקרוסופט, שהוא הפורמט הנפוץ ביותר. עם זאת, חובה להבין כי רשימה זו הינה תקציר העוסק בנקודות המרכזיות בלבד, ויש לוודא כי המסמך עומד בכל ההנחיות הרלוונטיות בתקן ה-   WCAG 2.0.

  • שימוש בטקסט חי בלבד (כל הרמות): יש להמנע ממיקום טקסט בתוך תמונות, או יצירת מסמכי PDF מצילומים/סריקה של טקסט ללא OCR.
  • הגדרת עיצוב מסמך כותרות והיררכיה מבנית עפ"י סגנונות עיצוב (רמה A): יש לוודא שכל העיצובים במסמך (פונט, גודל טקסט, היררכיה וכו) מתבצעים בעזרת הגדרות עיצוב (Styles) של וורד, ולא באופן ידני. כנ"ל לגבי מספור- יש להשתמש באפשרויות המספור של וורד ולא לציין מספר סעיף באופן ידני. הנושא קריטי במיוחד לסימון כותרות. לדוגמא: אין לבחור טקסט ולסמנו בקו תחתון+בולד+גודל טקסט 14 ע"מ לשוות לו מראה של כותרת. במקום, יש לבחור את הטקסט ולסמנו בערכת העיצוב ככותרת לפי רמת ההיררכיה הרצויה (Heading 1, Heading 2 וכו).
    יש לשים לב שמבחינת נגישות לנושא זה משמעות הרבה מעבר למראה הוויזואלי- בחירת סגנונות העיצוב מייצרת למעשה הגדרות שלד ומבנה למסמך, והגדרות אלו הינן קריטיות לכלי נגישות רבים. גם לאחר בחירת סגנון עיצוב, ניתן לשנות ידנית כיצד נראה הטקסט, אך הגדרת הסגנון עדיין תישאר בהגדרות המסמך ותשמש כלי נגישות בתכונות רבות כמו הקראת טקסט, איתור מקטעים וכו.
  • יצירת מרווחים באמצעות הגדרות עיצוב ולא ידנית (רמה A): מאותן סיבות שלעיל, חשוב לייצר מרווחים בעזרת הגדרות העיצוב של וורד (רווח בין שורות, בין מילים, בתוך פסקה וכו) בעזרת הגדרות העיצוב של וורד, ולהמנע מיצירת מרווחים ידנית (מקש רווח, כפתור טאב וכו) ע"מ לאפשר מבנה שלד נכון למסמך הנגיש לכלי עזר לנגישות. בניית טבלאות בעזרת כלי וורד ולא ידנית או בתמונה.
  • הזנת טקסט חלופי (alt tag) לתמונה (רמה A): הכרחי
  • קישורים מן הטקסט (רמה A): מילות הקישור חייבות להיות בעלות משמעות (יש להמנע מביטוים גנריים כגון "לחץ כאן", "לפרטים נוספים" וכו). יש להשתמש באופציית "תיאור מסך" ("screen tip") המובנית בוורד כדי להוסיף הסבר על הקישור.
  • הזנת פרושים לקיצורים.
  • קונטרסט ומידע המועבר בעזרת קידוד צבעים:
    א.    יש להקפיד על קונטרסט תקין בין הטקסט לרקע (ניגודיות של 4.5 ל1 לפחות- רמה AA, או 3 ל1 אם הטקסט בגודל 18 נקודות ומעלה), ושל לפחות 3ל1 בין טקסטים סמוכים בצבעים שונים (כגון טקסט קישור וטקסט רגיל- רמה A)
    ב.    יש להמנע משימוש בקידוד צבע כאמצעי הבלעדי להעברת מידע מסוים (רמה A)
    ג.    יש לוודא תאימות צבעים עבור עיוורי צבעים (רמה A. להנחיות, נא ראו הטכניקות המוצעות ב WCAG 2.0. רמת הנגישות הסופית שתושג- לפי הטכניקה שתיושם)

 2.2.    טיפול בקובץ הPDF- הפעלת אפשרויות נגישות

ע"מ שקובץ הPDF יאפשר לכלי נגישות גישה מלאה למסמך, יש לוודא כי אפשרויות הנגישות הופעלו בעת המרת מסמך המקור ל PDF.

ישנם כלים רבים בשוק להמרת מסמכים לפורמט PDF- אנו נביא כאן את האפשרויות לסימון עבור Adobe Acrobat, שהוא הכלי הנפוץ ביותר (שימו לב שכלים חינמיים רבים לא תמיד מכילים את אפשרויות הנגישות בכלל, ובמקרה שכזה אין להשתמש בהם).

בעת ההמרה, בחלון האפשרויות (preferences) של Adobe Acrobat, תחת לשונית הגדרות (settings), יש לסמן את 3 האפשרויות הבאות (ראו צילום מסך מצורף מטה): צור סימניות (create bookmarks), הוסף קישורים (add links) והפעל נגישות וזרימה מחדש ב PDF מתויג (enable accessibility and reflow with tagged Adobe PDF).

צילום מסך: חלון האפשרויות של יצירת קובץ PDF

חלון האפשרויות של יצירת קובץ PDF

2.3.    ביצוע תיקונים וסימון תגים בקובץ ה PDF

ביצוע 2 השלבים הקודמים יצר מסמך ברמת נגישות בסיסית. כעת, יש לוודא כי המסמך עומד בכל ההנחיות הרלוונטיות בתקן ה WCAG 2.0.
על מנת לוודא זאת, ישנן 23 נקודות טכניות אליהן יש לשים לב. נקודות אלו והטכניקות להשגתן מפורטות בעמוד נפרד בתקן ה WCAG 2.0 המוקדש לטכניקות לטיפול ב PDF. במידה והשלב הראשון (הכנת מסמך המקור בצורה נגישה) בוצע כראוי, יהיו בשלב זה מעט מאוד פעולות או תיקונים מהותיים הנדרשים להשגת רמת AA- מרבית הנקודות הנדרשות לביצוע בשלב זה פשוטות יחסית, וחלקן רלוונטי רק לטיפול במילוי טפסים המופיעים במסמך. עם זאת- חובה לוודא בכל מקרה ומקרה שהמסמך שהכנתם תקין
לפי הרשימה בקישור הנ"ל.

אין תגובות למאמר

עדיין לא נכתבו תגובות.

כתוב תגובה

שדות חובה מסומנים בכוכבית (*)