כיצד לחלץ טקסט ממסמך PDF

זה יכול להיות מאוד מתסכל לנסות לחלץ את הטקסט מקובץ PDF כדי להשתמש בו ביישום אחר.

חלץ את הטקסט באמצעות Acrobat Reader

שלב 1

פתח את הקובץ ב- Acrobat Reader. ב- Windows, בחר "File -> Export text document", תן שם למסמך ושמור אותו.

שלב 2

על מערכת ההפעלה Mac או Linux, להעתיק את הטקסט על ידי גישה לתפריט "תצוגה" ובחירה "רציף" או "רציף אוריינטציה". (האפשרות הראשונה תיתן לך את הטקסט בעמודה אחת, ואילו האפשרות השנייה יהיה לעצב את הטקסט כדפים זה לצד זה). עבור אל "ערוך -> בחר הכל" ולאחר מכן "ערוך -> העתק".

שלב 3

השתמש בכלי בחר אם ברצונך לחלץ רק חלק מהטקסט. לחץ על הכלי "בחר טקסט" ולאחר מכן בחר את המידע הרצוי. במסמך עם פורמט עמודות מרובות, יהיה עליך להשתמש בכלי הראשון "בחירת עמודות". עבור אל "ערוך -> העתק"

המרת PDF ל- HTML

שלב 1

השתמש ב- Gmail כקיצור דרך. צרף את קובץ ה- PDF לדוא"ל ושלח אותו לחשבון Gmail שלך. כאשר תפתח את הודעת האימייל, תראה סדרה של אפשרויות ליד הקובץ המצורף. בחר באפשרות "הצג כ- HTML" ושמור את הקובץ שנפתח בחלון נפרד. למרות שלא תוכל לראות את הגרפיקה, קובץ ה- HTML שומר את הפורמט של מסמך הטקסט.

שלב 2

חלץ להמיר את הקבצים בשורת הפקודה. משתמשי לינוקס יכולים להשתמש בפקודת המרה בסיסית שתשנה קובץ .pdf לקובץ .txt: "Pdftotext filename.pdf". הקפד לשנות את שם הקובץ בשם קובץ ה- PDF.

שלב 3

הורד תוכנית המרה טקסט PDF. ישנן מספר תוכנות קוד פתוח ותוכניות חינם זמין, כגון PDFBox וקל PDF ממיר טקסט. רבים של תוכניות אלה יכולים גם להמיר קבצי PDF ל- HTML.