Pdf -> Text 변환 및 비교

ChatGTP 없었을 때는 어떻게 살았었는지...ㅋㅋ

- 이번에도 도움이라기 보다는 그냥 베끼기 ㅎㅎ

질문> linux에서 pdf를 text로 변경하는 방법

Linux에서 PDF 파일을 텍스트로 변경하는 방법에는 여러 가지 도구를 사용할 수 있습니다. 다음은 몇 가지 일반적인 방법입니다.

1. pdftotext 사용하기

pdftotext는 Linux에서 PDF 파일을 텍스트 파일로 변환할 수 있는 가장 인기 있는 명령어 도구입니다. 이 도구는 기본적으로 대부분의 Linux 배포판에서 제공됩니다.

설치:

Debian/Ubuntu 기반 시스템에서는 다음 명령어로 poppler-utils 패키지를 설치할 수 있습니다.
bash

복사

sudo apt-get install poppler-utils
RedHat/CentOS/Fedora에서는:
bash

복사

sudo yum install poppler-utils

사용법:

PDF 파일을 텍스트로 변환하려면 다음 명령어를 사용합니다:
- input.pdf: 변환할 PDF 파일 이름
- output.txt: 변환된 텍스트를 저장할 파일 이름
bash

복사

pdftotext input.pdf output.txt
텍스트 파일을 표준 출력으로 출력하려면 output.txt를 생략할 수 있습니다:
bash

복사

pdftotext input.pdf -
특정 페이지 범위를 텍스트로 변환하려면:
- -f 2: 2페이지부터 시작
- -l 5: 5페이지까지
bash

복사

pdftotext -f 2 -l 5 input.pdf output.txt

2. poppler-utils의 다른 도구들

poppler-utils 패키지에는 PDF 파일을 처리하는 여러 도구들이 포함되어 있습니다. 그 중 pdftohtml이나 pdfinfo도 유용할 수 있습니다.

pdfinfo: PDF의 메타데이터를 확인할 수 있습니다.
bash

복사

pdfinfo input.pdf
pdftohtml: PDF 파일을 HTML로 변환하여 더 나은 가독성을 얻을 수 있습니다.
bash

복사

pdftohtml input.pdf output.html

3. Python을 사용하여 PDF 텍스트 추출하기

Python을 사용하여 PDF 파일을 텍스트로 변환하는 방법도 있습니다. PyPDF2 또는 pdfplumber와 같은 라이브러리를 사용할 수 있습니다.

PyPDF2 사용 예:

먼저 PyPDF2를 설치합니다:
bash

복사

pip install PyPDF2
Python 코드로 PDF 파일을 텍스트로 변환합니다:
python

복사

import PyPDF2 with open('input.pdf', 'rb') as file: reader = PyPDF2.PdfReader(file) text = '' for page in reader.pages: text += page.extract_text() with open('output.txt', 'w') as output_file: output_file.write(text)

pdfplumber 사용 예:

pdfplumber는 PyPDF2보다 더 정밀한 텍스트 추출이 가능합니다.

먼저 pdfplumber를 설치합니다:
bash

복사

pip install pdfplumber
PDF에서 텍스트를 추출하는 Python 코드:
python

복사

import pdfplumber with pdfplumber.open("input.pdf") as pdf: text = '' for page in pdf.pages: text += page.extract_text() with open("output.txt", "w") as output_file: output_file.write(text)

4. OCR (광학 문자 인식) 도구 사용하기

PDF 파일이 이미지로 되어 있다면, 텍스트를 추출하려면 OCR(광학 문자 인식) 기술을 사용해야 합니다. Tesseract는 Linux에서 사용할 수 있는 강력한 OCR 도구입니다.

설치:

bash

복사

sudo apt-get install tesseract-ocr

사용법:

PDF 파일을 이미지로 변환한 후 Tesseract를 사용하여 텍스트를 추출할 수 있습니다.

bash

복사

pdftoppm input.pdf output -png tesseract output-1.png output.txt

위의 방법 중에서 PDF 파일의 내용과 구조에 맞는 방법을 선택하여 텍스트로 변환할 수 있습니다. pdftotext는 빠르고 간단한 방법이지만, 이미지 기반 PDF에는 Tesseract와 같은 OCR 도구가 필요할 수 있습니다.

진행 : Tool 설치(ubuntu 20.04.6 LTS (Focal Fossa))

apt-get install poppler-utils -y

진행 2 : pdftotext

pdftotext NEW-3.TTAK.KO-06.0541.R1.pdf NEW-3.TTAK.KO-06.0541.R1.txt

이번에도 잘 되네요~~~ ㅎㅎ

ChatGTP는 또 사랑입니다. ㅎㅎ

저작자표시 비영리 변경금지

'프로...Linux' 카테고리의 다른 글

gvim 한글 설정 (0)	2025.01.21
ubuntu 18 신규 설치 (0)	2023.12.22
MySQL 몰아보기 (0)	2021.06.15
[Util-Script] mytop (0)	2019.10.18
[Threads] 속성 및 내용 정리 (0)	2019.09.19

살며 살아가며

Pdf -> Text 변환 및 비교

1. pdftotext 사용하기

설치:

사용법:

2. poppler-utils의 다른 도구들

3. Python을 사용하여 PDF 텍스트 추출하기

PyPDF2 사용 예:

pdfplumber 사용 예:

4. OCR (광학 문자 인식) 도구 사용하기

설치:

사용법:

'프로...Linux' 카테고리의 다른 글

티스토리툴바

Pdf -> Text 변환 및 비교

1. pdftotext 사용하기

설치:

사용법:

2. poppler-utils의 다른 도구들

3. Python을 사용하여 PDF 텍스트 추출하기

PyPDF2 사용 예:

pdfplumber 사용 예:

4. OCR (광학 문자 인식) 도구 사용하기

설치:

사용법:

'프로...Linux' 카테고리의 다른 글

관련글

티스토리툴바