본문 바로가기
프로...Linux

Pdf -> Text 변환 및 비교

by 크크다스 2025. 1. 21.
반응형

ChatGTP 없었을 때는 어떻게 살았었는지...ㅋㅋ

- 이번에도 도움이라기 보다는 그냥 베끼기 ㅎㅎ

 

질문> linux에서 pdf를 text로 변경하는 방법

더보기

Linux에서 PDF 파일을 텍스트로 변경하는 방법에는 여러 가지 도구를 사용할 수 있습니다. 다음은 몇 가지 일반적인 방법입니다.

1. pdftotext 사용하기

pdftotext는 Linux에서 PDF 파일을 텍스트 파일로 변환할 수 있는 가장 인기 있는 명령어 도구입니다. 이 도구는 기본적으로 대부분의 Linux 배포판에서 제공됩니다.

설치:

  • Debian/Ubuntu 기반 시스템에서는 다음 명령어로 poppler-utils 패키지를 설치할 수 있습니다.
  • bash
    복사
    sudo apt-get install poppler-utils
  • RedHat/CentOS/Fedora에서는:
  • bash
    복사
    sudo yum install poppler-utils

사용법:

  1. PDF 파일을 텍스트로 변환하려면 다음 명령어를 사용합니다:
    • input.pdf: 변환할 PDF 파일 이름
    • output.txt: 변환된 텍스트를 저장할 파일 이름
  2. bash
    복사
    pdftotext input.pdf output.txt
  3. 텍스트 파일을 표준 출력으로 출력하려면 output.txt를 생략할 수 있습니다:
  4. bash
    복사
    pdftotext input.pdf -
  5. 특정 페이지 범위를 텍스트로 변환하려면:
    • -f 2: 2페이지부터 시작
    • -l 5: 5페이지까지
  6. bash
    복사
    pdftotext -f 2 -l 5 input.pdf output.txt

2. poppler-utils의 다른 도구들

poppler-utils 패키지에는 PDF 파일을 처리하는 여러 도구들이 포함되어 있습니다. 그 중 pdftohtml이나 pdfinfo도 유용할 수 있습니다.

  • pdfinfo: PDF의 메타데이터를 확인할 수 있습니다.
  • bash
    복사
    pdfinfo input.pdf
  • pdftohtml: PDF 파일을 HTML로 변환하여 더 나은 가독성을 얻을 수 있습니다.
  • bash
    복사
    pdftohtml input.pdf output.html

3. Python을 사용하여 PDF 텍스트 추출하기

Python을 사용하여 PDF 파일을 텍스트로 변환하는 방법도 있습니다. PyPDF2 또는 pdfplumber와 같은 라이브러리를 사용할 수 있습니다.

PyPDF2 사용 예:

  1. 먼저 PyPDF2를 설치합니다:
  2. bash
    복사
    pip install PyPDF2
  3. Python 코드로 PDF 파일을 텍스트로 변환합니다:
  4. python
    복사
    import PyPDF2 with open('input.pdf', 'rb') as file: reader = PyPDF2.PdfReader(file) text = '' for page in reader.pages: text += page.extract_text() with open('output.txt', 'w') as output_file: output_file.write(text)

pdfplumber 사용 예:

pdfplumber는 PyPDF2보다 더 정밀한 텍스트 추출이 가능합니다.

  1. 먼저 pdfplumber를 설치합니다:
  2. bash
    복사
    pip install pdfplumber
  3. PDF에서 텍스트를 추출하는 Python 코드:
  4. python
    복사
    import pdfplumber with pdfplumber.open("input.pdf") as pdf: text = '' for page in pdf.pages: text += page.extract_text() with open("output.txt", "w") as output_file: output_file.write(text)

4. OCR (광학 문자 인식) 도구 사용하기

PDF 파일이 이미지로 되어 있다면, 텍스트를 추출하려면 OCR(광학 문자 인식) 기술을 사용해야 합니다. Tesseract는 Linux에서 사용할 수 있는 강력한 OCR 도구입니다.

설치:

bash
복사
sudo apt-get install tesseract-ocr

사용법:

  1. PDF 파일을 이미지로 변환한 후 Tesseract를 사용하여 텍스트를 추출할 수 있습니다.
    bash
    복사
    pdftoppm input.pdf output -png tesseract output-1.png output.txt

위의 방법 중에서 PDF 파일의 내용과 구조에 맞는 방법을 선택하여 텍스트로 변환할 수 있습니다. pdftotext는 빠르고 간단한 방법이지만, 이미지 기반 PDF에는 Tesseract와 같은 OCR 도구가 필요할 수 있습니다.

진행 : Tool 설치(ubuntu 20.04.6 LTS (Focal Fossa))

더보기

apt-get install poppler-utils -y

진행 2 :  pdftotext

더보기

pdftotext    NEW-3.TTAK.KO-06.0541.R1.pdf        NEW-3.TTAK.KO-06.0541.R1.txt

 

 

이번에도 잘 되네요~~~ ㅎㅎ

 

 

ChatGTP는 또 사랑입니다. ㅎㅎ

반응형

'프로...Linux' 카테고리의 다른 글

gvim 한글 설정  (0) 2025.01.21
ubuntu 18 신규 설치  (0) 2023.12.22
MySQL 몰아보기  (0) 2021.06.15
[Util-Script] mytop  (0) 2019.10.18
[Threads] 속성 및 내용 정리  (0) 2019.09.19