MUTools

PDF

Ekstraksi Teks PDF

Alat Ekstraksi Teks PDF adalah alat untuk mengambil teks isi dari PDF dan mengubahnya menjadi bentuk yang dapat digunakan untuk disalin atau diunduh sebagai .txt. Sambil melihat pratinjau PDF asli per halaman di sisi kiri layar, teks hasil ekstraksi ditampilkan di sisi kanan.

Seret & lepas PDF ke sini

atau

Mendukung PDF (maksimal 100 MB). PDF terenkripsi tidak dapat diekstrak teksnya.

PDF diproses sepenuhnya di dalam browser dan tidak dikirim ke server.

Teks tidak dapat diekstrak dari PDF yang terenkripsi atau PDF yang hanya terdiri dari gambar.

Apa itu alat Ekstraksi Teks PDF?

Alat Ekstraksi Teks PDF adalah alat untuk mengambil teks isi dari PDF dan mengubahnya menjadi bentuk yang dapat digunakan untuk disalin atau diunduh sebagai .txt. Sambil melihat pratinjau PDF asli per halaman di sisi kiri layar, teks hasil ekstraksi ditampilkan di sisi kanan.

Rentang halaman dapat ditentukan dengan pemisah koma seperti "1-3, 5, 7-10", dan jika dikosongkan, semua halaman akan diekstrak. Jika "Sisipkan pemisah halaman" diaktifkan, pemisah seperti "--- halaman N ---" akan disisipkan pada setiap batas halaman di teks hasil ekstraksi, sehingga memudahkan pemrosesan pada tahap berikutnya.

PDF yang dimasukkan dianalisis sepenuhnya di dalam browser pengguna, dan tidak ada pengunggahan ke server eksternal. Anda dapat menggunakannya dengan tenang bahkan untuk dokumen rahasia internal atau dokumen yang memuat informasi pribadi. Berjalan sepenuhnya di browser Anda.

Cara penggunaan

  1. Seret & lepas PDF ke area lepas, atau klik untuk memilih berkas.
  2. Masukkan rentang halaman (contoh: 1-3, 5, 7-10). Jika dikosongkan, semua halaman akan menjadi target.
  3. Bila perlu, ubah centang "Sisipkan pemisah halaman".
  4. Tekan "Ekstrak", maka teks hasil ekstraksi akan ditampilkan di area sebelah kanan.
  5. Dengan "Salin" Anda dapat menyalin ke clipboard, dan dengan "Unduh .txt" Anda dapat menyimpannya sebagai berkas teks.

Skenario penggunaan

  • Pengguna bisnis yang ingin menempelkan isi notulen atau laporan dalam bentuk PDF ke Word / Notion / Slack dan lainnya.
  • Pengguna individu yang ingin membuat format teks yang dapat dicari (.txt) dari buku elektronik atau manual.
  • Kasus saat ingin mengekstrak teks hanya pada rentang halaman yang diperlukan dari PDF panjang untuk digunakan sebagai input bagi AI / mesin pencari.
  • Peneliti yang ingin menyalin isi dengan cepat untuk membuat kutipan makalah akademis.
  • Editor atau penulis yang ingin memanfaatkan kembali teks katalog atau brosur lama sebagai bahan untuk ditulis ulang.

Hal yang perlu diperhatikan

  • Batas ukuran per berkas adalah 100 MB.
  • PDF terenkripsi (yang dilindungi kata sandi) tidak dapat diekstrak teksnya.
  • Teks tidak dapat diekstrak dari PDF hasil pindai yang hanya terdiri dari gambar (memerlukan OCR).
  • Tergantung struktur internal PDF, baris baru, spasi, dan urutan pada hasil ekstraksi terkadang berbeda dari tata letak aslinya.
  • Alat ini tidak mendukung OCR (pengenalan karakter dari gambar). Alat ini hanya berlaku untuk PDF yang memiliki informasi teks tertanam.

Pertanyaan yang sering diajukan

Apakah PDF diunggah ke server?
Tidak diunggah. Ekstraksi teks berjalan sepenuhnya di dalam browser Anda. Anda dapat menggunakannya dengan tenang bahkan untuk dokumen rahasia internal atau dokumen yang memuat informasi pribadi.
Apakah teks juga dapat diambil dari PDF hasil pindai?
Tidak dapat. Alat ini mengambil informasi teks yang tertanam di dalam PDF, dan tidak memiliki fitur OCR untuk mengenali karakter yang sudah menjadi gambar. Jika ingin mengambil teks dari PDF hasil pindai, gunakanlah alat OCR secara terpisah.
Dalam format apa pemisah halaman disisipkan?
Jika "Sisipkan pemisah halaman" diaktifkan, baris seperti "--- halaman 1 ---" dan "--- halaman 2 ---" akan disisipkan pada setiap batas halaman. Ini berguna saat nanti diteruskan ke prompt AI atau saat menulis skrip pemrosesan per halaman.
Baris baru dan paragraf rusak saat diekstrak.
PDF pada dasarnya adalah format untuk mempertahankan "tata letak di layar", dan informasi struktur dokumen (paragraf, judul, dan lainnya) tidak selalu tersimpan. Karena itu, meski hasil ekstraksi secara dasar sudah benar, posisi baris baru, spasi, dan urutan kolom terkadang berbeda dari tata letak aslinya. Akan lebih mudah ditangani bila Anda merapikan teks sedikit pada tahap berikutnya.
Tolong jelaskan cara menulis penentuan rentang halaman.
Susunlah halaman atau rentang dengan pemisah koma. Misalnya, bila menulis "1-3, 5, 7-10", hanya isi halaman 1 sampai 3, halaman 5, dan halaman 7 sampai 10 yang akan diekstrak. Jika dikosongkan, semua halaman akan menjadi target.