Skip to content
Trang chủ / Hướng dẫn / Cách trích xuất dữ liệu từ PDF sang Excel/Bảng tính: Phân tích nâng cao với n8n.io và LlamaParse

Cách trích xuất dữ liệu từ PDF sang Excel/Bảng tính: Phân tích nâng cao với n8n.io và LlamaParse

Cập nhật: 04/22/2025
Cách trích xuất dữ liệu từ PDF sang Excel/Bảng tính: Phân tích nâng cao với n8n.io và LlamaParse

Trong bài viết này, chúng ta sẽ học cách tích hợp LlamaParse vào n8n để tự động phân tích PDF và trích xuất dữ liệu.

Nếu bạn từng cố gắng tự động hóa việc phân tích tài liệu cho hóa đơn, phiếu chuyển tiền, mẫu đơn đặt hàng hoặc các loại tài liệu tương tự, bạn sẽ nhanh chóng nhận ra rằng việc trích xuất dữ liệu bảng từ PDF không dễ dàng do các hạn chế của các giải pháp phân tích có sẵn. Các công nghệ phần mềm OCR chuyên nghiệp của bên thứ ba rất đắt đỏ và chậm, trong khi các công cụ chuyển đổi PDF sang văn bản sơ khai mất đi toàn bộ cấu trúc bảng khiến việc xử lý lớn hơn gần như không thể thực hiện được.

Giới thiệu LlamaParse, một dịch vụ phân tích tài liệu tinh vi mới đến từ LlamaIndex.ai. Việc phân tích và hiểu PDF ngày càng trở thành một vấn đề phổ biến cho các Mô hình Ngôn ngữ Lớn (LLMs) và vì vậy LlamaParse được xây dựng cho mục đích này. LlamaParse hoạt động bằng cách chuyển đổi các bảng trong PDF thành các bảng Markdown dễ hiểu hơn cho LLMs và từ đó cho phép các LLMs xác định và trích xuất dữ liệu bảng chính xác hơn.

Phân tích và Trích xuất từ Hóa đơn qua Email

Trong bài viết này, chúng ta sẽ sử dụng trường hợp nhận hóa đơn PDF qua email cần được đối chiếu bằng cách nhập các chi tiết vào bảng tính. Chúng ta sẽ sử dụng n8n để tự động hóa toàn bộ quy trình; từ việc tải xuống tệp đính kèm PDF từ email, chuyển cho LlamaParse để xử lý, dùng AI để trích xuất dữ liệu hóa đơn và cuối cùng ghi dữ liệu vào bảng tính của chúng ta.

Điều kiện tiên quyết

  • Một phiên bản n8n được lưu trữ trên đám mây hoặc tự lưu trữ.
    Cách dễ nhất là đăng ký tài khoản n8n tại https://n8n.io. Mẫu workflow trong bài viết này có thể nhập vào mà không cần phải xây dựng lại các bước.
  • Tài khoản LlamaIndex trên đám mây và khóa API.
    Bạn có thể lấy một bằng cách đăng ký tài khoản miễn phí tại  https://cloud.llamaIndex.ai
  • Tài khoản OpenAI và khóa API.
    Bạn có thể xem hướng dẫn tại https://openai.com/blog/openai-api

Bước 1: Thiết lập thông tin xác thực LlamaParse trong n8n

Để sử dụng LlamaParse, trước tiên chúng ta cần có khóa API của LlamaParse, có thể lấy miễn phí bằng cách đăng ký tại https://cloud.llamaIndex.ai. Tại thời điểm viết bài, LlamaIndex đang cung cấp một gói miễn phí cho phép tải lên 1000 tệp mỗi ngày.

Sau khi có khóa API của LlamaParse, tạo một Thông tin xác thực Header Auth để sử dụng khi thực hiện các cuộc gọi đến API LlamaParse trong workflow của n8n.

  • Đi đến tab Credentials
  • Nhấp vào nút Add Credential
  • Tìm kiếm Header Auth
  • Nhập “Bearer <API Key>” vào ô Value và nhấn Lưu.

Bước 2: Tạo flow cho LlamaParse PDF

Kể từ khi n8n không có node tích hợp sẵn cho LlamaParse, chúng ta sẽ phải làm việc trực tiếp với API của LlamaIndex. Đừng lo lắng, việc này khá dễ quản lý vì chỉ có 3 cuộc gọi API mà chúng ta cần thực hiện.

  1. Gọi API để tải lên một PDF vào dịch vụ LlamaParse.
    https://docs.cloud.llamaindex.ai/API/upload-file-api-v-1-parsing-upload-post
  2. Gọi API để hỏi trạng thái của công việc xử lý PDF. Việc này có thể mất nhiều thời gian hơn nếu PDF lớn.
    https://docs.cloud.llamaindex.ai/API/get-job-api-v-1-parsing-job-job-id-get
  3. Gọi API để lấy kết quả đã phân tích của PDF khi công việc hoàn thành.
    https://docs.cloud.llamaindex.ai/API/get-job-raw-md-result-api-v-1-parsing-job-job-id-result-raw-markdown-get

Trong ví dụ này, tôi đã triển khai luồng này bằng cách sử dụng node gửi yêu cầu HTTP, một node SWITCH để xác định xem công việc đã hoàn thành hay chưa, nếu chưa thì sẽ thực hiện lại, và một node WAIT để giới hạn số lần gọi nhằm giữ trong giới hạn tốc độ của dịch vụ API.

Bước 3. Trích xuất dữ liệu sử dụng OpenAI GPT-4o

Để trích xuất dữ liệu từ kết quả PDF đã được phân tích của chúng ta, chúng ta sẽ sử dụng Chuỗi Xử lý Ngân hàng LLM Cơ Bản để đưa dữ liệu vào OpenAI GPT-4o Model và yêu cầu mô hình trích xuất các thuộc tính dữ liệu hoá đơn liên quan mà chúng ta quan tâm. Dưới đây là danh sách các thuộc tính mong muốn cho kịch bản của chúng ta:

  • Ngày lập hoá đơn
  • Số hoá đơn và số đơn đặt hàng
  • Tên nhà cung cấp và địa chỉ, số mã số thuế VAT
  • Tên khách hàng và địa chỉ
  • Bất kỳ địa chỉ giao hàng nào
  • Các mục hàng, bao gồm mô tả các hàng hóa hoặc dịch vụ đã cung cấp
  • Giá có VAT và không VAT cùng tổng giá

Kết quả đầu ra nên ở định dạng JSON để chúng ta dễ dàng chèn dữ liệu này thành một hàng trong bảng tính đối chiếu của mình. Để làm được điều này, quan trọng chúng ta sử dụng Trình Phân Tích Đầu Ra Cấu Trúc và cung cấp cho nó một schema JSON cho các thuộc tính mong muốn.

Bước 4. Thêm Trigger Email để Bắt Đầu Thu Thập Hoá Đơn!

Bây giờ công việc chính đã hoàn thành, chúng ta có thể thiết lập một trigger email đơn giản để theo dõi các hoá đơn khi chúng đến. Tùy thuộc cách bạn nhận hoá đơn, có thể bạn cần lọc dựa trên dòng chủ đề, nhãn hoặc kiểm tra đính kèm.

  • Tạo Node Trigger Email cho luồng công việc của bạn
  • Đặt khoảng thời gian để luồng công việc theo dõi hộp thư đến các hoá đơn mới.
  • Trong phần bộ lọc, áp dụng các tiêu chí giúp gửi các email hoá đơn thực sự đến luồng của bạn.
  • Trong phần tùy chọn, nhớ chọn mục tải xuống tệp đính kèm. Chúng ta cần mục này để lấy PDF thực từ hoá đơn. Nếu có nhiều hoá đơn, bạn có thể cần xử lý từng cái một.
pdf n8n

Bước 5. Hoàn Tất!

Trong bài viết này, chúng tôi đã triển khai thành công một công nghệ trích xuất dữ liệu và phân tích PDF dựa trên trí tuệ nhân tạo mạnh mẽ không chỉ cho hóa đơn mà còn cho bất kỳ tài liệu PDF nào có dữ liệu dạng bảng trong n8n.

Sử dụng các trình phân tích mạnh mẽ như LlamaParse và các mô hình như GPT-4o cho trường hợp sử dụng này có thể mang lại lợi ích về năng suất đáng kể với chi phí thấp hơn nhiều so với các giải pháp truyền thống như OCR, trong khi việc sử dụng n8n cung cấp giải pháp tự động hóa không cần mã phức tạp nhằm giảm thiểu chi phí phát triển và bảo trì.

PDF, N8n, Excel: Kết luận

N8n có thể giúp các bạn nhận biết được thông tin của file PDF dưới dạng Excel, thậm chí nó còn có thể nhận diện kí tự còn thiếu và điền vào 1 cách phù hợp nhất với hình ảnh PDF nhận được. Chúc các bạn thành công. Nếu các bạn muốn tham khảo thêm template của N8n Academy, các bạn có thể xem tại đây