HTML 與 XML 的橋樑:輕鬆跨越格式轉換障礙

解決 HTML 到 XML 的兼容性問題,讓你的轉換過程更加高效!

問題情景

HTML 檔案格式轉換為 XML 相容格式時常常不相符,在使用上造成如圖片無法讀取、無法識別 HTML … 等等諸多障礙,一旦發生轉換問題,都需耗費大量時間,自行想方設法透過其他轉檔程式嘗試轉換並排錯。

解決方式

將欲轉換之 HTML 統整後,透過 Trinity 的 Reader 元件統一讀取,再運用 Python Extract Transformer 元件掛載 Package 進行內部轉換,最後統一透過 Writer 元件輸出整理後之相容格式。

參考流程與步驟

Step 0
整體設計如下圖。
Step 1
編輯 Reader:選擇 File Reader – CSV Format,讀取 HTML 檔中之 HTML 內容。
Step 2
編輯 Python Extract Transformer:使用 python 適用的 package 外載包中 bs4 – BeautifulSoup 方法,逐一將 HTML 內容轉換為 XML 格式。
Step 3
編輯 Writer:選擇 File Writer – Text File (CSV Format),將轉換結果寫入至新建之 CSV 檔中,轉換完成。