keaucucal
因為簡報被嗆太醜/看不懂所以關版 等之後改進 需要簡報支援請鬼轉 slides.com/cjtsai
(生成濾鏡階段)
1. 串接大模型 - 確保能夠接收調色需求以及讀取照片
2. 使 LLM 生成多種參數
3. 將參數套用至 darktable 並渲染
4. 能夠將選擇的照片二次迭代
1. LLM 使用 qwen 輸出長度受限
2. LLM 輸出過於冗長
3. 建立使用者偏好
4. 照片較難系統性的迭代
- expore(曝光)
- sigmoid(色調映射)
- toneequal(分區亮度調整)
- colorbalancergb(分區調色)
- colorequal(色相分段調色)
- channelmixerrgb(RGB 通道混合)
- filmicrgb(控制對比、重建高光)
1. 放棄 qwen 改用 gemini 解決輸出長度限制
2. 讓 LLM 生成 .json 檔案再用 python 轉成 .xmp 解決輸出過於冗長
3. 讓 LLM 學會收斂 Exporsure / Temperature / Tint / Vibrance / Saturation 五個參數
上傳圖片、輸入風格(app.py)
組合 prompt(photo_editing_agent.py)
呼叫 gemini 並回傳結果(llm_backend.py)
將結果轉成 .xmp 檔案(darktable_processor.py / xmp_gen.py)
顯示多個結果並等待迭代(app.py)
darktable-cli 渲染照片
(生成濾鏡階段)
1. 串接大模型 - 確保能夠接收調色需求以及讀取照片
2. 使 LLM 生成多種參數
3. 將參數套用至 darktable 並渲染
4. 能夠將選擇的照片二次迭代
需要添加(較重要、對風格影響大)
- 白平衡(White balance)
- 細節(Texture / Clarity)
- 暗角、顆粒效果(Vignette / Grain)
視情況及 LLM 適應能力加入
- 遮罩(Masking)
- 裁切、選轉(Crop / Rotate)
增加邊界檢查保證合法性
將收斂的參數套用至照片給使用者選擇並結構化記錄,確保可回溯
- Exposure +- 0.7EV
- Temperatrue +- 800K
- Tint +- 10
- Vibrance +- 25
- Saturation +- 10
- 第一次的照片生成方向
1. 拆解該風格主要的調色方向
2. 選擇其一調色特點對其分別加減程度,產出三張照片
- 使用者選擇照片後
1. 套用該調色特點再加上細微調整
2. 加上其他特點的改變
By keaucucal