Bridging the Ages: An Illustrated Exploration of Chinese Idioms with Oracle-bone Inscriptions and AI

:tada: Accepted by CVPR AI Art Gallery 2024.

It’s my submission to CVPR AI Art Gallery 2024.

Thumbnail:

Intro

“Bridging the Ages: An Illustrated Exploration of Chinese Idioms with Oracle-bone Inscriptions and AI” is a project that intertwines the ancient with the modern by exploring traditional Chinese idioms through the lens of artificial intelligence and oracle-bone inscriptions.
Oracle-bone inscriptions, dating back to the late 2nd millennium BC, represent the oldest attested form of written Chinese. It is logographic, representing elements of the natural world in simplified illustration.

This project introduces four Chinese idioms: “天马行空” (a heavenly steed soaring across the skies), “一石二鸟” (kill two birds with one stone), “良禽择木而栖” (a fine bird selects a fine tree to perch on), and “木已成舟” (the wood has already become a boat), each embodying rich philosophical and historical significance. To reinterpret these idioms, the project employs a combination of AI technologies, including Generative AI for explaining the idioms’ meanings and generating Chinese ink-style illustrations. Furthermore, it utilizes computer vision technology, specifically Detectron2 and approaches from recent research, to detect objects in the images and redraw them using corresponding oracle-bone inscriptions.

The application of these computer vision techniques and AI processes not only brings a fresh perspective to traditional idioms but also showcases the potential of combining historical and artistic elements with modern technology. This project, therefore, stands at the intersection of art, literature, history, and technology, providing a unique lens through which to appreciate the depth and beauty of Chinese cultural heritage while also exploring the capabilities and creative applications of AI.

Similar works by others

【耗时360个小时,用甲骨文制作《千里江山图》 | 小满特别版-哔哩哔哩】

这是我第二个AOE提交的项目, 也许因为WWDC的事情投入太多心血有太多期待整个人的能量有点燃烧殆尽, 这是距离ddl最后50个小时内才开始的, 但幸运的是互联网上有热心网友分享了我欠缺的cv知识. 让我了解到了跟我需求相关的sota工作.

因为卡ddl自然有很多不严谨以及需要提升的地方,对此感到很羞愧,以后的交付的任何东西都要避免自己能注意到的不严谨之处. 在此罗列供日后考据修正.

(尤其是同一周在Apple的D那里得到的火眼金睛一针见血的建议, 这是某种意义上我这么多年以来, 第一次被别人指出我意识到我在偷懒/做得不好的细节)

不足的地方:

通用经验:

  • 至少在ddl之前的倒数第三个工作日发邮件询问feedback
    也可以避免提交后再“厚脸皮”分享的尴尬

  • 许多术语用英语的精准表达

  • 流程图的学术向介绍 以及 科普向解释

  • wikipedia的引用
    在这个项目里是有关甲骨文的介绍
    学术论文里大概不支持wikipedia当source? (至少之前的写作课是这样的) 而我此次甚至没来得及提( 因为模板里没引用的脚标, 就只记得引提供bibtex的detectron和参考论文了)

  • 段落排版
    Text课学的严谨的排版细节都还给谁了? https://dannyrankin.co/about 关于排版错误的总结真的非常棒

此次项目:

  • 自动化与manual
    图片在根据坐标layout的基础上是有经过photoshop的后期的, 当然后期进行的手工调整也让我更清楚各种case该怎么处理, 该finetune哪些custom dataset. 但是这应该在方法部分适当的地方进行揭露. 此外觉得自己在意识到可以自动化处理的时候, 做manual的事情就没有耐心/效率很低. 但在ddl的时间节点无疑是基本的自动化后加入手工调整效率更高.

  • 各个环节pipeline不够丝滑

  • 要精读并复现相关的几篇用更硬核技术的cv文章.

  • 多看hci的文章怎么讲故事……

  • 致谢徐冰
    一方面是没来得及, 一方面是没在叙事中找到合适的地方加入他的《鸟飞了》
    也没找到合适的地方加入我最喜欢的泪字说说embeddings的事

  • 一些甲骨文和金文
    混杂了古代的其他文字, 是直接选的最形象的而不是纯甲骨文. (也许这个过程应该让ai去选最像object的)

  • 一些是midjourney的, 没注意标注dalle和midjourney

其他人的feedback

  • 设计背景Jimmy Tan :
    方法部分提供流程图
    提供一张图片-> 机器学习分割 → 转化为甲骨文
    如果可以的话最好加上一个用户的使用场景