今天,给大家推荐一个GitHub上的一个热门项目——Chinese-poetry ,截至今日,该项目已经获得了 9700 个「star」以及 1383 个「fork」。
该诗词数据库包含5.5万首唐诗、26万首宋诗和 2.1万首宋词。唐宋两朝近 1.4万古诗人,和两宋时期1500位词人,数据均来源于互联网。(项目地址:https://github.com/chinese-poetry/chinese-poetry)
数据分发形式
该项目中的古诗数据分发采用繁体字的分组JSON文件,保留繁体能更大程度地保存原数据。宋词数据分发采用sqlite数据库,使用简体字。
其他类型结构数据
● chinese-poetry / chinese-poetry-zhCN 简体中文版本数据(链接:https://github.com/chinese-poetry/chinese-poetry-zhCN)
● KomaBeyond / chinese-poetry-mysql 适用于mysql数据库的格式数据(链接:https://github.com/KomaBeyond/chinese-poetry-mysql)
转换数据库格式工具
● chinese-poetry-to-mysql-tool 转换成sql文件的脚本(链接:https://github.com/woodylan/chinese-poetry-to-mysql-tool)
古诗JSON结构
[ { "strains" : [ "平平平仄仄,平仄仄平平。" , "仄仄平平仄,平平仄仄平。" , "平平平仄仄,平仄仄平平。" , "平仄仄平仄,平平仄仄平。" ], "author" : "太宗皇帝" , "paragraphs" : [ "秦川雄帝宅,函谷壯皇居。" , "綺殿千尋起,離宮百雉餘。" , "連甍遙接漢,飛觀迥凌虛。" , "雲日隱層闕,風煙出綺疎。" ], "title" : "帝京篇十首 一" }, ... 每单个JSON文件 1000 条唐诗记录. ]
作者JSON结构
[ { "name" : "太宗皇帝" , "desc" : "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。" }, ... ]
数据分析
案例展示
除此之外,在GitHub页面,你还可以找到案例展示,如下:
animalize / QuanTangshi 离线全唐诗 Android(链接:https://github.com/animalize/QuanTangshi)
诗词周历
chinese-poetry / poetry-calendar 诗词周历(链接:http://shici.store/poetry-calendar/)
诗词桌面
okcy1016 / poetry-desktop 诗词桌面(链接:https://github.com/okcy1016/poetry-desktop/)
网友评论:
@猴猴猴要好好读书THU:像是程序员干的事…就怕你们这些人有文化…
@two3in2K:想到了 “2018”里的诗云
@xsp:中华文化博大精深,果断收藏了
@我是豆豆啊豆豆:“人间”真是个永恒的话题啊···
@逗猿一颗:最怕程序员有文化
开源最前线(ID:OpenSourceTop) 猿妹 整编
整理自:https://github.com/chinese-poetry/chinese-poetry