主题去重与模型压缩 (English)
主题模型的训练结果往往会存在主题间的冗余。我们提供了两种指标来度量两个主题是否冗余,并合并相互冗余的多个主题。
$ sh run_topic_model_merge.sh
更详细介绍及参数解释请参照主题去重工具
针对大规模的主题模型,计算主题两两之间的相似度会非常耗时。我们设计了基于simhash的快速主题去重算法:首先基于simhash找出相近的主题集,在不同主题集上再分别合并冗余主题。
$ sh run_topic_model_fastmerge.sh
更详细介绍及参数解释请参照快速主题去重工具
很多工业界场景对内存消耗有严格的限制,如果主题模型过大,则需要考虑对其进行压缩。我们提供两种压缩方法:主题维度压缩和采样维度压缩。
$ sh run_topic_model_compress.sh
更详细介绍及参数解释请参照主题模型压缩工具