返回首页

研究背景

国家社科基金和教育部人文社科项目是中国人文社会科学领域最重要的科研资助来源。每年有数万名学者申报这些项目,但选题重复率较高,导致大量申请被拒。

传统的选题查重方式依赖人工检索官方数据库,效率低且容易遗漏相似课题。本系统利用语义向量技术,自动匹配历史项目中的相似选题,帮助学者提前规避重复风险。

核心功能

  • 语义匹配:基于 text2vec 中文向量模型,理解题目语义而非简单关键词匹配
  • 双数据源:整合国家社科基金(10万+)和教育部人文社科(4万+)两大项目库
  • 混合排序:TF-IDF 字面匹配 + 向量语义匹配双重排序,兼顾精确与模糊检索
  • 多维筛选:支持按年份、学科分类等条件精准筛选

技术方法

系统采用混合检索架构,结合传统信息检索和现代语义向量技术:

  • TF-IDF 初筛:基于字符 n-gram 的 TF-IDF 向量,快速过滤候选集
  • 向量精排:使用 text2vec-base-chinese 模型生成 768 维语义向量,通过 FAISS 索引加速相似度计算
  • 融合排序:TF-IDF 30% + 向量 70% 加权融合,平衡字面匹配与语义理解
FastAPI FAISS text2vec Sentence Transformers

数据来源

  • 国家社科基金:1991-2025 年立项项目,约 10 万条记录
  • 教育部人文社科:2009-2024 年立项项目,约 4 万条记录

数据来源于公开渠道,仅供学术参考。建议前往官方数据库核实具体信息。

数字文献学启发

本工具展示了语义向量技术在学术研究辅助中的应用潜力。相似的技术可用于古籍文献的主题聚类、引文追踪、概念演变分析等场景,为数字人文研究提供新的方法论视角。

立即体验 查看其他项目 了解更多关于数字文献学