*本系统功能模块、字段参数,均可结合用户实际业务需求调整,可增可减,以达到最佳业务管理流程的体验!
编号 | 模块名称 | 字段参数 |
1 | 数据收集 | URL、网页标题、内容摘要、发布日期、作者、关键词等 |
2 | 数据清洗 | HTML标签、特殊字符、停用词、标点符号、数字等 |
3 | 分词 | 分词结果、词频统计、命名实体识别、词性标注、同义词替换等 |
4 | 索引构建 | 倒排索引、正排索引、词典索引、词向量索引、拼音索引等 |
5 | 查询解析 | 关键词匹配、大小写忽略、布尔运算、模糊匹配、排序方式等 |
6 | 相关性计算 | BM25算法、TF:IDF算法、余弦相似度、Edit距离等 |
7 | 结果展示 | 搜索结果列表、标题高亮、摘要展示、分页功能、相关搜索词等 |
8 | 自动补全 | 前缀匹配、词频补全、热门查询、用户历史记录、编辑距离推荐等 |
9 | 相关搜索词推荐 | 同义词推荐、热搜词推荐、近义词推荐、融合多模型推荐、个性化推荐等 |
10 | 关键词提取 | TF:IDF算法、基于规则提取、命名实体提取、主题模型提取等 |
11 | 分类 | 文本分类器、情感分析器、主题分类器、垃圾邮件分类器、多标签分类器等 |
12 | 实体识别 | 人名识别、地名识别、组织机构识别、时间识别、金额识别等 |
13 | 拼音转换 | 汉字转拼音、拼音转汉字、姓名拼音转换、拼音简繁转换、拼音首字母缩写等 |
14 | 同义词替换 | 同义词词典、词向量替换、词性替换、规则替换、短语替换等 |
15 | 正则匹配 | 邮箱匹配、手机号匹配、身份证匹配、IP地址匹配、URL匹配等 |
16 | 摘要生成 | 文本摘要、关键句提取、摘要长度控制、语义相似度过滤、标题优先摘要等 |
17 | 文本相似度计算 | 余弦相似度、编辑距离相似度等 |
18 | 图谱构建 | 实体抽取、关系抽取、图数据库构建、知识图谱可视化、实体链接等 |
19 | bert模型应用 | 文本分类、情感分析、实体命名识别、问答系统、语义相似度计算等 |
20 | 文本生成 | 文章生成、对联生成、诗歌生成、自动问答生成、自动摘要生成等 |