个人简介

Jiangnanboy专注搜索推荐、自然语言处理、数据挖掘以及图像处理识别。如有相关问题或其它想法,请联系我。

2229029156@qq.com

https://github.com/jiangnanboy

https://www.zhihu.com/people/jiangnanboy

https://blog.csdn.net/qq_20182781

https://www.cnblogs.com/little-horse/

搜索推荐nlp数据挖掘图像处理



开源项目(80+项)

自然语言处理

项目名称 中文名称
pediatrics_llm_qa 儿科问诊小模型
llm_corpus_quality 大模型预训练中文语料清洗及质量评估
llm_security 大模型输入输入内容风险检测
text_security_audit 文本内容安全审核-语义模型过滤,敏感内容(政治、色情、暴恐违禁以及歧视辱骂)检测系统
pdf_invoice_parser pdf invoice parser,pdf-ofd发票解析
bert_text_classification_onnx bert、roberta、macbert等模型的java onnx文本分类
text_security_detection 文本内容安全检测java
chinese_offensive_language_detection_onnx 利用onnx格式进行中文冒犯语言检测
ad_detect_textcnn 广告检测模型训练
ad_detection java广告检测
java_textcnn_onnx java调用textcnn
AutoText 智能文本自动处理工具
gec_check_template 基于模板中文语法纠错
t5-onnx-corrector t5-onnx模型用于中文拼写纠错
punctuation_prediction 中文句子标点符号预测
intent_detection_and_slot_filling 意图识别与槽填充联合模型
intent_classification 深度网络实现意图分类
knowledge-automatic-tagging 题目知识点预测标注
chatbot_chinese 中文chatbot
chatbot 前馈网络分类预测chatbot
text-de-duplication 中文文本去重
albert_lstm_crf_ner 实体识别
similarity_words 词间的相关性
NewsSummary 新闻摘要程序
triple_event_extract 复合事件抽取,依存关系三元组抽取
jcorrector 中文文本纠错工具
model2onnx 将roberta和macbert模型转为onnx格式,并进行推理
macbert-java-onnx java加载macbert模型,并进行中文拼写纠错
roberta-java-onnx java加载roberta模型,并进行推理
albert_link_prediction 中文实体链接预测
place_mapper 提取市、县或区的级联地名及编码
sentence_rewriting 中文句子改写生成
chinese_sentence_paraphrase 结合语言知识的句子改写生成
albert_re 中文关系抽取
albert_srl 中文语义角色标注
albert_ner 中文实体识别
text_generation 根据title和keywords生成文本
gcn_for_prediction_of_protein_interactions 图卷积用于蛋白质相互作用

知识图谱与问答

项目名称 中文名称
llm_agent_math llm agent的算术和推理能力
movie_llm_agent llm agent与图数据库neo4j交互,实现图谱问答
intelligent_medical 智慧医疗(搜索,问答,诊断)
education_knowledge_graph_app k12教育学科知识图谱,图谱展示,知识点追踪,智能问答以及题目知识点预测
movie_knowledge_graph_app 电影知识图谱,主要包括实体识别、实体查询、关系查询以及智能问答等
movie_kg 基于java知识图谱的电影智能问答
text_grapher java对文章进行解析并图谱化展示事件
easyKG 知识图谱相关技术

图像处理

项目名称 中文名称
Document image processing tool 文档图像处理工具
Key Information Extraction from Image with LLM 利用ocr和大模型进行关键信息抽取
table_structure_recognition 利用Swin-Unet(Swin Transformer Unet)实现对文档表格结构的识别
dbnet_crnn_java 文本检测模型dbnet与文本识别模型crnn
layout_detection(c++) c++实现文档图片的版面检测
table_ocr_java 图片表格检测与结构识别(java)
chinese layout detection 中文版面检测(java版)
chinese layout detection 中文版面检测(python版)
vehicle_license_plate_recognition 车牌识别系统
pdf_to_docx 利用ocr将pdf转为docx
doc_ai djl加载paddleocr-onnx模型
java-springboot-paddleocr java加载paddle-ocr的C++编译的可执行文件exe
java-springboot-paddleocr-v2 JNI加载paddle-ocr的C++编译的dll库

搜索推荐与数据挖掘

项目名称 中文名称
learning_to_rank 搜索排序学习
spark_data_mining spark大数据挖掘
recommendation_methods 个性化推荐模型
entropy_sim 利用熵计算查询与文档的相关性
python_search 查询与文档匹配搜索
semantic_matching 语义匹配

AI工具

项目名称 中文名称
docimg_tool 文档图像处理工具
micrograd4j java开发的一个自动微分引擎
j4nlp java nlp项目
CNN4IE 利用CNN各种变体进行实体抽取
RNN4IE 利用RNN进行实体抽取
gnn4lp 图神经网络用于链接预测

其它

项目名称 中文名称
paper_read_note 论文阅读笔记