擅长用Go和Python进行PDF和Excel表格的数据分析与清洗,能够高效处理复杂数据。同时,熟悉机器学习和深度学习算法,可以应用这些技术提取数据中的关键模式并提供创新解决方案。此外,我也能为项目提供有深度的技术见解和支持,还可以帮助撰写高质量的学术论文
项目描述: 该项目旨在开发一个自动化工具,用于处理加密的 Excel 文件数据解密,并将 PDF 文档中的表格数据提取并转换为 Excel 格式,以便后续的数据分析与处理。
项目职责:
Excel 数据解密:
使用 Python 中的库如 openpyxl 和 pycryptodome,实现对加密的 Excel 文件的解密操作。
处理不同加密算法的 Excel 文件,确保能够安全解密并保留数据的完整性。
自动化流程:设计批量解密功能,能够处理多个加密文件,提高工作效率。
PDF 转 Excel:
利用 Python 的 PDFplumber 和 PyPDF2 库,编写脚本从 PDF 文件中精准提取表格数据。
对表格数据进行预处理,使用正则表达式清洗不规则数据,确保数据在转换到 Excel 时格式清晰且易于分析。
使用 pandas 进行数据重构,将提取后的表格数据整齐导出到 Excel 文件中。
性能优化与自动化:
通过多线程处理大批量文件,显著提升数据解密与转换速度。
增加了 GUI 界面,用户可通过简单操作选择文件进行批量解密和转换,提升了用户体验。
技术栈:
Python: pandas、openpyxl、PDFplumber、PyPDF2、pycryptodome
Go: 用于文件操作和并发处理
Excel、PDF: 数据处理与转换
项目成果:
成功开发了一个自动化工具,能够高效处理加密的 Excel 文件和 PDF 转 Excel 的任务,极大地减少了人工操作时间,提升了数据处理的效率。