返回顶部
首页 > 资讯 > 后端开发 > Python >FilenameUtils.getName 函数源码分析
  • 122
分享到

FilenameUtils.getName 函数源码分析

2024-04-02 19:04:59 122人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录一、背景二、源码分析2.1 问题1:为什么需要 NonNul 检查 ?2.1.1 怎么检查的?2.1.2 为什么要做这个检查呢?2.2 问题2: 为什么不根据当前系统类型来获取分

一、背景

最近用到了 org.apache.commons.io.FilenameUtils#getName 这个方法,该方法可以传入文件路径,获取文件名。 简单看了下源码,虽然并不复杂,但和自己设想略有区别,值得学习,本文简单分析下。

二、源码分析

org.apache.commons.io.FilenameUtils#getName

 
    public static String getName(final String fileName) {
     // 传入 null 直接返回 null 
        if (fileName == null) {
            return null;
        }
        // NonNul 检查
        requireNonNullChars(fileName);
       //  查找最后一个分隔符
        final int index = indexOfLastSeparator(fileName);
     // 从最后一个分隔符窃到最后
        return fileName.substring(index + 1);
    }

2.1 问题1:为什么需要 NonNul 检查 ?

2.1.1 怎么检查的?

org.apache.commons.io.FilenameUtils#requireNonNullChars

   
    private static void requireNonNullChars(final String path) {
        if (path.indexOf(0) >= 0) {
            throw new IllegalArgumentException("Null byte present in file/path name. There are no "
                + "known legitimate use cases for such data, but several injection attacks may use it");
        }
    }

java.lang.String#indexOf(int) 源码:

 
    public int indexOf(int ch) {
        return indexOf(ch, 0);
    }

可知,indexOf(0) 目的是查找 ASCII 码为 0 的字符的位置,如果找到则抛出 IllegalArgumentException异常。 搜索 ASCII 对照表,得知 ASCII 值为 0 代表控制字符 NUT,并不是常规的文件名所应该包含的字符。

2.1.2 为什么要做这个检查呢?

null 字节是一个值为 0 的字节,如十六进制中的 0x00。 存在与 null 字节有关的安全漏洞。 因为 C 语言中使用 null 字节作为字符串终结符,而其他语言(Java,PHP等)没有这个字符串终结符; 例如,JAVA WEB 项目只允许用户上传 .jpg 格式的图片,但利用这个漏洞就可以上传 .jsp 文件。 如用户上传 hack.jsp<NUL>.jpg 文件, Java 会认为符合 .jpg 格式,实际调用 C 语言系统函数写入磁盘时讲 当做字符串分隔符,结果将文件保存为 hack.jsp。 有些编程语言不允许在文件名中使用 ·· <NUL>,如果你使用的编程语言没有对此处理,就需要自己去处理。 因此,这个检查很有必要。

代码示例:

package org.example;
import org.apache.commons.io.FilenameUtils;
public class FilenameDemo {
    public static void main(String[] args) {
        String filename= "hack.jsp\0.jpg";
        System.out.println( FilenameUtils.getName(filename));
    }
}

报错信息:

Exception in thread "main" java.lang.IllegalArgumentException: Null byte present in file/path name. There are no known legitimate use cases for such data, but several injection attacks may use it
    at org.apache.commons.io.FilenameUtils.requireNonNullChars(FilenameUtils.java:998)
    at org.apache.commons.io.FilenameUtils.getName(FilenameUtils.java:984)
    at org.example.FilenameDemo.main(FilenameDemo.java:8)

如果去掉校验:

package org.example;
import org.apache.commons.io.FilenameUtils;
public class FilenameDemo {
    public static void main(String[] args) {
        String filename= "hack.jsp\0.jpg";
        // 不添加校验
        String name = getName(filename);
        // 获取拓展名
        String extension = FilenameUtils.getExtension(name);
        System.out.println(extension);
    }
    public static String getName(final String fileName) {
        if (fileName == null) {
            return null;
        }
        final int index = FilenameUtils.indexOfLastSeparator(fileName);
        return fileName.substring(index + 1);
    }
}

Java 的确会将拓展名识别为 jpg

jpg

jdk 8 及其以上版本试图创建 hack.jsp\0.jpg 的文件时,底层也会做类似的校验,无法创建成功。

大家感兴趣可以试试使用 C 语言写入名为 hack.jsp\0.jpg 的文件,最终很可能文件名为 hack.jsp

2.2 问题2: 为什么不根据当前系统类型来获取分隔符?

查找最后一个分隔符 org.apache.commons.io.FilenameUtils#indexOfLastSeparator

 
    public static int indexOfLastSeparator(final String fileName) {
        if (fileName == null) {
            return NOT_FOUND;
        }
        final int lastUnixPos = fileName.lastIndexOf(UNIX_SEPARATOR);
        final int lastwindowsPos = fileName.lastIndexOf(WINDOWS_SEPARATOR);
        return Math.max(lastUnixPos, lastWindowsPos);
    }

该方法的语义是获取文件名,那么从函数的语义层面上来说,不管是啥系统的文件分隔符都必须要保证得到正确的文件名。 试想一下,在 Windows 系统上调用该函数,传入一个 Unix 文件路径,得不到正确的文件名合理吗? 函数设计本身就应该考虑兼容性。 因此不能获取当前系统的分隔符来截取文件名。 源码中分别获取 Window 和 Unix 分隔符,有哪个用哪个,显然更加合理。

三、Zoom Out

3.1 代码健壮性

我们日常编码时,要做防御性编程,对于错误的、非法的输入都要做好预防。

3.2 代码严谨性

我们写代码一定不要想当然。 我们先想清楚这个函数究竟要实现怎样的功能,而且不是做一个 “CV 工程师”,无脑“拷贝”代码。 同时,我们也应该写好单测,充分考虑各种异常 Case ,保证正常和异常的 Case 都覆盖到。

3.3 如何写注释

org.apache.commons.io.FilenameUtils#requireNonNullChars 函数注释部分就给出了这么设计的原因:This may be used for poison byte attacks.

注释不应该“喃喃自语”讲一些显而易见的废话。 对于容易让人困惑的设计,一定要通过注释讲清楚设计原因。

此外,结合工作经验,推荐一些其他注释技巧: (1)对于稍微复杂或者重要的设计,可以通过注释给出核心的设计思路; 如: java.util.concurrent.ThreadPoolExecutor#execute

    
    public void execute(Runnable command) {
        if (command == null)
            throw new NullPointerException();
        
        int c = ctl.get();
        if (workerCountOf(c) < corePoolSize) {
            if (addWorker(command, true))
                return;
            c = ctl.get();
        }
        if (isRunning(c) && workQueue.offer(command)) {
            int recheck = ctl.get();
            if (! isRunning(recheck) && remove(command))
                reject(command);
            else if (workerCountOf(recheck) == 0)
                addWorker(null, false);
        }
        else if (!addWorker(command, false))
            reject(command);
    }

(2)对于关联的代码,可以使用 @see 或者 {@link } 的方式,在代码中提供关联代码的快捷跳转方式。

    
    public void setCorePoolSize(int corePoolSize) {
        if (corePoolSize < 0 || maximumPoolSize < corePoolSize)
            throw new IllegalArgumentException();
        int delta = corePoolSize - this.corePoolSize;
        this.corePoolSize = corePoolSize;
        if (workerCountOf(ctl.get()) > corePoolSize)
            interruptIdleWorkers();
        else if (delta > 0) {
            // We don't really know how many new threads are "needed".
            // As a heuristic, prestart enough new workers (up to new
            // core size) to handle the current number of tasks in
            // queue, but stop if queue becomes empty while doing so.
            int k = Math.min(delta, workQueue.size());
            while (k-- > 0 && addWorker(null, true)) {
                if (workQueue.isEmpty())
                    break;
            }
        }
    }

(2)在日常业务开发中,非常推荐讲相关的文档、配置页面链接也放到注释中,极大方便后期维护。 如:

    
    public void demo(){
        // 省略
    }

(4)对于工具类可以考虑讲给出常见的输入对应的输出。 如 org.apache.commons.lang3.StringUtils#center(java.lang.String, int, char)

 
    public static String center(String str, final int size, final char padChar) {
        if (str == null || size <= 0) {
            return str;
        }
        final int strLen = str.length();
        final int pads = size - strLen;
        if (pads <= 0) {
            return str;
        }
        str = leftPad(str, strLen + pads / 2, padChar);
        str = rightPad(str, size, padChar);
        return str;
    }

(5) 对于废弃的方法,一定要注明废弃的原因,给出替代方案。 如:java.security.Signature#setParameter(java.lang.String, java.lang.Object)

    
    @Deprecated
    public final void setParameter(String param, Object value)
            throws InvalidParameterException {
        engineSetParameter(param, value);
    }

四、总结

很多优秀的开源项目的代码设计都非常严谨,往往简单的代码中也蕴藏着缜密的思考。 我们有时间可以看看一些优秀的开源项目,可以从简单的入手,可以先想想如果自己写大概该如何实现,然后和作者的实现思路对比,会有更大收获。 平时看源码时,不仅要知道源码长这样,更要了解为什么这么设计。

以上就是FilenameUtils.getName 函数源码分析的详细内容,更多关于FilenameUtils.getName 函数的资料请关注编程网其它相关文章!

--结束END--

本文标题: FilenameUtils.getName 函数源码分析

本文链接: https://lsjlt.com/news/168442.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • FilenameUtils.getName 函数源码分析
    目录一、背景二、源码分析2.1 问题1:为什么需要 NonNul 检查 ?2.1.1 怎么检查的?2.1.2 为什么要做这个检查呢?2.2 问题2: 为什么不根据当前系统类型来获取分...
    99+
    2024-04-02
  • vue parseHTML函数源码分析
    本文小编为大家详细介绍“vue parseHTML函数源码分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“vue parseHTML函数源码分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧...
    99+
    2023-07-02
  • vue parseHTML函数源码分析AST
    这篇“vue parseHTML函数源码分析AST”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“vue ...
    99+
    2023-07-02
  • vue parseHTML函数源码分析start钩子函数
    这篇文章主要讲解了“vue parseHTML函数源码分析start钩子函数”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“vue parseHTML函数源码分析start...
    99+
    2023-07-02
  • Immutable.js到Redux函数式编程源码分析
    这篇文章主要介绍了Immutable.js到Redux函数式编程源码分析的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Immutable.js到Redux函数式编程源码分析文章都会有所收获,下面我们一起来看看吧...
    99+
    2023-07-05
  • vue parseHTML 函数源码解析
    目录正文函数开头定义的一些常量和变量while 循环textEnd ===0parseStartTag 函数解析开始标签总结:正文 接上篇: Vue编译器源码分析AST 抽象语法树 ...
    99+
    2024-04-02
  • Postgresql源码分析returns setof函数oracle管道pipelined
    目录引言【功能】【代码】【实用函数】1 :管道函数是什么,应用于什么场景2 return next实现具体处理函数:exec_stmt_return_next1 初始化tuple s...
    99+
    2023-01-31
    Postgresql returns setof函数 oracle管道pipelined
  • Vue3响应式函数toRef()对比toRefs()源码分析
    今天小编给大家分享一下Vue3响应式函数toRef()对比toRefs()源码分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下...
    99+
    2023-07-05
  • vue parseHTML函数源码解析start钩子函数
    目录正文platformGetTagNamespace 源码 isForbiddenTag 函数addIfCondition是什么processIfConditions 源...
    99+
    2024-04-02
  • RateLimiter 源码分析
    俗话说得好,缓存,限流和降级是系统的三把利剑。刚好项目中每天早上导出数据时因调订单接口频率过高,订单系统担心会对用户侧的使用造成影响,让我们对调用限速一下,所以就正好用上了。 常用的限流算法有2种:漏桶算法和令牌桶算法。漏桶算法漏...
    99+
    2023-05-31
    ratelimiter 源码 mi
  • SocketServer 源码分析
    Creating network servers. contents SocketServer.py contents file head BaseServer BaseServer.serve_forever BaseServ...
    99+
    2023-01-31
    源码 SocketServer
  • CesiumJS源码分析
    这篇文章主要介绍“CesiumJS源码分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“CesiumJS源码分析”文章能帮助大家解决问题。1. 有什么光CesiumJS 支持的光的类型比较少,默认场...
    99+
    2023-07-06
  • Vue八大生命周期钩子函数源码分析
    本篇内容主要讲解“Vue八大生命周期钩子函数源码分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Vue八大生命周期钩子函数源码分析”吧!一.速识概念:我们把一个对象从生成(new)到被销毁(d...
    99+
    2023-07-05
  • Golang函数的接口和访问控制源码分析
    本文小编为大家详细介绍“Golang函数的接口和访问控制源码分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“Golang函数的接口和访问控制源码分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。一、 接口在G...
    99+
    2023-07-06
  • Vue3源码解析watch函数实例
    目录引言一、watch参数类型1. 选项options2. 回调cb3. 数据源source二、watch函数三、watch的核心:doWatch 函数引言 想起上次面试,问了个古老...
    99+
    2022-11-13
    Vue3 watch函数 Vue watch
  • python数学建模源码分析
    这篇文章主要介绍了python数学建模源码分析的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python数学建模源码分析文章都会有所收获,下面我们一起来看看吧。SciPy 学习'''Sc...
    99+
    2023-07-06
  • PostgreSQL的备份工具pg_basebackup源码中的主函数分析
    本篇内容主要讲解“PostgreSQL的备份工具pg_basebackup源码中的主函数分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“PostgreSQL的...
    99+
    2024-04-02
  • Kafka源码分析(一)
    Apache Kafka® 是 一个分布式流处理平台. 这到底意味着什么呢 我们知道流处理平台有以下三种特性: 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。 可以储存流式的记录,并且有较好的容错性。 可...
    99+
    2019-10-17
    Kafka源码分析(一)
  • Android LayoutInflater.inflate源码分析
    LayoutInflater.inflate源码详解 LayoutInflater的inflate方法相信大家都不陌生,在Fragment的onCreateView中或者在Ba...
    99+
    2022-06-06
    layoutinflater Android
  • Android AsyncTask源码分析
    Android中只能在主线程中进行UI操作,如果是其它子线程,需要借助异步消息处理机制Handler。除此之外,还有个非常方便的AsyncTask类,这个类内部封装了Handl...
    99+
    2022-06-06
    asynctask Android
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作